恒生聚源总经理吴震操：数据资产在产业金融的应用

2024-07-05 15:59 42660

来源 | 中国贸易金融网编辑 | 橙子同学6月21日，公司金融2024发展论坛暨产业数字金融展望在武汉隆重召开。上海恒生聚源数据服务有限公司总经理吴震

来源 | 中国贸易金融网

编辑 | 橙子同学

6月21日，公司金融2024发展论坛暨产业数字金融展望在武汉隆重召开。上海恒生聚源数据服务有限公司总经理吴震操以“数据资产在产业金融的应用”为主题，在大会上发表了精彩演讲。

上海恒生聚源数据服务有限公司总经理吴震操

以下为演讲全文，有删节：

各位嘉宾、各位领导，大家下午好！今天讨论了热门话题——产业金融的数字化。在这部分内容里，我想重点阐述三个关键词：产业金融的数字化、数据资产，以及大模型在金融行业，特别是银行业的应用落地。

在开始之前，请允许我简要介绍一下恒生聚源。作为国内最早涉足金融数据领域的厂商之一，自2000年成立以来，恒生聚源始终致力于金融大数据的探索与实践。我们不仅是国内最早开发金融大模型的厂商之一，而且目前通过数据智能技术，为一级市场、二级市场的金融机构提供全方位的数据服务，已经覆盖了超过900家的银行、券商、资管、私募等机构。

接下来，我将以科技金融为例，分享我们在产业金融数字化过程中的一些思考和实践经验。自从国家数据局推出“数据二十条”以来，其中的一些关键内容对整个金融行业产生了深远的影响。

第一点，是关于公共数据的授权和合规使用。在公司经营过程中，往往需要大量的数据来进行市场营销和风险控制。如果政府不开放这些数据，那么并非所有机构和市场主体都能享受到这种便利。为此，国家数据局在今年将采取更加积极的措施，以推动整个公共数据的运营，确保数据能够更广泛地服务于各行业的需求；

第二点，关于整个企业自身的数据确权、授权以及数据资产纳入财务报表的问题，我认为这是行业发展的必然趋势。特别是对于银行而言，由于银行业态的多样性，其数据资源也相当丰富。数据资产的入表对于每一家银行而言，都将产生深远的影响。因此，我诚挚地希望各位领导在日常工作中能够深入思考这一问题。数据入表不仅将影响我们传统的三张财务报表，更将对我们未来在资产授信等方面的决策产生重大作用。

产业金融的数字化

当前的大环境无需赘言，大家日常都在讨论利率下行、利差收窄，企业信贷增速下降等话题。银行业净息差正在缩小，而不良贷款的余额却在攀升，尽管好消息是不良贷款占比在逐渐降低。

银行面临的一大挑战是金融脱媒，它分流了众多客户的融资需求。为了应对这一挑战，我们总结出了五个策略：首先是“广”，即更广泛地覆盖客户群体，追求差异化；其次是“精”，即精准地进行客户营销；再次是“深”，即深化客户场景经营；然后是“稳”，即保持稳健的风控能力；最后是“高”，即真正为客户提供高价值的服务。

泰隆银行在这方面的实践已经为我们树立了典范，过去我在银行领域也参与了许多数字化项目，深知差异化策略在头部银行中的重要性。现在，面临的问题是如何获取、使用这些数据，并通过这些数据构建的差异化能力。

以产业金融为例，如果想筛选出优秀的科创企业，仅凭企业工商数据或行业产业链数据是远远不够的。需要综合各种数据，深入挖掘企业在行业和区域中的位置，以实现更精准的获客。

如今，随着数据的重要性日益凸显，数字化转型成为了一个热门话题。我认为，数字化转型的核心是客户价值驱动，它建立在业务系统信息化的基础之上，依赖于一个强大的数据平台。这个平台承载着所有基础数据，包括大量内部数据和海量外部数据。

智能平台在这个过程中扮演了重要角色。通过数据和业务系统的紧密结合，以及高效的数据运营，希望实现“先知、先觉、先行”的数字化转型目标。这意味着我们将利用数据来预测市场趋势，提前感知客户需求，并迅速采取行动以满足这些需求。

数据资产化的实践

关于数据生命周期在行内的应用以及数据资产化的实践，可以总结如下：首先，数据资源化是起点。我们拥有大量的基础数据、外购数据以及多年积累的用户数据和信用数据。这些数据需要被资源化，即进行整合、建模，以便有效利用；接下来是数据产品化。通过对这些数据进行加工和链接，将其转化为能够实际应用的数据产品；进一步，追求数据智能化。结合当前的人工智能技术，使数据产品实现智能化，提升数据的应用价值。

当数据资产需要入表时，重点在于有价值的数据资产化。实践中发现，可交易的数据更容易实现资产化。如果数据无法进行交易，其资产化价值在当前环境下值得进一步探讨。

在产业金融中如何更好地利用这些数据资产？在公司金融的常规流程中，依赖大量的数据供给，包括宏观数据、中观行业数据、产业数据、微观企业自身数据，以及国家和政府部门的公共数据等。这些数据和平台是连接产业金融中各个业务系统和环节的关键。产业金融目前面临的主要挑战之一是各个环节的分立和机构的割裂。为了解决这个问题，数据产品和数据应用成为连接各个系统和业务环节，乃至上下游的关键。

在营销获客方面，最大的挑战是大量数据分析。以科创企业为例，我们需要深入分析不同产业链、上下游的数据，并结合知识产权、信用资质、国家奖励、股权融资等信息，来准确判断企业是否符合我们的投资方向。

然而，当前产业链数据和企业信息的丰富度及分析水平还存在较大的差距。为了解决这个问题，恒生聚源从公开数据和公共数据的角度出发，研究如何构建宏观、中观、微观层面与产品和产业的结合，通过几十年的研究，构建了行业产品分类、主题产业链以及多种另类数据，帮助大家更好地洞察所关注的产业。根据不同行业的产业研究，并进行名单挖掘，以更好地支持产业金融的发展。

恒生聚源曾为金融机构及央企构建科创金融平台，专注于能源产业链。在尚未普及大模型的时代，我们运用人工智能NLP技术协助金融机构深入剖析产业链，构建完善的标签体系及业务洞察机制，以提升筛选和获客效率。

在风控领域，也面临了诸多挑战。市场舆情信息繁杂，聚源监控的舆情来源超过20万个，每日需处理海量数据。然而，舆情中的噪音众多，信息分散且缺乏关联，导致需要大量人力物力进行打标和分析。更为关键的是，这些舆情信息与当前持仓、放贷、用户画像等难以实时关联。对此，我们深刻体会到：

首先，舆情发掘需深入且精准。尽管当前大部分舆情已由机器处理，但即使运用大模型，仍有不少舆情处理不够精确，仍需大量人工介入。

其次，通过违规及监管处罚信息，能够洞察到监管机构对企业的动态。同时，风险预警模型、经营风险模型、财务粉饰模型、现金流周转等，均是多年来与行业内研究团队共同积累的宝贵经验。

此外，恒生聚源还为某股份制银行打造了投行产业分析决策系统，该系统融合了宏观、中观、微观数据以及我们的投研体系，结合市场运行和风险预警分析，为投行部提供投资并购的决策支持。

面对IT和信息科技部的挑战，海量数据与外部咨询的杂乱性、内部数据的孤岛化等问题不容忽视。其中，数据的民主化尤为关键。我们倡导数据的集中建设，无论采用何种形式的数据中台，数据的集中、模型的抽取与治理都至关重要。通过统一建模，可以更精准地使用数据，将客户信息与业务紧密关联。

在数据民主化方面，建议在内部除了支持业务系统、购买外部咨询和构建管理驾驶舱外，还应让行内人员能够随时随地访问和使用数据。无论是在手机、平板还是电脑上，都能方便地抽取和处理数据，直接赋能日常工作。

最后，关于资产入表的数据问题，恒生聚源也面临着迫切的需求。以自身为例，过去20多年里积累了PB 级别的数据，每年投入上亿资金进行处理。这些数据对于在座的各位领导和嘉宾来说可能只是日常应用数据的一部分。因此，在数据资产入表的过程中，深感哪些数据可以入表、如何入表等问题的重要性。

主要分为以下三类：

第一类是外购数据。对于外购的产业链上下游、市场咨询、交易类数据，由于其交易成本清晰、交易时间明确，估值相对容易。这类数据如同购买的机器一样，可以直接作为数据资产的一部分。

第二类是内部数据。内部数据的处理则更具挑战性。内部数据往往涉及敏感信息，特别是银行和金融机构中的企业信息和储户信息，这些数据的交易受到严格限制。因此，在内部数据入表的过程中，需明确其应用价值和场景，并充分考虑数据的敏感度。我建议，在数据入表时，应以可交易的数据为先，并采用成本法进行分摊。

第三类是行内创新数据产品。这类产品结合了数据、模型和业务逻辑，相对容易采用收益法或市场法进行估值。关于入表的数据资产如何运用，主要有两类方式：一是集团内部的共享，但面临的最大挑战是合规性。在一个金融控股集团内部，不同部门可能受到不同监管机构的监管，这需要在数据共享时格外注意。二是通过数据交易所进行场内交易或通过类似恒生聚源这样的数据服务商进行场外交易，以实现金融机构数据资产的变现。

大模型在金融行业的落地应用

首先分享关于大模型结论——大模型正逐步成为新一代的超级计算机和超级入口。当前，大模型的核心在于其规模法则，这一点在斯坦福的AI调研报告中得到了充分体现。报告显示，随着训练量的增加和模型规模的扩大，效果也随之提升。然而，这也带来了对算力需求的急剧增长。有趣的是，如果按照当前大模型的训练消耗速度，预计到2026年左右，世界上高质量的公开语料数据将面临枯竭，而到2030年左右，可能就没有更多的数据可以供给大模型进行训练了。这凸显了私域数据在大模型发展中的重要性，也是我们实现大模型落地的关键。

那么大模型在金融行业落地会有哪些体现呢？一个通用大模型在金融行业内部的应用，除了模型本身，更依赖于数据资产。最初级的应用形式可能是对话生成，如ChatGPT，但随着技术的发展，大模型的应用已经扩展到了更广泛的领域，如Copilot ，以及我们自己在投研领域的实践。更进一步，大模型将作为代理，与业务系统和数据深度融合。

在恒生聚源，基于自己的实践，对于部署私域大模型给出了一些建议。首先，选择合适的基座模型或开源模型是基础。其次，准备好语料，包括预训练语料、微调语料和强化学习语料。同时，我们要认识到，一个模型是远远不够的，更重要的是构建一整套模型中间件，如自然语言处理、搜索引擎、向量数据库、企业知识库和外部搜索引擎的接口。

关于大模型的应用，我认为它更多地用于处理文本和提高内部效率，而不是进行复杂的决策。在短期内（2-3年），大模型可能还无法达到复杂的思维水平。在金融行业中，大模型可以用于智能客服、营销和风控合规等领域，但不适合直接用于交易决策。

大模型在恒生聚源的具体应用。有一款产品定位为Copilot ，为投研、研究人员、分析师和投行等行业人员提供辅助工具。它可以进行问答、同业比对、会议速记、自动写作和文档生成等功能。这些功能在日常工作中可以大大节省时间和精力。例如，我们已成功将大模型应用于一个城商行的同业研究平台，通过结合行内数据，实现了数据报告的高效生成。

生成式AI展现出强烈的马太效应，即强者愈强。在通用模型领域，金融机构无需投入过多精力去开发通用大模型，因为最终可能难以与百度、阿里或国际上的OpenAI等巨头竞争。然而，在垂直领域的大模型应用上，并非简单地将通用大模型拿来即用。垂直领域的成功落地需要那些既懂业务又拥有数据的垂直模型厂商来协助行业实现B端的实际应用。

在整个大模型落地的过程中，数据的重要性不言而喻，特别是对于金融机构而言，自身的私域数据更是至关重要。因此，我们必须妥善处理好自己的数据资产，做好数据治理工作。

近期，苹果推出的Apple Intelligence也预示着端上轻量模型的迅速崛起，但“云+端”的计算模式仍将保持其主导地位。

随着智能代理技术的不断发展，大模型将与业务系统更加紧密地结合。很快，我们将看到大模型在操作系统、打通数据资产、传统模型以及业务壁垒方面发挥巨大作用。这一天将会很快到来。

展望未来，AI的发展将如何演变？中国银行业协会首席信息官高峰提到了大模型与知识图谱的结合。大模型代表了一类人工智能的发展方向，即连接主义，它基于深度卷积模型的算法，模拟人脑的工作方式。而知识图谱则体现了另一种典型的专家规则方法，通过构建实体和关系网络来精确定位内容。我期待有一天，连接主义和符号主义能够相互融合，甚至连接主义能够自行推导出符号主义，使大模型能够进行公式推理。当这一天到来时，相信大模型将能够为我们完成许多现在仍需人工处理的任务。

以上是我今天的汇报内容。

谢谢大家！

标签：恒生金融

继续看全文

中国贸易金融网

恒生聚源总经理吴震操：数据资产在产业金融的应用

商务部：2025年全国吸收外资7476.9亿元人民币

突破1550亿元，稳居全球第一

我国人工智能专利有效量居全球前列

证监会进一步扩大期货市场开放品种范围

建设银行克拉玛依石油分行被罚63.4万元：违反支付结算管理规定等