知识图谱赋能金融科技,看这一篇就够了
数据是数字经济时代的新型生产资料。
数据是数字经济时代的新型生产资料。
基于数据的生产变革和业务模式创新正驱动着全球范围内经济社会各个领域的数字化、智能化转型。金融行业因与数据的高度相关性,成为人工智能最先应用的行业之一,而知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速渗透到金融业务应用层面,并日益成为金融科技的“底层支撑”。
“金融知识图谱”是金融行业语义理解和知识搜索的基础技术,可以为风险评估、预测、反欺诈、精准营销、智能搜索等提供技术支撑。越来越多的金融机构及企业在探索构建金融领域的知识图谱研究,将海量非结构化信息自动化利用起来,为金融领域应用决策提供更精准、更可靠的依据。
什么是知识图谱?
知识图谱本质上是一种大规模语义网络,是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力,是关系表示最有效的方式之一。
相对于传统的描述方式,知识图谱有三大特点:
(1)多维度,需要从大量的信息源中抽取多维度的特征信息,为后续算法拓展深度关联关系提供必要的素材。
(2)深加工,在信息素材的基础上,通过智能推理实现从数据到智慧的深加工。
(3)可视化,深加工的结果以可视化的方式展现给用户,并与用户交互,直观易懂。
知识图谱技术溯源
知识图谱的发展历程可以追溯到20世纪70年代诞生的专家系统,专家系统一般由知识库与推理引擎两部分组成,它积累了大量的某个领域专家水平的知识与经验,根据知识和经验,模拟人类专家的决策。1984年由DouglasLenat设立的Cyc是这一期间较为出色的本体知识库。
1989年万维网的出现,为知识的获取提供了极大的方便,1998年,万维网之父蒂姆·伯纳斯·李再次提出语义网,语义网直接向机器提供可直接用于程序处理的知识表示,它也是NLP(自然语言处理)的前身。
2001年维基百科诞生使得全球用户可以通过协作完成数上百万词条的知识,推动了很多基于维基百科的结构化知识的知识库的构建,DBpedia、Yago等属于这一类知识库代表项目。
2006年,伯纳斯·李提出链接数据(LinkedData)的概念,希望数据不仅仅发布于语义网中,而要建立起数据之间的链接从而形成一张巨大的链接数据网。随后,2007年DBpedia项目开始运行,它是目前已知的第一个大规模开放域链接数据。
2012年5月16日,Google发布了名为“知识图谱(KnowledgeGraph)”的“智能”搜索功能,在Google传统搜索列表右侧,添加了与搜索关键词相关的人物、地点和事物相关的事实,相比传统搜索结果页,这种搜索模式提供与词汇所描述的“实体”或概念匹配的页面,这也标志性着知识图谱正式诞生。
知识图谱的构建与分类
知识图谱的历史使命是作为一个巨大的背景知识库让机器具备语言认知能力。有了知识图谱,机器看到的不再仅仅是字符串,而是可以把这些字符串映射到各种各样的实体、概念,从而建立机器自己的认知世界。建立一个完整精细化的知识图谱所依赖的背景知识库必须满足三个条件:
第一个是知识库有规模要足够大,必须涵盖足够多的实体和概念。
第二个是知识库语义关系要足够丰富,描述现实世界的语义关系是丰富多样的,知识库要涵盖常见的语义关系。
第三个就是知识库表示结构要十分友好。文本是一个巨大的载体,但是文本是一个非结构化数据表现形式,机器很难处理,而知识图谱往往表达为RDF结构,是一种结构友好的表达形式,是能够被计算机有效处理的。
从技术的角度来看,知识图谱构建流程包含信息抽取、知识表示、知识融合、知识推理四个阶段。从最原始的结构化、半结构化、非结构化数据出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层。
根据覆盖范围而言,知识图谱也可分为开放域通用知识图谱和垂直行业知识图谱。开放通用知识图谱注重广度,强调融合更多的实体,主要应用于知识获取的场景,要求知识全面,如搜索引擎,知识问答;比较著名的知识图谱库有Freebase、Wikidata、Yago、DBPedia、WolframAlpha等。
行业知识图谱通常需要依靠特定行业如金融、电信、教育等行业的数据来构建,主要应用于行业智能商业和智能服务的场景,要求精准,如投资决策、智能客服等。行业知识图谱中,实体的属性与数据模式往往比较丰富,规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。
知识图谱的玩家有哪些?
凡是有关系的地方都可以用到知识图谱,目前知识图谱在多个不同的领域得到了广泛应用,知识图谱产品的客户行业分类主要集中在:社交网络、人力资源与招聘、金融、保险、零售、广告、物流、通信、IT、制造业、传媒、医疗、电子商务和物流等领域。
主要的玩家大致可以分为两类,一类是互联网巨头,如阿里商品知识图谱、腾讯云“星图”、百度“知心”、搜狗“知立方“等;另一类是创业公司,如脉脉、天眼查、企查查、中诚信征信、知因智慧、文因互联、明略数据、达观数据、智言科技、海知智能、渊亭科技、海智星图、海致大数据等企业。
创业公司又可以细分为两类:一是专注于单一的金融领域,如知因智慧、文因互联、智言科技;另一类则是选择社交、企服、金融、法律、公安、航空、医疗等多个垂直领域同时推进,如明略数据主打公安、金融、工业;擅长长文本分析的达观数据则主攻金融、制造业、法律;海知智能主攻智能家居、医疗、金融;渊亭科技则在航空、医疗、军工、通信、教育等多个领域均有涉足。
亿欧:部分知识图谱创业公司一览
金融知识图谱可以做什么?
1、风险评估与反欺诈
如今数字金融欺诈形式不断更新、纷繁复杂,欺诈手段逐渐表现出专业化、产业化、隐蔽化、场景化的特征。
传统反欺诈技术的维度单一、效率低下、范围受限的劣势越来越明显。在反欺诈场景中,知识图谱可以聚合与借款人相关的各类数据源,包括借款人的基本信息、日常生活中的消费记录、行为记录、关系信息、网上浏览记录等,然后抽取该借款人的特征标签,从而将相关的信息整合成进结构化的知识图谱中,在此基础上,对该借款人的风险进行全方位的分析和评估。
除了申请阶段的反欺诈,通过构建已知欺诈要素如手机、设备、账号、地域等的关系图谱,全方位了解客户海量风险数据的离线统计分析,按主题要素收集风险运营的结果反馈,建立客户风险特征信息库,优化风险模型和规则,还能做到交易阶段的反欺诈。
2、风险预测
风险预测包括对潜在风险行业预测和潜在风险客户预测。
在潜在风险行业预测上,基于多维度数据对行业进行细分,根据行业信息建立关系挖掘模型,展示每个行业之间的关联度,如果某一行业发生了行业风险或高风险事件,可以及时预测未来有潜在风险的关联行业,金融机构从而可对相关行业的风险做出预判,尽早地发现并规避风险。
在潜在风险客户预测上,通过知识图谱整合和关联企业内部结构化数据、非结构化数据以及互联网采集数据、第三方合作数据,发现和建立企业与企业之间的集团关系、投资关系、上下游关系、担保关系,企业与个人之间的任职、实际控制、一致行动关系,及时预测未来有潜在风险的关联企业。
3、精准营销
针对个人客户,知识图谱可以通过链接的多个数据源,形成对用户或用户群体的完整知识体系描述,挖掘已有客户的潜在需求,针对性地推送相关产品,为客户提供营销服务。
例如,金融公司的市场经理用知识图谱去分析待销售用户群体之间的关系,去发现他们的共同爱好,从而更有针对性地对这类用户人群制定营销策略。如果对知识图谱扩展(如个人爱好、电商交易数据、社交数据等),还可以更加精准地分析客户行为,进行精准推送。
针对企业级客户,通过分析包括企业基础数据、投资关系、任职关系、专利数据、招投标数据、招聘数据、诉讼数据、失信数据、新闻咨询等企业数据勾画出企业客户的资金关系、法人关系、上下游投资关系、相似企业业务关系等构建起企业知识图谱,为企业推荐合适产品、服务。
4、智能搜索和数据可视化
智能搜索的功能指的是,知识图谱能够在语义上扩展用户的搜索关键词,从而返回更丰富、更全面的信息。
比如,搜索某个人的身份证号,可以返回与这个人相关的所有历史借款记录、联系人关系和其他相关的标签(如黑名单等)。这些结果可以用图形网络的方式展示,从而把复杂的信息以直观明了的图像呈现出来,让使用者对隐藏信息的来龙去脉一目了然。
结语
互联网促成了大数据的集聚,大数据促进了人工智能算法的进步。
新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件,使得知识图谱构建的来源、方法和技术手段都发生极大的变化。知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。
尤其在金融领域,从数据可视化、风险评估与反欺诈、风险预测到用户洞察,知识图谱的底层性支撑作用越来越显著。
AI浪潮愈演愈烈,知识图谱赛道也从鲜有问津到缓慢升温,随着更多入局者的出现,未来这条赛道将会越来越拥挤。