赵毅:借力大数据平台实现科技金融创新
为适应金融科技时代的发展,商业银行纷纷布局大数据平台,通过行内外海量数据的采集、加工、存储、挖掘,到基于细分场景的应用,通过大数据思维的蓝图规划,在客户画像、用户行为分析、精准营销、财富管理,风险管理,可视化分析等领域落地实施,积极推进智能金融的理念,拥抱新的技术促进金融变革。
来源:腾讯证券
为适应金融科技时代的发展,商业银行纷纷布局大数据平台,通过行内外海量数据的采集、加工、存储、挖掘,到基于细分场景的应用,通过大数据思维的蓝图规划,在客户画像、用户行为分析、精准营销、财富管理,风险管理,可视化分析等领域落地实施,积极推进智能金融的理念,拥抱新的技术促进金融变革。
2015年,恒丰银行在开源软件、国产大数据平台的基础上,自主设计开发建设企业级大数据应用平台,利用全新的大数据平台技术全面重构了企业数据仓库应用,满足海量结构化与非结构化数据的低成本加工存储、快速统计分析、业务模型探索、实时分析与决策等需求。结合大数据技术服务能力,升级改造原有的渠道、授信管理、审计、客户管理等系统,在客户服务、风险管理、内部管控、流程优化、营销管理等多个业务领域提升恒丰银行的运营效率和市场竞争力。
本文曾发表于《金融电子化》2017年第2期,部分内容有所更新。
商业银行为适应发展,除了布局大数据基础设施平台,也积极建立大数据应用思维,通过行内外海量数据的采集、加工、存储、挖掘,到基于细分场景的应用,通过实施客户画像、用户行为分析、精准营销、运营优化、资产配置和业务改造等应用蓝图规划和项目落地实施,积极接纳智能金融的理念,拥抱新的技术促进金融变革。
梳理总结大数据对银行数据管理形成的挑战,处于业务发展新阶段的恒丰银行,更需要一个低成本可线性扩展的统一数据处理平台,解决企业多个数据应用形成数据孤岛,数据资源难以共享、数据标准不一、存在大量冗余数据的问题。但现有的主流数据库技术因为陈旧的系统架构已经不能满足需要,开源大数据技术商业银行企业级应用场景下还有诸多不完善的地方。2015年,恒丰银行在开源软件、国产大数据平台的基础上,自主设计开发建设企业级大数据应用平台,利用全新的大数据平台技术全面重构了企业数据仓库应用,满足海量结构化与非结构化数据的低成本加工存储、快速统计分析、业务模型探索、实时分析与决策等需求。结合大数据技术服务能力,升级改造原有的渠道、授信管理、审计、客户管理等系统,在客户服务、风险管理、内部管控、流程优化、营销管理等多个业务领域提升恒丰银行的运营效率和市场竞争力。
一、平台架构选型与设计
商业银行构建大数据平台是一项复杂的工程。
首先,在平台选型上,应考虑非结构化数据处理与传统金融的结构化数据的整合,智能化的实时决策的高时效性要求,以及业务多样化带来数据体量大、产生速度快,用成本更低的数据平台进行存储等,需要选择与传统数据仓库不同设计范式的新一代数据处理技术。在应用架构上,由于传统数据仓库基于IOE 平台,在数据处理性能、多维数据交换等方面存在瓶颈,需要重构传统数据仓库体系结构,设计业务应用迁移的总体方案和实施规划。最后,基于银行数据“立体化多角度”的治理和管控要求,大数据平台应具备数据治理与管理的功能,通过数据质量管理、数据标准管理、元数据管理等建立统一的数据口径和数据规范。
基于上述大数据技术平台要求,恒丰银行在架构扩展性、数据模型能力、应用开发及迁移、数据分析与处理、数据工具支持、数据应用解决方案等方面的考察与对比测试,最终选择以Hadoop 大规模分布式框架作为基础软件平台,在此基础上构建了新一代数据仓库,实现了如下能力:
一是线性扩展的低成本服务器(X86)存储。
减少数据计算和存储的硬件成本,满足业务处理与访问的时效性,提升数据管控的灵活度。
二是流式处理技术。
满足对时效性、要求较高的实时分析、计算,通过数据流处理引擎进行清洗、转换、加载和分析处理,确保数据价值密度的提升,支持风险预警等对于实时性要求较高的业务场景。
三是内存处理技术。
基于内存的Spark 技术既可以支持负载的计算,也可以支持大规模数据复杂关联应用,减少I/O 操作,提升数据处理效率。
四是列式数据库技术。
以HBase 为代表的列式技术的使用,增加压缩比,提高了I/O 效率和数据分析效率。
五是非结构化数据应用。
银行业务系统中会产生各种JSON、XML 或者webpage 等半结构化的数据文件,大数据平台对各种半结构化数据具有高效的解析以及处理能力。
六是数据挖掘及数据分析技术。
通过R 语言支撑的机器学习、人工智能算法模型加强对整个企业数据形态走向的决策判断力并提高商业智能化水平,通过业务创新快速响应市场变化。
七是数据治理。
针对数据质量管理、数据标准管理、元数据管理建立了一整套完善的数据生命周期管理体系。通过数据标准管理系统建立统一的数据口径和数据规范。通过数据质量管理系统对数据质量问题进行数据稽核管理。通过元数据管理和血缘分析系统实现从全局角度了解行内数据资产全貌,包含全行数据的数据流向和数据之间的血缘关系。
大型商业银行出色的数据平台架构应具备数据分层布局合理、数据详细分布策略合理、数据层次间的数据流转定义清晰等特征。通过恒丰银行新一代数据仓库总体架构的设计可以看出,从数据生命周期划分的每个数据层次体系的建设都很完备,具备从数据产生、流转、整合、应用、归档处理的全生命周期管理能力。同时,在数据应用领域规划完整,各管理分析领域的数据集市在逐步规划和建设的过程中。其中历史数据查询系统、风险管理系统、信贷工厂、精准营销等应用体系已经相对成熟。
二、业务应用规划与建设
在大数据业务应用系统规划上,可以通过价值链分析的方法,将商业银行的业务分为一系列价值活动。通过这些价值活动的进一步抽象,将业务场景抽象出“要素”和“行为”两类业务主体。其中,“要素”指金融业务中所涵盖的类别和对象,“行为”指满足金融业务运营所必要的操作或管理活动。结合数据流在这两类业务主体中的维度,可将要素划分为:客户、资产、产品、渠道;将行为划分为:交易、风控、营销、运营。
探查大数据的业务应用场景,就是通过“要素”和“行为”的数据流和信息流分析,评估大数据在这些业务主题下的应用机会,以实现产品科学设计、服务改进、效率优化、风险管控等方面的企业战略目标。
恒丰银行在客户、营销、风控、运营、交易、绩效六大领域规划建设了专业数据集市与业务应用,全面覆盖了商业银行前、中、后台各业务条线,形成了客户关系管理系统、风险预警系统、资讯与业务规划平台、运营风控系统、“恒丰足迹”分析系统、用户画像与数据挖掘、绩效考核平台的应用群。
一是客户关系管理系统(CRM)。
在大数据应用平台基础上,打造支持因客户经理的日常业务和办公的移动平台。
二是全面风险预警系统。
面向全行的、基于大数据平台建设的集成风险信号发现、展现与风险排查认定、风险行动的综合应用,通过行内、行外海量数据的加工、分析,提高风险监控的准确性与时效性,为风险管控、决策提供支持。
三是大数据资讯平台、业务规划平台。
通过收集、整理、分析和展示官方(国家统计局)的宏观经济和行业信息、行内的业务信息、行外接入数据,快速地帮助投资顾问、信贷管理人员掌握市场,指导投资和控制风险。
四是运营风险监测系统。
对银行的各交易系统的交易信息及基础数据进行风险分析。运营风险数据集市对元系统数据进行整理、汇总成基础宽表,监测系统及其他运营管理系统可从宽表进行数据分析。
五是“恒丰足迹”。
展现用户在恒丰的轨迹,采用大数据平台的范式对恒丰客户的金融交易进行全面透视,探查用户金融交易习惯及个性化的称号,拉近用户与恒丰的距离。
六是用户画像标签体系与数据挖掘建模应用。
规划客户基础标签、客户等级标签、客户偏好标签、客户特征标签、客户需求标签五大类标签体系,通过数据指标体系的建设,精细化客户发现和探查;对客户细分模型、智能推荐、贷后风控系统和流失预警提供精准化的数据支持。
七是统一绩效考核平台。
基于大数据的绩效平台,确保实现总行管控、服务分行、数据统一、数据准确、安全高效,引入平衡记分卡模型,通过图形化方式进行海量数据分析。
通过上述大数据业务应用的系统规划与逐步实施,恒丰银行在新一代数据仓库的应用架构设计上,充分利用了大数据技术平台的大规模集群、实时性计算、不停机无缝扩展能力、多源多维数据处理能力、容错能力和数据挖掘与分析能力,紧跟业务发展的线上化、移动化、实时化、精准化、智能化趋势,确保业务应用的开拓性创新,真正用大数据来辅助银行新一代业务构想的落地。
三、大数据助力实现业务与管理双效提升
恒丰银行作为首家全面应用大数据技术替换传统数据仓库技术的全国性股份制商业银行,在传统数据仓库的重构优化,架构设计方法和应用实现方案等方面均具有开创性意义。
首先,基于国产大数据软件平台重构优化了数据仓库及关联应用,首次验证了在弹性可扩展的统一数据平台上构建包括传统数据仓库应用与其他大部分数据应用的技术可能性。基于统一的企业公共数据模型上构建发展各应用集市和分析集市,减少数据的重复加工和各数据应用的开发成本。其次,构建了包容实时数据应用和数据分析型应用的统一软硬件技术架构,同时满足联机数据查询和海量数据分析需求,提高数据应用的开发效率和增强了服务器资源有效利用率,减少了应用总体开发和部署成本。另外,减少了数据治理和数据标准化实施成本,提升业务数据向分支机构和业务部门的开放效率和使用效能。最后,增加了非结构化数据、实时流处理、数据可视化、机器学习能力,扩展了传统数据仓库的应用边界。
通过大数据平台建设新一代数据仓库的技术实践和应用系统的逐步落地,恒丰银行实现了成本管理与业务管控的双效提升。在经济效益层面,新型平台采用低成本的X86 服务器,让数据处理与存储成本更低廉,淡化了架构理论中用时间和空间置换成本的概念。平台落地之后,IT硬件投入成本降为原来30%,基础软件费用降为原来20%;在生产效率层面,原有传统数据仓库的大数据量跑批处理往往需要4~5小时,新一代大数据平台的分布式计算能力,结合内存处理技术,处理同样数据量级的工作仅需数10分钟,大大提升了营销、风控、运营等业务流程的响应能力。
此外,结合本次创新性实践,恒丰银行培养了一批既熟悉业务又能驾驭开源技术的复合型人才,宣导了“敢于创新”的大数据文化,为实现业务战略和IT战略了奠定了人才储备基础。
根据恒丰银行互联网金融转型战略,发展金融云的总体规划,未来我们计划建设基于Docker开源容器技术、可弹性扩容的大数据平台,为恒丰银行新一代面向互联网金融云的业务提供高效的运行、监控和维护环境。