支付清算系统异地备份进入“一键”时代
古人说“十年磨一剑”。而中国人民银行清算总中心自2016年下半年启动支付清算系统异地备份系统一键切换项目(以下简称项目),到2017年9月全部系统自动化切换功能投产上线,仅用时一年,可谓“一年磨一键”。
古人说“十年磨一剑”。而中国人民银行清算总中心自2016年下半年启动支付清算系统异地备份系统一键切换项目(以下简称项目),到2017年9月全部系统自动化切换功能投产上线,仅用时一年,可谓“一年磨一键”。
作为国家重要金融基础设施、社会资金的“大动脉”和经济金融运行的基础平台,支付清算系统连接312家直接法人参与机构、14.4万家间接参与机构,年处理业务119亿笔,金额3833万亿元,业务金额约为2017年我国GDP的48倍,社会消费品零售总额的105倍,占我国跨行支付系统整体业务金额的94%。支付清算系统已成为涉及国家金融安全的重要环节,以及央行履行宏观调控、金融监管和金融服务职能的重要支撑。
勇于担当,异地备份一键切换项目启动
面对日益复杂的网络安全形势,我国政府高度重视关键信息基础设施的安全保障工作。2017年6月1日正式实施的《网络安全法》明确规定了国家对金融等重要行业和领域的关键信息基础设施实施重点保护。2018年4月,习近平总书记在全国网络安全和信息化工作会议上明确指示“要落实关键信息基础设施防护责任,行业、企业作为关键信息基础设施运营者承担主体防护责任,主管部门履行好监管责任”。
人民银行党委对支付清算系统的安全生产和业务连续性提出了更加具体、严格的要求。2016年6月7日,范一飞副行长在视察支付清算系统无锡应急国家处理中心(NPC)时,明确各级部门高度重视支付清算系统的安全稳定运行,进一步提高支付系统业务连续性水平。2017年4月,人民银行办公厅和科技司先后印发了《中国人民银行信息系统业务连续性分级保障标准(试行)》和贯标通知,支付清算系统中2个系统业务连续性保障级别明确为第五级,3个系统为第四级,1个系统为第3级。
清算总中心作为支付清算系统运行责任单位,坚决贯彻落实党中央、国务院、人民银行党委有关指示精神,始终高度重视支付清算系统的业务连续性建设工作。2016年下半年,考虑到支付清算系统经过多年的建设和发展,系统规模不断扩大,数据中心切换的技术难度和操作复杂度不断攀升,原有切换策略自动化程度偏低、操作风险较高,不能适应快速、高效和客户无感知的应急处置需要,清算总中心按照“问题导向、以我为主”的原则,启动支付清算系统异地备份系统一键切换项目(以下简称项目)。
迎难而上,多方面取得突破
清算总中心有关人员介绍,在项目总体设计时,重点考虑了以下几方面的问题:一是通过对支付清算系统主机系统进行改造,采用Q-REP技术实现数据库一级的远程数据复制功能,替代原有的磁盘级数据复制功能,并以此为基础,实现上海NPC和无锡NPC支付清算系统应用“双活”;二是通过对支付报文传输平台进行改造,在城市处理中心一级实现秒级、可控、无损的报文分发策略,使得支付清算系统业务负载策略可通过远程控制手段精准、高效的在不同站点间进行调整,根据需要快速在上海NPC、无锡NPC间切换;三是建设一键式切换工具,引入流程引擎实现作业流程的可定制,研发通用消息代理实现作业脚本的统一下发和执行。
项目于2016年下半年启动,前期开展了同业调研、技术选型以及原型验证等工作。在具体实施时,因为支付清算系统本身的业务技术特点,使得很多工作都带有开创性质,业界没有太多的经验可以借鉴,需要克服的技术难点比较多。
首先,对支付清算系统主机系统进行“双活”调整就是一个风险较高的工作,在实施时不但要满足“双活”系统建设目标、还要符合主机系统架构投产后的整体延续性,尤其是要考虑改造期间不能对外停止服务,实施过程中不能影响系统的安全稳定运行。为此,清算总中心进行了大量的分析研究,以满足生产系统的安全性和兼容性要求。例如,在“双活”架构投产前,为了不降低生产系统原有的备份能力和切换能力,在系统规划上,同时支持了磁盘级备份和“双活”两种数据中心备份切换方案,并且不降低原有磁盘备份模式的业务恢复时间(RTO)。
主机系统“双活”改造工作于2016年9月开始实施,2017年1月完成对维护环境主机系统的“双活”实施,2017年4月完成对生产环境主机系统的“双活”实施。
其次,在进行支付报文传输平台改造时,如何协调32个城市处理中心基本步调一致的进行路由策略的调整,同时又“无损”业务对外服务水平,特别是对于需要回执的业务报文,如何做到切换期间回执报文和原报文能够准确的路由到相同的数据中心。这些都是工程实施时摆在项目组面前的难点问题。为了解决上述难题,项目组在支付报文传输平台增加了节点间状态控制功能,实现了在NPC一点控制32个城市处理中心(CCPC)往账报文路由,并使CCPC节点可根据指令暂存报文等功能。
另外,在研制一键式切换工具时,清算总中心按照自主可控的原则,选择使用了开源的流程引擎,并自主研发了统一的通用消息代理服务。这些工作很大程度上提高了项目工作的自主可控程度,但也带来了很多技术难点,包括深入研读开源产品的源代码并进行适当的定制化封装以使其更符合我们的应用场景,不断完善通用消息代理服务,使其支持多线程并发以及故障后的重入并适应跨平台的应用场景等。
支付报文传输平台的适应性改造和一键式切换工具的研发工作于2016年9月开始启动,采取了分阶段上线策略。
大额、小额、网上支付跨行清算系统的自动化切换功能于2017年2月下旬在生产环境进行功能验证,于2017年4月上线;信息分析类系统的自动化切换功能于2017年7月投产上线;其他辅助类系统的自动化切换功能于2017年9月投产上线。
连续性保障能力迈上新台阶
记者从清算总中心了解到,项目实施后,支付清算系统业务连续性保障能力取得了明显提升。
首先,应急处置的自动化程度明显提高。数据中心整体切换的人员和时间消耗从过去的几十人、小时级,下降到两人、两分钟即可从容操控。
其次,数据中心切换的组织难度和技术难度显著下降,从极端复杂、极高难度、较大风险的应急演练科目,降低为常规演练科目。清算总中心自2017年开始,每月维护窗口定期开展数据中心异地切换演练,实现了演练常态化。
其三,相关人员的实战水平取得较大进步。2017年10月29日至11月4日,在不间断受理业务的情况下,清算总中心成功实施支付系统NPC有计划、带业务、整体切换,在异地备份中心运行7个工作日。切换用时110秒,其中,业务暂停时间为80秒;整个切换过程中参与机构基本无感知。在有计划切换场景下,大额实时支付系统和网上支付跨行清算系统2个系统的业务连续性指标达到人民银行业务连续性分级保障标准,小额批量支付系统、境内外币支付系统、人民币跨境支付系统和支付管理信息系统4个系统高于标准。
清算总中心于2017年10月29日—11月4日圆满完成NPC有计划切换运行,无锡NPC接替上海NPC平稳运行7个工作日
通过建设、投产和使用一键式切换功能,支付清算系统的业务连续性保障水平得到空前提升。可以说,清算总中心以务实、具体的行动,贯彻落实了国家和人民银行保障网络安全的工作部署,将关键信息基础设施运营者的主体防护责任落到了实处,有力地保障了支付清算系统这一国家重要金融基础设施的安全生产、稳定运行,同时也彰显出人民银行科技工作者勇于担当的精神和锐意进取的勇气,这正是我国金融业电子化、信息化40年来能够不断创新发展的动力之源。