FinTech时代商业银行智能语音识别技术应用与发展

王彦博桂小柯杨璇杜新凯卢佳慧 | 2018-05-17 16:16 20605

来源：中国金融电脑作者：王彦博桂小柯杨璇杜新凯卢佳慧受到当前利率市场化、互联网金融快速发展、经济发展进入新时代等多种因素的影响，国

来源：中国金融电脑

作者：王彦博桂小柯杨璇杜新凯卢佳慧

受到当前利率市场化、互联网金融快速发展、经济发展进入新时代等多种因素的影响，国内银行业传统经营模式正面临着全新的变革。如何在精细化管理的基础上为客户提供更便捷、更优质、更安全的服务体验，已经成为各商业银行竞争的焦点。

近年来，云计算、大数据、物联网和人工智能等FinTech技术快速发展，促进了语音识别准确度的迅速提升，为商业银行引入智能化服务提供了重要的技术资源，语音识别技术将掀起商业银行服务模式的变革，为智能化服务增加新的元素。本文从商业银行实际出发，对该技术的发展进行梳理，并提出商业银行语音识别“4I”应用框架，以期推动FinTech时代下银行综合智能化服务能力进一步提升。

一、语音识别技术概述

语音识别通过运用语言学、计算机科学、电子工程、模式识别、概率论、信息论以及人工智能等领域的方法和技术，使计算机设备能够精准识别和翻译语音信息，也被称为自动语音识别(ASR)或者语音到文本(STT)，在金融、电信、电子商务、医疗、制造等行业得到了广泛应用。

1.语音识别技术发展

语音识别技术按照发展和应用程度，可分为早期实验研究阶段、实用阶段、现代语音识别系统开发应用阶段。

(1)早期实验研究阶段

20世纪50年代，世界上第一个能识别10个英文数字发音的实验系统在贝尔实验室诞生；20世纪60年代，出现了动态时间规整(DTW)算法以及将语音信号以帧为单位切分的技术，实现了有效的语音特征提取；20世纪80年代，识别算法从基于标准模板的方法转向基于统计模型的方法，产生了基于高斯混合隐马尔可夫模型(GMM-HMM)的声学模型和以N元语法为基础的语言模型，实现了大量词汇、非特定人以及连续语音的识别。

(2)实用阶段

进入20世纪90年代后，语音识别的系统框架趋于稳定，随着计算机运算能力的快速提升以及语音识别在系统自适应、参数调优等方面的成熟，语音识别技术在商业上逐步成功运用，语音识别技术进入实用阶段。

(3)现代语音识别系统开发应用阶段

近些年，随着大数据和深度学习技术的发展，深度学习方法逐渐被引入到语音识别系统中，相较于传统的语音识别技术，识别性能获得了显著提升。

目前，市场上的语音识别系统大多基于深度神经网络模型进行建模，大幅提升了各种应用场景下语音识别的准确度和可靠性，使语音识别技术进入了新的应用阶段。

2.语音识别的分类

按照说话人的不同，语音识别技术分为两类：一是特定人语音识别，它用来对特定人的说话内容进行识别，同时基于说话人的声纹信息，应用声纹鉴别技术，实现基于声音的身份识别；二是非特定人语音识别，通过采集大量语音数据来进行训练建模，实现非特定人的语音识别，可以被任何说话人使用，更符合实际需要，通常要难于针对特定人的语音识别任务。

根据识别词汇对象的不同，语音识别任务分为三类：一是孤立词识别，可识别事先已知的词语，比如“存款”“取款”等，可应用到自动控制领域；二是连续语音识别，可识别自然交流的连续语音，比如一个句子或者一段话，可应用于语音输入系统；三是关键词识别，从连续语音中检测出特定关键词出现的位置，而不需要识别出整个句子，可应用于语音监听任务。

根据识别服务的实现方式，语音识别分为两类：一是云端方式，依赖网络并依托强大的后台模型，识别更准确，目前已经有多款基于云端的语音助手工具；二是离线方式，不依赖于网络，应用场景更灵活，但识别精确度受到计算资源的限制，一般离线识别会结合专用芯片，通过压缩模型规模，将计算量控制在合理的水平。

3.语音识别技术原理

传统语音识别技术的基本过程如图1所示，主要包括如下内容。

(1)预处理

这一过程主要包括对输入的原始语音信号进行采样，去除个体发音差异以及设备环境等引起的背景噪声，通过分帧将语音信号切分为短片段，并运用端点检测技术确定出语音的起点和终点。

(2)特征提取

这一过程主要包括从预处理过的语音信号中，抽取出反映语音本质的特征参数，形成特征矢量序列。通常由频谱衍生出频率倒谱系数(MFCC)，使用长度为10ms的帧分割语音波形，然后从每帧中提取出特征向量。

(3)声学模型训练

基于语音数据库进行训练，通过计算语音特征和发音模板的相似度，为每个声学单元建立模型参数，识别时将待识别的语音特征参数与训练得到的声学模型进行匹配，获得识别结果。传统语音识别系统大多采用GMM-HMM进行声学模型建模。

(4)语言模型训练

根据语言的语法规则，对训练文本数据库进行语法、语义分析，建立描述给定词序列在语言中出现的概率分布，在给定若干个词的情境下能够判定下一个最可能出现的词语，缩小搜索范围，进而提高语音识别性能以及准确率。

(5)语音解码

语音解码指语音技术中的识别过程，针对输入的原始语音信号，经预处理和特征提取后，结合训练得到的声学模型、语言模型以及发音字典建立一个识别网络，运用搜索算法寻找到最佳路径，进而获取该语音信号对应的最优词串。

4.深度学习和语音识别技术

深度学习也称为“深层结构化学习”，是一种基于学习数据表征的机器学习方法，通过构建多隐藏层神经网络，组合低层特征形成更加抽象的高层表示特征，以此提升分类或预测的准确性。

语音信号是一种非平稳的随机信号，人脑对其感知的过程是一个复杂的信号处理过程，深度学习可通过模仿人脑对语音信号的处理方式，以层次化的方式进行处理，因此比传统的模型更适合于语音信号处理。结合深度学习技术对传统语音识别技术的相关环节进行优化和完善，出现了级联系统(Tandem System)、混合系统(Hybrid System)、端到端模型(End-to-End Model)系统等新技术，具体描述如下：

(1)级联系统

运用深度神经网络(DNN)进行特征提取，优于使用传统特征训练的GMM-HMM识别系统，它可以联合特征的上下文信息形成长时特征矢量，并且具有深层次的非线性变换能力，能够从有限的数据中挖掘出更多的信息。

(2)混合系统

在GMM-HMM声学模型基础上，用DNN替换高斯混合模型(GMM)来计算输出概率密度函数，其中的DNN可替换为其他的深度学习架构，比如循环神经网络(RNN)、卷积神经网络(CNN)等，这种方法最常用也最便利，不需要重新设计整个传统声学模型系统。

(3)端到端模型系统

基于深度神经网络完成从输入特征向量到输出结果的整个过程，声学模型和语言模型通过后端解码进行融合，与传统识别过程相比，不需要进行分帧以及帧级别的标注操作。端到端模型实现方法分为两种，一种是采用连续时序分类(CTC)和长短记忆网络(LSTM)结合的声学模型，对语音的音素序列和对应的语音特征序列进行序列层面建模;另一种是基于编码解码(Encoder-Decoder)模型以及注意力(Attention)模型，直接实现从语音声学特征序列到最终词序列的输出。

二、智能语音识别技术在商业银行中的应用

随着语音识别技术与文本挖掘、自然语言处理等技术的不断融合，在以商业银行为代表的金融领域，语音识别技术呈现出巨大的应用价值潜力。本文对商业银行视角下的语音识别应用场景进行梳理和归类，从对智能化技术要求由浅入深的角度，提出“4I”应用架构，即“Input(信息输入)—Inspection(实时监察)—Interaction(沟通交互)—Identification(身份验证)”，以期为商业银行智能语音识别技术落地提供参考和借鉴。

1.Input(信息输入)：“听得见”

语音识别的一个主要应用就是将语音数据自动转换为文本数据，实现自动信息输入。该类应用下，语音识别技术的主要功能是将音频数据转化为文本数据，并为进一步开展智能文本挖掘和自然语言处理积累大量文本信息语料。在商业银行运营环境下，该功能可主要应用于简化柜台人员业务操作流程、实现客户经理拜访客户后的报告口述撰写等场景。

以柜台操作简化流程为例，当前网点仍是银行提供服务的重要渠道之一，柜台运营人员服务质量是决定客户体验的关键要素。客户针对银行提出的反馈意见显示，等待时间过长已成为影响客户满意度的重要因素。通过引入语音识别系统，可以将客户需求直接转化为系统可识别的文本内容，柜台人员仅需针对录入的信息进行复核校验，减少客户填写各种凭证的时间以及运营人员录入信息的时间，从而减少客户等待时间，提升服务效率。此外，当银行一线人员走出网点对客户进行拜访后，由于缺乏行内双录设备，往往需要撰写访谈报告对客户情况及交谈内容进行记录，此时语音识别技术的应用可直接将客户经理的口述转换为文字报告，以提升工作效率，进一步释放银行生产力。

2.Inspection(实时监察)：“听得懂”

商业银行日常应用场景除了需要“听得见”，很多场景还要求“听得懂”，即需要在银行服务人员与客户交流过程中实时识别出客户需求点及业务风险点，支持更精准地对客户提供个性化服务，同时保证业务合规性。

例如，通过在语音识别技术的基础上架构索引机制、引入文本挖掘和自然语言处理技术支持，对实时“听”到的文字在“关注”字词库里进行搜索。当客户在柜台办理业务时，通过对客户与窗口人员的交谈内容进行实时监察，一方面可以及时识别银行员工话术的合规性，当业务人员出现不当销售、违规引导时，系统及时跳出提醒标识对银行人员进行警示，尽可能避免对客户和银行权益造成损害；另一方面银行可以实时发现客户的业务需求，并及时让窗口人员予以相关产品的推介，当客户的需求与本行产品及服务核心关键词相匹配时，系统展示产品信息及相关话术对业务人员进行提示，进一步提升销售成功率。

此外，该技术还可以通过对客户语言文本的分析，及时发现客户是否存在负面情绪，辅助业务人员减少不当处理，及时调节、化解业务办理中可能发生的客户纠纷。

3.Interaction(沟通交互)：“有交互”

语音识别在商业银行的应用场景除了上述“听得见”“听得懂”外，很多时候还需与客户“有交互”。通过语音合成、声向定位、语义理解、机器翻译等进一步技术支持，语音识别技术可应用于自助机具操作、电话银行自动应答、银行呼叫中心自动回访、厅堂机器人服务交互、外籍客户服务提升等场景。以厅堂设备自助化功能优化为例，当前自助设备已成为厅堂运营过程中分流客户的重要手段。

目前，自助设备操作主要以触点操作、手动输入为主，为辅助客户进行业务办理，一般需设置专人对客户的操作进行指导。引入智能语音识别技术可进一步优化自助设备功能，通过识别语音中的要求、请求、命令或询问来做出正确的响应，既能改善手动输入速度慢、易出错等缺点，又有利于缩短系统的反应时间，使人机交互变得简便易行。

将语音识别技术应用于手机银行和微信银行等数字化渠道，可进一步优化客户和系统交互的客户体验，完成余额查询、账户挂失、手机号转账、转账费率查询、预约取款、账单查询、信用卡还款、积分查询、信用卡挂失等基本业务办理，减少客户输入信息量，增加客户对渠道的使用黏性，在节省服务成本的同时有效提升客户体验。

此外，外籍客户服务提升也是智能语音识别技术充满潜力的应用场景。以厅堂或窗口服务机器人为载体，在语音识别技术应用的基础上实现“同声传译”，使银行能够很好的服务外籍客户，提升客户尊享度，同时也为银行更好地布局国际化战略、发展海外业务提供技术支撑。

4.Identification(身份验证)：“认得出”

语音识别技术还可通过声纹识别实现客户身份验证。在生物特征识别应用中，基于语音的身份验证具有非接触、非侵入、易用性强等特征，客户易于接受。声纹识别可以通过每个人独特的声音直接辨识客户，无需设定、记住和键入密码等操作，同时在信息采集方面较人脸、虹膜、指纹、指静脉等方式具有更佳的便捷性和友好性，让身份验证过程变得快速而简单。国外领先商业银行已开启语音身份验证的探索，2013年5月，英国巴克莱银行宣布使用语音识别技术，能够在30秒内通过一般谈话验证客户的身份。更进一步，通过建立客户声纹库并对语音中的声纹鉴别，银行可有效对客户进行识别、历史档案查询、信息检索与推荐。

毋庸置疑，语音识别技术为商业银行的员工操作和客户服务等应用模式提供了新的技术选择，并能进一步提升业务效率，开拓新的业务运营模式。近年来，语音识别技术得到了迅猛发展，但是该技术在国内商业银行的应用仍处于起步阶段。这主要是因为基于银行业领域特定的语料库还不够成熟，导致无法在真正意义上实现智能语音识别。随着大数据技术不断发展，数据积累越来越庞大，银行业的语料库必将逐渐完善，语音识别技术在商业银行的应用将会逐渐深入。

标签：商业银行新凯

继续看全文

中国贸易金融网

FinTech时代商业银行智能语音识别技术应用与发展

公航旅商业保理公司召开2026年上半年生产经营分析会

长期资本护航科创，无锡金控保理助力本土企业重启IPO

西安财金商业保理有限公司荣获联合资信AA+主体信用评级

电建保理赴贵州片区成员企业走访调研

乐聚机器人与哈金森达成战略合作