声纹识别技术在调度录音分析的应用研究

作者：浏览数：次关键词：调度录音识别分析研究

打开文本图片集

【摘要】随着电网调控一体模式的应用打破传统的调度的业务范畴，调控拓展成为电网信息通信与设备的集中监视与指挥控制中心，各类生产业务的实时、准确信息逐步汇集到调度台。作为各类监控信息和管理流程的汇集点，调度下令的准确性直接关乎电网运行稳定性。本文针对调度录音系统的需求，通过对声纹识别技术在调度录音分析的应用进行分析研究，期望再进一步通过技术力量改变调度下令不规范，用语不真切的不良习惯，从根本上解决调度下令的多年诟病，提升电网调度下令水平。

【关键词】调度；调度录音；录音分析；声纹识别

1.研究目的及意义

调度岗位业务范畴的扩容，直接导致调度人员的工作量上浮，对于日常工作，指挥下令的操作更为频繁，目前调度电话录音每月数量已经接近万条，平均下来每一天都有三、四百条录音文件产生，其中正规调度下令录音占约2/5，目前针对录音内容，采用人工逐一收听的办法来判定录音内容是否规范，下令是否正确。通过人工抽检测听的方式，无法全面有效地评价调度质量，难以确保调度人员正确使用规定的调度术语且调度指令准确、无误；且人工抽检方式工作量大，效率低。

应用语音分析技术，将电网调度中心保存的非结构化的录音数据转为结构化的索引信息（文本结构），通过关键词检索、筛选、业务归类等处理及分析，建立声纹模型以及设定关键字，如拉开、闭合、下令等关键字眼，对调度流程规范进行自动确认和问题分析，大幅度提高质检效率和覆盖面，提升电网调度质量，降低运营成本，提高运营管理水平。

2.主要技术在调度录音分析的应用

2.1 调度录音预处理

输入的调度语音信号需要进行预处理，预处理过程的好坏在一定程度上影响系统的识别效果。在调度录音预处理过程中，采用文本相关的声纹识别技术。

语音转写（识别），是指将非结构化的语音文件转换为结构化的文本信息，是语音分析的核心功能。处理时将分离后的调度录音通过声学模型转换为汉语音标符号，再通过超大词汇网络的语言模型将音标信息识别为文本内容。

由于调度员的本地口音及中文自带的语调，必须优化声学模型和语言模型，以提升语音转写准确率。在具体实施过程中，采用识别词混淆网络（Word Confusion Network，WCN）作为文本分类器的输入，使用WCN中覆盖的词而不是只使用语音转写结果进行文本分类，提高对识别错误的鲁棒性。

2.2 调度录音索引及检索

目前，在调度录音中，同一个录音记录了调控人员和运行人员的全部对话。通过场景分割技术对两方通话内容进行分离，进而针对性对调度质量分别进行监控和分析，以识别问题发生点及问题内容。场景分割，是指对通话录音中的双方通话行为进行检测、切割和分离。经过预处理的调度录音经过场景分割，再进行下一步的进行索引与检索。

语音索引，是指将语音中包含的各类信息进行识别和归类，并形成方便查询统计的索过检测电话录音的基频、音高等变化幅度，预测情绪波动并定位其位置信息，分析出通话录音的平均语速以及语速变化，检出通话录音的静音时间等，生成标准XML格式的索引文件。索引内容包括：

调控人员语音和运行人员语音的文字转写结果，如果是双声道语音，则给出声道信息（关键词位于哪个声道）；通话的语音端点、语速等信息，主要包括调控人员和运行人员各自的每次说话的起止时间、语速（字/秒）、平均语速（字/秒）、异常情绪、静音时长等。

语音检索，是指从索引文件进行关键词信息的快速筛选，返回语音结果并进行自动统计。语音检索，支持逻辑组合检索、二次检索等功能。

在语音检索应用中，通过使用“拉开”、“闭合”、“下令”、“复诵”等关键字进行检索，可快速定位与关键字相关的录音信息，从而进一步进行人工筛选。

2.3 调度录音模型选取

在语音分析应用中，语音识别效果取决于声学模型和语言模型。声学模型方面，需要考虑人以及用户使用环境对语音的影响，建立了不同口音的声学模型和噪音处理的声学模型；语言模型方面，结合电力实际业务需要，通过对调度过程的分析，建立有针对性的业务语言模型。

中文为带调的语言，声学特征除传统的MFCC谱特征外，也使用代表调型的Pitch特征。一般调型的特征反映在韵母上，即一个韵母因为调型不同有4个单元。考虑到对于同一个韵母的4个单元，其MFCC特征是没有差异的；而对于不同韵母的同一个调，其Pitch特征也是很接近的。

双流模型：

采用双流声学模型建模技术，将MFCC和Pitch特征分成两个流：在Tri-phone决策树聚类阶段，对于声母部分，每个音素建一棵决策树；对于韵母部分，在MFCC流同一个音素不同调建一棵决策树，在Pitch流同一个调不同音素建一棵决策树。这种建模方式，大大降低了带调韵母需要的模型复杂度，也改善声学模型的精度。

区分性训练：

在最大似然（Maximum Likelihood，ML）模型训练准则基础上，将最小音素错误（Minimum Phone Error，MPE）模型训练准则应用于中英文混合双流声学模型的训练，关键在于中英文混合模型MPE训练生成竞争空间时语言模型的选择。

训练数据，分成纯中文、纯英文、中英文混合3个部分：纯中文数据，采用中文Uni-gram语言模型、纯英文数据采用英文Uni-gram语言模型；中英文混合数据，采用中文Uni-gram与英文Uni-gram进行插值后的语言模型，采用3部分数据进行MPE训练后，声学模型的识别率得到显著提高。

2.4 调度录音声纹识别模式匹配

声纹识别技术的关键在于对各种声学特征参数进行处理，并确定模式匹配方法[3]，主要模式匹配的方法有：概率统计法、动态时间规整法（DTW）、矢量量化法（VQ）、隐马尔可夫模型法（HMM）、人工神经网络法（ANN）、支持向量机法（SVM）、融合方法等。

本文旨在高效准确的匹配出目标调度录音，并对调度录音进行进一步人工分析判断，因此只要选取合适的模型对原始调度录音进行模式匹配，再依靠关键词检索成功即可。识别率及关键词检索正确率是进行语音分析的根本和核心的前置条件，经测试，关键词检索正确率约为83%，实际应用环境中智能语音分析应用系统具有弹性的置信度策略，可根据不同的业务场景和应用需求综合调试设置信度阀值，从而达到最好的应用效果。

3.结语

调度录音声纹识别技术的应用，使得调度录音在先期处理过程中更加全面、高效、智能、准确，大幅度提高调度录音质检效率和覆盖面。通过对调度下令不规范、用语不真切的不良习惯不断进行整改，提升电网调度下令水平，从而提高电网运行稳定性。

参考文献

[1]杨阳，陈永明.声纹识别技术及应用[J].电声技术，2007， 31（2）：45-47.

[2]赵力.语音信号处理[M].机械工业出版社，2003.

[3]王涛，徐乃平.说话人识别及其应用的研究[J].微处理机，1997（4）：50-53.