基于发音特征的汉语声调建模方法及其在汉语语音识别中的应用

作者：浏览数：次关键词：汉语声调建模发音特征

摘要：

发音特征表征了语音的发音方式信息，能够辅助传统的韵律特征改善声调建模的精度。在分析汉语声韵母发音特点的基础上，将发音方式划分为19类，并提出利用阶层式多层感知器计算语音信号属于各类的后验概率，作为发音特征。之后，将发音特征与传统的韵律特征一起用于声调建模。实验结果显示，加入发音特征后，在三种不同的建模方法下声调识别的准确率提升约5%。将声调模型融入大词表连续语音识别系统后，汉字错误率有了明显的下降。

关键词：语音识别；声调建模；发音特征；阶层式多层感知机分类器

0 引言

与英语等西方国家语言不同，汉语是一种带声调的语言。声调对于汉语的语音识别具有重要的作用。尤其是待识别音节的发音相同或者相似时，传统的语音识别系统会产生更多识别错误。但是，对于发音相同或相似的音节，声调能够提供重要的区分性信息，从而辅助语音识别系统达到更好的识别效果。声调对于音节的区分主要体现在两方面：其一，在汉语中，不同的汉字会对应相同的发音，对于具有相同音节的不同汉字，声调是区分它们的唯一属性；其二，即使对应不同的音节，大量汉字的发音之间仍很相近。例如，汉字对应的音节包含了声母、韵母两部分，当音节中声母部分不同而韵母部分相同时，声调信息也是区分这些音节的重要属性。汉语语音识别实验表明，以上两种情况下，传统的语音识别方法对相同或相似的音节难以区分，导致识别结果中音节间的替换错误在全部错误中占了很大的比例。因此，在传统汉语语音识别的基础上，加入更具有区分性的声调信息，从而更准确地区分相同及相似的音节，对于提高汉语语音识别的准确率是十分必要的，也成为近些年来汉语语音识别领域里的研究热点[1-4]。

将声调信息应用到连续语音识别系统中时，按照声调模型与传统声学模型结合方法的不同，将声调建模划分为两种不同的方式：隐式的声调建模方式和显式的声调建模方式[3]。隐式的声调建模方式首先获取语音帧层面上的声调相关特征，然后将其与传统语音识别系统常用的谱特征一起用于模型训练以及语音识别。与隐式建模不同，显式的声调建模方式强调根据声调特征，训练独立于声学模型的声调模型。在语音识别过程中，声调模型的概率得分既可以在一遍搜索时加入路径的总得分中，也可以对生成的最优的N条路径（Nbest）进行重新打分，根据重打分的结果对Nbest列表重新排序。研究表明，由于声调的持续时间较长（一般等同于对应音节的时长），并且声调的模式主要跟对应音节的基频轮廓有关，因此，对声调单独建模能够更有效地利用声调的这种超音段信息[5]。与使用基于帧层次声调特征的隐式声调建模方式相比，显式的声调建模方式更有利于提高语音识别系统的性能。

显式的声调建模是将声调模型概率得分与传统声学概率得分加权后集成一起得到路径总得分。因此，为了提高连续语音识别系统的性能，一方面要对声调模型与声学模型的集成方法进行研究，另一方面还要对声调建模方法进行研究，使得声调模型本身的识别率足够高，从而能够起到纠正仅采用声学模型时产生的识别错误的作用。对于声调集成方法，文献[2]提出利用区分性训练的方式对声调集成时的声学模型权重系数和声调模型权重系数进行优化，取得了很好的效果；对于声调模型，许多研究人员提出了不同的建模方法，常用的声调模型有隐马尔可夫模型（Hidden Markov Model， HMM）[6]、人工神经网络[7]、决策树分类器[8]和支持向量机（Support Vector Machine， SVM）[9]，以及最近提出的基于最大熵方法[10]和基于条件随机场[11]的声调建模方法等。

在特征选择方面，声调建模方法大都采用基频的轮廓信息。但是，基频的轮廓容易因上下文的影响而改变，同时也会随着发音单元自身发音方式的不同而变化。对于第一个问题，研究人员提出上下文相关的声调模型来减少协同发音现象对基频轮廓的影响[12]；对于第二个问题，相关的研究工作还比较少，文献[13]以梅尔频率倒谱系数（MelFrequency Cepstral Coefficient，MFCC）、基频及其一阶差分为特征，建立了基于HMM的发音单元相关的声调模型。对于同一种声调，如果发音单元不同，则建立不同的声调模型。这种声调模型实际上可以看作是带声调的声学模型。这种声调模型虽然在解决发音方式对基频的影响问题上取得了较好的效果，但也存在一些不足之处：首先，这种声调模型的数量较多，特别是当发音单元采用上下文相关的结构时，需要训练的声调模型数目的量级更是达到了105，增加了模型训练的复杂度；其次，由于模型结构与一般的基于HMM的声学模型基本相同，所用特征的维数也超过了10维，所以算法的时间复杂度较高；最后，这种声调建模方法与隐式的声调建模类似，都是把频谱特征和基频特征连接一起组成一个特征矢量，由于频谱特征的维数通常大于基频特征的维数，导致基频的对发音相同或相似的音节的区分性不突出，所以对于发生识别错误的发音单元的纠正作用并不明显，也不利于将此类模型显式地融入大词汇量连续语音识别（Large Vocabulary Continuous Speech Recognition，LVSCR）系统。

本文主要讨论汉语音节中声韵母的发音方式对基频轮廓的影响，并通过建立声调模型刻画这种影响。在建立声调模型时，与传统方法中直接建立发音单元相关的声调模型不同，本文提出将声韵母的发音方式信息作为特征，称为发音特征，并将发音特征与韵律特征一起用于声调建模。实验表明，在不增加声调模型数量和不显著增加计算复杂度的情况下，声调模型的精度均有较大的提高。本文最后将提出的声调模型通过两遍解码的方式集成到汉语语音识别系统中，汉字的相对错误率下降6.5%。结果表明，本文提出的显式的声调建模方法能够有效地刻画声韵母的发音方式对基频轮廓的影响，并通过与传统声学模型的融合，对传统汉语语音识别系统中仅采用声学模型时的识别效果具有明显改善作用。