基于词形分析的汉—维机器翻译性能分析

作者：浏览数：次关键词：词形机器翻译分析性能

摘要：隨着我国“一带一路”战略的推进，新疆应当充分发挥其区域优势，着力于打造丝绸之路经济带核心区，其中提高汉语 - 维吾尔语（汉-维）之间机器翻译的质量有着重要的现实意义。通过对低频维吾尔语词汇进行词干词缀分割进行了基于三种不同机器翻译系统的汉-维机器翻译对比实验。该方法不仅减少词汇表大小从而减轻未登录词（Out Of Vocabulary，OOV）问题，同时也大大提升了翻译结果。其中统计机器翻译结果提升最明显，比原始提升了3.29个BLEU值。

关键词：汉-维机器翻译；词干词缀；统计机器翻译；神经机器翻译；加强记忆翻译

中图分类号：TP391.2 文献标识码：A 文章编号：1009-3044（2018）11-0172-03

Morphological Analysis and its Effects in Chinese and Uyghur Machine Translation

Gulnigar MAHMUT，Parida TURSUN，Askar HAMDULLA

（Xinjiang University School of Information Science and Engineering， Urumqi 830046， China）

Abstract：As China"s "The Belt and Road" （B&R）strategy advances， Xinjiang should gives full play to its regional advantages and strives to create the core area of the Silk Road Economic Belt. Therefore， it is of great practical significance to improve the quality of machine translation between Chinese and Uyghur. In this paper， a comparison experiment of Chinese-Uyghur Machine Translation based on three different machine translation systems are carried out， by separating the stems and affixes of low-frequency Uyghur vocabulary. This method not only reduces the size of the vocabulary table and alleviates the problem of Out Of Vocabulary （OOV）， but also greatly enhances the translation result. Among them， statistical machine translation results are the most obvious， with 3.29 more BLEU scores than the original.

Key words：Chinese and Uyghur Machine Translation； steam affix； Statistical Machine Translation； Neural Machine Translation； Memory augmented Neural Machine Translation

自2014年，神经机器翻译（Neural Machine Translation，NMT）作为一种新的机器翻译方法受到了广泛关注。神经机器翻译的核心思想是用一个神经网络（称之为编码器，Encoder）将源语言句子编码为一个稠密向量，然后再用另一个神经网络（称之为解码器，Decoder）把该向量表示转化为目标语言句子。基于长短时记忆（Long Short Term Memory，LSTM）的循环神经网络（Recurrent Neural Network，RNN）能够有效处理长距离依赖，相比于传统的统计机器翻译（Statistical Machine Translation，SMT），有效缓解了数据稀疏问题。因此NMT的翻译性能在很多语言对上明显优于SMT。然而，NMT高度依赖大规模高质量的双语数据。目前，像英语、汉语等大语种语料库的建设已经比较成熟，而像维吾尔语这样的小语种可用语言资源较少。

随着国家“一带一路”战略的深入，针对汉-维的机器翻译也成了一个热点问题。研究汉-维间机器翻译具有重要的经济价值，社会价值和理论价值。

1 相关工作

在众多研究者们的共同努力下，汉-维机器翻译的准确率在不断提升。针对从维吾尔语到汉语的翻译，Kong J等人提出了一种使用指针（pointers）的神经机器翻译方法来处理罕见词（rare words）和未登录词（unknown words，UNK），并且该方法可用于所有的神经机器翻译[1]。哈里旦木等人从词粒度层面出发，首次将6种不同的神经机器翻译方法用在同一个语料库，即维-汉语料库上进行了对比分析。该研究对维-汉NMT的进一步研究有很重要的参考意义[2]。针对汉语到维吾尔语的翻译，目标端为黏着语带来的挑战导致相关研究较少。米莉万等人在论文[3]中利用Cherio搭建了一个基于层次短语的汉维统计机器翻译系统，分析探讨了不同粒度对汉维统计机器翻译系统的影响；在文献[4]中依据维吾尔语黏着性提出了一种基于有向图的维吾尔语“词干-词缀”语言模型。Zhang S等人采用记忆加强（memory-augmented）的方式进行了汉-维、维-汉机器翻译，实验结果显示汉-维翻译BLEU得分不如维-汉翻译。可见汉-维机器翻译需要进一步研究和发展。

本文先分析了维吾尔语的特点和汉-维机器翻译的难点。之后，分别以词粒度语料和维吾尔语端词干词缀分开的语料进行了基于短语的机器翻译（Phrase-based machine translation，PBMT），神经机器翻译（NMT）和加强记忆的神经机器翻译（Memory-augmented NMT，M-NMT）实验。实验结果表明词干词缀分开翻译的方法能够有效提升翻译结果。

2 相关背景

2.1 汉-维机器翻译的难点

汉语和维吾尔语构词及句法结构上的差异，一方面给汉-维间机器翻译带来挑战，同时使汉-维间的机器翻译的研究变得更有意义：

1）汉语属于汉藏语系，是孤立语，基本没有形态变化。维吾尔语属于阿尔泰语系，是黏着语，可以通过在词干后附加词缀的方式构成新词，存在比较丰富形态变化，如表1所示，相同的词干“学校”由于追加了不同的词缀便有了不同的含义；

2）维吾尔语在理论上存在无限词表而缺乏可用数据，无论是统计模型还是神经网络模型都依赖大规模数据集，因此容易面临数据稀疏问题；

3）汉语的句法结构是主-谓-宾，而维吾尔语的是主-宾-谓，这会增加词对齐难度；

4）另外，由于NMT解码器的计算复杂度非常高，考虑到计算量，会对词汇表大小进行限制，尤其目标段词汇，3-5万为宜。这就导致在译文中经常出现未知词（unknown words，UNK）。汉语到维吾尔语的机器翻译更容易出现这个问题。

2.2 统计机器翻译

统计机器翻译实验，我们是用了现如今相对成熟的、主流的基于短语的机器翻译（PBMT）。值得一提的是，这里的“短语”并不是语言学上的短语，而是任何连续的词串。模型的基本思想是：训练阶段从平行语料中自动抽取从源语言到目标语言的翻译规则及概率，翻译阶段进一步获得到源语言和目标语言短语，最后借助语言模型和短语重排序模型对目标语言短语进行重排序获得最佳译文。

我们借助当前最先进的统计机器翻译系统Moses进行PBMT实验。Moses包括数据与处理，訓练语言模型和翻译模型以及进行BLEU评估所有的组件，是基线系统的最佳选择。我们用这个系统不仅要与其余两个系统的性能进行比较，也用于检查我们平行语料库的质量。

2.3 神经机器翻译

神经机器翻译（NMT）我们用了加了注意力机制（attention）的端到端的神经网络模型。该模型最初由Bahdanau等人提出，是将attention机制用到自然语言处理领域[6]。模型简单的工作原理是：Encoder获取源端词对应的语义向量；Decoder在生成目标词时，首先借助attention机制计算当前译文与源端哪些位置的词有关从而得到源端的上下文表示，最后用这上下文表示预测当前译文的概率[7]。实验结果表明该模型在长句上更有优势，能明显提升BLEU得分。

我们在本文中用到的模型是Feng Y等人将上述模型由原来的theano移植到tensorflow，并在不影响性能的情况下减少了参数提升了模型效率[8]。

2.4 加强记忆的神经机器翻译

加强记忆的神经机器翻译（M-NMT）是Zhang S等人提出的模型[8]。该模型包括两部分：一个是典型的基于attention的NMT模块；另一个是记忆（memory）模块。最终的结果是由两个部分的输出组合而成。简单的工作原理如下：首先，模型中的全局记忆（global memory）是用来记录源端词对应的多个可能译文，这里的global memory是由SMT的词表中获得而来；其次，基于每一个输入句子中的源端词从全局记忆中动态地选择合适的元素形成局部记忆（local memory）；接下来，像NMT一样选取可能性最高的译文；最后，在局部记忆中，一个目标词可能对应多个源词。

M-NMT模型解决了几个问题。一、来自SMT的单词表可能包含不合理的映射，因此他们先除去不可靠的映射；二、他们提出的合并（merge）操作，尽可能节省内存并加载更多的目标词；三、可以联合训练记忆模块和神经模型模块，他们先训练神经模型模块并保持不变，然后再训练记忆模块，这样分步进行避免了内存不足和过拟合。

3 实验数据及设计

3.1 实验数据

在本文中，我们使用自己收集的汉-维平行语料库，总共包含179945个句子对。虽然我们的语料库中数据量不是很多，但经过我们自动的拼写错误检查和纠正和多次人工检查，语料的质量得到了一定的保障，以保证翻译实验结果尽可能真实地反映系统在汉-维翻译中的性能。

将整个语料库如表2进行划分，其中训练集（Training set）用于训练翻译模型，开发集（Development set）用于调整模型参数，测试集（Test set）用于测试模型。语料库中的每个源句子（汉语）只对应一个参考译文（维吾尔语）。

将目标端维吾尔语单词切分成“词干词缀”形式，再统计如表3所示，可以看到虽然目标端总单词量（words）增加了很多，但是训练集词汇（unique words）大小减少为原来的三分之一，开发集和测试集词汇大小减少为原来的一半。

另外，我们对源端词汇（汉语）用jieba分词工具进行了分词。并将目标端词汇（维吾尔语）转换成拉丁字母表示。翻译结果用BLEU值来衡量。

3.2 实验设置和结果

PBMT：因为是基线系统，就按系统的默认设置进行试验：1）数据的预处理，由于已经进行分词，直接进行包括特殊字符替换和长句子过滤等操作（本实验将句子长度设置为50）；2）用SRILM工具来训练5元（5-gram）语言模型；3）训练翻译模型模，词对齐用GIZA++进行；4）调试（Tunning）翻译模型；5）解码并测试翻译模型。

NMT：我们的实验设置基本与论文[6]中一致，唯一区别是最大更新次数仅为30万次（约为原来的三分之一）。值得说明的是，当词汇表大小设置为3万，原始训练数据，源端词汇表覆盖了93.6%训练语料而目标端覆盖了92.0%；而切分后由于切分后句子长度增加了不少，加大了计算复杂度，不得不将词汇表大小变为原来的一般，即1.5万。这时，源端词汇表覆盖了88.7%训练语料而目标端则覆盖了99.5%。

M-NMT：该实验是在SMT和NMT实验的基础上进行的，因此这三种实验的数据和参数都要相互对接才能得出实验结果。上述所有的实验结果的BLEU得分如表4所示。

先看原始（未被切分）的实验结果，即左边的一列，由于数据质量较好，因此BLEU得分PBMT

再看词干切分成“词干词缀”后的实验结果，即右侧一列，却是NMT

最后对比左右两列可见，在PBMT实验中，切分后的BLEU得分明显高于原始的（高了3.29），并且切分后的PBMT实验的BLEU得分高于原始数据M-NMT试验的，这些都说明通过对维吾尔语词汇进行部分切分来减少词汇大小的方法是有效的。

3.3 实验结果分析与结论

汉-维机器翻译是一项艰巨的任务。这是由于汉语和维吾尔语在形态和句法结构上的差异性以及维吾尔语本身的复杂性。PBMT方法是目前在维吾尔语MT中最常用的方法。随着语料库构建及深度学习的发展，维吾尔语在NMT上的表现也越来越好。

在本文中，我们首先简要介绍了维吾尔MT尤其是汉-维MT的难点以及用到的三种MT框架。然后用我们自己收集的数据进行了汉-维MT对比实验，并对实验结果进行分析。经过初步实验，一方面，我们对汉-维MT有了更好的认识：由于维吾尔语的黏着性，词缀对其有很大的影响，对维吾尔语词干切分进行更小粒度的实验，不失为解决一直以来的数据稀疏问题的一个好方法。同时，我们也得到的基线系统。将来我们着重进行如下几个工作：1）继续扩大汉-维平行语料库的规模并提高其质量；2）进行基于词，子词和词素不同粒度翻译实验，找到最合适的切分阈值；3）进一步提高维吾尔语词干切分的准确度。

参考文献：

[1] Kong J， Yang Y， Zhou X， et al. Research for Uyghur-Chinese Neural Machine Translation[M]// Natural Language Understanding and Intelligent Applications. Springer International Publishing， 2016.

[2] 哈里旦木·阿布都克里木，刘洋，孙茂松. 神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J]. 清华大学学报（自然科学版）， 2017， 57（8）： 878-883.

[3] 米莉萬·雪合来提，麦热哈巴·艾力，吐尔根·依布拉音，等. 维吾尔语词尾对汉维统计机器翻译影响的研究[J]. 计算机工程， 2014， 40（3）：224-227.

[4] 米莉万·雪合来提，刘凯，吐尔根·依布拉音. 基于维吾尔语词干词缀粒度的汉维机器翻译[J]. 中文信息学报， 2015， 29（03）：201-206.

[5] Zhang S， Mahmut G， Wang D， et al. Memory-augmented Chinese-Uyghur Neural Machine Translation[J]. 2017.

[6] Bahdanau D， Cho K， Bengio Y. Neural machine translation by jointly learning to align and translate. Computer Science，2014.

[7] 张家俊，宗成庆. 中文信息处理发展报告：机器翻译[R]. 中国中文信息学会，2016.

[8] Feng Y， Zhang S， Zhang A， et al. Memory-augmented Neural Machine Translation[J]. 2017.