论文(设计)基于短语模板对齐的统计机器翻译系统.doc
基于短语模板对齐的统计机器翻译系统 基金项目:国家自然科学基金项目(项目号:60272041) 作者简介:杨振东(1978),男,博士生,主要研究方向为统计机器翻译。杨振东 庞薇 魏玮 杜金华 陈振标 宗成庆zdyang(中国科学院 自动化研究所 高技术创新中心, 北京 100080)摘要:论文提出了一种基于短语模板对齐的机器翻译系统。系统采用基于短语模板对齐的翻译模型替代原始基于词的模型,提出了计算短语模板翻译概率的方法,改进了先前单纯基于短语的搜索算法和回溯方法,解码时引入繁衍度为0且出现频率高的词,使翻译结果更合理。论文进行了一系列实验,介绍了05年863评测,证明本系统翻译结果的Bleu得分比原来的系统有了显著提高。关键词:统计机器翻译; 翻译模型; 搜索算法中图分类号:T391.2 The Phrase-Template Alignment Based Statistical Machine Translation Yang Zhendong, Pang Wei, Wei Wei, Du Jinhua, Chen Zhenbiao, Zong Chengqing(Hi-tech Innovation Center, Institute of Automation, Chinese Academy of Science, Beijing 100080, China)Abstract:In this paper we propose a phrase-template alignment based translation system. In the system, we use phrase-template translation model instead of word-based model. An improved method to compute phrase-template translation probability is studied. A phrase-template based decoder we developed employs a beam search algorithm, in which some target language words that have both high frequency of appearance and also fertility zero are introduced to make the result more reasonable. We improve the previously proposed tracing back algorithm to get the best path. Some experiments concerned are presented.Key words: statistical machine translation; translation model; searching algorithm1 简介统计机器翻译是大词汇量文本翻译最有效的方法之一,90年代早期,IBM开发了Candide系统 1,在此启发之下,出现了很多的统计机器翻译系统23,这些系统有三部分核心技术:翻译模型,语言模型,搜索算法。基本原理是:以翻译模型制约源语言与目标语言之间词的对应,结合目标语言模型来驱动搜索进行。近年来,开发者不断研究,翻译系统从原始的基于词的翻译模型发展到更复杂的模型,基于对齐模板4和基于短语的翻译模型及相应的搜索算法被提出56,当前很多高效的翻译系统是基于短语的统计机器翻译系统。我们的系统是在基于短语的翻译模型中引入模板的思想,构成了一种基于短语模板对齐的中英翻译系统。系统提出了一种结合对位信息和出现频率来计算短语模板翻译概率的方法,根据汉语与英语表达方式的不同,在搜索算法上改进了原来的柱搜索算法7,引入了繁衍度为零且出现频率较高的词的信息,并改进了回溯算法,由于翻译的质量很大程度上依赖于短语模板对的抽取,文章的第2部分研究了短语模板的定义,短语模板对的提取方法及翻译概率的计算,第3部分主要介绍了改进的搜索算法,第4部分讨论了一系列中文到英文的翻译实验,探讨了不同短语模板抽取方法及改进的搜索算法的效果,文章的第5部分进行了总结。2 基于短语模板的翻译模型2.1 短语模板原短语 短语模板9点到达#get at 9 TIMP_到达#get at timp_从北京到上海#from Beijing to Shanghai 从LOC_到LOC_#from loc_ to loc_图1 短语模板在计算翻译模型概率与语言模型概率时不可避免的会遇到数据稀疏问题,为此当构成短语对的双方同时出现表示命名实体或数字的词时,用规定的代表这一类词的变量来代替,这样就使原来的短语具有了泛化能力,也从一定程度上解决了数据稀疏问题,我们把含有变量的短语称为短语模板,这样不含变量的短语只是短语模板中的特例。例如把中文中表示时间和地点的词分别用TIMP_和LOC_代替,英文中用timp_和loc_代替(如图1),就形成了与有关时间和地点的短语模板。与原始的IBM基于词的翻译模型不同,系统的翻译模型是基于短语模板的,这里的短语模板是一系列的词或者变量组成的整体,可以不具有明确的语法或者语义的意义,短语模板对也就是由源语言和相应的目标语言短语模板构成,而单个的词也可看作一个短语模板,这样就扩展了原始的IBM翻译模型。2.2短语模板的提取提取短语模板之前先把训练语料双语句子对中表示命名实体或数字的词用规定变量符号代替,如2.1所述,再进行短语模板抽取。抽取短语模板对有多种方法,这些方法大多是依靠句子对中词与词的对齐来实现,系统研究了四种提取中-英短语模板对的方法,如下所述:2.2.1 直接提取直接提取是一种最粗糙的方法,我们直接利用IBM翻译模型4进行词的对齐,在此基础之上提取短语模板翻译对。如在双语句子对中提取短语模板翻译对,=,为组成的词,根据IBM翻译模型4,中的每一个词都可以在对应的目标语言句子中找到对应的词,并可得到在句子中位置序号,如果有多个目标语言词与其对应,可根据IBM4翻译模型选择概率最大的一个。提出最小位置序号和最大位置序号之间的英文词组成的短语模板=,即为对应的英文短语模板。这种方法可能使提出的中英短语模板的长度差别很大,为此可设定长度或者概率的限制,使提取的短语模板更加合理。2.2.2 ISA( Integrated Segmentation and Phrase Alignment)方法提取句子对可用一个二维矩阵来表示,矩阵中每一个元素的值表示双语句子对中词与词之间的互信息,短语模板翻译对对应于矩阵中的一个矩形区域,在这个区域中,各个元素的值,即词对互信息值是近似的8。可用贪婪算法提取出双语句子对中的所有的短语模板对。2.2.3 根据HMM对位模型提取提取短语模板对的一个简单的办法就是利用词对位模型,根据9中提出的基于HMM的对位模型,对于某个覆盖了源语言句子位置到短语模板,我们可在目标语言句子中得出相应词的起始和结束位置序号,提取出其中的词就组成了相应的目标语言短语模板,类似于直接提取的方法,可设定长度或者概率的限制使提取结果更加合理。2.2.4 Giza+提取Giza+工具在训练双语语料时可获得基于词的翻译模型,同时也得出了词的对齐信息。在用Giza+工具得出双向对位的基础上,可以用不同的启发函数改进对位,进而提取短语模板。系统采取的提取方法是:先得到双向对位的交集,然后再加入对齐范围内的某些词组成短语模板7。2.3 短语模板翻译概率如果单纯依靠短语模板出现频率计算翻译概率,则会带来概率区分度低的问题,为此CMU在IBM模型1的基础上,提出了如下的短语翻译概率计算公式: (1)但这种方法有一个缺点,当源语言短语模板中只要有一个词在相应的目标语言短语模板中没有合适的对应词的话,就会导致整个短语模板翻译概率很小,而中文短语模板中的很多的虚词或者助词使的这种情况很严重。为此,利用IBM模型4得出的对位信息,把翻译对中单个源语言词对多个目标语言词或多个源语言词对单个目标语言词隔离出来,形成一个小的短语模板块,这样原来的短语模板翻译对就可看成几个小的翻译对的组合。公式变为: (2)i表示分成的小的短语模板块的序号,k表示第i 个块包含的词的序号,j表示翻译对包含的目标语言词的序号,表示第i 个短语块包含的词的数目。我们把两种方法结合,并以短语模板对出现频率进行调节,这样短语模板翻译概率计算公式为: (3)其中,、分别是公式(1)和(2)得出的结果,表示此短语模板出现的频率。3 解码算法解码的过程可分为两步:首先对输入文本生成相应的短语模板,这是为搜索做准备工作,然后是搜索解码,在这个过程中综合考虑翻译模型得分,语言模型得分,扭曲得分,句长模型得分等,最后回溯得出结果,下面分别介绍。3.1 数字处理模块在翻译的过程中,经常会出现数字,对中文相对简单的数词表达方式来说,英文表达就显得丰富的多。在我们的系统中,数词翻译单独形成了模块。 我们从训练语料中提取总结了数词翻译的方式,分别是:单纯表示数字的数词,如表示房间号码、电话号码、整数、年份的词直接把数字当成翻译输出;如果数词和其他词一起单独成词,数字在这里只是代表了一种顺序,在翻译上已经完全看不到英文数词的影子,比如星期一、三月、第一等,这些按照总结的规则进行。这样在我们的翻译系统中既结合了摸板的方法,又部分的结合了规则的方法,形成了几种方法的统一。3.2 翻译侯选通过上面介绍的提取方法,对训练语料进行短语模板提取,可得到短语模板表,对于某个输入文本,按前述把可能含有的表示时间、地点、人物、组织名、数字等的词进行替换处理,再通过查询短语模板表便可得出有关的短语模板,对应于每一个输入的源语言短语模板,一般都有一系列的目标短语模板与之对应,每一个称为一个翻译候选7,与翻译候选相关的源语言短语模板、目标语言短语模板、翻译概率等信息在解码真正开始之前先存储起来。3.3 搜索算法我们的系统采用的搜索算法类似于7中的柱搜索算法,但考虑到表达习惯的不同,当把中文翻译成英文时某些词必须被补充,象某些冠词如a、an、 the,某些介词如of、at等,这些词出现频率很高,在短语模板提取时又很难提取出来,在IBM模型4中,这些词被称为繁衍度为零的词,它们对应于源语言中的空单词NULL,我们把这些繁衍度为零且出现频率高的词称为 F-zeroword。这样当搜索生成状态(输入文本中的某个短语模板与其对应)时,在其后可插入F-zeroword,相当于在被翻译的源语言短语模板后插入了一个空单词NULL。又因为中文翻译成英文时某些词可能是不需要翻译的,回溯时,与7中从最后一个栈中寻找最优路径不同,我们根据输入文本句长从最后的某几个栈中根据概率得分寻找,搜索算法的具体描述如下:搜索开始先生成初始状态。有两种生成方法:一种生成空状态,也就是对应于这种状态既没有目标短语模板输出,也没有源语言短语模板被翻译;另一种初始状态是生成F-zeroword,这相当于在文本的开头加了一个空单词NULL。C: 我 P: 0.91E: IC: 吃饭 P:E: have dinner C:NULL P:E: F-zeroWordC:想 P:E: think初始状态 C:想去 P: E: want toC:NULL P:E: F-zeroWord已经生成的状态按照如下原理进行扩展得出新状态:如果对应于当前状态的目标语言短语模板是F-zeroword,那么未被翻译的某个源语言短语模板及相应的某个翻译候选被选择出,生成一个新状态;如果当前状态的目标语言短语模板不是F-zeroword,扩展时有两种选择,一种是按前述方法扩展,另一种是生成目标语言短语模板是F-zeroword的状态,也就是相当于在当前被翻译的源语言短语模板后加入一个空单词NULL。状态扩展的原理示例如图2所示。图2 状态扩展原理图示 C 、E和P分别表示源语言短语模板、目标语言短语模板和相应的翻译概率,例中输入句子:我想去吃饭。所有状态根据已经翻译输入文本中单词的数目存入不同的堆栈中。如果状态的目标语言短语模板不是F-zeroword,并且至此已经翻译了p个源语言词,则此状态存储于奇数堆栈S2p-1中,而偶数堆栈S2p存储目标语言短语模板是F-zeroword且至此已经翻译了p个源语言词的状态。由于存储空间和搜索速度的需要,必须进行状态的合并和裁减,我们用10中的方法进行状态的合并,即如果两个状态对应的已经翻译的源语言词完全相同,最后生成的两个目标语言词相同(3-gram),当前翻译的最后一个源语言词在输入文本中的位置相同时,取概率较大状态而舍弃概率较小的状态,状态合并对于最后的输出结果没有不利影响。状态裁减时需要同时考虑目前得分和未来得分,未来得分是对输入文本未翻译的短语模板的翻译模型得分及语言模型得分的预测,未来得分的计算方法类似于7中的计算方法。生成状态的累积得分由原来状态的得分与当前被翻译的短语模板的翻译概率、语言模型概率、扭曲模型概率、长度模型概率相乘得到。系统采用3-gram语言模型,系统扭曲模型按下式进行计算:=|1 |,表示当前第i个状态对应的源语言短语模板的第一个词在句子中的位置,表示第i-1个状态对应的源语言短语模板的最后一个词在句子中的位置。 继续进行状态扩展,直到覆盖了源语言句子的所有词。回溯时不同于7中从最后一个堆栈中寻找最优路径,我们综合考虑状态的当前得分与未来得分,根据输入句长在最后几个堆栈中选取得分最高的状态,这个状态即为最优路径的最后一个状态,由此回溯出整个最优路径,从而得出输出结果。这时的输出结果中可能含有变量,如果是数字变量按照数字处理模块的方法进行翻译,如果是表示其它的变量,则在相应的库中找到变量对应的目标语言词进行替换,这样就生成了输出结果。4 实验 我们进行了一系列中文到英文的翻译实验来研究本系统的效果,采用包含13万句子对的双语语料库作为翻译模型训练语料,13万英语句子组成语言模型训练集,比较不同的短语模板提取方法(4.1)、不同的回溯方法(4.3)及F-zeroword在翻译中的作用(4.4),包含93万句子对的语料库作为训练集来研究源翻译候选的最大数目对结果产生的影响(4.5),以上实验的测试集由句长5-20个词的1000个句子组成,还在2003年、2004年863中-英机器翻译测试集上研究了短语模板对翻译的影响(4.2),4.6具体介绍了2005年863评测的情况,下面分别介绍。4.1 比较短语模板提取方法表1 短语模板提取方法方法抽取短语模板对数目Bleu(4-gram)EDM1948020.2683ISA1870110.2751HMM2787700.2637Giza+6954860.2882以上方法组合10770490.2887 表4MethodsBleu(4-gram)翻译时间G+F0+back1_sortall0.3418126 分钟G+F0+back1_sort1000.345240 分钟G+F0+back1_sort1500.344654分钟G+F0+back1_sort2000.342364分钟G+F0+back1_sort500.336623分钟通过实验比较上面提到的四种提取短语模板的方法:利用IBM模型4进行直接提取(EDM),利用HMM对位模型提取(HMM),短语切分对位方法(ISA),Giza+工具提取(Giza+)及四种方法的组合。表1描述了结果。从表中可看出:每种方法都得出了不同的短语模板数目和翻译结果。ISA提取的数量最少,表中的EDM只抽取了由两个或者三个词组成的源语言短语模板,但EDM与HMM翻译结果几乎相同,ISA的Bleu得分略高一些,Giza+提取出了最多数量的短语模板,且翻译结果的Bleu得分是四种方法中最高的,而把几种方法组合得出了更好一些的翻译结果。4.2 短语模板的作用为了检验短语模板的作用,我们用Giza+提取短语模板的方法,150万句子对组成翻译模型的训练集,150万英语句子组成语言模型训练集,在2004年和2003年863对话测试集上进行实验,两年的测试集是由400个左右的句子组成,是关于日常生活和体育领域的,得出的实验结果如图3。表中N_template表示单纯进行短语对提取,没进行含有变量的短语模板提取,+template表示加入带变量的模板,由实验结果可看出,模板加入后,04年的863Bleu得分从0.225上升到0.251,提高了0.026,2003年863的Bleu得分从0.301上升到0.331,提高了0.030。这说明短语模板的引入使的原来的短语具有了泛化能力,减弱了数据稀疏带来的不利影响,提高了翻译质量。4.3 比较不同的回溯方法我们实验证明了系统中所采用回溯方法的有效性,我们把7中的回溯方法记为back2,本系统提出的回溯方法记为back1,训练集与测试集与4.1相同,结果见表2。表2 回溯方法的效果及F-zeroword的作用提取短语模板方法Bleu (4-gram) M+NF0+back20.1833M+NF0+back10.1919M+F0+back20.2372M+F0+back10.2663(Giza+)+NF0+back20.2730(Giza+)+NF0+back10.2864(Giza+)+F0+back20.2763(Giza+)+F0+back10.2882EDM+NF0+back10.1978EDM+F0+back10.2683表2中M表示基于词的翻译模型,+NF0表示搜索进行状态扩展时没有引入F-zeroword,也就是7中的状态扩展方法,+F0表示引入了F-zeroword,也就是本系统的状态扩展方法。由表中可见使用back2且没有引入F-zeroword的基于词的翻译系统Bleu得分最低,当使用本系统的回溯方法back1时,Bleu得分从0.1833上升到 0.1919,提高了0.0086。当F-zeroword被引入后,翻译结果的Bleu得分增加的更加明显,从0.2372 上升到 0.2663。同样的结论适用于基于短语模板对齐的翻译系统,当以Giza+方法提取短语模板时,无论状态扩展时是否引入F-zeroword,由于back1的使用使Bleu得分都有了不同程度的提高,这说明了汉语翻译成英语时,表达方式的不同使的文本中的某些词不需要翻译,回溯方法back1要优于back2。4.4 F-zeroword 的作用从表2可以看出,基于词的翻译系统引入F-zeroword,回溯时采用back1时,Bleu得分由0.1919 急剧上升到 0.2663,也就是提高了0.0744,采用back2时,Bleu得分提高了0.0539,这表明属于F-zeroword的某些冠词、介词在翻译模型、语言模型、扭曲模型等的共同驱动下,在搜索时被补充到了最后输出结果中,使得结果更加合理。当在基于短语模板对齐的翻译系统中采用直接提取短语模板方法,可得出同样的结论,但当采用Giza+的方法提取时,结果的Bleu得分几乎保持不变,这是因为随着提取方法的改进,提取模板时一些介词、冠词已经被抽出,弥补了F-zeroword的作用。4.5 翻译候选的选择数目对翻译结果的影响表3翻译候选的数目对翻译结果的影响MethodsBleu(4-gram)翻译时间G+F0+back1_sortall0.3418126 分钟G+F0+back1_sort1000.345240 分钟G+F0+back1_sort1500.344654分钟G+F0+back1_sort2000.342364分钟G+F0+back1_sort500.336623分钟另一个改进搜索速度的方法是选择合适的对应每个源语言短语模板的翻译候选数目,93万句子对组成翻译模型训练集,其中的英语句子组成语言模型训练集,在与4.1相同的测试集上进行实验,表3描述了实验结果。表3中,_sortn表示为每个源语言短语模板最多选择n个概率最高的翻译候选,本实验中当选择100个候选时较合适,Bleu得分从0.3418提高到 0.3452,而所用时间从126分钟减少到 45 分钟,也就是既得到了较好结果,又加快了翻译速度。4.6 863评测实验我们以192万有关日常对话的双语句子对组成翻译模型的训练集,330万英语句子组成语言模型训练集,在05年的对话测试集上进行实验;以117万有关新闻领域的双语句子对组成翻译模型的训练集,240万英语句子组成语言模型训练集, 05年的篇章测试集上进行实验,本系统采取了Giza+提取短语模板的方法,解码及回溯等采用了论文所述的算法,实验结果如表4所示。表4 2005年863中-英翻译评测提取短语模板对数目NISTBLEUGTMmWERmPERAdeqFleu05年对话79980005.92160.18140.64780.71340.551450.4257.1605年篇章55250005.79060.11880.64630.83070.593637.3339.335 结论论文介绍了一种基于短语模板对齐的翻译系统,系统通过把模板的概念引入短语,使某些短语具有了泛化能力,研究了几种短语模板提取的方法,短语模板翻译概率的计算,改进的搜索算法及回溯的方法。通过实验证明了基于短语模板对齐的翻译系统优于传统的基于词的系统,与单纯基于短语的翻译系统相比,系统引入短语模板部分的解决了数据稀疏问题,使原来的短语具有了泛化能力,翻译结果的Blue得分有了显著的提高,搜索时引入F-zeroword通常会使输出结果更加合理,本系统的回溯方法在中-英的翻译中更有效,而选择合适的翻译候选数目会达到翻译质量与翻译速度的平衡。虽然我们探讨了四种短语模板提取的方法,但在实验时我们发现较好的翻译候选通过公式计算得出的翻译概率未必很高,这需要我们继续研究翻译模型的概率计算方法,也是我们下一步的工作。参考文献: 1 Peter F. Brown , Stephen A. Della Pietra, et al. The Mathematics of Statistical Machine Translation: Parameter EstimationJ. Computational Linguistics, ,1993, vol. 19, no. 2, pp. 263-311.2 Yeyi Wang and Alex Waibel. Fast Decoding for Statistical Machine TranslationA. Proc. ICSLP 98C, Vol. 6,pp.2775-2778,19983 F. J. Och and H. Ney. Improved Statistical Alignment ModelA. Proceeding of ACL-00C,PP. 440-447,2000.4Och,F.J. ,Tillmann,C. ,Ney,H. Improved alignment models for statistical machine translationA. Proc. of the Joint Conf. on Empirical Methods in Natural Language Processing and Very Large CorporaC, University of Maryland, College Park, MD (1999) 20-28.5 Yamada, K. and Knight. A Syntax-based Statistical Translation ModelA. In Proc. of the 39th Annual Meeting of ACLC, 20016 Stephan Vogel, Ying Zhang, Fei Huang, et al . The CMU Statistical Machine Translation SystemA. In proceedings of the Ninth Machine Translation SummitC. PP.110-117, New Orleans, Louisiana, 2003.7 Koehn, P. ,Och, F. J., and Marcu , D. Statistical Phrase-Based Translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics. 2003.8 Ying Zhang, Stephan Vogel and Alex Waibel. Integrated Phrase Segmentation and Alignment Model for Statistical Machine TranslationA. Submitted to Proc. of International Conference on Natural Language Processing and Knowledge Engineering(NLP-KE)C, 2003.9 Stephan Vogel, Hermann Ney, and Christoph Tillmann . HMM-based Word Alignment in Statistical TranslationA. in COLING96: The 16th Int. Conf. On Computational LinguisticsC,pp.836-841,Copenhagen,Denmark, 1996.10 Och, F. J., Ueffi ng, N., and Ney, H. An efficient A* search algorithm for statistical machine translationA. In Data-Driven MT WorkshopC. 2001.Editor's note: Judson Jones is a meteorologist, journalist and photographer. He has freelanced with CNN for four years, covering severe weather from tornadoes to typhoons. Follow him on Twitter: jnjonesjr (CNN) - I will always wonder what it was like to huddle around a shortwave radio and through the crackling static from space hear the faint beeps of the world's first satellite - Sputnik. I also missed watching Neil Armstrong step foot on the moon and the first space shuttle take off for the stars. Those events were way before my time.As a kid, I was fascinated with what goes on in the sky, and when NASA pulled the plug on the shuttle program I was heartbroken. Yet the privatized space race has renewed my childhood dreams to reach for the stars.As a meteorologist, I've still seen many important weather and space events, but right now, if you were sitting next to me, you'd hear my foot tapping rapidly under my desk. I'm anxious for the next one: a space capsule hanging from a crane in the New Mexico desert.It's like the set for a George Lucas movie floating to the edge of space.You and I will have the chance to watch a man take a leap into an unimaginable free fall from the edge of space - live.The (lack of) air up there Watch man jump from 96,000 feet Tuesday, I sat at work glued to the live stream of the Red Bull Stratos Mission. I watched the balloons positioned at different altitudes in the sky to test the winds, knowing that if they would just line up in a vertical straight line "we" would be go for launch.I feel this mission was created for me because I am also a journalist and a photographer, but above all I live for taking a leap of faith - the feeling of pushing the envelope into uncharted territory.The guy who is going to do this, Felix Baumgartner, must have that same feeling, at a level I will never reach. However, it did not stop me from feeling his pain when a gust of swirling wind kicked up and twisted the partially filled balloon that would take him to the upper end of our atmosphere. As soon as the 40-acre balloon, with skin no thicker than a dry cleaning bag, scraped the ground I knew it was over.How claustrophobia almost grounded supersonic skydiverWith each twist, you could see the wrinkles of disappointment on the face of the current record holder and "capcom" (capsule communications), Col. Joe Kittinger. He hung his head low in mission control as he told Baumgartner the disappointing news: Mission aborted.The supersonic descent could happen as early as Sunday.The weather plays an important role in this mission. Starting at the ground, conditions have to be very calm - winds less than 2 mph, with no precipitation or humidity and limited cloud cover. The balloon, with capsule attached, will move through the lower level of the atmosphere (the troposphere) where our day-to-day weather lives. It will climb higher than the tip of Mount Everest (5.5 miles/8.85 kilometers), drifting even higher than the cruising altitude of commercial airliners (5.6 miles/9.17 kilometers) and into the stratosphere. As he crosses the boundary layer (called the tropopause), he can expect a lot of turbulence.The balloon