双语平行语料库对齐技术述评.doc
《双语平行语料库对齐技术述评.doc》由会员分享,可在线阅读,更多相关《双语平行语料库对齐技术述评.doc(6页珍藏版)》请在三一办公上搜索。
1、双语平行语料库对齐技术述评 对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次。粒度越小,提供的语言信息就越多,应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译,句子之间并不都是一对一的翻译模式,还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度,特别是对更细粒度级别的对齐。由于语言之间存在着差异,找到固定的对应翻译很难,再加上文本预处理工具难以保证处理效果,以及一些电子文本的噪声纷繁复杂,这都增加了对齐的难度。而对于英汉两种差别很大的语言来说,目前的语料库对齐算法
2、并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术,然后分析了国内在对齐中所使用的技术,旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。 1 目前平行语料库对齐技术的现状 1.1 句子级对齐技术 在各级对齐研究中,其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种: 基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a); 基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993); 混合法(combination)(Tan
3、& Nagao, 1995; Wu,1994)。 基于长度的方法最早是由Brown和Gale提出,虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出,但其侧重点却不同。Brown的算法以词为单位计算句子的长度,而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验,准确率达9697%。然而该方法在处理复杂句子的对齐(如21或22的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时,准确率却并不高,而且此算法一旦出错,便不可能自动纠正。 基于词汇的方法是由Kay和Rosheisen提出的。
4、他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性,但却费时;而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和 Rosheisen的算法进行了改进,这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相比,这一算法不仅正确率高,而且在处理大量省略的对齐中能轻易确定省略的位置,且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处
5、理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。 如前所述,基于词汇的方法相对可靠精确,但计算起来相当复杂且速度较慢;而基于长度的算法模型虽然简单,独立于语言知识和外部资源,但鲁棒性不好,极易造成错误蔓延。由于每种方法都有自己的优缺点,人们试图将各种方法混合起来找到问题的解决途径(Tan & Nagao, 1995; Wu,1994; ;Collier,1998; Vronis,1999;Melamed,2000)。试验结果表明,混合的方法优于单纯使用其中的任何一种方法。 1.2 词汇级对齐技术 与句子对齐相比,词汇对齐的应用价值更加直接。目前词对齐主要有
6、基于统计(也称为基于同现)的方法、基于词典和语言学知识的方法。 基于统计的方法是通过大规模双语语料的统计训练,获得双语对译词的同现概率,以此来获得对齐。一种统计法是基于机器翻译模型的词汇对齐法(Brown et al., 1993,吴尉林,2003 )。此法用词汇对齐模型来实现翻译模型并通过EM(expectation-maximization)算法来进行词汇对齐。但是该方法不仅在运行时需要很大的内存空间,而且EM算法本身也缺乏鲁棒性。另一种统计法是基于同现的词汇对齐(Gale & Church,1991b; Zhang Ying et al., 2001)。其中,Gale & Church
7、用同现测度函数对译双语词汇,通过统计对译词在双语句对中同现的频率来确定双语词汇之间的对应关系,并为每个双语词对引入一个联列表(Contingency Table)。基于同现的对齐算法简单,鲁棒性也比EM算法好,但是该方法在计算时没有考虑词汇的上下文关系,因此获得的词汇翻译对应存在着间接相关的问题。 基于词典和语言学知识的词汇对齐方法。机读双语词典包含丰富的词汇对译信息,是进行词对齐的重要资源。Ker(1997)根据语义类实现词对齐,结果显示该方法在获得很高的准确率的同时,能克服基于统计方法中存在的低覆盖率的问题。Huang(2000)用语言学比较的方法进行词对齐。此外还有用隐马尔可夫模型和最大
8、熵模型(Necip,2006)进行词对齐。 1.3 多词组合单位对齐 多词组合单位(multi-word unit alignmentMWU)对齐也就是短语或词的搭配对齐。在自然语言的理解过程中,更多的是通过短语或者固定搭配而非单个的词来传达要表达的意义。在双语平行语料库中许多词并没有直接的翻译对等词。为了理解这些多词单位的意义,不仅要考虑不同语言词之间的相互关系,而且也要考虑同一语言中这些词的搭配。因此,多词组合单位的对齐也是双语语料库对齐工作中的一项重要且富有挑战的任务。许多研究者对此已做了深入的研究,方法主要有n-gram、近似字符匹配、有限状态机、双语语法分析树等。其中有些做法最为典型
9、,如Dagan & Church的Termight系统、Smadja et al.的Champollion系统和McEnery et al.(1997)用近似字符串匹配技术ASMT和有限状态自动机从平行语料库中提取术语翻译。但是英语和汉语使用不同的文字系统,所以ASMT不能应用于英汉多词单位的对齐。 1.4 从句和段落的对齐 如前所述,与句子和词汇对齐研究相比较,对段落和从句对齐的研究要少的多。其中一个原因就是段落的界限比句子清楚,所以其对齐也简单。Gale & Church(1991a)认为,基于长度对齐的算法可以用于段落的对齐。尽管从句对齐对于诸如基于实例的翻译、语言教学、对比研究等领域的
10、应用非常有用,但是由于每种语言,尤其是不同语系语言之间存在如何界定从句界限的问题,所以与简单句相比较,从句的对齐更难且容易出错。Kit et al.(2004)用包含双语法律术语表、双语字典的词汇方法和相似性度量法对香港法律文本进行了从句对齐。实验结果表明,这一算法即简单又有效,其准确率达94.6%。 2 目前国内英汉平行语料库的对齐研究 英汉属于不同的语系,上述的对齐方法对印欧语系(尤其是英语和法语)效果较好,但对于语法结构相差甚远的印欧与亚洲语系(汉语和日语)来说,效果却不如前者。例如,基于长度方法的同源词法能够提高相近语系语料对齐的准确性,但是,对英汉两个完全不同的语系来说,由于没有拼写
11、、语音或语义相似的同源词,所以这种方法就不适用于英汉双语对齐。如果单纯地使用基于长度的方法,效果也不是很好,因为汉语分词问题很难解决,利用词的个数作为长度单位不但不可靠,而且分词结果也会影响互译信息率的计算。因此,目前对于汉英句子对齐常用的方法是将基于长度和基于词汇这两种方法进行改进或混合使用。香港大学的Wu(1994)通过创建特殊词表对Gale 和 Church的基于长度的算法进行了适当的改进,用此算法对香港立法委员会会议记录英汉语料库做了对齐实验。结果表明,在句子对齐中,1:1 的匹配的准确率接近90%。Sun(1999)在处理英汉语料库句子对齐时,对基于字符的长度算法进行了改进。这一方法
12、弥补了基于字符长度算法不能处理1:0或0:1的句子对齐(即省略或插入)的不足。它与其它混合法不同的是,其它算法通过动态规划把长度和词汇信息结合起来,而此法是先单独使用,然后再用词汇法进行对齐正误判断,正确的对齐从语料库中抽出,然后对剩余的句子再进行对齐,如此反复,其正确率达到93%。钱丽萍等(2000)提出了基于译文的对齐方法,该方法借助一部翻译较完整的词典,将汉英句子间的对应关系连起来。实验证明,这一方法虽然“从根本上消除了基于长度的对齐方法中由于文本的缺失或局部对错造成的错误蔓延,并且对于一般文本普遍适用”(2000:61),但却无法处理2:2句对的情况。 Chuang et al.(20
13、05)提出了一种基于标点符号的句子对齐法。他们用此方法对汉-英SMC(Chinese-English Sinorama Magazine Corpus )平行语料库进行对齐。结果显示,基于标点符号的方法胜于基于长度的方法,其准确率超过93%。他们还验证了此方法可以用于其它的双语文本,如日语和英语。 张艳等(2005)使用了一种基于长度的扩展方法。这一方法以长度算法为基础,引入词汇信息,然后采用基于标点符号的方法作为后处理。测试结果证明“这种混合方法可以有效地提高汉英双语句子对齐的正确率,并且对多领域的文本具有很好的移植性”(2005:36)。 李维刚等(2006)提出一种基于句子长度和位置信息
14、的结合算法。为了验证这一算法的有效性,他们使用了基于长度的算法,基于位置信息以及两者结合的方法对呼啸山庄第17章的英汉双语文本进行了测试。三种方法的准确率分别为20.3%、85.2%和92.5%。 对汉-英词汇对齐来说,由于文字系统存在很大的差异,汉语句子不象英语句子那样,词与词之间没有间隔,而且汉语对词的界定很模糊,造成词切分的错误率也就增高,因此英汉语对应词的对齐的难度也相应地增大。尽管有些方法可以直接用于汉英语料库词汇对齐,如 Wu(1995)用Brown的EM算法对英汉词汇对齐进行测试,正确率达91.2%95.1%,但这不能完全适用于汉英词汇的对齐。Fung and Church(19
15、94)提出了K-vec算法。这一算法的单词对齐不需要在句子对齐的前提下进行,只测试候选词在位置分布上的相似度,但对双语词只能做粗略的估计。吕学强(2004)提出了基于语料库的无双语词典的英汉词对齐模型。该模型几乎不需要任何语言学知识和语言学资源,是语料库方法的独立应用。该方法不仅能对齐高频词、低频词,而且对未登录词和汉语分词错误具有兼容能力。晋薇等(2002)运用了语义相似度和语言学知识进行双语语句词对齐,达到了85%的准确率。为了能得到有效的汉英词汇对齐,目前大多数算法综合运用了基于统计和基于词典对齐的方法(刘小虎,1997;王斌,1999;吕雅娟,2001; Piao,2001)。其中 P
16、iao(2001)把诸如同现量度、词汇分布距离、英语单词的形态还原等结合起来提出一种算法。该算法在英汉平行语料库中进行了试验,准确率达80.63%。王斌(1999)在他的研究中顺次用基于词典、基于语义类、基于翻译位置、基于翻译共现频率等多种算法将词典搜索和无词典统计的方法结合起来,不仅充分有效地利用了现有的有限资源,而且还避免了对大量数据过多的无效统计和训练,节省了运行的空间和时间,提高了词汇对齐的召回率和正确率。但是这些算法都过多的依赖语义词典、大规模句对齐双语语料库和大规模同源词形态分析匹配规则库等语言资源,而高质量的语言资源的建设非常昂贵,由此限制了这些算法的使用范围和效果。张孝飞等(2
17、006)试图通过加强词对齐算法本身的复杂性来减轻对语言资源的依赖性。他们提出了一种基于锚点词对的对齐算法,经过对真实语料的测试,词对齐的准确率达到93%。 对于多词组合对齐,近年来国内也有许多这方面的研究。常宝宝(2002)提出了基于词汇关联度进行多次组合的识别方法,并利用假设检验的方法在汉英双语语料库中抽取翻译等价单位。吕雅娟等人(2003)用N-gram模型获取候选翻译单位,然后根据统计同现计算候选等价对的翻译概率,并用贪心策略实现翻译等价对的自动抽取。刘冬明(2003)将基于长度和基于词典的算法混合进行了名词短语的对齐。测试结果证明,这两种方法在最终结果上可以互补。刘建基(2006)采用
18、了统计关联度加词对齐的方法,先利用关联度获取汉语候选组块,再利用词对齐获取双语候选组块。该方法的优点是能够在一遍扫描语料库的过程中获取双语组块,但在识别单语组块时有一定的局限性。张春祥等(2006)提出一种基于中心语块扩展的短语对齐,实验结果表明,该方法的对齐正确率达到82.76%。 虽然段落对齐可以象Gale所说的那样利用句子对齐的方法来解决,但是直接进行段落的自动对齐却具有相当的难度。王斌提出以“分段对齐”为原则,分段对齐的优点在于不受段落是否已有边界或已有边界是否清晰等的限制,而是以对齐为目的重新组织段落。在分段对齐过程中,“通过匹配分布相似的词汇对,找到可以用于分段的锚点句子,利用这些
19、锚点句子和其他特殊句子对之间的匹配程度对双语文本进行分段对齐,实验结果表明分段对齐具有相当的可行性”(1999:47)。目前国内对从句对齐研究非常少,在收集到的文献中只有Kit et al.(2004)和吕学强等(2003)进行了研究。 综上所述,双语自动对齐问题的研究大多集中在句子和词汇一级上。研究的方法大概有三种:一是基于统计的方法,即先对大量的双语语料进行统计训练,获得双语对译句/词的同现概率,建立句子/词汇对齐的统计模型,用来判断句子/词的对译关系;二是基于词汇/词典的方法;三是把统计手段和词汇/词典结合起来。含有汉语的双语语料库大多采用这种方法。但不是所有的方法都适用于英汉平行语料库
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 双语 平行 语料库 对齐 技术 述评
链接地址:https://www.31ppt.com/p-3927502.html