机器翻译IIMachineTranslationII.ppt
《机器翻译IIMachineTranslationII.ppt》由会员分享,可在线阅读,更多相关《机器翻译IIMachineTranslationII.ppt(64页珍藏版)》请在三一办公上搜索。
1、机器翻译IIMachine Translation II,2023年4月25日7时59分,语言信息处理-机器翻译II,2,大纲,基于翻译记忆的机器翻译方法基于模板(模式)的机器翻译方法双语语料库对齐技术句子对齐词语对齐机器翻译的评价,2023年4月25日7时59分,语言信息处理-机器翻译II,3,翻译记忆方法1,翻译记忆方法(Translation Memory)是基于实例方法的特例;也可以把基于实例的方法理解为广义的翻译记忆方法;翻译记忆的基本思想:把已经翻译过的句子保存起来翻译新句子时,直接到语料库中去查找如果发现相同的句子,直接输出译文否则交给人去翻译,但可以提供相似的句子的参考译文,2
2、023年4月25日7时59分,语言信息处理-机器翻译II,4,翻译记忆方法2,翻译记忆方法主要被应用于计算机辅助翻译(CAT)软件中翻译记忆方法的优缺点翻译质量有保证随着使用时间匹配成功率逐步提高特别适用于重复率高的文本翻译,例如公司的产品说明书的新版本翻译与语言无关,适用于各种语言对缺点是匹配成功率不高,特别是刚开始使用时,2023年4月25日7时59分,语言信息处理-机器翻译II,5,翻译记忆方法3,计算机辅助翻译(CAT)软件已经形成了比较成熟的产业TRADOS号称占有国际CAT市场的70%Microsoft、Siemens、SAP等国际大公司和一些著名的国际组织都是其用户雅信CAT适合
3、中国人的习惯产品已比较成熟国际组织:LISA(Localisation Industry Standards Association)面向用户:专业翻译人员数据交换:LISA制定了TMX(Translation Memory eXchange)标准。,2023年4月25日7时59分,语言信息处理-机器翻译II,6,翻译记忆方法4,完整的计算机辅助翻译软件除了包括翻译记忆功能以外,还应该包括以下功能多种文件格式的分解与合成术语库管理功能语料库的句子对齐(历史资料的重复利用)项目管理:翻译任务的分解与合并翻译工作量的估计数据共享和数据交换,2023年4月25日7时59分,语言信息处理-机器翻译II
4、,7,翻译记忆方法5,2023年4月25日7时59分,语言信息处理-机器翻译II,8,基于模板(模式)的机器翻译方法1,基于模板(Template)或者模式(Pattern)的机器翻译方法通常也被看做基于实例的机器翻译方法的一种延伸所谓“翻译模板”或者“翻译模式”可以认为是一种颗粒度介于“翻译规则”和“翻译实例”之间的翻译知识表示形式翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小翻译模板(模式):介于二者之间,是一种比较合适的知识表示形式一般而言,单语模板(或模式)是一个常量和变量组成的字符串,翻译模板(或模式)是两个对应的单语模板
5、(或模式),两个模板之间的变量存在意义对应关系,2023年4月25日7时59分,语言信息处理-机器翻译II,9,基于模板(模式)的机器翻译方法2,模板举例:这个X 比Y 更Z。The X is more Z than Y.模板方法的主要问题对模板中变量的约束模板抽取模板的冲突消解,2023年4月25日7时59分,语言信息处理-机器翻译II,10,Pattern-Based CFG for MT 1,Koichi Takeda,Pattern-Based Context-Free Grammars for Machine Translation,Proc.of 34th ACL,pp.144-1
6、51,June 1996给出了翻译模式的一种形式化定义,并给出了相应的翻译算法以及算法复杂性的理论证明,2023年4月25日7时59分,语言信息处理-机器翻译II,11,Pattern-Based CFG for MT 2,每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成;中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词;链接约束:源语言骨架和
7、目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。,2023年4月25日7时59分,语言信息处理-机器翻译II,12,Pattern-Based CFG for MT 3,2023年4月25日7时59分,语言信息处理-机器翻译II,13,Pattern-Based CFG for MT 3,翻译的过程分为三步:使用源语言CFG骨架分析输入句子s应用源语言到目标语言的CFG骨架的链接约束,生成一个译文CFG推导序列根据译文CFG推导序列产生译文模板排序的启发式原则:对于源文CFG骨架相同的模板,有中心词约束的模板优先于没有中心词约束的模板;对于同一跨度上
8、的两个结点,比较其对应的模板的源文CFG骨架,非终结符少的模板优先于非终结符多的模板;中心词约束被满足的结点优先于中心词约束不被满足的结点;对于一个输入串而言,分析步骤越短(推导序列越短)越优先。,2023年4月25日7时59分,语言信息处理-机器翻译II,14,Pattern-Based CFG for MT 4,模板库的获取:假设T是一组翻译模板,B是双语语料库,是一对互为翻译的句子如果T能够翻译句子s为t,那么do nothing;如果T将s译为t(不等于t),那么:如果T中存在的推导Q,但这个推导不是最优解,那么给Q中的模板进行实例化;如果不存在这种推导,那么加入适当的模板,使得推导成
9、立;如果根本无法翻译s(分析失败),那么将直接加入到模板库中。,2023年4月25日7时59分,语言信息处理-机器翻译II,15,模板的自动提取,利用一对实例进行泛化Jaime G.Carbonell,Ralf D.Brown,Generalized Example-Based Machine Translation http:/www.lti.cs.cmu.edu/Research/GEBMT/利用两对实例进行比较H.Altay Guvenir,Ilyas Cicekli,Learning Translation Templates from Examples Information Sys
10、tems,1998张健,基于实例的机器翻译的泛化方法研究,中科院计算所硕士论文,2001,2023年4月25日7时59分,语言信息处理-机器翻译II,16,通过泛化实例得到翻译模板,已有实例:Karl Marx was born in Trier,Germany in May 5,1818.卡尔马克思于1818年5月5日出生在德国特里尔城。泛化:was born in in 于出生在对齐,2023年4月25日7时59分,语言信息处理-机器翻译II,17,通过比较实例得到翻译模板,已有两对翻译实例:我给玛丽一支笔 I gave Mary a pen.我给汤姆一本书 I gave Tom a bo
11、ok.双侧单语句子分别比较,得到:我给#X 一#Y#Z I give#W a#U.查找变量的对应关系:#X#W#Y#Z#U,2023年4月25日7时59分,语言信息处理-机器翻译II,18,实例库的匹配1,实例匹配的目的是将输入句子分解成语料库中实例片断的组合,这是基于实例的机器翻译的关键问题之一,实例匹配的各种方法有很大的差异,还没有那种做法显示出明显的优势;实例库匹配的效率问题:由于实例库规模较大,通常需要建立倒排索引;实例库匹配的其他问题:实例片断的分解:实例片断的组合:,2023年4月25日7时59分,语言信息处理-机器翻译II,19,实例库的匹配2,实例片断的分解实例库中的句子往往太
12、长,直接匹配成功率太低,为了提高实例的重用性,需要将实例库中的句子分解为片断几种通常的做法:按标点符号分解任意分解通过组块分析进行分解,2023年4月25日7时59分,语言信息处理-机器翻译II,20,实例库的匹配3,实例片断的组合一个被翻译的句子,往往可以通过各种不同的实例片断进行组合,如何选择一个最好的组合?简单的做法:最大匹配最大概率法:选择概率乘积最大的片断组合有点像汉语词语切分问题,2023年4月25日7时59分,语言信息处理-机器翻译II,21,片断译文的选择,由于语料库中一个片断可能有多种翻译方法,因此存在片断译文的选择问题;常用的方法:根据片断上下文进行排歧;根据译文的语言模型
13、选择概率最大的译文片断组合,2023年4月25日7时59分,语言信息处理-机器翻译II,22,实例库的对齐,实例库又称双语语料库(Bilingual Corpus)或平行语料库(Parallel Corpus)双语语料库对齐的级别篇章对齐段落对齐句子对齐词语对齐短语块对齐句法结构对齐基于实例的机器翻译中实例库必须至少做到句子级别的对齐,2023年4月25日7时59分,语言信息处理-机器翻译II,23,不同对齐级别的差异,段落对齐和句子对齐要求保持顺序(允许局部顺序的调整)只有一个层次词语对齐和短语块对齐不要求保持顺序只有一个层次句法结构对齐不要求保持顺序多层次对齐,2023年4月25日7时59
14、分,语言信息处理-机器翻译II,24,句子对齐1,2023年4月25日7时59分,语言信息处理-机器翻译II,25,句子对齐2,2023年4月25日7时59分,语言信息处理-机器翻译II,26,基于长度的句子对齐1,基本思想:源语言和目标语言的句子长度存在一定的比例关系用两个因素来估计一个句珠的概率源语言和目标语言中句子的长度源语言和目标语言中的句子数(对齐模式),2023年4月25日7时59分,语言信息处理-机器翻译II,27,基于长度的句子对齐2,根据统计,随机变量X=lTi/lSi服从正态分布,2023年4月25日7时59分,语言信息处理-机器翻译II,28,基于长度的句子对齐3,设通过
15、语料库统计得到X的期望为c,方差为v2,那么随机变量将服从0,1正态分布:根据正态分布公式可以计算出(直接查表):,2023年4月25日7时59分,语言信息处理-机器翻译II,29,基于长度的句子对齐4,对齐模式的概率P(mS,mT)可以通过对语料库的统计得到。下面是Gale&Church根据UBS语料库的统计结果:,2023年4月25日7时59分,语言信息处理-机器翻译II,30,基于长度的句子对齐5,最优路径的搜索:采用动态规划算法定义P(i,j)=P(s1si,t1tj)最优对齐为P(m,n)所对应的路径,2023年4月25日7时59分,语言信息处理-机器翻译II,31,基于长度的句子对
16、齐6,优点不依赖于具体的语言;速度快;效果好缺点由于没有考虑词语信息,有时会产生一些明显的错误讨论长度计算可以采用词数或者字节数,没有明显的优劣之分,2023年4月25日7时59分,语言信息处理-机器翻译II,32,基于词的句子对齐1,基本思想:互为翻译的句子对中,含有互为翻译的词语对的概率,大大高于随机的句子对用两个因素来估计一个句珠的概率源语言和目标语言中互译词语的个数源语言和目标语言中的句子数(对齐模式),2023年4月25日7时59分,语言信息处理-机器翻译II,33,基于词的句子对齐2,优点可以充分利用词语互译信息,提高正确率缺点单独使用时,正确率有时低于基于长度的方法(取决于词典的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器翻译 IIMachineTranslationII
链接地址:https://www.31ppt.com/p-4520175.html