《一种处理未登录词翻译的新视角.ppt》由会员分享,可在线阅读,更多相关《一种处理未登录词翻译的新视角.ppt(42页珍藏版)》请在三一办公上搜索。
1、一种处理未登录词翻译的新视角,张家俊 翟飞飞 宗成庆2012.11.4,1,提纲,统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结,2,提纲,统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结,3,统计机器翻译中的未登录词问题,统计机器翻译框架,4,统计机器翻译中的未登录词问题,统计机器翻译框架,5,双语平行语料(f1,e1),(f2,e2),目标语言单语语料e1,e2,en,翻译模型,语言模型,统计机器翻译中
2、的未登录词问题,统计机器翻译框架,6,双语平行语料(f1,e1),(f2,e2),目标语言单语语料e1,e2,en,翻译模型,语言模型,度量翻译候选的合法性,统计机器翻译中的未登录词问题,统计机器翻译框架,7,双语平行语料(f1,e1),(f2,e2),目标语言单语语料e1,e2,en,翻译模型,语言模型,决定了翻译知识覆盖率,统计机器翻译中的未登录词问题,统计机器翻译框架,8,双语平行语料(f1,e1),(f2,e2),翻译模型,双语平行语料有限的情形下,测试句子中的很多词都未在训练语料中出现过,便导致未登录词翻译问题!,决定了翻译知识覆盖率,统计机器翻译中的未登录词问题,统计机器翻译中未登
3、录词的特点在分词或词性标注中,我们知道分词或词性标注的候选空间,譬如词性集合统计机器翻译中的未登录词,若不借助外部资源,无法确定候选翻译空间,9,提纲,统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结,10,传统处理方法与缺陷,尝试一切方法获得未登录词的译文资源借助语言学资源,譬如HowNet,WordNet借助大规模网络资源方法利用数据挖掘方法利用信息检索方法,11,传统处理方法与缺陷,缺陷只处理部分未登录词,例如命名实体、缩略语等只关注未登录词的翻译,不考虑未登录词上下文词和短语的目标译文选择与调
4、序 为(is)百分之六 左右(about)is 6%about,12,提纲,统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结,13,保持语义功能的未登录词处理方法,核心思想目标不在于翻译未登录词,而是尽可能确保其上下文词或短语的目标译文选择和调序不受未登录词影响核心方法在于确定未登录词在句中的语义功能,并在解码过程中保持不变,14,保持语义功能的未登录词处理方法,方法框架对于测试句子中的任意一未登录词,在集内词中搜索与该未登录词语义功能最相似的词解码前,将未登录词替换为集内词解码后,将集内词的译文重新
5、替换为未登录词,以便利用其他方法翻译未登录词,15,一个示例,为(is)百分之六 左右(about)搜索集内词,发现“一半(50%)”与“百分之六”具有最相似的语义功能,替换“百分之六”为“一半”为 一半 左右 is about 50%is about 百分之六,16,什么是语义功能?,语义功能一个词的语义功能表示该词在句子中所扮演的语法和语义角色语义功能决定了该词在源语言和目标语言文本中所带的上下文,17,什么样的词共享相似的语义功能?,如果两个词在文本中所处的上下文相似,那么他们就具有相似的语义功能,18,搜索与未登录词语义功能相似的集内词,统计机器翻译中的未登录词问题传统处理方法与缺陷保
6、持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结,19,基于分布语义模型的方法,分布语义模型利用表示一个词的所有上下文总和的向量近似该词的语义信息向量空间模型,20,基于分布语义模型的方法,上下文以目标词为中心,为长度K为窗口,出现在该窗口中的所有词的总和就是该词的上下文为目标词tw创建上下文向量VtwVtw的第i个元素表示第i个集内词作为目标词的上下文的概率,21,基于分布语义模型的方法,如何计算第i个集内词作为目标词上下文的概率?逐点互信息(pointwise mutual information),22,基于分布语义模型的方法,如何计算第i个
7、集内词作为目标词上下文的概率?逐点互信息(pointwise mutual information),23,L-2 normalization,基于分布语义模型的方法,计算任意两个词的语义功能相似度,24,搜索与未登录词语义功能最相似的集内词,25,POS constraint,搜索与未登录词语义功能相似的集内词,统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结,26,基于双向语言模型的方法,分布语义模型的缺陷将所有上下文看做一个词袋不考虑上下文之间的词序与依赖什么是理想的模型?,27,简化 argm
8、ax?,模型回退,28,前向语言模型P(wi|wi-1,wi-2,),简化 argmax?,模型回退,29,后向语言模型P(wi|wi+1,wi+2,),简化 argmax?,模型回退,30,or,简化argmax?,模型回退,31,or,双向语言模型,后向语言模型,前向语言模型,附加约束,32,词性约束,附加约束,翻译规则约束搜索结果的集内词与未登录词的上下文组合必须存在翻译规则为 百分之六 左右 为 一半 左右“一半 左右|about 50%”,33,提纲,统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例
9、分析总结,34,实验设置,语料训练语料:FBIS,23.6万句对开发集:MT NIST2003测试集:MT NIST2005翻译系统:MosesNIST2005中未登录词的分布1082句子中存在796 不同的未登录词(NR,273),(NN,272),(CD,122),(VV,99),(NT,14),(AD,7),(JJ,5),(OD,2)and(M,2),35,翻译结果,36,分布语义模型,翻译结果,37,双向语言模型,翻译结果,38,前向语言模型,后向语言模型,两个翻译实例,内阁 才 作成 决定,Moses:the cabinet 作成 decided 内阁 才 作成 决定,内阁 才 作出 决定,Moses:before the cabinet made the decision.,39,两个翻译实例,义演 现场 的 热烈 气氛,Moses:live义演 and warm atmosphere 义演 现场 的 热烈 气氛,演习 现场 的 热烈 气氛,Moses:the warm atmosphere of the exercise.,40,总结,对于每个未登录词,搜索与该未登录词语义功能最相似的集内词两种算法分布语义模型双向语言模型相比于分布语义模型,双向语言模型具有更好的性能,41,42,THANKS!Q&A,
链接地址:https://www.31ppt.com/p-5511259.html