统计机器翻译系统中传统词典的应用研究.ppt
统计机器翻译系统中传统词典的应用研究,曹杰 任志祥 吕雅娟 刘群caojie,renzhixiang,lvyajuan,中国科学院计算技术研究所多语言交互技术实验室,提纲,研究背景词典在SMT的应用策略训练部分解码部分实际系统中动态词典的使用实验总结,研究背景,SMT研究不断进步,大量词典资源,如何在SMT中应用词典?,词典资源分类,词典的分类普通词典领域词典,提纲,研究背景词典在SMT的应用策略训练部分解码部分实用系统中动态词典的使用实验总结,训练部分,双语语料,对齐文件,短语表,GIZA+,短语抽取程序,普通词典,领域词典,解码部分,将词典作为特征融入解码log-linear模型,解码部分,词典特征:互译句对中含有的词条数目,该产品具有防止糖尿病和脂肪肝等作用 This product is effective in preventing and treating diabetes and fatty liver,词条:糖尿病 diabetes;脂肪肝 fatty liver,This product is effective in preventing and treating diabetes and fat liver,hdict(c,e)=2,hdict(c,e)=1,动态词典的使用策略,一种保健食品,由红花组成,可制成茶的形式A healty product,in the form of tea,is made from red flower,A healty product,in the form of tea,is made from Flos Carthami,动态词典的使用策略,分词后的句子,短语查找,词典查找,短语表,动态词典,本句短语表,本句动态词典,动态短语表生成模块,本句动态短语表,解码,译 文,语言模型,红花|red flower|红花|flower|,红花,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|red flower|红花|flower|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|red flower|红花|flower|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|,红花|red flower|红花|flower|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|,红花|red flower|红花|flower|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|,红花|Flos Carthami|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|red flower|红花|flower|红花|Flos Carthami|红花|of Flos Carthami|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|red flower|红花|flower|红花|Flos Carthami|红花|of Flos Carthami|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|red flower|红花|flower|红花|Flos Carthami|红花|of Flos Carthami|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|红花|of Flos Carthami|,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|1红花|of Flos Carthami|1,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|1红花|of Flos Carthami|1,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|1红花|of Flos Carthami|1,红花 Flos Carthami,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,红花|Flos Carthami|1红花|of Flos Carthami|1,一 种 保健食品,由 红花 组成,可 制成 茶 的 形式,提纲,研究背景词典在SMT的应用策略训练部分解码部分实际系统中动态词典的使用实验总结,实验设置,解码器Camel语料情况,Camel下载地址:http:/,词典在训练部分作用实验结果,词典在训练部分作用实验结果,词典在训练部分作用实验结果,词典在训练部分作用实验结果,词典在解码部分作用实验结果,动态词典的应用效果,例句src 可活血化瘀、增加血液循环、养血润肤,用于治疗牛皮癣。ref It has blood circulation promoting,blood stasis dispelling,blood circulation improving,blood nourishing,and skin caring effects,and used to treat psoriasis.without-dict It is effective for blood circulation promoting dispelling blood stasis,increasing blood circulation,nourishing blood circulation and relaxing the skin,It can be used for the treatment of psoriasis.dict 活血化瘀 blood circulation promoting;养血nourishing blood;润肤caring skinwith-dict It is effective for blood circulation promoting,increasing blood circulation,nourishing blood and caring skin,It can be used for the treatment of psoriasis.,提纲,研究背景词典在SMT的应用策略训练部分解码部分实际系统中动态词典的使用实验总结,总结,词典在统计机器翻译的应用训练阶段:加权使用词典解码阶段:加入词典特征实用系统:动态词典匹配策略简单但在实际的系统中非常有效!,参考文献,Hua Wu,Haifeng Wang,Chengqing Zong.2008.Domain Adaptation for Statistical Machine Translation with Domain Dictinary and Monolingual Corpora.In Proceedings of the 22nd International Conference on Computational Linguistics,pages 993-1000.Franz Josef Och,Hermann Ney.2002.Discriminative Training and Maximum Entropy Models for Statistical Machine Translation.In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,pages 295-302.Franz Josef Och.2003.Minimum Error Rate Training in Statistical Machine Translation.In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics,pages 160-167.Papineni kishore et al.2002.BLEU:a Method for Automatic Evaluation of Machine Translation.In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,pages 311-318Philipp Koehn,Franz Josef Och and Daniel Marcu.2003.Statistical phrase-based translation.In Proceedings of the Human Language Technology and North American Association for Computaional Linguistics Conference.Pages 127-133.R.Zens,F.J.Och,H.Ney.Phrase-Based Statistical Machine Translation.In:M.Jarke,J.Koehler,G.Lakemeyer(Eds.):KI-2002:Advances in artificial intelligence.25.Annual German Conference on AI,KI 2002,Vol.LNAI 2479,pages18-32,谢谢!,