机器翻译和自动文摘.ppt
《机器翻译和自动文摘.ppt》由会员分享,可在线阅读,更多相关《机器翻译和自动文摘.ppt(63页珍藏版)》请在三一办公上搜索。
1、2023/9/11,1,自然语言理解(Natural Language Understanding,NLU),也称为计算语言学(ComputationalLinguistics),是研究如何利用计算机来理解和生成自然语言的理论和方法 它是人工智能三大研究方向之一;是一门自然科学和社会科学交叉的学科,特别是计算机科学、数学、语言学、心理学和哲学相互交叉的科学。,自然语言理解与机器翻译,2023/9/11,2,自然语言就是我们生活中使用的语言,如汉语、英语、日语等等它是相对于人工设计的形式化的计算机语言如Basic、Fortran、C、Lisp等等而言的随着社会信息化程度的提高,人们越来越重视NL
2、U技术的研究其研究成果已经在机器翻译、信息检索、自然语言人机接口等重要领域得到应用。机器翻译(Machine Translation,MT)是自然语言处理中的一个最早的研究分支,它是利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。,2023/9/11,3,机器翻译和自动文摘,2023/9/11,4,机器翻译内容提要,机器翻译定义机器翻译的发展历史机器翻译现状机器翻译方法机器翻译发展趋势机器翻译应用系统类型结语,2023/9/11,5,什么是机器翻译,机器翻译(machine translation)是使用电子计算机把一种自然语言(源语言,source
3、 language)翻译成另外一种自然语言(目标语言,target language)的一门学科这门新学科同时也是一种新技术.它涉及到语言学、计算机科学、数学等许多部门,是非常典型的多边缘的交叉学科,2023/9/11,6,一些研究领域,-在语言学中,机器翻译是计算语言学的一个研究领域-在计算机科学中,机器翻译是人工智能的一个研究领域-在数学中,机器翻译是数理逻辑和形式化方法的一个研究领域.,2023/9/11,7,机器翻译的发展历史,机器翻译的发展经历了兴起、低落和重新兴盛的曲折历程。在昌盛的时候,人们为研究成果的精彩纷呈和应用的成功而欢呼,即使在低潮时,人们也在不断地反思,为重新发展积蓄力
4、量。国外的状况国内的状况,2023/9/11,8,国外状况(1),机器翻译最早开始于美国,自本世纪4O年代电子计算机诞生之日起就开始了将计算机应用于语言翻译的探索。1949年,美国工程师WWeaver散发了题为“翻译”的备忘录,对机器翻译的重要性及可行性进行了论证。Weaver 首先提出了用统计方法进行机器翻译的想法。1952年,第一次全美机器翻译会议召开。,2023/9/11,9,国外状况(2),1954年机器翻译创刊,同年,Georgeton(乔治城大学)大学成功研制了第一个机译系统,由此机器翻译掀起热潮。1966年,Barlill在美国全国科学院的ALPAC报告中指出:机器翻译速度慢,准
5、确率差,比人工翻译费用高得多,在近期或可以预见的未来,开发出实用的机器翻译系统是不可能的。各部门纷纷停止了对机器翻译研究的经费支持,从而导致机译走向低潮。,2023/9/11,10,国外状况(3)-低潮期机译研究,GETA(Grenoble-France)在 Bernard Vauquois 教授领导下,开发了基于配价语法的机器翻译系统,研制了机器翻译专用软件ARIANE,推动了逻辑程序设计的研究。TAUM-METEO(University of Montreal,从1977 开始研制了实用性机器翻译系统(English-French,)TAUM,翻译天气预报文献,在技术上,TAUM 继承了
6、GETA 的机器翻译方法。SYSTRAN:这个系统在Apollo-Soyuz 空间研究方面承担了机器翻译的任务,立下汗马功劳,后来被EEC 正式采用,作为重要的翻译工具。,2023/9/11,11,2023/9/11,12,国外状况(4)-复苏,1970年代末,机器翻译进入了它的第三个时期-繁荣期(1976年1980年代末)。繁荣期的最重要的特点,是机器翻译研究走向了实用化,出现了一大批实用化的机器翻译系统,机器翻译产品开始进入市场,变成了商品,由机器翻译系统的实用化引起了机器翻译系统的商品化。,2023/9/11,13,机器翻译的平台期,整个1990年代,机器翻译进入了一个平台期基于规则的机
7、器翻译方法理论上无法突破在应用上,机器翻译由于受到翻译质量制约,难于进一步扩展,反而是基于翻译记忆思想的计算机辅助翻译获得了巨大进展,2023/9/11,14,就在机器翻译进入平台期的时候,一些新的因素也在萌芽基于实例的机器翻译思想基于统计的机器翻译思想互联网的出现大大促进了机器翻译的需求,2023/9/11,15,机器翻译新热潮,1999年开始,出现了一个机器翻译的新热潮,其最主要的特征是统计机器翻译方法开始占据主导地位,机器翻译的质量出现了一个跨越式的提高,2023/9/11,16,机器翻译的新热潮,1980年代末IBM首次开展统计机器翻译研究年IBM首次提出统计机器翻译的信源信道模型19
8、93年IBM提出五种基于词的统计翻译模型IBM Model 1-51994年IBM发表论文给出了Candide系统与Systran系统在ARPA评测中的对比测试报告1999年JHU夏季研讨班重复了IBM的工作并推出了开放源代码的工具2001年IBM提出了机器翻译自动评测方法BLEU2002年NIST开始举行每年一度的机器翻译评测2002年第一个采用统计机器翻译方法的商业公司Language Weaver成立,2023/9/11,17,机器翻译新热潮,2002年Franz Josef Och提出统计机器翻译的对数线性模型2003年Franz Josef Och提出对数线性模型的最小错误率训练方法
9、2004年Philipp Koehn推出Pharaoh(法老)标志着基于短语的统计翻译方法趋于成熟2005年David Chiang提出层次短语模型并代表UMD在NIST评测中取得好成绩2005年Google在NIST评测中大获全胜,随后Google推出基于统计方法的在线翻译工具,其阿拉伯语-英语的翻译达到了用户完全可接受的水平,目前已经可以支持40多种语言的互译2006年NIST评测中USC-ISI的串到树句法模型第一次超过Google(仅在汉英受限翻译项目中),2023/9/11,18,2023/9/11,19,国内状况,我国机器翻泽的研究从一开始就得到了国家的高度重视。早在1956年它便
10、以“机器翔译自然语言的数学理论”列入了当时的科学发展纲要。以后则列为“六五”、“七五”。以及“863”等重大科研项目但因为“文革”有过1O年的停滞。,2023/9/11,20,国内状况,7O年代中期,我国机器翻译研究从停滞走向了复苏8O年代中期到9O年代初期产生丁两个在中国机译史上具有重要意义的实用化系统它们分别是军事科学院研制的”KYl”英汉机译系统和中科院计算所研制的”863一IMT”英汉机译系统,2023/9/11,21,国内状况,90年代初期至今,中国的机器翻译走入了快速发展的时期,出现了许多商品化系统。近期的机译系统大体上有这样一些持点:多数配有大规模的多种领域的专业词典,多数能在网
11、上运行,有相当不错的方便用户的界面。新的应用领域的机器翻译研究,如对话翻译系统的研发等也已开始,2023/9/11,22,机器翻译现状(面临问题),1、影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子:原文:Thank-you notes are heart-warming.机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。,2023/9/11,23,在结构层面上,常见的结构歧义有 and(和)结构,如 nice girls and boys,它既可表示“好女孩和男孩”,
12、也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。,2023/9/11,24,2、人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。,2023/9/11,25,例1,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。原文:“But this beauty of
13、Nature which is seen and felt as beauty,is the least part.”Beauty Ralph Waldo Emerson机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。,2023/9/11,26,例2:美国著名作家马克.吐温早期优秀小说竞选州长中的原句。原文:I hauled down my colors and surrendered.Running For Governor Mark Twain 机器译文:我沿着我的颜色拖并且投降。张有松译文:我偃旗息鼓,甘
14、拜下风。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工修改、加工。,2023/9/11,27,机器翻译的方法,机器翻译的基本过程机器翻译的总任务可以描述为:将一种语言(源语言)的文本送入计算机,通过计算机程序生成另一种语言(目标语言)的文本,且源语言文本与目标语言文本具有相同的含义。机器翻译系统的类型很多,采取的策略和技术也有差别,但它们的基本工作过程大体上是一致的。机器翻译的第一步是在不同层次上分析源文本,而后是目标语文本的生成这两个步骤是机器翻译系
15、统基本实现过程中的两个主要组成部分。,2023/9/11,28,机器翻译的四种实现方法,基于分析和转换的机器翻译方法基于中间语言的翻译方法基于统计的机器翻译方法基于实例的机器翻译方法,2023/9/11,29,基于分析和转换的机器翻译方法,机器翻译系统的操作过程与人做翻译过程一样,有检索、分析、转换和生成的主要四个阶段这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机制,2023/9/11,30,基本原理一般情况下,分析以句法为主、语义为辅,正确的句法结构转换加正确的词汇译文可以从源语言向目标语言传递完整的正确信息。因此,以句法结构转换附加一定的语义信息,能够构成转换的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器翻译 自动 文摘
链接地址:https://www.31ppt.com/p-5990854.html