机器翻译IMachineTranslationI.ppt
《机器翻译IMachineTranslationI.ppt》由会员分享,可在线阅读,更多相关《机器翻译IMachineTranslationI.ppt(56页珍藏版)》请在三一办公上搜索。
1、机器翻译IMachine Translation I,2023年4月25日7时59分,语言信息处理-机器翻译I,2,大纲,机器翻译的历史机器翻译的分类机器翻译的范式机器翻译的基本策略基于规则的机器翻译方法基于实例的机器翻译方法,2023年4月25日7时59分,语言信息处理-机器翻译I,3,W.J.Hutchens,latest Development in MT Technology:Beginning a New Era in MT Research.In:Proceedings of Machine Translation Summit-IV,Kobe,Japan,1993.冯志伟,自动翻
2、译,上海知识出版社,1987年。冯志伟,自然语言机器翻译新论,语文出版社,1994年。冯志伟,自然语言的计算机处理,上海外语教育出版社,1996年。,机器翻译的历史,2023年4月25日7时59分,语言信息处理-机器翻译I,4,机器翻译的萌芽期(1),关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡儿(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(AthanasiusKircher)和贝希尔(Johann Joachi
3、m Becher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(John Wilkins)在关于真实符号和哲学语言的论文(An Essay towards a Real Character and Philosophical Language,1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。,2023年4月25日7时59分,语言信息处理-机器翻译I,5,机器翻译的萌芽期(2),本世纪三十年代之初,亚美尼
4、亚裔的法国工程师阿尔楚尼(G.B.Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚
5、尼的机械脑无法安装使用。,2023年4月25日7时59分,语言信息处理-机器翻译I,6,机器翻译的萌芽期(3),1903年,古图拉特(Couturat)和洛(Leau)在通用语言的历史一书中指出,德国学者里格(W.Rieger)曾经提出过一种数字语法(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译”(德文是ein mechanisches Uebersetzen)这个术语。1933年,苏联发明家特洛扬斯基()设计了用机械方法把一种语言翻译为另一种语言的机器,并在同年9月5日登记了他的发明。1939年,特洛扬斯基在他的翻
6、译机上增加了一个用“光元素”操作的存储装置;1941年5 月,这部实验性的翻译机已经可以运作;1948年,他计划在此基础上研制一部“电子机械机”(electro-mechanical machine)。但是,由于当时苏联的科学家和语言学家对此反映十分冷淡,特洛扬斯基的翻译机没有得到支持,最后以失败告终了。,2023年4月25日7时59分,语言信息处理-机器翻译I,7,机器翻译的草创期(1),1946年,美国宾夕法尼亚大学的埃克特(J.P.Eckert)和莫希莱(J.W.Mauchly)设计并制造出了世界上第一台电子计算机ENIAC,在电子计算机问世的同一年,英国工程师布斯(A.D.Booth)
7、和美国洛克菲勒基金会副总裁韦弗(W.Weaver)在讨论电子计算机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。1947年3月6日,布斯与韦弗在纽约的洛克菲勒中心会面,韦弗提出,“如果将计算机用在非数值计算方面,是比较有希望的”。在韦弗与布斯会面之前,韦弗在1947年3月4日给控制论学者维纳(N.Wiener)写信,讨论了机器翻译的问题,韦弗说:“我怀疑是否真的建造不出一部能够作翻译的计算机?即使只能翻译科学性的文章(在语义上问题较少),或是翻译出来的结果不怎么优雅(但能够理解),对我而言都值得一试。”可是,维纳在4月30日给韦弗的回信中写道:“老实说,恐怕每一种语言的词汇,范围都相
8、当模糊;而其中表示的感情和言外之意,要以类似机器翻译的方法来处理,恐怕不是很乐观的。”,2023年4月25日7时59分,语言信息处理-机器翻译I,8,机器翻译的草创期(2),1949年,韦弗发表了一份以翻译为题的备忘录,正式提出了机器翻译问题。在这份备忘录中,他除了提出各种语言都有许多共同的特征这一论点之外,还有两点值得我们注意:第一,他认为翻译类似于解读密码的过程。他说:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,
9、就意味着,从语言A出发,经过某一“通用语言”(Universal Language)或“中间语言”(Interlingua),然后转换为语言B,这种“通用语言”或“中间语言”,可以假定是全人类共同的。由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。1954年,美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,用IBM-701计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。,2023年4月25日7时59分,语言信息处理-机器翻译I,9,机器翻译的萧条期,1964年,美国科学院成立语言
10、自动处理谘询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),调查机器翻译的研究情况,并于1966年11月公布了一个题为语言与机器的报告,简称ALPAC报告,对机器翻译采取否定的态度,报告宣称:“在目前给机器翻译以大力支持还没有多少理由”;报告还指出,机器翻译研究遇到了难以克服的“语义障碍”(semantic barrier)。在ALPAC报告的影响下,许多国家的机器翻译研究低潮,许多已经建立起来的机器翻译研究单位遇到了行政上和经费上的困难,在世界范围内,机器翻译的热潮突然消失了,出现了空前萧条的局面。,2023年
11、4月25日7时59分,语言信息处理-机器翻译I,10,机器翻译的复苏期(1),尽管在萧条时期,法国、日本机器翻译研究的历史和现状加拿大等过,仍然坚持着机器翻译研究,于是,在七十年代初期,机器翻译又出现了复苏的局面。在这个复苏期,研究者们普遍认识到,原语和译语两种语言的差异,不仅只表现在词汇的不同上,而且,还表现在句法结构的不同上,为了得到可读性强的译文,必须在自动句法分析上多下功夫。,2023年4月25日7时59分,语言信息处理-机器翻译I,11,机器翻译的复苏期(2),早在1957年,美国学者英格维(V.Yingve)在句法翻译的框架(Framework for syntactic tran
12、slation)一文中就指出,一个好的机器翻译系统,应该分别地对原语和译语都作出恰如其分的描写,这样的描写应该互不影响,相对独立。英格维主张,机器翻译可以分为三个阶段来进行。第一阶段:用代码化的结构标志来表示原语文句的结构;第二阶段:把原语的结构标志转换为译语的结构标志;第三阶段:构成译语的输出文句。,2023年4月25日7时59分,语言信息处理-机器翻译I,12,机器翻译的复苏期(3),这个时期机器翻译的另一个特点是语法(grammar)与算法(algorithm)分开。早在1957年,英格维就提出了把语法与“机制”(mechanism)分开的思想。英格维所说的“机制”,实质上就是算法。所谓
13、语法与算法分开,就是要把语言分析和程序设计分开,程序设计工作者提出规则描述的方法,而语言学工作者使用这种方法来描述语言的规则。语法和算法分开,是机器翻译技术的一大进步,它非常有利于程序设计工作者与语言工作者的分工合作。,2023年4月25日7时59分,语言信息处理-机器翻译I,13,机器翻译的复苏期(4),这个复苏期的机器翻译系统的典型代表是法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(CETA)的机器翻译系统。这个自动翻译中心的主任沃古瓦(B.Vauquois)教授明确地提出,一个完整的机器翻译过程可以分为如下六个步骤:(1)原语词法分析(2)原语句法分析(3)原语译语词
14、汇转换(4)原语译语结构转换(5)译语句法生成(6)译语词法生成 其中,第一、第二步只与原语有关,第五、第六步只与译语有关,只有第三、第四步牵涉到原语和译语二者。这就是机器翻译中的“独立分析-独立生成-相关转换”的方法。他们用这种研制的俄法机器翻译系统,已经接近实用水平。,2023年4月25日7时59分,语言信息处理-机器翻译I,14,机器翻译的复苏期(5),他们还根据语法与算法分开的思想,设计了一套机器翻译软件ARIANE-78,这个软件分为ATEF,ROBRA,TRANSF和SYGMOR四个部分。语言工作者可以利用这个软件来描述自然语言的各种规则。ATEF是一个非确定性的有限状态转换器,用
15、于原语词法分析,它的程序接收原语文句作为输入,并提供出该文句中每个词的形态解释作为输出;ROBRA是一个树形图转换器,它的程序接收词法分析的结果作为输入,借助语法规则对此进行运算,输出能表示文句结构的树形图;ROBRA还可以按同样的方式实现结构转换和句法生成;TRANSF可借助与双语词典实现词汇转换;SYGMOR是一个确定性的树-链转换器,它接收译语句法生成的结果作为输入,并以字符链的形式提供出译文。,2023年4月25日7时59分,语言信息处理-机器翻译I,15,机器翻译的复苏期(6),美国斯坦福大学威尔克斯(Y.A.Wilks)提出了“优选语义学”(preference semantics
16、),并在此基础上设计了英法机器翻译系统。这个系统特别强调在原语和译语生成阶段,都要把语义问题放在第一位,英语的输入文句首先被转换成某种一般化的通用的语义表示,然后再由这种语义表示生成法语译文输出。由于这个系统的语义表示方法比较细致,能够解决仅用句法分析方法难于解决的歧义、代词所指等困难问题,译文质量较高。,2023年4月25日7时59分,语言信息处理-机器翻译I,16,机器翻译的繁荣期,本世纪七十年代末,机器翻译进入了它的第三个时期-繁荣期(1976年-现在)。繁荣期的最重要的特点,是机器翻译研究走向了实用化,出现了一大批实用化的机器翻译系统,机器翻译产品开始进入市场,变成了商品,由机器翻译系
17、统的实用化引起了机器翻译系统的商品化。,2023年4月25日7时59分,语言信息处理-机器翻译I,17,机器翻译的分类1,理想的机器翻译全自动高质量,FAHQ MT Full Automatic High Quality Machine Translation按人机关系分类全自动机器翻译,FAMT Full Automatic Machine Translation人助机译,HAMT Human Assisted Machine Translation机助人译,CAT Compute-Aided Translation,2023年4月25日7时59分,语言信息处理-机器翻译I,18,机器翻译的
18、分类2,按应用方式分类信息分发型MT for dissemination要求高质量,不要求实时采用人机互助,或者受限领域、受限语言等方式提高翻译质量信息吸收型MT for assimilation不要求高质量,要求方便、实时翻译浏览器、便携式翻译设备、,2023年4月25日7时59分,语言信息处理-机器翻译I,19,机器翻译的分类3,按应用方式分类(续)信息交流型MT for interchange不要求高质量,通常要求实时,语言随意性较大语音翻译、网络聊天翻译、电子邮件翻译信息存取型MT for information access将机器翻译嵌入到其他应用系统中跨语言检索、跨语言信息抽取、跨
19、语言文摘、跨语言非文本数据库的检索,2023年4月25日7时59分,语言信息处理-机器翻译I,20,口语机器翻译系统(1),ATR-ITL口语翻译系统:近年来,国外开始自动翻译电话的研究,在日本关西地区成立了自动电话研究所(Advanced Telecommunications Research Institute International Interpreting Telecommunications Research laboratories,简称ATR-ITL),其目的在于把语音识别、语音合成技术用于机器翻译中,实现语音机器翻译。1989年,日本ATR研制了SL-TRANS系统。Spe
20、echTrans系统和JANUS系统:由美国卡内基-梅隆大学(CMU)研制。KITANO系统:90年代初期,日本学者北野(Kitano)在京都大学期间,使用大规模并行计算,采用基于实例的方法进行语音翻译实验,证明了毫秒级的实时口语语音翻译是可实现的。,2023年4月25日7时59分,语言信息处理-机器翻译I,21,口语机器翻译系统(2),Verbmobil计划:由德国联邦政府教育、科学、研究与技术部(BMBF)支持,其目的在于“通过工业及科学界尽可能多的分支领域的合作与集中,在下一个世纪的语言技术及其经济应用领域中为德国谋取国际领先地位”。Verbmobil制定了1993-2001年的研制计划
21、,其中自1993年至1996年的第一阶段计划吸收了德国、美国和日本的32个企业和高等学校的成员参加,政府投入资金4690万马克,企业投入资金310万马克,第一阶段的目标是建立非特定人的、面向会面安排交谈的口语语音翻译系统。,2023年4月25日7时59分,语言信息处理-机器翻译I,22,口语机器翻译系统(3),C-STAR计划:1991年成立了国际口语翻译联盟(Consortium for Speech Translation Advanced Research,简称C-STAR)。C-STAR是一个以口语语音翻译为基本研究目标的国际合作组织,由来自12个国家的20个成员组成。核心成员有来自7
22、个国家7个单位:美国的卡内基-梅隆大学(CMU)、日本的ATR-ITL、德国的卡尔斯鲁尔大学UKA(University Karlsruhe)、法国格勒诺布尔大学自动翻译研究中心GETA-CLIPS、意大利的科学技术研究所ITC-IRST、韩国的高级网络服务技术部ETRI、中国科学院自动化研究所国家模式识别重点实验室(NLPR)。其他成员有德国西门子公司(Siemens)、香港科技大学等。C-STAR把多种语言的口语直接翻译作为一个科学工程来进行,通过建立平台和演示来推动口语语音翻译技术的迅速发展,使C-STAR成为国际口语翻译技术转向工业应用的摇篮,以扫除人类的语言障碍。作为C-STAR核心
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器翻译 IMachineTranslationI
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4520180.html