汉英机器翻译扩充词典的建造.doc
《汉英机器翻译扩充词典的建造.doc》由会员分享,可在线阅读,更多相关《汉英机器翻译扩充词典的建造.doc(15页珍藏版)》请在三一办公上搜索。
1、汉英机器翻译扩充词典的建造摘要:本文首先介绍了我们在“面向新闻领域的汉英机器翻译系统”中语言资源建设的总体框架,然后着重介绍了其中扩充词典的建设方法。扩充词典是相对于核心词典而言的,特点是词汇量大,每个词的信息相对较少。扩充词典的建设包括以下几个阶段:收集;格式整理;词条拆分;词性标记归一化;词性标记补齐;词条合并。实验结果表明,采用这种方法,利用较少的人工,就可以得到规模很大、并初步可用的双语机器翻译词典,并且这部词典可以大大减少翻译中未定义词的数量,提高翻译的质量。关键词:机器翻译,双语词典获取引言现在的机器翻译研究,从一种劳动密集型的研究方式逐步过渡到了一种资源密集型的研究方式。这二者的
2、区别在于,在劳动密集型的研究方式中,语言学家的工作是为某个具体的机器翻译系统开发词典、规则库等语言知识库,其工作依附于某个具体的机器翻译系统,不具有独立性。而在资源密集型的研究方式中,语言学家和计算机工作者的分工更加明确。语言学家的研究成果以语言资源的形式呈现出来,而不是仅仅为某一个机器翻译系统服务,其工作具有一定的独立性。同时,这种分工导致了语言资源的共享,也使得计算机工作者在算法的研究中对于语言资源的使用有了更广泛的选择余地。本文简要介绍了我们在“面向新闻领域的汉英机器翻译系统”开发过程中语言资源建设的总体规划和实施情况,然后详细介绍了其中一个子任务“扩充词典”建设的工作流程、算法设计、实
3、施过程和结果评价。1 语言资源建设的总体规划我们在“面向新闻领域的汉英机器翻译系统”的开发过程中,非常重视语言资源的建设。我们建立了一套完整的,覆盖语言知识各个层面的机器翻译语言资源建设规范,并启动了一系列的语言资源建设子任务。这些子任务包括:1.1 汉语语义词典子任务:在原有语义词典基础上,完善规范、修改错误、补充词语,构造一部完整的机器翻译用汉语语义词典。目前此项工作正在进行,目标是将北京大学语法信息词典中的七万多汉语词语加入到语义词典中;1.2 汉英扩充词典子任务:在原有核心词典的基础上构造一部机器翻译用扩充词典,本文后面将详细介绍;1.3 汉英短语库子任务:收集汉英对照的短语,标记出短
4、语结构信息,此项工作已告一段落,目前收入短语5万余条;1.4 汉英双语语料库收集整理子任务:收集、整理双语语料库、进行格式整理、篇章标注、篇章对齐,此项工作第一阶段已经完成,收录大约100万汉字的汉英对照新闻语料以及大量的其他类型语料,目前正在进行第二阶段工作;1.5 汉英双语语料库句子对齐子任务:在篇章对齐语料库基础上,完成段落对齐和句子对齐,与上一个子任务一样,第一阶段已完成,完成了100万汉字的汉英对照新闻语料的句子对齐(约4000句对),并整理其他类型句子对齐语料约18万句对。目前正在进行第二阶段工作;1.6 汉英双语语料库短语对齐子任务:在句子对齐语料库基础上,完成子句、最长名词短语
5、、基本名词短语以及其他一些特定类型短语的对齐,此项工作第一阶段已经完成,大约完成了3000汉英句对的短语对齐工作。第二阶段还没有开始。$ 背*vA v $=义项:驮;负担,谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO,补助动词:NO,语义类:搬移,配价数:2主体:语义类:人|动物,客体:语义类:具体事物,处所:语义类:空间|集体= V $=VSUBC:VO,VMORF:IREG,VD:bore,VN:borne,OBJTYPE:NP*vB1 v $=义项:向;避,谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO,补助动词:NO,语义类:自移|自为,配价数:1主体:语义类
6、:人,客体:语义类:人类= D $=DVPRE:NO,DVEND:YES,DADJV:NO,DMORF:NONE= V( !V P N ) %V=VSUBC:VI,VMORF:IREG,VD:did,VN:done*vB2 v $=义项:诵,谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO,补助动词:NO,形式动词:NO,语义类:对待,配价数:2主体:语义类:人,客体:语义类:人为事物|抽象事物= V $=VSUBC:VO,VMORF:REGU,OBJTYPE:NP|CS*n n $=名词子类:na,前名:NO,前动:NO,后名:NO,名状语:NO,临时量词:NO,语义类:构件= N
7、 $=NSUBC:NCONT,GEND:NONE图1:核心词典示例本文主要介绍其中的第二项子任务:汉英扩充词典子任务。2 机器翻译的词典建设双语词典建设是机器翻译系统开发中的一个重要环节。常见的机器翻译词典开发有以下几种方法:1. 人工开发:组织人力物力,从头开始开发。这种方法费时费力,但可以根据自己的需要任意裁减所需信息,易于和翻译算法紧密结合;2. 利用已有的电子词典资源:目前通过各种方式可以获取的双语电子词典已有很多,通过对这些词典进行收集整理,可以得到机器翻译用的双语词典。这种方法的优点是可以充分利用已有资源,省时省力,缺点是各种不同来源的词典格式、体例、属性字段等都不一致,词典质量参
8、差不齐,整理加工比较麻烦;3. 从双语语料库中抽取词典:在各种双语对齐语料基础上,利用统计方法,从中抽取双语对照词语。这种方法的优点是直接从语料中抽取,可以学习到一些活的翻译方法,而这些译法很可能在词典中是找不到的,特别适用于一些专业领域的词典抽取,或新词语的学习。不过这种方法依赖于学习算法的好坏,会产生很多垃圾信息,要得到高质量的词典也需要较多的人工校对;学习到的词典信息依赖于语料库,往往信息不够全面,最好作为已有词典的补充。在我们的汉英机器翻译系统中,已经有了一部核心机器翻译词典,这部词典含汉语词条(以词形word type计算)约五万,这部核心词典含有丰富的词法、句法、语义搭配信息如图1
9、所示。这部词典是采用上面所述的第一种方法,通过自己组织人力物力从头开发的。词典采用文本形式存储,使用我们专门编写的词典管理工具进行管理。不过,在面对真实的文本的时候,这个词典的规模就显得有点太小了,远远不能满足实际翻译的需要。在我们的新版本机器翻译系统中使用了一个独立的分词程序,而这个分词程序所用的分词词典就有词语8万多条,这样就导致很多分词程序切分出的词语无法翻译。面对这种情况,我们决定采用上述的第二种方法,构造一部扩充的汉英机器翻译词典。3 扩充词典的收集与整理3.1 扩充词典的目标扩充词典(下面我们又称目标词典)应该满足以下三方面要求:1. 面向通用领域:扩充词典不是专业词典,不应该收入
10、专业性太强的词语;2. 词汇量足够大:扩充词典的词汇量不应太少,按照我们事先的估计,至少应达到2030万词对的数量级;3. 每个词对的信息虽然不必像核心词典那么丰富,至少应该含有以下几个字段: 汉语词语、汉语词性、英语词语、英语词性、置信度而且汉语词性和英语词性的标记集应该与核心词典一致。我们称之为一个五元组。4. 通过在多部词典中出现的频次的统计,也可以得到双语词对的置信度信息。这种置信度信息虽然不是直接从双语语料库统计得到的,但也有一定的概率意义。词典在收集过程中采用数据库进行管理,这样便于利用成熟的数据库管理工具进行操作。最后得到的词典再通过文本形式提交给翻译程序,由翻译程序建立索引、进
11、行查询。3.2 扩充词典的收集确定了目标以后,我们开始从各种途径收集一些的英汉和汉英词典,加上我们原先的一些积累,总共得到6部电子版的词典,本文把这六部词典称为原始词典。这些词典的总体情况如下表所示:词典方向规模类型A英汉12万词对背单词软件(各类大中学学英语课本、英语学习类书籍共30余本)B汉英18万词对书面词典C汉英17万词对书面词典D汉英12万词对网络词典E汉英8万词对网络词典F汉英693词对一些常用新词语表1:扩充词典的来源3.3 扩充词典的整理利用原始词典并不能通过简单合并得到所需的扩充词典。由于词典来源不一,导致了很多问题。其中的主要问题包括:l 格式不一致:由于词典来源不一,格式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉英 机器翻译 扩充 词典 建造
链接地址:https://www.31ppt.com/p-2330046.html