【大学】基于语料库的双语词典编纂平台.ppt
基于语料库的双语词典编纂平台,http:/,为什么要建立基于语料库的词典编纂平台?,词典编纂耗时耗力技术可行性计算机技术、互联网技术迅猛发展语言信息技术、大规模语料库技术迅猛发展基于语料库的英语辞书编纂已有先例Collins COBUILDMacmillan English Dictionary,语料库辞书编纂技术在中国,已经引起广泛关注商务印书馆南京大学广东外语外贸大学国家语委总体而言,还落后于西方国家基本上还没有基于语料库编纂的辞书(?)缺乏大规模的用于辞书编纂的语料库缺乏友好可用的计算机化的辞书编纂平台,基于语料库的词书编纂平台,要真正发挥出语料库以及语言信息技术在词典编纂中的作用,切实提高词典编纂人员的效率和提高最终词典产品的质量,就必须认真探索计算机化的词典编纂流程和模型并建立基于这些模型的软件系统。基于这一思考,我们开始了构建“基于语料库的双语词典编纂平台”的工作,期望能为我国辞书编纂技术的现代化工作做出些许尝试。,平台构建的目标,提高汉英双语辞书的编纂质量词典编纂决策基于真实语言材料(语料库)为词典编纂提供用例以及搭配、词频等统计信息丰富的参考词典资源提高双语辞书的编纂效率减轻传统词典编纂人员的非智力劳动网络化的项目管理为双语辞书编纂提供一个基础平台,工作基础,从2001年起,开始建设汉英双语对齐语料库双语对齐语料库是双语词典编纂不可或缺的资源之一在互为译文的汉英两种文本之间建立了句子级的对齐关系,并全部经过人工校对规模:汉语:2000万字英语:1800万词对齐句子对:80万对为词书编纂平台的构建提供了一个工作基础当然,编纂平台并不限定一定使用北大的双语对齐语料库,北大双语语料库工作介绍规范,基于XML标记语言便于共享和交换便于统一处理容易获得广泛的软件支持标记层次文本属性信息领域、语体、年代、作者、译者等单语文本结构信息语篇、段落、句子、词的边界、词的词性双语对齐信息原文、译文 句子间的对应关系和对应模式,语料库标记样例(一),语料库标记样例(二),北大的双语语料库技术研究,汉英双语语料库处理软件工具集汉英双语语料段落、句子级对齐软件汉英双语语料词汇级对齐软件汉语文本词语切分和词性标注软件统计汉语句法分析软件Tokenizer for English TextLemmatizer for English TextPOS tagger for English Text双语语料检索系统(Parallel Concordancer),双语词典编纂平台的结构,双语词典编纂平台的基本功能,语料库的定制和索引参考词典的定制和索引词典编纂项目的管理词典条目的生成和管理释义词表的生成和管理词典编纂任务的管理词典编纂平台的用户管理词典微观结构的定制和管理结构化词条编辑界面语料库检索、参考词典检索基于语料库的搭配信息统计分析,词典编纂平台用户系统管理员,词典编纂平台用户项目负责人,词典编纂平台用户词典编写人员,词典微观结构的定制,词条的格式化编写,语料的检索和统计查询语言,语料检索举例,语料的检索排序,生成词频表,搭配强度的统计和分析,结束语,目前该平台已经具备了基本功能,正处在调试过程中。进一步的工作方向完善平台的基本功能(界面的改善)加强基于语料库的搭配统计分析功能词义的聚类分析句法分析的应用(长距离搭配)谢谢大家,