英语语言文化论文中英文混合分词方法及应用研究.doc
《英语语言文化论文中英文混合分词方法及应用研究.doc》由会员分享,可在线阅读,更多相关《英语语言文化论文中英文混合分词方法及应用研究.doc(3页珍藏版)》请在三一办公上搜索。
1、中英文混合分词方法及应用研究 中英文混合分词方法及应用研究 Chinese and English Mixed Segmentation Method and Applied Research【中文摘要】 随着科学技术的迅猛发展,计算机在各个领域得到了前所未有的广泛应用。已从过去的数据处理、信息处理发展到现在的知识处理和对语言文字的信息处理。自从20世纪80年代初,中文信息处理提出自动分词以来,众多专家和学者在这一领域取得了令人可喜的进展,并且基于中文分词的算法也随着信息的多元化,复杂化在不断的升级,改进和完善。分词算法在信息检索,自动归档等领域都有着广泛的应用,但是由于中国经济的飞速发展使得
2、中国与世界的联系更加紧密,在一些前沿领域或是国人刚刚开始涉足的领域就难免要借鉴和引用一些发达国家的科研成果或创新理论。这样,信息的形式就难免要使用中外语言混合的形式来表达,特别是中英文混合使用的情况将会越来越普遍。这就要求信息处理系统不仅能够将中文正确分词,还要能够对中英文混合的情况正确分词。目前有关中英文混合分词的研究相对较少,还没有形成比较成熟的理论,中英文混合分词的规范、评价体系还没有建立。对于中英文混合字段一般是将中文汉字和英文字母、中文汉字和阿拉伯数字、英文字母和阿拉伯数字直接分开,没有对其进行词的判断和消岐处理。基于此课题首先研究中英文混合的新特点,并着重研究了中英文混合分词的算法
3、,特别是混合分词的消岐问题。本文主要研究了中英文混合的形式、结构以及人们使用中英文混合的习惯,分析了现有的中文分词算法,提出了一种实用的中英文混合分词算法。对于分词难点之一的消歧问题,本文做了深入的研究,并在现有消歧算法基础之上分析了需要继续消歧的原因并且给出了具体实施方法。对于最大词长问题的解决本文充分考虑了分词速度的要求,提出了以待切分字符串的双首字开始的Hash词典的词长和待切分文本的长度进行比较从而确定RMM的最大词长。为了验证该算法的效率,开发了中英文混合分词系统,以中国风能信息中心系统为例对中英文混合分词算法做了试验验证。试验表明,该算法能够有效的将中英文混合文档正确的分词,其消歧
4、率到达了较高的水平,算法对未登录词中的姓名名词也有很好的识别能力。最后依据算法的分词结果初步达到了文章自动分类归档的目的。【英文摘要】 With the rapid development of science and technology, computer has been widely used ever. It develops from the data processing to knowledge processing. Since the early-1980s, Chinese information processing has proposed the automatic
5、 segmentation, many experts and scholars in this field have made great progress. The algorithm also has a wide range of applications in information retrieval, automatic archiving and other areas. The link between China and the world has been more closely due to the rapid development of Chinas econom
6、y, however, we unavoidably use the experience of other countries for reference.Such informations form unavoidably must be used Chinese and foreign language mixed to express our thought, especially Chinese and English mixed form. This set a higher request to the information management system,.At pres
7、ent, the research of Chinese and English mixed word segmentation is relatively few, and it has not formed a quite mature theory. The Chinese and English mixed word segmentation standard and the appraisal system have not been established. Based on this, The paper has studied the new features of Chine
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 英语 语言 文化 论文 中英文 混合 分词 方法 应用 研究
链接地址:https://www.31ppt.com/p-2884403.html