中文信息处理论文(精) .doc
《中文信息处理论文(精) .doc》由会员分享,可在线阅读,更多相关《中文信息处理论文(精) .doc(4页珍藏版)》请在三一办公上搜索。
1、 中文信息处理学号: 姓名: 班级: 时间: 浅谈中文信息处理之汉语自动分词 【摘 要】:汉语自动分词问题是中文信息处理技术发展的一大热点也是一大难点,对于自动分词研究的出发点的不同,其自动分词方法也是不一。自动分词给我们的日常的生活带来了便利,但同时也尚有一些急需解决的问题存在。【关键词】:自动分词;中文信息处理;技术 中文信息处理是第一次接触的一门学科,几个月的学习下来对它也有了初步的一些了解。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、信息学、声学等多种学科相关联的综合性学科。中文信息处理指的是利用计算机对汉语书面语形式和口语形式这两种信息进行加工,加工的结果形
2、成各种信息处理系统,实现中文的信息检索、语音识别、机器翻译等。简单的说,中文信息处理就是解决汉字和汉语输入和输出电子计算机的问题的一门学科。笔者认为中文信息处理这门学科与其它的综合学科一样,内容繁多复杂,有一定的难度和复杂性,因此,我就几个月来所学的内容、课本以及一些对中文信息处理进行研究的学者的观点谈谈自己对汉语自动分词的看法。 众所周知,中文文本没有类似英文空格之类的标志来标示词的边界标志。由于汉语的书写形式不像西文,词与词之间没有间隔,所以就比西文的语言处理多了一道手续:自动分词。所谓汉语自动分词,是把输入计算机的汉语词句自动切分为词的序列的过程。汉语自动分词的任务我们用通俗的话来说,就
3、是要由机器在中文文本中词与词之间自动加上空格。这样才能进行下一步的句法语义分析及处理。(一)自动分词方法根据对于自动分词研究的出发点的不同,目前较权威的观点来看大概可以归纳为三大类:基于词典的分词方法、基于统计的分词方法、基于AI 的分词方法。我们上课所学的主要是第二种,即基于统计的分词方法。因此,这里我主要谈谈基于统计的分词方法,其它两类简要概括一下。1.基于词典的分词方法这种分词方法是前苏联专家在上个世纪50 年代末提出来的。其基本思想是:事先建立一词库(词典),其中包含所有可能出现的词。对给定的待分词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则该子串是词
4、,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取S的子串进行匹配。这种分词方法又分为最大匹配法、逆向最大匹配法、设立切分标志法、逐词遍历匹配法、正向最佳匹配法和逆向最佳匹配法五大方法。 2. 基于统计的分词方法上面我已经谈到,中文文本没有类似英文空格之类的标志来标示词的边界标志。也就是说,词与词之间没有显著的分隔标记。而基于统计的分词方法就有一大优点,即能够有效地自动排除歧义,能够识别新词、怪词,例如人名、地名等,解决了基于词典的分词方法的弊端。基于统计的分词方法是我们学习中文信息处理课程时主要讲的分词方法。这类方法的主要依据和思想是:词是稳定的字的组合,因此在上下文中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理论文精 中文信息处理 论文
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4019888.html