毕业设计(论文)基于规则的分词算法研究与设计.doc
《毕业设计(论文)基于规则的分词算法研究与设计.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于规则的分词算法研究与设计.doc(40页珍藏版)》请在三一办公上搜索。
1、基于规则的分词算法研究与设计摘要:中文作为人类沟通交流、传递信息的主要语言工具之一,那么中文信息的处理在信息领域就显得非常重要。中文分词是中文信息处理的基本也是最重要的组成部分之一,它的成功与否直接关系到中文信息处理领域能否取得重大突破。中文分词是将中文的一段话或者一句话切分成一个一个单独的词,由于中文的词典没有明确规定词的定义,不像英文的单词之间有明确的分隔符,因此要实现中文的准确分词要比英文分词复杂得多也困难得多。目前,主要的分词算法有这么一些:正向最大匹配算法(MM)、逆向最大匹配算法(RMM)、最小切分算法、最佳匹配算法等。本文先对一些常用的经典算法进行了分析与研究,然后根据任务要求,
2、设计了一个简单的分词系统。系统主要分为三个部分:词典构造与载入、匹配词语、输出结果。本系统做出的改进有:减少了中文标点符号所引起的分词歧义;词典存储采用容器方式调入内存,提高分词效率。关键字:中文分词;词典;最大匹配Researching and Designing of Words Segmentation Algorithm based on RulesAbstract:Chinese as one of the main language tools for human communication and communicate information, so Chinese infor
3、mation processing in the information field is very important. The Chinese word segmentation is the basic and one of the most important part of Chinese information processing, the success directly related to Chinese information processing field can get significant breakthrough. The Chinese word segme
4、ntation is a passage into Chinese or words cut into a single word, since Chinese dictionary definition of the word did not make clear a regulation, dont like English words have clear between separator, so to achieve Chinese word segmentation of accurate than English word segmentation is much more co
5、mplex and much more difficult. At present, the main parting-words arithmetic has few:maximal matching algorithm, reverse maximal matching algorithm, minimum segmentation algorithm, optimal matching algorithm and so on. This paper first to some common classical algorithms are analyzed and studied, ac
6、cording to the mission requirements, design a simple word segmentation system. System can be divided into three parts: dictionary structure and load, matching words, output the results. This system has made improvements: reduce caused Chinese punctuation word segmentation ambiguity; dictionary by a
7、gelatinous memory storage containers way, improve efficiency .Keyword: Chinese word segmentation, dictionary, maximal matching algorithm目 录第1章 绪论11.1 课题背景11.2 研究目的与意义21.3 课题内容31.4 论文结构3第2章 中文分词概述42.1 中文分词的概念42.1.1 中文词的特点42.1.2 什么是中文分词42.1.3 为什么要进行中文分词52.2 中文分词技术发展现状52.2.1 主要分词技术52.2.2 分词难点研究62.2.3 目
8、前主要的分词系统82.2.4 常用分词算法的研究92.3 中文分词技术的应用112.3.1 在中文搜索引擎的应用112.3.2 在中文信息检索的应用122.3.3 在汉语拼音输入法中的应用122.3.4 在中外文对译中的应用122.3.5 在问题答疑系统中的应用12第3章 需求及功能分析133.1 需求分析133.1.1 词典组织模块133.1.2 切分词语模块133.1.3 反馈结果模块143.2 功能分析143.3 程序框架分析153.4 技术难点分析163.4.1 词典的组织与装载173.4.2 分词的效率与准确率173.4.3 区分英文字母和数字183.4.4 消除标点符号18第4章
9、系统设计与实现204.1 系统开发工具204.2 用户界面设计204.3 详细设计214.3.1 词典装载214.3.2 区分非汉字字符234.3.3 去除标点254.3.4 查找匹配分词27第5章 系统测试295.1 测试环境295.2 测试例子295.3 测试结论33结 论34致 谢35参考文献36第1章 绪论1.1 课题背景随着计算机技术的迅猛发展,计算机在数字处理和运算方面的成就都已有目共睹。相比这些领域的应用,在中文处理方面,无论发展程度还是实用程度都相对滞后。从研究现状来看,中文理解和处理的理论体系仍未在真正意义上建立,技术手段仍然比较单。中文作为人类思想感情最基本、最直接、最自然
10、的表达方式,是人类社会中最常用的交流工具。中文处理的研究范围极为广泛,是一门集认知科学、计算机科学、语言学、数学与逻辑学、心里学等众多科学于一身的交叉学科。不仅涉及语言学本身,而且包括了人脑对语言处理的机理,语言习得的过程,还包括了语言知识的表达方式与现实世界的关系等内容。所以,中文处理是计算机信息科学研究领域中的一项不可缺少的重要内容,它具有重大的科学意义和实用价值1。随着信息爆炸时代的到来,互联网上充斥大量各种各样的信息。可供用户检索的信息越来越多,用户在享受到大量信息资源的同时,也越来越被检索到的庞大信息所淹没,不能很快地找到自己所需要的信息,同时排除垃圾信息的工作也越来越复杂,导致人们
11、的工作效率低下。如何能在浩瀚的信息中快速准确地找到自己所需要的信息已成为当今信息处理领域的一个重大课题。这么庞大的信息用人工处理的方法现在肯定是行不通的,因此需要借助计算机高效的运算速度帮助人们实现自动化地处理这些信息。目前,出现了许多如中文文本自动摘要、自动分类、信息自动检索、自动提取等中文处理技术。这些技术中,提取关键词成为了它们的主要也是基础工作之一,而提取关键词就要涉及到把语句进行切分。切分语句即为分词,即把整句话分割成以字或者词为单位的语义单元2。但由于中文词语的多变性,与不确定性,所以中文语言不是计算机所能准确理解的。实际上,以目前的计算机水平来看,要百分之分准确理解中文词语那是不
12、现实的,但现在很多技术都需要用计算机来处理中文语句,这本来就相互矛盾的。一方面人们为了提高速度不得不采用计算机,另一方面由于计算机对中文处理的准确率不高,人们又要避免用计算机来处理信息。如何从这两者之间取得一个平衡点,值得人们去思考与研究。分词技术作为中文处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响后续处理步骤的效果。其中,中文分词由于中文结构的特点,与西方国家文字相比更难于处理汉语的词汇与词汇之间没有明显的边界,汉语的分词需要通过计算机对汉语的音、形、义进行处理3,来达到切分词汇的目的。中文分词已成为计算机处理汉语面临的首要基础性工作。只有提高中文分词系统的准确率和工作效率,才
13、能使中文处理系统稳定高效地工作。中国五千年的文化积累,文字和词语经过这么多年的发展,早已经形成了一个庞大而复杂的体系。计算机在处理中文上与西方语言不同,总是会遇到很多困难:中文不像西方文字那样有空格这个明显的分隔符;中文的同义词、同音字、多音字非常多,所以中文一个词的用法非常多,在某一句话中它是一个词,但在另一句话中它就是两个分开的字,如“爱好”这个词,它在“我的爱好是看书”这句话中就是一个词,而在“我喜爱好的衣服”这句话中它根据人们的正常理解它就是两个单独的字,这就造成了计算机在识别词语上产生了重大分歧;由于中文有大量的虚词、助词的存在,造成了中文词语的可变性,如“快乐”可以变形成为“很快乐
14、”、“快快乐乐”,这样无形中更是加大了计算机对中文智能识别的困难。此外,不仅仅是中文,同样是亚洲语言的韩文、日文等这些用UNICODE编码的文字语言也存在着同样的问题4,所以分词技术作为一个具有普遍重大意义的课题,得到了越来也多学者的关注。1.2 研究目的与意义汉语语言理解有着极其广泛的应用价值,在人机接口、问答系统、机器翻译等众多的应用领域中,对输入文本进行句法分析是一项必不可少的处理任务。计算机从事句法分析所凭借的语法信息不外乎来自机器词典和句法规则库。机器词典收录了每个词条的语法、句法和语义知识,而句法规则一般来讲是在词类等知识基础上构造的。因此,对汉语句子必须先进行词语切分处理,才有可
15、能进行句法分析。如果对输入的源文件中的句子未经分词处理,仍然是一些字符串序列,就无法根据句子中出现的每个具体的词到机器词典中去查找相应的语言知识;而且如果不知道每个具体词的词性等词汇知识,也就不可能直接调用相关的句法规则来判断句子的句法结构。目前,许多分词方法已经得到实现,有些比较先进的方法还在进一步的研究与改善之中。中文信息处理在我国现代信息化建设中扮演的角色也越来越重要,经过几十年学者的不断探索与研究,取得了很显著的成果。不过,中文分词到现在任然制约着中文信息处理的发展。1.3 课题内容本课题针对现有分词系统的优缺点,即时准确的掌握分词系统的发展现状和工作原理,并在分析分词算法的基础上自主
16、地实现了一个初步的分词系统,通过实践来发现问题,优化系统。力图通过良好的数据存储与组织方式来实现一个词典比较全面,又比较快速的分词系统。1.4 论文结构论文主要研究了汉语自动分词系统的设计与实现,从目前中文搜索引擎的发展现状出发,引出中文搜索引擎的关键技术汉语自动分词系统的设计。第一章 绪论部分,介绍了该课题的研究背景与研究的目的与意义。第二章 中文分词概述部分,首先介绍了中文词组的特点;其次介绍了现在主要的分词技术与分词系统,并且对现有的常见分词算法进行了分析;最后介绍了分词技术的应用。第三章 需求及功能分析部分,首先从用户角度出发,分析了分词系统的结构与实现目标;然后从设计者的角度来看,对
17、分词系统的功能、框架以及设计技术难点进行了分析。第四章 系统设计与实现部分,对系统进行了详细的设计,提出先去标点再进行分词的办法,以及消除标点去掉后所引起的歧义问题的解决方案,实现人机交互界面。第五章 系统测试部分,选取中文语句对该系统进行测试,分析测试结果。第2章 中文分词概述2.1 中文分词的概念2.1.1 中文词的特点中文句子的基本单位是字而不是词,但理解一个句子的单位却是词。字组成了词,由词组成了句子才使得一个句子有意义。但分词中的词与语言学中说的词有一定的区别:分词中所说的词,是指一个分词单位。分词单位包含了语言学中的词。信息处理用现代汉语分词规范中,对词的定义是:最小的能独立运用的
18、语言单位。对分词单位的定义是:汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组。然而,并不是所有的研究人员都按照信息处理用现代汉语分词规范来进行中文分词。在词的问题上,没有一个统一的标准。中文词的最大特点是中文构成词的能力非常强大,中文词的集合是一个开放集。一个汉字可以和很多汉字组成词,比如“瓶”:有奶瓶、花瓶、醋瓶、酒瓶、啤酒瓶、酱油瓶、氧气瓶、液化气瓶、玻璃瓶、塑料瓶等等;又如“子”:有瓶子、袋子、盒子、叶子、绳子、牌子、桌子、椅子、窗子,儿子,老子,孔子,孙子等等。在GB2312汉字集的6763个汉字里,不能与其他字组成词的约有两千多,而其它的汉字
19、,有的汉字能与其他汉字组成几百个词。汉字词主要是二字词、三字词、四字词等组成,这三类词组成了汉字词的绝大部分,其中以二字词最为多。2.1.2 什么是中文分词简单地说,分词就是将连续的字(词)序列按照一定的规范重新组合成词序列的过程。信息处理用现代汉语分词规范中对分词的定义是:从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。对于英文分词,只要简单地以空格为分界符就能很好地把句子分析出来。这是由于英文是以词为单位的。不同于英文,计算机对中文分词时,由于中文句子中词与词之间是没有空格的,而且,两个字组合起来看似是一个词在句子中未必是一个词,所以计算机想要识别出中文句子中的词,就必
20、须采用不同于英文分词的新技术。例如,英文句子“I like football”,用中文则为:“我喜欢足球”。计算机可以很简单通过空格知道football是一个单词,但是不能很容易明白“足”、“球”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我喜欢足球。2.1.3 为什么要进行中文分词由于中文文本的字与字之间的连续性,即汉语文本中词与词之间却没有明确的分隔标记,计算机无法识别出中文文本中哪些汉字串组合成词,导致处理中文信息无法直接理解中文的意义。所以,中文信息处理就必须比西文信息处理多了中文分词这一基本的步骤。汉语的中文
21、信息处理就是要“用计算机对汉语的音、形、义进行处理”。而“词是最小的能够独立活动的有意义的语言成分”。显而易见,自动识别词边界,将汉字符串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题。在自然语言处理领域,国外大大领先于我国,已经做出很多卓有成效的研究,但是那些研究大多基于西文,并不是以正确切分单词为前提的。如果不能很好地完成中文分词这道工序,就不能采用这些研究成果5。2.2 中文分词技术发展现状随着汉语自动分词系统的关注度不断提高,为克服中文词汇自动切分这一难题,近10年来,语言学界、人工智能领域和情报检索界的学者们,在汉语自动分词与自动标引的研究与实践上进行了大量
22、的研究,找到了许多解决汉语分词的方法。80年代以来见诸报端的中文自动分词方法归纳起来已有22种。同时,各种分词系统也不断建立,分词系统在运行速度、准确度等方面都已经具有了研究应用的价值。以目前应用最广的机械匹配分词法为例,其分词精度能达到90左右,一些经过长期研究具有一定规模的分词系统的精度达到了95以上,如今已得到广泛应用。2.2.1 主要分词技术我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,
23、则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法有:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的词数最小)。 基于理解的分词方法:通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部
24、分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。基于统计的分词方法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 基于 规则 分词 算法 研究 设计
链接地址:https://www.31ppt.com/p-3981738.html