中文分词毕业论文.doc
《中文分词毕业论文.doc》由会员分享,可在线阅读,更多相关《中文分词毕业论文.doc(18页珍藏版)》请在三一办公上搜索。
1、中文分词毕业论文 摘 要 中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础,虽然研究了很多年,但是中文分词依然是中文信息处理的瓶颈之一。 关键词:中文分词;双向匹配;子字典机制 ABSTRACT Chinese word segmentation is the basis of information extraction, information retrieval, machine translation, text categorization, automatic summarization, speech rec
2、ognition, text-speech, natural language understanding and other Chinese information processing , although Chinese word segmentation has been studied for many years, the Chinese word is one of the Bottleneck of Chinese information processing .Firstly, this paper is to present the segmentation algorit
3、hm which has been analyzed, summarized, discussed the implementation of the Chinese has not been identified two major problems: ambiguous word recognition and not landing. Then, the basis of the dictionary will be based on maximum matching and maximum reverse positive match together to form a two-wa
4、y matching word segmentation algorithm, and uses its own dictionary mechanism proposed by (a dictionary mechanism.) to achieve a two-way matching algorithm based on Chinese word segmentation system.Key words: Chinese word; two-way match; Sub-dictionary mechanism 目 录摘要. ABSTRACT.1引言.11.1 研究背景、目的及意义.1
5、1.2 中文分词的现状.11.3 1.4 课题任务和论文结构.32 中文分词简介.42.1 中文分词问题描述.42.2 中文分词难点分析.42.3 主要的分词算法.63 双向匹配算法和子字典机制.83.1双向匹配算法.83.2 基于词典的分词算法的词典机制.133.3 小结.164 中文分词系统的设计与实现.174.1 系统设计与原则.174.2 中文分词系统的设计.174.3 中文分词结果的实现.195 测试.245.1 测试环境和测试方案.245.2 中文分词系统评价标准.245.3 实验结果和结论.24结论.27致谢.28参考文献.29 基于双向匹配的中文分词算法的研究与实现1 引言1.
6、1 研究背景、目的及意义随着信息时代的到来,可供人们查阅和检索的中文信息越来越多,如何在浩如烟海的中文信息世界里找到自己需要的资料成为一个越来越重要需要研究的课题。在当今时代,要处理迅猛增长的信息,手工处理已经变得不太现实。因此出现了自动化出来方法,自动化处理方法帮助人们检索、管理信息,来解决现在社会信息丰富而知识贫乏的现状。目前已经出现了很多自动化的工具诸如自动摘要、自动文件检索等语言处理技术,在这些技术内的一个核心关键是主题词,对于主题词的提取有助于简化此类工作,而如何找到主题词是需要中文分词技术的。此外中文分词也是搜索引擎,翻译等技术的基础。中文分词,顾名思义,就是借助计算机自动给中文断
7、句,使其能够正确表达所要表达的意思。中文不同于西文,没有空格这个分隔符,同时在中文中充满了大量的同义词,相近词,如何给中文断句是个非常复杂的问题,即使是手工操作也会出现问题。中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题1。对于中文分词的研究对于这些方面的发展有着至关重要的作用。可以这样说,只要是与中文理解相关的领域,都是需要用到中文分词技术的。因此对于中文分词技术的研究,对于我国计算机的发展有着至关重要的作用。计算机对中文和西文的处理技术原理基本相同,但是由于中文本身的特点,我们必须引入中文处理技术,而中文分词
8、技术则是其中的关键,是其他中文处理技术的基础。在我国中文分词已经被研究了三十多年,但是这仍是制约中文信息助理的瓶颈之一,它主要存在语言学和计算机科学等两方面的困难1。对于语言学方面的内容1.2 中文分词的现状最早的中文分词方法是由北京航空航天大学的梁南元教授提出的一种基于“查字典”分词方法。该方法的思想事把整个中文句子,读一遍,然后把字典里有的词都单独标示出来,当遇到复合词的时候,(例如石家庄经济学院),就找到最长的词匹配,遇到不认识的字符串就分割成单个文字。这种分词方法效率并不高,但它的提出为中文分词技术奠定了基础。在接下来的近30年的研究中,许多研究者实现了中文分词基于词典和基于概率统计的
9、很多算法。现在中文分词的算法主要包括对于中文分词的研究主要有基于词典的分词方法,基于统计的分词方法,基于理解的分词方法等。其中基于词典的分词方法是当今的主流,可以说现在出现的分词系统,很多都是在基于词典的基础上再结合另外的一种或两种方法而成的。基于词典的分词方法又称机械分词方法,主要包括最大正向匹配,最大逆向匹配,最少切分法等。不仅对于算法的研究,目前国内已有许多分词系统相继开发完成。文2对现在的各个 - 1 -分词系统及其特点做了阐述如下:SCWSHightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名
10、,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和PHP 5。ICTCLAS这是最早的中文开源分词项目之一,ICTCLAS在国高效率:在PIII 1G采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。 能够对未知的词汇进行合理解析 仅支持Java语言。MMSEG4JMMSEG4J基于Java的开源中文分词组件,提供lucene和solr 接口 1、mmseg4j 用 Chih-Hao Tsai 的
11、 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法盘古分词- 2 -盘古分词是一个基于.net 平台的开源中文分词组件,提供lucene(.net 版本) 和HubbleDotNet的接口 高效:Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒
12、准确:盘古分词采用字典和统计结合的分词算法,分词准确率较高。 功能:盘古分词提供中文人名识别,简繁混合分词,多元分词,英文词根化,强制一元分词,词频优先分词,停用词过滤,英文专名提取等一系列功能。1.3 (1)对于词典在内存中的组织,(2)(3)1.4 课题任务和论文结构中文分词是自然语言信息处理的基础性课题之一。 - 3 -2 中文分词简介中文分词是中文信息处理的基础,也是中文信息处理的关键,中文分词,通俗的讲就是由机器在中文文本中词与词之间自动加上空格。一提到中文分词,就会有两类人对此产生质疑,一类人是外行,对此技术不是很了解,认为中文分词很简单,另一种来自圈内人,也可以讲是行家,虽然中文
13、分词已经研究了将近三十年,可是到现在为止并没有退出一个很好的中文分词系统,中文分词这个难题到底还能不能解决。无论是哪一方面的质疑,中文分词的研究不能放弃,因为这是中国计算机发展的关键,是其它中文信息处理的瓶颈,本章主要对中文分词进行了介绍。2.1 中文分词问题描述在信息检索、语音识别、机器翻译等技术领域中通常需要理解中文的每一句话,也就是要理解每一句话里的每个词,从而来进行相应的操作,但这需要将每一个词从句子里单独切分出来,这就是中文分词技术。用一个专业性的描述就是中文分词系统的输入是连续的字符串(A1A2A3A4A5A6A7)是由字组成的中文句子(其中An是字),通过中文分词处理得到的字符串
14、是B1B2B3B4,其中Bi是由单个字或多个字组成的词。由于中文对于词的界限不是很清晰,如何分词,什么样的叫做词,都需要一个专业的词库来进行区分,可是遗憾的事到目前为止,并没有在这样一个词库,因此我们进行在这里进行的工作是尽可能的寻找一个标准化的词库,来帮助我们界定词的界限。中文分词有两大基本问题,也是中文分词的难点,一是歧义识别问题,二是未登录词问题,本节简要介绍下这两类问题,有关这两类问题的详细介绍请参考2.2。第一个问题是歧义识别的问题,由于中文自身的特点,对于中文中的一句话不同的划分可能有不同的意思,例如,“乒乓球拍卖完了”,这句话可以划分成“乒乓球/拍卖完了”,也可以划分成“乒乓球拍
15、/卖完了”。虽然到现在为止没有出线一个百分百的消除歧义的算法,但是已经出现了许多比较好的,且具有实际应用价值的算法。第二个是未登录词的问题,未登录词又称为新词,因为语言在不断的发展和变化导致新词的不断出现,同时词的衍生现象非常普遍,所以词表中不能囊括所有的词。最典型的是人名,例如在句子“李军虎去上海”中,人可以很容易理解“李军虎”作为一个人名是个词,但计算机识别就困难了。如果把“李军虎”作为一个词收录到字典中去,全世界有那么多名字,而且时时都有新增的人名,如此一项巨大的工程即使可以完成,问题仍旧存在。例如:在句子“李军虎背熊腰的”中,“李军虎”又算词吗?新词中除了人名以外,还有机构名、地名、产
16、品名、商标名、简称、省略语等这些人们经常使用的词都是很难处理的问题,因此在信息搜索中,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一3。2.2 中文分词难点分析中文分词研究了近三十年,虽然已经取得了一些成就,但是中文分词的基础性问题,也是关键性问题并没有解决即歧义识别问题和未登录词的识别问题。下面详细讲述这两大基本问题并讲述已有的解决办法。- 4 - 2.2.1 切分歧义及其处理方法(1)常见歧义类型在中文中存在着很多的歧义切分字段,典型的歧义有交集型歧义(约占全部歧义的85%以上)和组合型歧义4。交集型歧义是这样一种歧义:汉字串AJB被称作交集型切
17、分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串4。 例如:高兴/奋 和高/兴奋,其中“兴”就是交集串。组合型歧义是这样一种歧义:汉字串AB被称作多义组合型切分歧义,如果满足A、B、AB同时为词4。 而在我们分词的过程中我们会遇到以下三种歧义的问题:1)由自然语言的二义性产生的歧义是第一种歧义问题。例如:乒乓球拍卖完了,可以划分成“乒乓球/拍卖完了”,也可以划分成“乒乓球拍/卖完了”。这类歧义是自然语言的二义性而出现的,此类歧义问题无论如何划分都能够说的通,只有结合上下文才能得到正确的划分。2)第二类歧义问题是由机器自动分词出现的,这类分词只有一种正确的分
18、词方法,但因为分词采用的分词算法不同而出现不同的分词结果,例如对于这句话“这时候最热闹的”,如果采用最大正向匹配的算法就是“这时候/最热/闹/的”,而如果采用最大逆向匹配就是“这时候/最/热闹/的 ”。对于本句来说只有第二句才是正确的切分,如果对于人工分词来说这是不会出现的歧义。3)第三类问题就是由于词典的大小,对于专业名词,人名地名等不包含出现的歧义,例如“张芳明是个好学生”,在这里“张芳明”是个人名,是一个词,但是如果在分词词典里不包含“张芳明”这个人名,那么就会出现“张/芳/明”这样错误的切分结果。对于这种歧义,只要字典足够大就可以解决,但是我们不可能也没有必要包含所有的人名地名,因此对
19、词汇进行分类,从而对于某一行业的词用专业词典来切分是一个很好的解决方法。(2)常见消除歧义算法5不同的研究中它们的歧义消除方法也不同。一个经过表明简单有效的方法是最大匹配算法,最大匹配算法可以有多种形式。1)简单最大匹配算法。其基本形式是解析单个单词的歧义性,例如,假设C1,C2,.代表一个字符串中的汉字。我们首先位于字符串的开头并想知道如何区分单词。我们首先搜索词典,看 _C1_是否为一个单个汉字组成的单词,然后搜索 _C1C2_来看是否为一个两个汉字组成的单词,以下类推。直至找到字典中最长的匹配。最可能的单词就是最长的匹配。我们取这个单词,然后继续这个过程直至字符串中的最后一个单词被识别出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 分词 毕业论文
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4019981.html