汉语分词技术初探计算机科学与技术毕业论文.doc
《汉语分词技术初探计算机科学与技术毕业论文.doc》由会员分享,可在线阅读,更多相关《汉语分词技术初探计算机科学与技术毕业论文.doc(42页珍藏版)》请在三一办公上搜索。
1、兰 州 商 学 院本科生毕业论文(设计)论文(设计)题目: 汉语分词技术初探 学 院、 系: 信息工程学院 计算机科学与技术系 专 业 (方 向): 计算机科学与技术 年 级、 班: 学 生 姓 名: 指 导 教 师: 2011年5月18日声 明本人郑重声明:所呈交的毕业论文(设计)是本人在导师的指导下取得的成果。对本论文(设计)的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。因本毕业论文(设计)引起的法律结果完全由本人承担。本毕业论文(设计)成果归兰州商学院所有。 特此声明毕业论文(设计)作者签名: 年 月 日 汉语分词技术初探摘 要所谓汉语分词,就是将中文语句中的词汇切分出来的过
2、程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之问是没有空格的,因而必须采用某种技术将其分开。分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。汉语分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今汉语分词己成为自然语言处理的研究热点与难点。本文讨论了中文分词的概念、目标及其所面临的一些基本问题,详细介绍了三种基本中文分词算法,并对中文分词词典的索引及常用词典结构进行了介绍,最后说了正向最大算法的实现及测试结果。 关键词中文分词
3、 最大匹配 分词词典 自然语言处理ABSTRACTChinese word segmentation,is to cut the sentence in the Vocabulary subout process Since the writing habits of Chinese,Chinese sentence symbol between words is impliedthe English words have the spaces between the words,So there is easy to separateThe Chinese word for each sen
4、tence,there is no space between words,and therefore must be some kind of technology to separate sentence Chinese sentence segmentation algorithm from the 20th century,since the 80S has been a research focus,due to the complexity of the Chinese language has been in a stage of developmentSegmentation
5、of natural language processing technology as the basic link,but also one of the key links,and its direct impact on the quality of the subsequent processing steps resultsChinese word segmentation the first step in natural language processing,and its importance can not be ignored Key Words Chinese Wor
6、d Segmentation,Maximum match,Segmentation Dictionary, Chinese Information Processing目 录一、引言1二、中文分词简介3(一)中文分词的概念31、什么是中文分词32、中文分词的应用4(二)中文分词的目标51、准确性62、运行效率63、通用性64、适用性7(三)中文分词的基本问题71、分词规范82、歧义识别103、未登录词11三、基本中文分词算法12(一)中文分词算法介绍121、基于字符串匹配的分词算法122、基于理解的分词算法143、基于统计的分词算法14(二)根据具体应用使用合适的分词算法151、混合分词152
7、、基于字的切分法17四、中文分词词典17(一)词典的索引181、Hash索引182、Trie树18(二)常用词典结构191、有序线性词典结构192、基于整词二分的分词词典结构193、基于TRIE索引树的分词词典机制20五、正向最大匹配算法的实现21(一)正向最大匹配算法21(二)采用正向最大算法的分词程序设计24六、结论35参 考 文 献36致谢37汉语分词技术初探一、引言 在自然语言处理中,词是最小的能够独立活动的有意义的语言成分。我们知道,在英文文本中,单词之间是以空格作为自然分界符的。中文和英文比起来,有其自身的特点,就是中文以字为基本书写单位,句子和段落通过分界符来划界,但是词语之间没
8、有一个形式上分界符。也就是说,从形式上看,中文没有“词”这个单位。因此,进行中文的自然语言处理通常都是先将中文文本中的字序列切分为合理的词序列,然后再在此基础上进行其它分析处理。将中文连续的字序列按照一定的规则重新组合成词序列的过程,就叫做中文分词。作为中文信息处理基础的中文分词技术,己经被广泛应用于中文信息领域的信息检索、自动摘要、中文校对、汉字的智能输入、汉字简繁体转换、机器翻译、语音合成等技术中。自20世纪80年代初,中文信息处理领域提出自动分词以来,相关方面的众多专家学者、科研院所、业机构为之付出了不懈的努力,取得了一些重要的进展和一些实用性的成果,提出了许多中文分词方法,有些成熟的技
9、术已经应用于产品当中。但这些分词方法或多或少都存在着不足之处,比如对于检索系统,由于近年来信息的多元化、复杂化,对信息处理技术的研究、发展、应用提出了新的挑战,跨越了单纯文本的检索,例如问答系统必须对关键字进行语义分析与处理。这就要求信息处理技术必须跟上信息发展的速度,在速度与性能方面具备更高的指标。要让计算机能够自动地处理信息就必须借助分词技术让计算机理解自然语言。分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。其中,中文分词由于中文结构的特点,与西方国家文字相比更难于处理。汉语的词汇与词汇之间没有显式的边界,汉语的分词需要通过计算机对文字
10、内容的分析,来达到切分词汇的目的。中文分词已成为计算机处理汉语面临的首要基础性工作。只有提高中文分词系统2的准确率和工作效率,才能使自然语言处理系统稳定高效地工作。本文的主要目标是通过对目前中文分词关键技术的研究,设计并实现最大正向匹配算法。本文的主要研究内容为:(1)分析了当前中文分词的研究背景,介绍了中文分词的研究意义。(2)对中文分词技术进行了简介,简单介绍了中文分词、中文分词的应用、中文分词系统的目标、中文分词的基本问题。 (3)研究了三类基本的分词算法:基于字符串匹配的分词方法,基于统计的分词方法,基于知识理解的分词方法。举例说明了实际应用中如何使用合适的分词算法。(4) 介绍了目前
11、中文分词技术中常用的索引方法和词典机制。(5)对正向最大匹配算法进行了实现与测试。相对于研究内容,本文的结构安排为:第一章 引言。本章首先介绍了本文的研究背景和研究意义,然后介绍了本文的主要工作和论文的结构安排。第二章 中文分词简介。本章首先介绍了中文分词的基本概念、中文分词的应用,接着介绍了中文分词系统的目标、中文分词的基本问题等。第三章 基本中文分词算法。本章首先介绍了常用的中文分词算法,包括基于字符串匹配的分词方法,基于统计的分词方法,基于知识理解的分词方法;然后举例说明了实际应用中如何使用合适的分词算法。第四章 中文分词词典。本章首先介绍了中文分词技术中的索引方法,然后又介绍了目前中文
12、分词技术中常用的词典机制。第五章 正向最大匹配算法的实现。本章根据正向最大匹配算法的流程,编写了采用正向最大匹配算法的分词程序,并对程序进行介绍和测试。 第六章 结论。此部分总结论文的所有工作,分析论文中存在的不足和一些未解决的问题。二、中文分词简介中文分词是中文信息处理技术中最基础、最关键的一个环节。所谓分词,就是把一个句子中的词汇按照使用时的意义切分出来。(一)中文分词的概念将连续的字序列按照一定的规范重新组合成词序列的过程被称为分词;中文分词就是把中文的汉字序列分成有意义的词。分词只是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术。1、什么
13、是中文分词分词就是利用计算机识别出文本中词汇的过程。在英文中,词汇之间一般会有空格等比较明显的分隔符。而中文中,是以字为基本书写单位,只有段与段、句语句之间有分隔符,而词汇之间没有分隔符。所以,虽然在英语中也存在分词问题,但远没有中文分词那么复杂苦难。比如:The table tennis bat is sold out。中文意思就是乒乓球拍 卖完了。对于通过空格和标点来切分的英语例句,一般不会产生歧义。但是在中文中,“乒乓球拍卖完了”则因为乒乓球和乒乓球拍、卖与拍卖都是词语而又没有明显分隔而产生了:“乒乓球/拍卖/完了”和“乒乓球拍/卖/完了”两种完全不同的意义。所以,要让计算机完成上述过程
14、,相对于英语,难度有质的不同。中文分词的过程,就是要把一句话中有意义的词汇都切分出来,并给出所有正确结果。由于中文词汇中间是有分隔符的,所以对中文词组的正确识别就显得很重要。词是汉语中最小的有意义的独立单位,但是这最小的单位却是没有显式分割的。若要使计算机与人类达到自由无障碍的语言交互,就必须让计算机能理解自然语言。只有当汉字串组成的句子被准确地转化为词之后,才能继续进一步工作。比如一个中英翻译系统,如果连词汇都不能正确切分,翻译得到的英文是不可能符合原义的。2、中文分词的应用互联网绝大部分需要分词,其中典型的实例有:(1)汉字处理。这方面主要包括拼音输入法、手写识别、简繁转换等。(2)信息检
15、索。如Google、Baidu、Yahoo等检索工具。雅虎中文网页搜索技术部总监张勤认为:中文分词是中文搜索技术的基础,只有做好了分词,才能有好的搜索。可见,掌握了优秀的分词技术就可以在中文搜索中占有一席之地。众多优秀的搜索引擎都有自己的分词技术。如雅虎、百度,都是使用自己开发的分词技术。谷歌也是采用的美国Basis technology提供的中文分词技术。(3)内容分析。这方面主要包括了机器翻译、广告推荐、内容监控等。现在的翻译技术,无论是在线的还是单机的,在翻译句子或段落的时候总会让我们不知所措,语法错误明显,词不达意等等。究其根本原因就是因为中文分词技术的滞后和一些多义词汇选义的把握。中
16、文分词的其中一个重要功能就是为词语的计量分析,词频的统计提供可靠的依据,比如汉语中最常用的词是哪个。这使我们可以做一些广告推荐(哪些广告被更多次的提起)等。(4)语音处理。 语音识别、语音合成等。由于汉语中的多音字、一些发音习惯使得语音识别和合成过程中需要一个可靠地中文分词作为基础。比如:发音的不同如:的(d),目的(d)变声如:好酒(hojiu-hojiu)轻声如:桌子(zi)要处理这些中文特有的由于发音习惯而引起的分词问题,一个好的分词技术显然是必不可少的。(二)中文分词的目标中文分词系统的目标为达到信息处理的需求,达到所要求的相应水平,具体来说,主要是准确、高效、通用及适用四个方面。1、
17、准确性准确率是分词系统性能中最重要的核心指标。现有的分词系统中,有些准确率已达到98一99,光从数据上看似乎已经相当高了,其实不然。这样的分词系统如果被用来支持中外文翻译系统,现在假设平均每句语句有10个汉语单词,那么以直前的概率来计算,10句语句中就会切分错1-2个词,含有错误分词的1-2句就不可能被正确翻译。于是仅仅因为分词系统的准确率欠佳,中外文翻译系统的翻译准确率就降低了10-20个百分点。进一步分析,对自动分词来说,其更大的作用是对大规模语料库进行加工,从而为上层应用系统提供统计数据和各种知识。如果分词产生错误则会在最后的统计结果中累积起不可忽视的“垃圾”,从而给上层的应用系统带来相
18、当严重的影响。由此可见,分词系统的准确率应当达到999以上,这样才能基本满足上层的使用要求,换句话说,即使提高千分之一的准确度,对实际应用都是非常有意义的。2、运行效率分词是各种汉语处理应用系统中共同的、基础性的工作,这步工作消耗的时间应尽量少,应只占上层处理所需时间的一小部分,并应使用户没有等待的感觉,在普遍使用的平台上大约每秒钟处理l万字或5千词以上为宜。3、通用性随着互联网的普及应用,中文平台的处理能力不能仅限于我国,仅限于字处理,仅限于日常应用领域。作为各种高层次中文处理的共同基础,自动分词系统必须具有很好的通用性。(1)中文自动分词系统应支持不同地区(包括中国香港、澳门、台湾,以及新
19、加坡和澳洲、欧洲、美洲的华语社区)的中文字符处理;(2)中文自动分词系统应能适应不同地区的不同用字、用词,不同的语言风格,不同的专名构成方式(如港澳台地区一些妇女名前冠夫姓,外国人名地名的汉译方式与我国人名地名很不一样)等;(3)中文自动分词系统应能支持不同的应用目标,包括各种输入方式、简繁转换、语音合成、校对、翻译、检索、文摘等等:支持不同领域的应用,包括社会科学、自然科学和技术,以及日常交际、新闻、办公等等;(4)中文自动分词系统应当同现在的键盘输入系统一样成为中文平台的组成部分。为了做到足够通用又不过分庞大,必须做到在词表和处理功能、处理方式上能灵活组合装卸,有充分可靠和方便的维护能力,
20、有标准的开发接口。同时,系统还应该具有良好的可移植性,能够方便地从一个系统平台移植到另一个系统平台上而无需很多的修改。当然,就当今的现状来说,完全的通用性很难达到。4、适用性中文自动分词只是手段而不是最终目的,任何分词系统产生的结果都是为某个具体的应用服务的。好的分词系统具有良好的适用性,可以方便地集成在各种各样的汉语信息处理系统中。(三)中文分词的基本问题我们可以看出,中文分词技术必然是以后计算机发展必不可少的一项技术。但现在此技术在经过了近30年的研究,仍存在诸多不足。而这主要是由于中文分词有很多难点难以兼顾,总体归纳起来,中文分词主要有三大困难:分词规范、歧义识别以及未登录词。1、分词规
21、范 (1)“词”是否有清晰的定义? 在每本汉语语法教科书中,我们都可以找到对“词”的这样一条定义:语言中有意义的能单说或用来造句的最小单位。这个定义相当抽象,从计算的层面上讲,这种模棱两可的定义是不可计算的,即不可操作的。而产生如此定义涉及多个方面3:核心词典问题:在进行分词时需要有一个核心(通用的、与领域无关的)词典,即普通词典,凡在该词典中存在的词,在分词时就应该切分出来。但是应该将哪些词组收入到核心词典中去,虽然已经提出各种收词的条件,但是对每个词组按照这些条件的进行判断却难以操作,因此目前还没有合理的可操作的理论和标准。词的变形结构问题:汉语中的动词和形容词有些可以产生变形结构,例如“
22、打牌”、“开心”、“看见”、“相信”可能变形为“打打牌”、“开开心”、“看没看见”、“相不相信”等。在对变形结构进行切分时,如果切分出“打打牌”、“开开心”就不怎么合理,“看没看见”还说得过去,但“相不相信”就说不过去了。在进行中文分词时,对这些变形结构的切分缺少可操作的、合理的规范。词缀的问题:例如语素“者”在现代汉语中单独使用是没有意义的,因此“作者”、“成功者”、“开发者”内部不能切开。依据这个标准,“开发中国第一个操作系统软件者”、“做出了巨大个人财产和精神牺牲者”、“克服许多困难而最终获得成功者”内部也不能切开,这样复杂的结构在本质上就与词的定义相矛盾。又如职务名称“外交部长”,语义
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉语分词技术初探 计算机科学与技术毕业论文 汉语 分词 技术 初探 计算机科学 毕业论文
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3986090.html