基于Lucene的中文字典分词模块.ppt
《基于Lucene的中文字典分词模块.ppt》由会员分享,可在线阅读,更多相关《基于Lucene的中文字典分词模块.ppt(28页珍藏版)》请在三一办公上搜索。
1、,基于Lucene的中文字典分词模块的设计与实现,Start,Company name,2008年6月21日,基于Lucene的中文字典分词模块的设计与实现,1.中文分词的研究背景及现状,3.分词模块的设计与实现,4.对本文工作的总结,2.中文分词的研究内容和意义,2008年6月21日,Company name,2008年6月21日,中文分词的研究背景及现状,网络资源爆炸性增长,搜索引擎技术发展迅速,2008年6月21日,背景,全文搜索引擎包Lucene在许多搜索引擎技术项目中得到了广泛且深入的应用和研究,中文分词技术成为计算机信息检索、自然语言理解、人工智能、机器翻译和自动文摘等领域突破的关
2、键多种技术发展的瓶颈,Company name,2008年6月21日,中文分词的研究现状,从70年代我国情报检索界从事到中文信息检索领域的研究开始,一直有大量学者致力于中文自动分词研究,至今已获得许多可喜的成果,出现了一些实用的自动分词系统。这些系统在分词的精确度和分词速度方面都具有相当的水平,但是仍然需要进一步的研究。,2008年6月21日,现状,Company name,2008年6月21日,中文分词面临的问题,计算机难以正确理解并分析中文文本,2008年6月21日,Company name,2008年6月21日,中文分词的研究内容,语言是一个开放集,它的词条始终是处于不断的增长中,所以很
3、难有一个完善的词典来描述它,可能这个词在今天不是词,在将来就被认定为一个词了。这就告诉我们,词典的完备性始终是我们研究中文分词必须考虑的一个问题。,2008年6月21日,汉语自然语言处理的应用系统处理对象越来越多的是大规模语料,因此分词的速度和分词算法的易实现性变得相当关键。,词典规模、词典查找速度、切分预处理方式、切分排歧方式、未登录词处理、词性标注等方面在前人的基础上做进一步的改善,Company name,2008年6月21日,本课题的研究意义,由于Lucene支持的中文文本分词仅限于单字区分和双字区分两种方式,不能满足大多数中文文本信息检索技术的需求,所以在一定程度上限制了它在中国的应
4、用和开发。因此Lucene加入中文分词的功能,对于Lucene在中国的广泛应用和发展将会起到很大的推动作用,Company name,2008年6月21日,基于Lucene的中文字典分词模块的设计与实现,本设计完成的功能:,设计词典结构,读入词库文件,初始化词典结构,对文本预处理,使用最大正向匹配算法初步分词,设计实现双向匹配算法,对结果进行基于规则的选择,实 现系统纠错功能,对分词后的结果产生的碎片进行概率统计,识别文本中的未登陆词,将分词系统封装成Lucene分析器,并使用索引器建立索引,实现系统检索功能,2008年6月21日,Company name,2008年6月21日,更新词典,中文
5、文本分词的一般过程,词典初始化,输入分词文本,对文本预处理,对文本进行初步的划分,消歧和未登陆词识别,中文词典,保存结果,2008年6月21日,Company name,2008年6月21日,基于Lucene的中文字典分词模块的设计与实现,1词典建立,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。,2008年6月21日,Company name,2008年6月21日,双字哈希词典机制,为了使分词系统在具有较高的分词效率的同时,维护和更新词典也相对简单,本研究采用了一种新的词典机制来建立词典双字哈希词典机制。,2008年6月21日,Company name,2008
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Lucene 中文 字典 分词 模块
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2867558.html