面向大规模信息检索的中文分词技术研究.ppt
《面向大规模信息检索的中文分词技术研究.ppt》由会员分享,可在线阅读,更多相关《面向大规模信息检索的中文分词技术研究.ppt(73页珍藏版)》请在三一办公上搜索。
1、面向大规模信息检索的中文分词技术研究,王小飞指导教师:王斌前瞻研究中心2006-6-6,提纲,一、引言二、面向大规模中文信息检索的分词算法 三、基于双数组Trie树优化算法的词典 四、歧义消除五、未登录词识别六、查询扩展层面的覆盖歧义处理 七、实验结果和分析 八、总结,一、引言,研究意义信息检索简介中文分词简介常用评测指标,研究意义,分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不
2、高。速度:每秒几十k几M切分正确率:80%98%,研究意义,针对一项具体的上层应用来研究相关的分词技术,这样便于有一个比较确定的分词规范和目标,然后可以有针对性的在分词算法方面有所突破。信息检索:目前跟人们生活最接近,应用最频繁而且技术发展也最成熟的一项信息处理技术。,信息检索简介,信息检索(Information Retrieval,IR):对收集的信息进行标引(Index),在接收到用户提交的查询请求以后在标引过的数据中进行查找,然后将查找到的相关结果信息返回给用户。,图1 检索过程示意图,中文分词简介和困难,中文分词(Chinese Word Segmentation):将一个汉字序列切
3、分成一个一个单独的词。比如将“组合成分子时”切分成“组合/成/分子/时”。困难分词规范:词的概念和不同应用的切分要求分词算法:歧义消除和未登录词识别,分词规范方面的困难,汉语中词的界定“教育局长”:“教育/局长”?“教育局/长”?“教育/局/长”?核心词表如何收词?词的变形结构问题:“看/没/看见”,“相不相信”不同应用对词的切分规范要求不同 输入法:“这是”、“每一”、“并不”、“不多”、“不在”、“就是”信息检索:“中国/科学院”、“计算/语言学”,分词算法上的困难,切分歧义的消除交集型歧义(交叉歧义):“组合成”我们/小组/合成/氢气了;组合/成/分子;组合型歧义(覆盖歧义):“马上”他
4、/从/马/上/下/来;我/马上/就/来/了;“学生会组织义演活动”:“学生/会/组织/义演/活动”or“学生会/组织/义演/活动”?,分词算法上的困难,未登录词识别命名实体:数词、人名、地名、机构名、译名、时间、货币 缩略语和术语:“超女”、“非典”、“去离子水”新词:“酱紫”、“星盘”先识别已知词还是先识别未登录词先识别已知词:“内塔尼亚/胡说”先识别未登录词:“胜利取决/于勇/气”,常用评测指标,召回率(Recall)分词:检索:准确率(Precision)分词:检索:,常用评测指标,TREC(Text Retrieval Conference)的评测指标Interpolated Reca
5、ll-Precision Averages:用插值法计算在11个召回点(0.01.0)下相对的准确率。Average precision(non-interpolated):表示平均每篇相关文档被检索出来时的准确率。表示对于Query j检索出的所有相关文档数,表示对于Query j,在第i篇相关文档被检索出时总共检索出的结果文档数。,常用评测指标,TREC(Text Retrieval Conference)的评测指标Precision:在检索到x篇文档时的准确率。x为5、10、15、20到1000不等。例如Precision:At 30 docs(通常用P30表示)的值为0.5784就是表
6、示前30篇文档中检索的准确率是0.5784。R-Precision:一个查询检索到R篇文档时的准确率。R为该查询真正相关的文档数。如果一个查询的相关文档数为30,在检索系统检索出的前30篇文档中相关文档数为18,则该查询的R-Precision为18/300.6。,二、面向大规模中文信息检索的分词算法,分词方面的相关研究成果分词和大规模中文信息检索之间的关系探讨适用于大规模中文信息检索的分词算法,分词方面的相关研究成果,基于词典和规则的方法 基于大规模语料库的统计方法规则和统计结合的方法基于字的切分法,基于词典和规则的方法,最大匹配正向最大匹配、反向最大匹配和双向最大匹配实现简单,而且切分速度
7、快。但无法发现覆盖歧义,对于某些复杂的交叉歧义也会遗漏。全切分利用词典匹配,获得一个句子所有可能的切分结果。时空开销非常大。基于理解的分词算法模拟人的理解过程,在分词过程中加入句法和语义分析来处理歧义问题。难以将各种语言信息组织成机器可直接读取的形式,还处在试验阶段,基于词典和规则的方法,基于规则的消歧和未登录词识别规则消歧CONDITION FIND(R,NEXT,X)%X.ccat=wSELECT 1CONDITION FIND(L,NEAR,X)%X.yx=听|相信|同意SELECT 1CONDITION FIND(L,NEAR,X)%X.yx=假如|如果|假设|要是|若SELECT 2
8、OTHERWISE SELECT 1 用规则识别未登录词 LocationName Person Name LocationNameKeyWordLocationName Location Name LocationNameKeyWordOrganizationName Organization Name OrganizationNameKeyWordOrganizationName Country Name D|DD OrganizationNameKeyWord,基于大规模语料库的统计方法,N元语法(N-gram)模型隐马尔可夫模型(HMM)对于一个随机事件,有一个状态序列X1X2,Xn,
9、还有一个观察值序列Y1Y2,Yn。隐马模型可以形式化为一个五元组(S,O,A,B),其中:S=q1,q2,qn:状态值的有限集合O=v1,v2,vm:观察值的有限集合A=aij,aij=p(Xt+1=qj|Xt=qi):转移概率B=bik,bik=p(Ot=vk|Xt=qi):输出概率=,=p(X1=qi):初始状态分布,基于大规模语料库的统计方法,互信息(MI,Mutual Information)MI越大,表示两个字之间的结合越紧密。反之,断开的可能性越大。当x 与y 关系强时,MI(x,y)=0;x与y关系弱时,MI(x,y)0;而当MI(x,y)0时,x与y称为“互补分布”。最大熵模型
10、(ME,Max Entropy)在已知条件下选择一个合适的概率分布来预测事件。,规则和统计结合的方法,通常利用词典进行初切分,然后用其它的概率统计方法和简单规则消歧和进行未登录词识别。比如:利用词典匹配进行初切分得到一个切分词图,然后利用词频信息求词图N条最短路径的N-最短路径法。最大匹配算法、state-of-the-art分类器和支持向量机的结合。通过词典匹配找出所有交叉歧义,利用Bigram语言模型或其变形来消除歧义。,基于字的切分方法,N元切分法(N-gram):对一个字符串序列以N为一个切分单位进行切分。如二元切分法:“ABCDEFG”“ABCDEFG”交叉二元切分法(Overlap
11、ping Bigram):“ABCDEFG”“ABBCCDDEEFFG”简单快速,但会产生大量无意义的标引词,导致标引产生的索引文件的空间,以及检索和进行标引的时间都大大增加。同时,因为它的切分单位并非语言学意义上的词语,所以也会导致检索的查准率下降。,分词和大规模中文信息检索之间的关系探讨,在当前的信息检索技术中,中文切分是必要的。问题是否需要按语言学意义上的词进行切分。文档和查询二者的切分方法是否需要一致。是否检索系统使用的分词算法切分精度越高其检索结果就越好。,分词和大规模中文信息检索之间的关系探讨,表1.TREC5和TREC6中文信息检索实验比较,分词和大规模中文信息检索之间的关系探讨
12、,基于字的切分:单字切分,二元切分和交叉二元切分 基于词的切分:基于词典的匹配和基于统计的方法 7组关于切分方法的实验比较结论:字比词好:3组;词比字好:3组;二者差不多:1组3组关于切分一致的实验比较结论:切分方法一致更好:1组切分方法不一致的更好:2组查询是基于字的切分时,文档是最大匹配切分的结果更好。查询是基于词的切分时,文档是基于字的切分的结果更好。,分词和大规模中文信息检索之间的关系探讨,两组实验:1基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。文档和查询采用同一种切分方法。2基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。查询采用人工切
13、分的方法。实验环境:数据:北大提供的中文网页测试集CWT 部分数据。检索系统:麻州大学和卡内基梅隆大学合作开发的检索工具包Lemur,分词和大规模中文信息检索之间的关系探讨,表2 实验1的结果,分词和大规模中文信息检索之间的关系探讨,表3 实验2的结果,分词和大规模中文信息检索之间的关系探讨,分词精度与检索性能的实验比较(Fuchun Peng等,2002)测试数据:TREC-5和TREC-6的中文测试集 检索系统:OKAPI系统 三种分词算法:基于词典的前向最大匹配71%和85%基于文本压缩的PPM算法90%和95%基于EM的自监督算法44%,49%,53%,56%,59%,70%,75%,
14、77%,分词和大规模中文信息检索之间的关系探讨,图2 Kd=10时的12组检索结果比较,分词和大规模中文信息检索之间的关系探讨,原因:查询切分和文档切分采用相同的分词算法,有一些文件切分错误的词,在查询时也遇到相同的切分错误,所以即使切分阶段错误,但最后相同错误匹配,使得仍然可以正确检索到;有些词被错误的切分成几个部分,尽管这样会导致分词正确率下降,但对于检索来说,最后可以通过结果合并得到正确的结果,分词的错误并不影响检索的性能;分词测得的准确率高低并不是绝对的,有时跟用标准答案有关。这涉及到对词的定义问题,有些标准答案认为是该切分的词,实际上不切分用于检索更加准确一些。如:“国内”vs”国内
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 大规模 信息 检索 中文 分词 技术研究
链接地址:https://www.31ppt.com/p-6066704.html