中文分词词性标注系统.ppt
中文自动分词系统IRSEG设计与实现,高立琦 王卓然,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,中文分词的意义和用途,汉语的特点最小书写单位为字最小表意单位为词词与词之间没有书写边界分词系统的用途各种中文信息处理系统的基础模块自然语言处理信息检索,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,IRSEG系统框架设计,资源:词典资源,未登录词知识库等,构建分词有向图,重叠词识别,未登录词识别,歧义字段处理,输出,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,数学模型与原理分析,信道噪声模型设S=c1c2cn为输入汉字序列,W=w1w2wm为切分词序列。分词系统的任务是,找到一种切分结果W*,满足:根据贝叶斯公式:假设:一个词wi的出现概率以它前面的词的出现没有关系(Unigram模型)则:为了实现上的方便,我们对上述公式取负对数,得到:,数学模型与原理分析(续),构建分词有向图通过最短路径搜索,即得最优(概率最大)结果:结合/成/分子,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,“N最短路径”算法设计,N最短路径的思想中科院张华平博士提出”N最短路径“粗分模型IRSEG系统的背景哈工大信息检索研究室CUP自然语言理解平台IRSEG中”N最短路径”模块的特点追求最短路径的准确率和召回率在CUP平台中利用高层语言信息的反馈纠正分词结果算法设计利用分词有向图的特点(有向无环图)明显减小了时间复杂度和空间复杂度,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),回溯得到N最优结果:结合/成/分子结合/成分/子结/合成/分子结合/成/分/子时间复杂度:搜索过程时间复杂度为O(k),K为图中边的总数;保留结果过程插入排序时间复杂度O(N2);总时间复度为O(k*N2)。,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,未登录词识别模块,Unigram的困境很有效的解决歧义字段切分问题绝大多数歧义现象为交集型歧义对未登录词识别力不从心未登录词构成极其复杂与上下文形成各种歧义自身构成形成各种歧义很多情况下需借助上下文信息Bigram性价比很低90%以上的问题Unigram可以解决得很好Bigram需要很大规模的训练语料和更复杂的词典结构Bigram解码过程复杂度高,产生N最短路径开销是可观的,未登录词识别模块(续),局部Bigram模型思想在必要的范围应用Bigram模型全局以Unigram模型为主借助平滑的思想用插值将不同维数概率结合起来用聚类的方法处理数据稀疏问题优点时间复杂度小(几乎与Unigram的相同)不需要大规模的训练语料可以通过方便的调节上下文信息对未登录词识别的影响在原有数据结构上稍作修改即可输出N最短路径达到和整体Bigram模型相当的效果,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,系统评测,词典资源:85000多词条评测语料:人工标注的人民日报1998年上半年新闻语料中抽取的12000句。,各项评测指标:,N最短路径整句完全匹配率:,Thanks a lot!,Any Questions?,