基于上下文和语义信息的跨领域中文分词课件.ppt
《基于上下文和语义信息的跨领域中文分词课件.ppt》由会员分享,可在线阅读,更多相关《基于上下文和语义信息的跨领域中文分词课件.ppt(25页珍藏版)》请在三一办公上搜索。
1、基于上下文和语义信息的跨领域中文分词,报告人:张婧导师:黄德根教授学校:大连理工大学研究领域:自然语言处理,NLP&MT,主要内容,NLP&MT,中文分词概况,中文分词的一大挑战,本文主要方法,参考文献,中文分词概况,中文分词的主要技术:基于规则的方法 基于统计的方法 规则与统计相结合的方法,NLP&MT,基于序列标注的机器学习方法1-2 基于字标注的方法3-5 基于子词标注的方法6-8,中文分词的技术难点:未登录词、歧义、规范等,本文所用的方法,主要内容,NLP&MT,中文分词概况,中文分词的新挑战,本文主要方法,参考文献,中文分词的一大挑战,跨领域分词的一个显著特点是:一个特定领域文章中的
2、通用词和术语较多,这些领域性OOV是基于某个特定领域的,并且可能会在其所属领域的某一上下文内多次出现。,NLP&MT,因此,领域适应性已经成为中文分词面临的一大挑战9。,在现实应用中,需要分词的绝大部分文本并不带有来源、主题等标记数据9。分词系统不能预先把所有可能的文本种类都训练好9。分词系统能贡献最高价值,发挥最高效益时,是针对新主题,新来源,带有许多未登录词的文本9。,主要内容,NLP&MT,中文分词概况,中文分词的新挑战,本文主要方法,参考文献,本文主要方法,NLP&MT,模型及特征,上下文及语义信息,分词算法流程,实验结果及总结,本文主要方法 模型及特征,NLP&MT,本文采用字词联合
3、的CRFs模型。先将使用基于字的CRFs获得的候选词放入词图,然后再使用基于词的CRFs模型对词图中的词进行标注。训练时,使用最大似然估计,为了避免训练过载,使用高斯先验对参数进行规格化。解码时,用Viterbi算法。,模型:,特征模板:,基于字的CRFs特征模板 基于词的CRFs特征模板,本文主要方法 模型及特征,NLP&MT,基于字的CRFs:使用的特征模板:C-1,C0,C1,C-1C0,C0C1,C-1C1,T-1T0T1,并且加入AV16特征。,表1 基于字的CRFs特征模板,本文主要方法 模型及特征,NLP&MT,基于词的CRFs:采用的具体特征模板有:W0,T0,W0T0,T0T
4、1,W0W1,其中,W表示词形,T表示词性,下标0和1分别表示相邻两个词的前词和后词。,表2 基于词的CRFs特征模板,本文主要方法,NLP&MT,模型及特征,上下文及语义信息,分词算法流程,实验结果及总结,本文主要方法 上下文及语义信息,NLP&MT,“日本金融特任大臣龟井静香(Shizuka Kamei)周五(3月19日)发表讲话龟井静香此前就一直呼吁推出新一轮的大规模经济刺激计划龟井静香表示,昨日发布的土地价格调查报告显示龟井静香还呼吁日本央行直接买入国债来为政府赤字提供融资金融市场对龟井静香的评论应该不会有太大反应”.,提出假设:如果某个词在篇章中出现了一次,那么将会增加它下一次出现的
5、可能性。也就是说,若某个字串在上下文中多次被当作候选词,则它很可能就是一个词。对此,本文用上下文变量来量化这个假设。上下文变量记录候选词的词形(w),词性(t),词出现的难易程度(Cost),该词作为候选词的频数(Frequency),该词作为最终切分路径中词节点的频数(rNum)。,上下文信息:,NLP&MT,本文主要方法 上下文及语义信息,Al05A01=模范 标兵 表率 榜样 师表 轨范 楷范 英模 典型 丰碑Al05A02=劳模 劳动模范在查找某个候选词在词林中的同义词时,遵循着就近原则,因为两个同义词集合距离越近,其词义信息越接近。,表3 同义词词林编码规范,语义信息:,本文主要方法
6、,NLP&MT,模型及特征,上下文及语义信息,分词算法流程,实验结果及总结,跨领域分词的分词算法流程如下:,NLP&MT,本文主要方法 分词算法流程,Step1.使用基于字的CRFs得到3-Best路径,并且将路径中所有的节点加入到词图中。,图1 词图示例,NLP&MT,本文主要方法 分词算法流程,Step2.为词图中的每个候选词赋予属性和代价。具体步骤为:若候选词为系统词典中的词,则直接将该词在系统词典中的属性及词代价赋给该候选词;若候选词不在系统词典中,但在上下文信息词典中,则采用公式(1)对该候选词的出现代价进行加权;,(1),其中,frequency是该候选词出现的频率;rNum是候选
7、词作为正确结果的频率;cost(w)是分词路径中候选词的出现难易程度;cost0(w)为上下文变量表中词条的原始代价。,NLP&MT,本文主要方法 分词算法流程,若候选词不在上述两个词典中,则到同义词词林中查找该候选词的同义词,若能在系统词典中找到其同义词,则用系统词典中该同义词的相关信息代替该候选词相对应的信息;若无法通过上述方法找到或代替该候选词,则用未登录词分类处理该候选词。具体分为四类:汉字,字母,数字,标点符号。它们的词性,分别赋为名词,字符串,数字,标点,而词出现的代价为词典中该类词性词语代价的平均值。,Step3.构建词图后,用Viterbi算法根据公式(4)计算每条路径的分词代
8、价,找到一条最佳路径,即代价最小的分词路径。公式(4)中的Cost(wi)和TransCost(ti,ti+1)分别通过公式(2)和公式(3)计算得到。,(2),NLP&MT,本文主要方法 分词算法流程,(3),其中,U(w)为关于当前词w的一元特征集合,B(t1,t2)是关于相邻的两个词的属性(这里仅为词性)的二元特征集合,fk为特征fk在模型文件中的相应权重,变量factor为将特征权重转换为代价的放大系数。从以上公式可以看出,由于所有的特征函数都为二值特征函数,所以在计算词条的代价时,词出现的代价等于该词能表示的所有一元特征权重之和,属性集之间的转移代价为两属性集所能表示的二元特征函数的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 上下文 语义 信息 领域 中文 分词 课件
链接地址:https://www.31ppt.com/p-3782684.html