中文命名实体识别及关系提取.ppt
《中文命名实体识别及关系提取.ppt》由会员分享,可在线阅读,更多相关《中文命名实体识别及关系提取.ppt(18页珍藏版)》请在三一办公上搜索。
1、中文命名实体识别及关系提取,*,中文命名实体识别,语料:人民日报1998年版主要方法:根据训练预料,利用CRF进行机器学习,中文命名实体识别,标注集1:由字构词将 ns,nr,nt三种实体类型,和分词中的词位信息B,B1,B2,M,E,S做组合,其它字标记为OExample:,中文命名实体识别,词缀标记PSsur:人名的姓,比如“王”PSsuf:人名的后缀,比如“先生”Lsuf:地名的后缀,比如“省”,“特区”,“地区”Osuf:组织名的后缀,比如“委员会”,“公司”原因:中文偏正关系*为什么将词缀放到机器学习的标记中而不是用于结果修正?后缀容易识别,但是向前匹配的位置难于确定,比如“上海IB
2、M研究院”。,训练模板,字的特征识别:w-1,0:前一个字 w0,0 w1,0w-1,0/w0,0:前面一个字和当前字的组合w0,0/w1,0,w-1,0/w1,0词缀特征识别:w-1,1:前一个字的词缀w0,1,w1,1,w0,1/w1,1/w2,1,测试结果,测试方法:将训练集拆分,80%用于训练,20%用于测试(200篇左右)测试结果:,校正,考虑到没有充分利用分词结果Error:张牙舞/nr爪=利用分词结果可以校正校正方法:如果命名实体不是由完整的几个词组成的,判错校正结果:,一些问题,为什么没有在标记集中加入分词信息的一列Example:江 PSsur B B nr-B泽 UNB1
3、nr-B1民 UNE nr-E主 PSsuf B O席 PSsuf E O1)训练时间过长,内存消耗过大。如果训练在可接受的时间内,增大训练语料比多增加分词信息有效得多。2)分词和命名实体标注可以映射为一列,没必要增加一个维度。比如主 PSsuf O-B。实验数据显示,性能没有任何变化。,如何获得词缀信息,1)从训练语料中抽取所有的命名实体,然后计算频率,然后抽取所有词的后缀,然后计算频率,取频率高的。2)手动检查是否添加了无用的后缀,比如“上海市”在训练语料出现很多次,提取后缀会出现“海市”为一个高频率后缀,这些需要特殊处理。,其它问题,为什么没有引入词性信息?1)一般的词性标注的准确率在9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 命名 实体 识别 关系 提取
链接地址:https://www.31ppt.com/p-5809523.html