基于向量空间模型的中文微博实体链接.ppt
《基于向量空间模型的中文微博实体链接.ppt》由会员分享,可在线阅读,更多相关《基于向量空间模型的中文微博实体链接.ppt(24页珍藏版)》请在三一办公上搜索。
1、基于向量空间模型的中文微 博实体链接,吴泳钢 昝红英 范庆虎 郑州大学自然语言处理实验室,引言评测任务主要策略评测指标实验结果及分析,郑州大学自然语言处理实验室,引言,命名实体歧义指的是一个命名实体指称项可对应到多个命名实体概念,在自然语言中,一词多义现象普遍存在,要让计算机正确地分析和理解自然语言,一个重要的前提条件就是能够在该词出现的特定语境下,进行词义消歧。,郑州大学自然语言处理实验室,评测任务,给定一条微博,一个待链接的字符串,以及该字符串在这条微博中出现的位置,本任务要求首先判断该字符串是否指向了知识库中的某一个实体;若存在这样的对应实体,则将该实体在知识库中的标号输出,若不存在,则
2、输出空置符NIL。,郑州大学自然语言处理实验室,主要策略,使用百度百科资源进行实体信息的特征抽取,建立待链接字符串所在上下文的向量空间模型,进行命名实体消歧,主要分为以下三步:数据预处理获取百度百科候选实体命名实体消歧,郑州大学自然语言处理实验室,数据预处理(1/4),本文采用的分词和标注工具是中科院分词,中文微博,语句短小,文本规则不强,因此要将待链接字符串预处理,经过对数据集观察发现,主要包括以下几种情况:外来人名命名实体分拆符号的不当,郑州大学自然语言处理实验室,数据预处理(2/4),外来人名 外来人名很多时候采用音译法,但是相同名字的不同翻译结果给外来人名的处理带来了一定麻烦,比如“S
3、arkozy”一般对应两种音译:“萨科齐”与“萨柯奇”,而百度百科实体“Sarkozy”的中文音译为“萨科齐”,本文通过百度搜索的纠错功能,如“萨柯奇”,获得如下图:,郑州大学自然语言处理实验室,数据预处理(3/4),命名实体拆分:数据集中存在一些待链接字符串需要拆分,将拆分后的部分命名实体进行检索,提高准确率,如“东北王张作霖”,搜索的核心对象为“张作霖”,分词结果 取词性标注为“nr”的实体部分。,郑州大学自然语言处理实验室,数据预处理(4/4),符号的不当 数据集中存在一些待链接字符串的符号书写不规范问题,这样会影响到检索结果的准确性。如“”、“”等,采用直接取出上述符号的做法。,郑州大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 向量 空间 模型 中文 实体 链接
链接地址:https://www.31ppt.com/p-6262477.html