欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    基于向量空间模型的中文微博实体链接.ppt

    • 资源ID:6262477       资源大小:626.50KB        全文页数:24页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于向量空间模型的中文微博实体链接.ppt

    基于向量空间模型的中文微 博实体链接,吴泳钢 昝红英 范庆虎 郑州大学自然语言处理实验室,引言评测任务主要策略评测指标实验结果及分析,郑州大学自然语言处理实验室,引言,命名实体歧义指的是一个命名实体指称项可对应到多个命名实体概念,在自然语言中,一词多义现象普遍存在,要让计算机正确地分析和理解自然语言,一个重要的前提条件就是能够在该词出现的特定语境下,进行词义消歧。,郑州大学自然语言处理实验室,评测任务,给定一条微博,一个待链接的字符串,以及该字符串在这条微博中出现的位置,本任务要求首先判断该字符串是否指向了知识库中的某一个实体;若存在这样的对应实体,则将该实体在知识库中的标号输出,若不存在,则输出空置符NIL。,郑州大学自然语言处理实验室,主要策略,使用百度百科资源进行实体信息的特征抽取,建立待链接字符串所在上下文的向量空间模型,进行命名实体消歧,主要分为以下三步:数据预处理获取百度百科候选实体命名实体消歧,郑州大学自然语言处理实验室,数据预处理(1/4),本文采用的分词和标注工具是中科院分词,中文微博,语句短小,文本规则不强,因此要将待链接字符串预处理,经过对数据集观察发现,主要包括以下几种情况:外来人名命名实体分拆符号的不当,郑州大学自然语言处理实验室,数据预处理(2/4),外来人名 外来人名很多时候采用音译法,但是相同名字的不同翻译结果给外来人名的处理带来了一定麻烦,比如“Sarkozy”一般对应两种音译:“萨科齐”与“萨柯奇”,而百度百科实体“Sarkozy”的中文音译为“萨科齐”,本文通过百度搜索的纠错功能,如“萨柯奇”,获得如下图:,郑州大学自然语言处理实验室,数据预处理(3/4),命名实体拆分:数据集中存在一些待链接字符串需要拆分,将拆分后的部分命名实体进行检索,提高准确率,如“东北王张作霖”,搜索的核心对象为“张作霖”,分词结果 取词性标注为“nr”的实体部分。,郑州大学自然语言处理实验室,数据预处理(4/4),符号的不当 数据集中存在一些待链接字符串的符号书写不规范问题,这样会影响到检索结果的准确性。如“”、“”等,采用直接取出上述符号的做法。,郑州大学自然语言处理实验室,获取百度百科候选实体(1/4),本次任务的知识库只包含存在InfoBox结构的百度百科实体,如下图:因此,对于不包含上述结构的命名实体,则直接置为NIL。,郑州大学自然语言处理实验室,获取百度百科候选实体(2/4),对于那些不能直接在百度百科知识中检索到的命名实体,本文采用Jaccard系数上述公式的几何意义表示A,B字符串的相交程度,即两字符串相同词的个数占两字符串所有词的并集比例的高低。,郑州大学自然语言处理实验室,获取百度百科候选实体(3/4),例如,搜索“东京FC队 百度百科”,A=东京,FC,队;B1=东京,足球,俱乐部;B2=东京,FC,足球,俱乐部;B3=长友佑,都;B4=今,野泰幸;B5=东京,体育场;经过计算,得出“东京FC队”与“东京FC足球俱乐部”的相似度最高。故此,选择“东京FC足球俱乐部”作为目标实体,获取对应的百度百科实体。,郑州大学自然语言处理实验室,获取百度百科候选实体(4/4),郑州大学自然语言处理实验室,命名实体消歧(1/6),郑州大学自然语言处理实验室,命名实体消歧(2/6),郑州大学自然语言处理实验室,命名实体消歧(3/6),根据“苹果”实体对应的百度百科候选实体,得到如下两组特征向量:a)信不信由你 目标 超越 苹果公司 b)信不信由你 目标 超越 蔷薇科落叶乔木,郑州大学自然语言处理实验室,命名实体消歧(4/6),将上述a)特征向量转化为关键字A1=信不信由你 目标 超越 苹果公司,b)特征向量转化为关键字A2=信不信由你 目标 超越 蔷薇科落叶乔木进行检索,只获取前10条数据。关键字A1的部分检索结果,如图:,郑州大学自然语言处理实验室,命名实体消歧(5/6),郑州大学自然语言处理实验室,命名实体消歧(6/6),关键字A2的部分检索结果,如图:,郑州大学自然语言处理实验室,评测指标,郑州大学自然语言处理实验室,实验结果及分析(1/3),郑州大学自然语言处理实验室,实验结果及分析(2/3),我们发现在NIL结果召回率高的情况下,出现了NIL结果准确率偏低的现象,说明在第一步获取待链接命名实体时,错误地将一些实体的标识符置为NIL,没有找到其对应的百科实体,比如:“美帝”,指向“美国”;“超人”、“大柴油机”指向“沙奎尔奥尼尔”。,郑州大学自然语言处理实验室,实验结果及分析(3/3),另外,能够找到对应百度百科候选实体的命名实体,没有获取到正确的实体消歧结果,比如:“王维”,并不是指向“唐代诗人王维”;“勒布朗”,获取的百度百科实体是“戈登布朗”,并不是“勒布朗詹姆斯”等。综合上述情况,导致整个正确输出的个数偏低。,郑州大学自然语言处理实验室,谢谢,郑州大学自然语言处理实验室,

    注意事项

    本文(基于向量空间模型的中文微博实体链接.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开