欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    中文分词词性标注系统.ppt

    • 资源ID:5909713       资源大小:328.50KB        全文页数:29页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    中文分词词性标注系统.ppt

    中文自动分词系统IRSEG设计与实现,高立琦 王卓然,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,中文分词的意义和用途,汉语的特点最小书写单位为字最小表意单位为词词与词之间没有书写边界分词系统的用途各种中文信息处理系统的基础模块自然语言处理信息检索,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,IRSEG系统框架设计,资源:词典资源,未登录词知识库等,构建分词有向图,重叠词识别,未登录词识别,歧义字段处理,输出,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,数学模型与原理分析,信道噪声模型设S=c1c2cn为输入汉字序列,W=w1w2wm为切分词序列。分词系统的任务是,找到一种切分结果W*,满足:根据贝叶斯公式:假设:一个词wi的出现概率以它前面的词的出现没有关系(Unigram模型)则:为了实现上的方便,我们对上述公式取负对数,得到:,数学模型与原理分析(续),构建分词有向图通过最短路径搜索,即得最优(概率最大)结果:结合/成/分子,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,“N最短路径”算法设计,N最短路径的思想中科院张华平博士提出”N最短路径“粗分模型IRSEG系统的背景哈工大信息检索研究室CUP自然语言理解平台IRSEG中”N最短路径”模块的特点追求最短路径的准确率和召回率在CUP平台中利用高层语言信息的反馈纠正分词结果算法设计利用分词有向图的特点(有向无环图)明显减小了时间复杂度和空间复杂度,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),结 合 成 分 子,“N最短路径”算法设计(续),回溯得到N最优结果:结合/成/分子结合/成分/子结/合成/分子结合/成/分/子时间复杂度:搜索过程时间复杂度为O(k),K为图中边的总数;保留结果过程插入排序时间复杂度O(N2);总时间复度为O(k*N2)。,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,未登录词识别模块,Unigram的困境很有效的解决歧义字段切分问题绝大多数歧义现象为交集型歧义对未登录词识别力不从心未登录词构成极其复杂与上下文形成各种歧义自身构成形成各种歧义很多情况下需借助上下文信息Bigram性价比很低90%以上的问题Unigram可以解决得很好Bigram需要很大规模的训练语料和更复杂的词典结构Bigram解码过程复杂度高,产生N最短路径开销是可观的,未登录词识别模块(续),局部Bigram模型思想在必要的范围应用Bigram模型全局以Unigram模型为主借助平滑的思想用插值将不同维数概率结合起来用聚类的方法处理数据稀疏问题优点时间复杂度小(几乎与Unigram的相同)不需要大规模的训练语料可以通过方便的调节上下文信息对未登录词识别的影响在原有数据结构上稍作修改即可输出N最短路径达到和整体Bigram模型相当的效果,大纲,中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测,系统评测,词典资源:85000多词条评测语料:人工标注的人民日报1998年上半年新闻语料中抽取的12000句。,各项评测指标:,N最短路径整句完全匹配率:,Thanks a lot!,Any Questions?,

    注意事项

    本文(中文分词词性标注系统.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开