欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    面向自动文摘的主题划分方法课件.ppt

    • 资源ID:4068077       资源大小:824KB        全文页数:17页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    面向自动文摘的主题划分方法课件.ppt

    面向自动文摘的主题划分方法,童毅见 2012-11-4,主题的概念,1,主题的定义现状:鲜有确切的关于主题的定义。2,几个关于“主题”的定义Labadi认为主题是会话或讨论的主要问题Chafe主题是正在讨论的命题所谓“主题”,是介于篇章与段落之间的一个语言单位,一个主题表达或阐述一个相对独立的意义或话题3,本文对主题的定义主题是用来描述一个话语片段所表达内容的一种直观方式,该话语片段阐述了一个相对独立的意义或话题。主题不应是一个语言单位,但是可以通过篇章集、段落集或句子集的方式呈现。,主题划分,1,主题划分的概念主题划分就是将一个含有多个主题的话语(在本文中以文本方式体现)切分成一系列单个主题。Reynar认为,作者在写作前,会在脑海中收集一些没有连接的主题,在写作过程中为了保证文本的流畅,会有意无意的设置一些主题边界2,主题划分的分类主题划分可以分为层次划分(hierarchical segmentation)和线性划分(linear segmentation)从划分结果来看,线性划分还可以进一步分为连续划分和非连续划分,主题划分对自动文摘的意义,1,有助于平衡摘要的结构,提高摘要的覆盖面 如果采用传统的基于句子重要度从高到低抽取的方法,很容易造成对次要主题的遗漏或忽略,并且容易导致主要主题的冗余。2,主题特征对自动文摘的促进作用 Louis.et al.在比较话语结构特征、语义特征和非话语性特征(如主题词、句子位置等)在单文档自动文摘中的效果时发现,基于话语结构特征的方法在摘要内容上效果最好,常见主题划分方法,1,基于词汇衔接理论的方法TextTiling、C99、dotplotting2,融合特定语言现象和文本特征的方法1)特定领域的提示短语。例如在广播新闻文本中,joining us2)二元词组频率。避免单词频率引发的歧义问题;3)命名实体的重复。4)代词特征。3,基于概率统计模型的方法PLSA(概率潜在语义分析)、LDA(Latent Dirichlet Allocation)以及小世界模型,TSF算法,由Kern&Granitzer提出,是一种基于滑动窗口技术的主题划分方法算法该算法在很多方面与TextTiling算法相近,也是一种基于词汇衔接理论的方法。根据文章呈现的评价结果,TSF算法在切分效果上要远好于TextTiling算法,并且只有O(n)的计算复杂度。TSF算法默认主题是由句子集组成,TSF算法描述,TSF算法描述,关于主题的呈现方式的讨论,1,句子集 or 段落集2,主题的呈现方式与文本的特征、任务对主题颗粒度的要求有关3,自动文摘对主题划分颗粒度的要求4,句子集 and 段落集,以段落集为主题表征的TSF算法,面向自动文摘的主题划分策略,后期处理,引入代词特征 对于切分出来的主题如果首段是代词,则认为切分不正确,将前后两个主题合并,主题划分评价,1,传统的评价方法的不足文本切分和主题划分的区别召回率、准确率,F值等无法反应near miss现象,2,引入参考切分3,引入切分合理度R,切分合理度R,主题划分评价结果,1,内部评价:针对以句子集和段落集表征的TSF算法(无关比较),2,外部评价:针对主题划分策略对自动文摘的影响(F值),进一步改进,1,考虑参数对切分结果的影响2,融合更多特定语言现象3,对TSF算法的进一步改进,可以集中在句子相似度计算和词汇权重计算上,谢谢!欢迎批评指正,

    注意事项

    本文(面向自动文摘的主题划分方法课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开