欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    信息检索课件精简版文本分类.ppt

    • 资源ID:5230049       资源大小:334.97KB        全文页数:12页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息检索课件精简版文本分类.ppt

    文本分类,给定分类体系,将文本分到某个或者某几个类别中。分类体系一般人工构造政治、体育、军事中美关系、恐怖事件这里讲的分类主要基于内容其他分类:文体、态度、风格人工方法费时费力费钱难以保证一致性专家有时候凭空想象自动方法快速一致性好来源于真实文本,可信度高,自动文本分类的核心问题,文本分类与其它分类一样,其方法可以归结为根据待分类数据的某些特征来进行匹配当然完全的匹配不太可能必须根据某种评价标准选择最优的匹配结果核心问题用哪些特征表示文本才能准确、快速地分类对特征的选择主导了不同的文本分分类方法流派词匹配法、知识工程方法、统计学习法,词匹配法,词匹配法是最早被提出的分类算法该方法仅根据文档中是否出现了与类名相同的词来判断文档是否属于某个类别至多再加入同义词的处理很显然,这种过于简单机械的方法无法带来良好的分类效果。,知识工程方法,后来兴起过一段时间的知识工程的方法借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。这 里与特定规则的匹配程度成为了文本的特征。由于在系统中加入了人为判断的因素,准确度比词匹配法大为提高。,知识工程方法的缺陷,分类的质量严重 依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏制定规则的人都是专家级别,人力成本大幅上升常常令人难以承受而知识工程最致命的弱 点是完全不具备可推广性一个针对金融领域构建的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的 知识和资金浪费。,统计学习法,后来人们意识到,究竟依据什么特征来判断文本应当隶属的类别这个问题,就连人类自己都不太回答得清楚有太多所谓“只可意会,不能言传”的东西在里面人类的判断大多依据经验以及直觉因此自然而然的会有人想到何让机器像人类一样自己来通过对大量同类文档的观察来自己总结经验,作为今后分类的依据。这便是统计学习方法的基本思想,统计学习法,需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集)注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多计算机从这些文档中挖掘出一些能够有效分类的规则这个过程被形象的称为训练而总结出的规则集合常常被称为分类器训练完成后,用分类器对计算机从来没有见过的文档进行分类 现如今,统计学习方法已经成为了文本分类领域绝对的主流主要的原因在于其中的很多技术拥有坚实的理论基础,存在明确的评价标准,以及实际表现良好相比之下,知识工程方法中专家的主观因素居多,文本分类的过程,Rocchio 核心向量法,Rocchio是一种传统的分类方法该方法为每一类别都构造一个核心向量该核心向量是通过求这个训练集合的正负反馈的特征项权重(Feature Weight)的平均值在分类中,比较测试文本的向量和核心向量的相似度。,Rocchio 核心向量法,训练文本 Rocchio分类,+政治-军事*体育,K-Nearest Neighbor,给定一组分完类的训练文本,在此基础上对一个未知文本进行分类。当指定K的个数时,计算每一个训练文本与测试文本的相似度,从其中取K个相似度最大的文本。对这K的文本的类别进行统计,若第i个类别的文本数目最多,则认为测试文本属于第i类。,K-Nearest Neighbor,训练文本 待分类文本 KNN分类(K=5),+政治-军事*体育,

    注意事项

    本文(信息检索课件精简版文本分类.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开