信息检索课件精简版文本分类.ppt
《信息检索课件精简版文本分类.ppt》由会员分享,可在线阅读,更多相关《信息检索课件精简版文本分类.ppt(12页珍藏版)》请在三一办公上搜索。
1、文本分类,给定分类体系,将文本分到某个或者某几个类别中。分类体系一般人工构造政治、体育、军事中美关系、恐怖事件这里讲的分类主要基于内容其他分类:文体、态度、风格人工方法费时费力费钱难以保证一致性专家有时候凭空想象自动方法快速一致性好来源于真实文本,可信度高,自动文本分类的核心问题,文本分类与其它分类一样,其方法可以归结为根据待分类数据的某些特征来进行匹配当然完全的匹配不太可能必须根据某种评价标准选择最优的匹配结果核心问题用哪些特征表示文本才能准确、快速地分类对特征的选择主导了不同的文本分分类方法流派词匹配法、知识工程方法、统计学习法,词匹配法,词匹配法是最早被提出的分类算法该方法仅根据文档中是
2、否出现了与类名相同的词来判断文档是否属于某个类别至多再加入同义词的处理很显然,这种过于简单机械的方法无法带来良好的分类效果。,知识工程方法,后来兴起过一段时间的知识工程的方法借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。这 里与特定规则的匹配程度成为了文本的特征。由于在系统中加入了人为判断的因素,准确度比词匹配法大为提高。,知识工程方法的缺陷,分类的质量严重 依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏制定规则的人都是专家级别,人力成本大幅上升常常令人难以承受而知识工程最致命的弱 点是完全不具备可推广性一个针对金融领域构建
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 课件 精简 文本 分类
链接地址:https://www.31ppt.com/p-5230049.html