数据挖掘中的文本挖掘ppt课件.ppt
《数据挖掘中的文本挖掘ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘中的文本挖掘ppt课件.ppt(22页珍藏版)》请在三一办公上搜索。
1、,1,数据挖掘中的文本挖掘,张聪,2022/11/12,2,目录Contents,一,三,二,四,结语,文本挖掘过程,文本挖掘的主要研究方向,关于数据挖掘和文本挖掘,2022/11/12,3,一,数据挖掘与文本挖掘,Data Mining and Text Mining,2022/11/12,4,数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。,文本挖掘一般指文本处理
2、过程中产生高质量的信息,其主要处理过程是对大量文档集合的内容进行预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等操作。高质量的信息通常通过分类和预测来产生,如模式识别。,2022/11/12,5,文本挖掘的分类,2022/11/12,6,二,文本挖掘的主要研究方向,Main Research Direction of Text Mining,2022/11/12,7,文本检索,文本分类,文本聚类,网络浏览,文档总结,2022/11/12,8,网络浏览,文本挖掘技术可以通过分析用户的网络行为等 ,帮助用户更好地寻找有用信息,一个典型的例子是 CMU的WebWatcher 。这
3、是一个在线用户向导, 可以根据用户的实际点击行为分析用户的兴趣 , 预测用户将要选择的链接 , 从而为用户进行导航 。,2022/11/12,9,文本检索,文本检索主要研究对整个文档文本信息的表示 、存诸、组织和访问 ,即根据用户的检索要求, 从数据库中检索出相关的信息资料。,主要检索方法有三种 :布尔模型是简单常用的严格匹配模型;概率模型利用词条间和词条与文档间的概率相关性进行信息检索;向量空间模型在于将文档信息的匹配问题转化为向量空间中的矢量匹配问题处理。,2022/11/12,10,文本分类,文本分类是指按照预先定义的主题类别, 为文档集合中的每个文档确定一个类别。这样用户不仅可以方便地
4、阅读文档, 而且可以通过限制搜索范围来使文档查找更容易 。,近年来涌现出了大量的适合于不同应用的分类算法,如:基于归纳学习的决策树、基于向量空间模型的 K-最近邻、基于概率模型的 Bayes 分类器 、神经网络 、基于统计学习理论的支持向量机方法等,2022/11/12,11,文本聚类,与文本分类相对应的是文本自动聚类 。文本聚类是一种典型的无监督机器学习问题 。,它与文本分类的不同之处在于, 聚类没有预先定义好的主题类别, 它的目标是将文档集合分成若干个簇 ,要求同一簇内文档内容的相似度尽可能大, 而不同簇间的相似度尽可能小 。,2022/11/12,12,文档总结,文档总结也是 Web 文
5、本挖掘的一个重要内容 。它是指从文档中抽取关键信息 ,用简洁的形式 ,对文档内容进行摘要和解释, 这样用户不需阅读全文就可了解文档或文档集合的总体内容 。,搜索引擎向用户返回查询结果时, 通常需要给出文档摘要 ,这就是文档总结的一个实例 。,2022/11/12,13,三,文本挖掘过程,Process of Text Mining,2022/11/12,14,文本挖掘过程图示,2022/11/12,15,文本预处理,文本预处理是文本挖掘的第一个步骤, 对文本挖掘效果的影响至关重要, 文本的预处理过程可能占据整个系统的 80 %的工作量。,与传统的数据库中的结构化数据相比,文档具有有限的结构,或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 中的 文本 ppt 课件
链接地址:https://www.31ppt.com/p-1346800.html