文本挖掘核心技术及其应用.ppt
《文本挖掘核心技术及其应用.ppt》由会员分享,可在线阅读,更多相关《文本挖掘核心技术及其应用.ppt(30页珍藏版)》请在三一办公上搜索。
1、文本挖掘核心技术及其应用,2,目录,文本挖掘步骤文本挖掘功能文本挖掘应用,3,文本挖掘步骤,文本挖掘的一般处理过程,4,文本源,原始数据,预处理,过滤虚词,合并词根,分词,特征表示,计算权值,合并特征,过滤特征,特征提取,权值调整,特征约减,文本挖掘,文本分类,文本聚类,关联分析,模式提取,分类模式,聚类模式,关联规则,结果展示,展示界面,文本挖掘步骤,5,文本挖掘主要功能及应用,文本挖掘,应用,实现功能,自动分词,文档归类,自动分类,自动聚类,信息抽取,文本相似性检索,自动摘要,舆情监控,垃圾邮件过滤,企业竞争情报系统,电子商务,客户自动问答,6,目录,文本挖掘步骤文本挖掘功能文本挖掘应用,
2、7,自动分词,8,自动分类,莫言对话杨振宁:来生学物理,当下梦飞天,时政,社会,军事,评论,文化,国际,历史,9,自动聚类,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成主题词,为用户确定类目名称提供方便。,文本1文本2文本3文本4文本5,类别1:关键词:比赛、赛季、联赛、球队、比分、太阳、NBA、球员队员、领先,类别2:关键词:旅游、黄金、游客、记者、旅行社、中国、国家、假日、北京、线路,类别3:关键词:公司、企业、招聘、面试、求职、专业、职业、学生、大学、人才,10,信息抽取,信息抽取是从文本中抽取指定的一类信息(事件、事实)并将其形成结构化的数据,填入一个数据
3、库中以供用户查询使用。,11,信息抽取,12,文本相似性检索,文本相似性检索式对一篇文档到索引库中查找与其内容重复率高的文档和相似的文档。目前应用最广的是论文查重。,13,自动摘要,对文章中的所有句子进行权值运算,对所有的句子按权值排列,提取出权值大的作为关键句,进而形成摘要。,14,目录,文本挖掘步骤文本挖掘功能文本挖掘应用,15,应用,文档自动归类,文本源,原始数据,预处理,过滤虚词,合并词根,分词,特征表示,计算权值,合并特征,过滤特征,特征提取,权值调整,特征约减,文本挖掘,文本分类,模式提取,分类模式,结果展示,展示界面,16,应用,文档自动归类,17,应用,垃圾邮件过滤,商家利用电
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 挖掘 核心技术 及其 应用
链接地址:https://www.31ppt.com/p-6365085.html