《文本挖掘概述》PPT课件.ppt

资源ID：5520602 资源大小：5.81MB 全文页数：27页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

《文本挖掘概述》PPT课件.ppt

第四节文本挖掘概述,一、文本挖掘的定义,文本挖掘是数据挖掘的一个分支。将文本型信息源作为分析对象，利用智能算法，如神经网络、基于案例的推理等，并结合文字处理技术，分析大量的非结构化文本源（如文档、网页、企业管理日志等），从中寻找信息的结构、模型、模式等各种隐含的知识。文本挖掘就是利用计算机的高速度和海量处理能力，来帮助人们处理文本信息。,一、文本挖掘的定义,文本挖掘（text mining）：是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。Text data mining、knowledge discovery from textual databases,二、文本挖掘的作用,提高了海量非结构化信息源的利用价值；使得人们能够更加方便地从海量文本中发现隐含的知识；为企业的战略决策提供竞争情报的支持,文本挖掘的过程,相对于数据挖掘而言，文本挖掘技术还不成熟。文本数量巨大，结构不统一，处于动态变化中；自然语言理解理论在语言的深层理解方面没有根本性的突破，致使文本处理的准确度不高，文本挖掘的效果不够理想。计算机理解语言的能力非常有限！,三、文本挖掘的关键技术,文本预处理,文本分类,文本聚类,文本自动摘要,文本的向量空间表示,文本特征提取,文本相似度,为什么要进行文本分析？,文本是以文字串形式表示的数据文件。文本分析过程即通过文本分析，从中找出一些特征以便将来使用。文本分析包括语种识别、特征提取、文本聚类和文本分类等。,为什么要进行文本分析？,把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，建立它的数学模型，用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。,三、文本挖掘的关键技术,文本表示是指用文本的特征信息集合来代表原来的文本。目前，在信息处理领域，文本的表示方法主要是采用向量空间模型（Vector Space Model，VSM）。向量是既有大小又有方向的量。,文本预处理,文本的向量空间表示,三、文本挖掘的关键技术,向量空间模型的基本思想是以向量来表示文本：（W1，W2，W3Wn），其中Wi 为第i个特征项的权重。特征项一般选用字、词或词组。因此要将文本表示为向量空间中的一个向量，就首先将文本分词，用这些词作为向量的维数来表示文本。最初的向量表示完全是0、1的形式。但这种形式无法体现词在文本中的作用程度，故0、1逐渐被更精确的词频代替。,文本预处理,三、文本挖掘的关键技术,语种识别工具能自动发现文本使用的语种。这类工具应用文本内容的一些线索来识别语种。通常用机器领域里的算法，利用相应语种的训练文本进行训练，最终实现识别的目的。,语种识别,四、文本挖掘的关键技术,用于表示文本的基本单位通常称为文本的特征或特征项。在中文文本中可以采用字、词或短语作为表示文本的特征项。特征提取主要是使用自动的提取过程，识别文本中词项的意义。特征提取对掌握该文本的内容很重要，是一种强有力的文本挖掘工具。在一篇文本中，标题是该文本的高度概括，文本中的特征，如人命、地名、组织名等是文本中的主体信息。,特征提取,四、文本挖掘的关键技术,特征是概念的外在表现形式，特征提取是识别潜在概念结构的重要基础。利用自动标引技术可以对文本进行特征标引。对汉语文本进行特征抽取时，需要先对文本进行分词处理。,特征提取,分词实例,和平民主和平、民主和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平,四、文本挖掘的关键技术,利用计算机抽取西文关键词，首先要建立一个以介词、冠词、连词等无实质意义的单词组成的停用词表（stop words），然后利用创建的停用词表，从被标引的文本中筛去停用词，抽取关键词。,分词：英文分词,一般采用keyword，无需分词，单词之间有空格分开。stop words：指文档中出现的连词，介词，冠词等并无太大意义的词。例如在英文中常用的停用词有the，a,it等；在中文中常见的有“是”，“的”，“地”等。索引词（标引词，关键祠）:可以用于指代文档内容的预选词语,一般为名词或名词词组。,Natural Language Processing,(Taken from ChengXiang Zhai,CS 397cxz Fall 2003),标引源数据库,一条待标引的记录,英语单词,遇空分词,停用词表,存储,剔除,去除重复关键词,词频统计，保留高频词,利用词表确定标引词或直接选择关键词,标引,西文文本标引流程图,抽取关键词的方法与过程,利用计算机抽取西文关键词，首先要建立一个以介词、冠词、连词等无实质意义的单词组成的停用词表，然后利用创建的停用词表，从被标引的文本中筛去停用词，抽取关键词。（1）从文本中取出一个单词：西文中每两个单词间有空格间隔，可通过空格取词。（2）确定候选关键词：利用取出的词去搜索停用词表，如是停用词则舍去；否则，则作为候选词。,以西文文本为例,抽取关键词的方法与过程,（3）分析候选关键词：对于重复的候选关键词，删除重复词，同时累计词频。如果标引对象是全文，还可以根据位置给候选关键词赋予权重，例如，权值最高的位置是标题，其次是文摘、首尾段、首尾句、其他位置，然后计算每个被取出词的权值之和，并将它们按权值从大到小排序，根据排序结果决定所取出的词是否作为标引词。（4）确定标引词：如果标引对象是标题，只需判断所取出的候选词是否重复，去重后，这些词可以全部作为标引词。如果标引对象是文摘或全文，抽出的候选关键词会很多，需要对它们进行进一步筛选，具体的方法：根据词频统计的结果，去除低频词，将高频词作为标引备用词，然后根据系统规定的标引词的数量，最终确定标引词。,以西文文本为例,三、文本挖掘的过程,文本聚类是把一个文本集合分成几组的过程。对于文本标题中的关键词的相似匹配是对文本进行聚类的一种简单方法。,文本聚类,三、文本挖掘的过程,分类工具是把文本集合中的文本分配到已经存在的类别中，即，已存的“主题”中。将文本分类到各文本类中，一般需要一个算法。这些算法包括决策树分类器、近郊算法和休眠专家算法等。文本分类通过自动组织，把文本分到相应的主题中，能够使文本数据库更易于浏览和查询。,文本分类,系统结构,Multimedia,GUI,Garb.Coll.,Semantics,ML,Planning,planningtemporalreasoningplanlanguage.,programmingsemanticslanguageproof.,learningintelligencealgorithmreinforcementnetwork.,garbagecollectionmemoryoptimizationregion.,“planning language proof intelligence”,训练数据,测试数据,类别,(AI),文本分类示例,(Programming),(HCI),.,.,文本自动摘要,文本自动摘要能够生成简短的关于文本内容的指示性信息，将文本的主要内容呈现给用户，以判断是否要阅读文本的原文，这样能够节省大量的浏览时间。文本自动摘要就是利用计算机自动地从原始文本中提取全面准确地反映该文本中心内容的简单连贯的短文。按照生成文摘的句子来源，自动文摘方法可分为两类，一类是完全使用原文中的句子来生成文摘；另一类是可以自动生成句子来表达文档的内容。,四、文本挖掘模型结构示意图,

注意事项

本文（《文本挖掘概述》PPT课件.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。