第9章Web数据挖掘文本挖掘和图像挖掘.ppt
《第9章Web数据挖掘文本挖掘和图像挖掘.ppt》由会员分享,可在线阅读,更多相关《第9章Web数据挖掘文本挖掘和图像挖掘.ppt(60页珍藏版)》请在三一办公上搜索。
1、Web 数据挖掘,Outline,Web挖掘概述web数据挖掘分类Web数据挖掘中的关键技术Web数据挖掘的应用,Why Web Mining?,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。随着Internet的发展,Web数据挖掘有着越来越广泛的应用,Web数据挖掘是数据挖掘技术在Web信息集合
2、上的应用。,Web挖掘概述,Web上有少量的数据信息,相对于传统的数据库的完全结构化的数据,Web上的数据最大特点就是半结构化。由于Web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为Web挖掘所要解决的一个难点,也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的Web挖掘技术以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘的重点。,典型的Web挖掘的处理流程1查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网
3、站的日志数据甚至是通过Web形成的交易数据库中的数据。2信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。3模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。4模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。,Web挖掘的IR和IE过程,Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information E
4、xtraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构合表达的含义感兴趣,它得一个重要任务就是对数据进行组织整理并适当建立索引。由于Web 数据量非常大,而且可能动态变化,用原来手工方式进行信息收集早已经力不从心,目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。,2 web数据挖掘分类,Web 数据有三种类型,:HTML 标记的Web 文档数据、Web文档内的链接的结构数据和用户访问数据。相应地Web 数据挖掘可分为三类:内容挖掘(Web
5、content mining)、结构挖掘(Web structure mining)和用户访问模式挖掘(Web usage mining)。,2.1 Web内容挖掘,Web内容挖掘是从文档内容或其描述中抽取有用信息的过程。Web内容挖掘的对象包括文本、图象、音频、视频等多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现领域,也称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。在Web多媒体数据挖掘方面的研究成为另一个热点,即多模态数据挖掘。,2.1.2 实现方法和策略 Web内容挖掘按实现方法分为两大类:信息检索(IR
6、)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。1.从资源查找(Information Retrival)的观点挖掘非结构化文档:非结构化文档主要指Web上的自由文本,包括小说、新闻等。,大部分研究都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇
7、的属性作为考察集合。,词汇袋方法的一个弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术,如信息增益,交叉熵、差异比等,其目的都是为了减少属性。,一个比较有意义的方法是潜在语义索引(Latent Semantic Indexing),它通过分析不同文档中相同主题的共享词汇,找到它们共同的根,用这个公共的根代替所有词汇,以此来减少维空间。例如:“informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示,这样可以减少属性集合的规模。其他的属性表示法还有词汇在文档中的出现位
8、置、层次关系、使用短语、使用术语、命名实体等。,2.用资源查找(Information Retrival)的观点挖掘半结构化文档与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。,3从数据库的观点挖掘非结构化文档:数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类:Web信息的建模和查询;信息抽取与集成;Web站点建构和重构。从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而
9、不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。,数据库观点主要利用OEM(Object Exchange Model)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识(OID)和值,值可以是原子类型,如整型、字符串型、gif、html等,也可以是一个复合类型,以对象引用集合的形式表示。对于在半结构化数据上的查询语言研究也得到了人们的重视,并做了专题研究。,Web图像挖掘举例,特征提取和表示+聚类+分类,算法流程,利用BOW词袋的方法生成词典,典型的视觉词典,主题和词典,视觉词典表示的图例,参考文献,文本挖掘举例,文
10、本挖掘概述,文本挖掘的基本概念 文本特征的表示 文本特征的提取,1 文本挖掘的基本概念,文本挖掘一词出现于1998年第十届欧洲机器学习会议上。Kodratoff认为文本挖掘的目的是从文本集合中,试图在一定的理解水平上尽可能多地提取知识。,1.概念,文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。文本数据包括:技术报告、文本集、新闻、电子邮件、网页、用户手册等。,2.主要任务,(1)短语提取 提取文本集中所有相关的短语。(2)概念提取(聚类)对这些短语之间的关系,建立一个该文本集中的主要概念。(3)可视化显示和导航 从多个视角出发进行分析.,3.文本挖掘与数据
11、挖掘,文本特征的表示,文本特征指的是关于文本的元数据:(1)描述性特征,例如文本的名称、日期、大小、类型等;(2)语义性特征,例如文本的作者、机构、标题、内容等。,文本特征的表示,矢量空间模型(VSM)是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量:V(d)=(t1,w1(d);ti,wi(d);tn,wn(d)d中出现的所有单词作为ti,或所有短语。wi(d)一般被定义为ti在d中出现频率tfi(d)的函数。,函数wi(d)=(tfi(d),常用的有:(1)平方根函数(2)对数函数,文本特征的提取,特征提取主要是识别文本中代表其特征的词项。文本特征分为一般特征和数字
12、特征,其中一般特征主要包括动词和名词短语,如人名、组织名等;数字特征主要包括日期、时间、货币以及单纯数字信息。,特征项抽取的判断算法,(1)该特征项集合包含所有该类中出现的词。(2)对于每个词,计算词Wi和类别Cj的互信息量I(W,C)(3)对于该类中所有的词,依据上面计算的互信息量排序。(4)抽取互信息量大的词作为特征项。(5)根据抽取的特征项进行向量压缩,精简向量表示。,文本挖掘,文本挖掘功能层次 关联分析 文本聚类 文本分类,11.2.1文本挖掘功能层次,文本挖掘功能层次,(1)关键词检索 关键词建立倒排文件索引,与传统的信息检索使用的技术类似。(2)相似检索 找到相似内容的文本。(3)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Web 数据 挖掘 文本 图像
链接地址:https://www.31ppt.com/p-4827936.html