复杂数据类型的挖掘.ppt
1,Chapter 10:复杂数据类型的挖掘,广东商学院信息学院 胡建军,数据仓库与数据挖掘,2,Course Outline,复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘,3,Course Outline,复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘,4,数据挖掘的对象,简单数据 关系数据库、事务数据库、数据仓库复杂类型数据 复杂对象、空间数据、多媒体数据、时间序列数据、文本数据、Web数据等 挖掘技术:基本挖掘技术的扩展 针对复杂数据类型的新技术 实施知识挖掘的方法,5,复杂数据对象的多维分析和描述性挖掘,商品化数据仓库和OLAP工具用于多维分析的局限:维非数字数据度量聚集值复杂数据对象的概化及其概化数据的应用复杂数据的组织及存储方法类、类/子类对象:对象标识、属性、方法,6,复杂结构数据的概化,复杂结构数据:集合、元组、列表、树、记录等及其组合;概化方法:保持原结构不变,概化其属性把原结构扁平化,概化扁平化的结构用高层概念或聚集汇总低沉结构返回原结构的类型或概貌,7,集合值,集合值一般概化方法:将集合中的每个值概化为其对应的更高级别的概念导出集合的一般特征(元素个数、区间、平均值、最大值等)示例:业余爱好网球,曲棍球,国际象棋,小提琴,任天堂游戏 概化:体育,音乐,电子游戏 体育(3),音乐(1),电子游戏(1),8,列表值/序列值,列表值/序列值 类似于集合值属性的概化,要求保持元素的次序。一般概化方法:将列表中的每个值概化为对应的高层概念导出列表的一般特征(长度、元素类型、平均值、最大值等),9,空间和多媒体数据的概化,聚集和近似计算空间数据例:土地规划多媒体数据图像:尺寸、颜色、形状、纹理、方位等音乐:音调、节拍、乐器等文本:摘要、关键词等,10,对象的概化,对象标识符沿类/子类层次结构概化继承特性数据概化对直接数据与继承数据同等对待方法 方法本身不能概化,但是可以对方法导出的数据进行概化,11,Course Outline,复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘,12,空间数据库挖掘,空间数据库及其一般特点存储了大量与空间有关的数据包含拓扑/距离信息复杂的、多维的索引结构访问通过空间数据的方法,通常需要空间推理、地理计算、空间知识表示技术空间数据挖掘:要综合数据挖掘与空间数据库技术,13,空间数据库挖掘,传统空间数据分析(统计方法)的不足统计方法通常假设空间分布的数据间是统计上独立的,但现实是空间对象间是相互关联的;大部分统计模型只有具有相当丰富领域知识和统计方面经验的统计专家才用得起来;统计方法不适用符号值,或不完整或非确定的数据,对大规模数据库其计算代价也十分昂贵。空间数据挖掘将对传统的空间分析方法加以扩展,重点解决其高效性,可伸缩性,与数据库系统的紧密结合,改进与用户的交互,以及新的知识的发现。,14,空间关联分析,空间关联规则形如:ABs%,c%其中A和B空间和非空间谓词的集合,s%表示规则的支持度,c%表示规则的的可信度。例:Is_a(X,”school”)close_to(X,“sports_center”)close_to(X,“park”)0.5%,80%此规则表明80%靠近体育中心的学校同时也靠近公园,并且有0。5%的数据符合这一规则。,15,空间聚类方法,空间数据聚类是要在一个较大的多维数据集中根据距离的计算找出簇,或稠密区域。,16,空间分类和空间趋势分析,空间分类指分析空间对象导出与一定空间特征有关的分类模式,如郊区,高速公路,河流的邻接。空间趋势分析处理的是另一类问题:根据某空间维找出变化趋势。例如,当离城市中心越来越远时,我们要分析经济形势的变化趋势,或离海洋越来越远时,气候与植物的变化趋势。,17,Course Outline,复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘,18,多媒体数据库挖掘,多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据,图象数据,视频数据,序列数据,以及超文本数据,包含文本,文本标记(text markup),和链接(linkage)。多媒体数据的相似搜索 主要考虑两种多媒体标引和检索系统:(1)基于描述的检索系统,主要是在图象描述之上建立标引和执行对象检索,如关键字,标题,尺寸,创建时间等;(2)基于内容的检索系统,它支持基于图象内容的检索,如颜色构成,质地,形状,对象,和小波变换等。多媒体数据的分类和预测分析 多媒体数据中的关联规则挖掘,19,Course Outline,复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘,20,时序数据库和序列数据库,时序数据库:由随时间变化的序列或事件组成的数据库等时间间隔测得的数据(regular intervals)时序数据库是一种序列数据库序列数据库:由有序事件序列组成的数据库可有时间标记,也可以没有时间标记可以是时序数据库,也可以不是。如WEB遍历。,21,时序数据例子,Time-series plot,22,时序数据和序列数据的挖掘(一),趋势分析 通过对趋势,循环,季节和非规则成分的运动的系统分析,使人们可以在较合理的情况下,制定出长期或短期的预测(即预报时序)相似搜索 找出与给定查询序列最接近的数据序列。子序列匹配(subsequence matching)是找出与给定序列相似的所有数据序列,整体序列匹配(whole sequence matching)是找出彼此间相似的序列。例如:对金融市场的分析(如股票数据分析),医疗诊断(如心电图分析),和科学与工程数据库(如能量消耗分析)等,23,时序数据和序列数据的挖掘(一),序列模式挖掘(sequence pattern mining)是指挖掘相对时间或其它模式出现频率高的模式。周期分析(periodicity analysis)对周期模式的挖掘,即在时序数据库中找出重复出现的模式。例如:季节,潮汐,行星轨道,每日能源消耗,每日交通模式,24,Course Outline,复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘,25,文本数据库和信息检索(IR),文本数据库 半结构化数据:它既不是完全无结构的也不是完全结构的。例如,一个文档可能包含结构字段,如标题,作者,出版日期,长度,分类,等等,也可能包含大量的非结果化的文本成分,如摘要和内容。典型的信息检索问题是基于用户的输入(如关键字或样例文档)定位相关的文档。典型的信息检索系统联机图书馆目录联机文档管理系统信息检索与数据库系统DB:并发控制、恢复、事务管理、更新IR:非结构化文档、基于关键字的近似搜索,26,文本检索的基本度量,查准率:反映正确性查全率:反映全面性,应该被检索到的,27,文本检索的基本度量,查准率:反映正确性查全率:反映全面性,实际被检索到的,28,文本检索的基本度量,查准率:反映正确性查全率:反映全面性,29,基于关键字的检索,在关键字检索中,文档被看作字符串,可用一组关键字识别查询由关键字表达式构成例子,汽车 and 修理店查询应考虑同义词问题,如:修理 和 维修困难同义词问题(Synonymy):文档与Key相关,但Key在文档中不出现多义词问题(Polysemy):同一Key在不同的上下文有不同的含义,如Mine。,30,基于相似性的检索(1),相似检索是指基于一组共同的关键字找出相似的文档检索结果基于相关度,即:与关键词的近似性,关键词的出现频率等。非用词表(Stop list)无关的高频词,如:a,the,of,for,etc.文档不同时,非用词表也不同,31,基于相似性的检索(2),由于相似文档具有相似的相对词频,因此我们可以基于频率表中的相对词频,计算一组文档的相似性。词频矩阵相似度:基于一组关键词的文档相似性相关词的出现次数余弦距离:缺点:当词数T和文档数目D很大时,高的维数导致低的计算效率,且出现大的稀疏向量。用奇异值分解(SVD)技术减小词频矩阵大小保留词频矩阵中最有意义的K行和K列,K值为几百。,32,文本数据挖掘的类型,1.基于关键字的关联分析2.文档分类分析,33,基于关键字的关联分析,动机收集经常一起出现的关键字或词汇,然后找出其关联或相互关系关联分析过程文档预处理:文本数据分解,词根处理,过滤非用词等调用关联挖掘算法将每一文档看作一个事务将文档中的关键词组看作事务中的一组事务项,34,文档分类,动机自动对大量联机文档(web页面,email等)进行分类组织,以便于对文档进行检索和分析。分类过程数据预处理:提出关键字和词汇定义训练集和测试集调用分类算法创建分类模式测试分类模式应用导出的分类模式对其他新的、未知的联机文档分类文档分类与关系数据库中的数据分类之间的区别文档数据库是非结构化的,没有“属性值”对,35,Course Outline,复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘,36,Web挖掘,挑战对数据仓库和数据挖掘而言,Web太庞大了Web页面数据太复杂:没有结构,不标准不断增长,不断变化广泛的用户群体仅有很小部分的Web数据是有用的或相关的 99%的Web 信息对99%的Web用户是无用的,37,Web 搜索引擎,基于索引:搜索Web页面,对Web页面作索引,建立和存储大量的基于关键字的索引,定位包含关键字的Web页面不足之处:对任一范围的话题,返回的文档数太庞大很多与话题相关的文档并不包含相应的关键字(多义问题),38,如何高效地发现和利用因特网上的资源?Web挖掘,39,Web挖掘,Web挖掘可分为三类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining),Web使用记录的挖掘(Web usage mining)。,40,挖掘Web链接结构,权威Web页面:不仅相关,而且高质量,或针对该话题具有权威性超链能够推断权威页面Web页面包含指向其他页面的超链超链包含了大量人类潜在的注释超链可以看作是作者对链接页面的认可Web超链结构存在的问题并不是每一个超链都代表对寻找内容的认可导航、广告因竞争、商业等原因而不链接权威广告权威页面很少具有特别的描述,41,Web 使用记录的挖掘,Web日志记录提供了有关Web动态的丰富信息 典型的Web日志记录条目包含了所请求的URL,发出请求的IP地址,时间戳等在Weblog记录上可以进行数据挖掘,用于找出关联模式,序列模式,和Web访问趋势等。,42,End,Questions?Lets discuss it!,Thank you!,Professor Jiawei Han,