《数据挖掘应》PPT课件.ppt
《《数据挖掘应》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据挖掘应》PPT课件.ppt(179页珍藏版)》请在三一办公上搜索。
1、第12讲 数据挖掘应用Chapter 12 Applications of Data Mining,徐从富(Congfu Xu),PhD,Asso.Professor 浙江大学人工智能研究所2005年5月17日第一稿2006年10月30日第二次修改,浙江大学研究生人工智能引论课件,目录,关联规则挖掘聚类分析分类与预测Web挖掘流数据挖掘隐私保护数据挖掘,关联规则挖掘,关联规则挖掘简介关联规则基本模型关联规则价值衡量与发展,关联规则简介,关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。典型的关联规则发
2、现问题是对超市中的货篮数据(Market Basket)进行分析。通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。,什么是关联规则挖掘,关联规则挖掘 首先被Agrawal,Imielinski and Swami在1993年的SIGMOD会议上提出在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构频繁模式:数据库中频繁出现的项集 目的:发现数据中的规律超市数据中的什么产品会一起购买?啤酒和尿布在买了一台PC之后下一步会购买?哪种DNA对这种药物敏感?我们如何自动对Web文档进行分类?,频繁模式挖掘的重要性,许多重要数据挖掘任务的基础关联、相关性、因果性
3、序列模式、空间模式、时间模式、多维关联分类、聚类分析更加广泛的用处购物篮分析、交叉销售、直销点击流分析、DNA序列分析等等,关联规则基本模型,关联规则基本模型Apriori算法,关联规则基本模型,IBM公司Almaden研究中心的R.Agrawal首先提出关联规则模型,并给出求解算法AIS。随后又出现了SETM和Apriori等算法。其中,Apriori是关联规则模型中的经典算法。给定一组事务产生所有的关联规则满足最小支持度和最小可信度,关联规则基本模型(续),设I=i1,i2,im为所有项目的集合,D为事务数据库,事务T是一个项目子集(TI)。每一个事务具有唯一的事务标识TID。设A是一个由
4、项目构成的集合,称为项集。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。,关联规则基本模型(续),关联规则是形如XY的逻辑蕴含式,其中XI,YI,且XY=。如果事务数据库D中有s%的事务包含XY,则称关联规则XY的支持度为s%,实际上,支持度是一个概率值。若项集X的支持度记为support(X),规则的信任度为support(XY)support(X)。这是一个条件概率P(Y|X)。也就是:support(XY)=P(
5、X Y)confidence(XY)=P(Y|X),规则度量:支持度与可信度,查找所有的规则 X&Y Z 具有最小支持度和可信度支持度,s,一次交易中包含X、Y、Z的可能性可信度,c,包含X、Y的交易中也包含Z的条件概率,设最小支持度为50%,最小可信度为 50%,则可得到A C(50%,66.6%)C A(50%,100%),买尿布的客户,二者都买的客户,买啤酒的客户,关联规则基本模型(续),关联规则就是支持度和信任度分别满足用户给定阈值的规则。发现关联规则需要经历如下两个步骤:找出所有频繁项集。由频繁项集生成满足最小信任度阈值的规则。,Let min_support=50%,min_con
6、f=50%:A C(50%,66.7%)C A(50%,100%),For rule A C:support=support(AC)=50%confidence=support(AC)/support(A)=66.6%,Min.support 50%Min.confidence 50%,Apriori算法的步骤,Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识。Apriori算法将发现关联规则的过程分为两个步骤:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有频繁项集是该算法的核
7、心,占整个计算量的大部分。,频繁项集,为了避免计算所有项集的支持度(实际上频繁项集只占很少一部分),Apriori算法引入潜在频繁项集的概念。若潜在频繁k项集的集合记为Ck,频繁k项集的集合记为Lk,m个项目构成的k项集的集合为,则三者之间满足关系Lk Ck。构成潜在频繁项集所遵循的原则是“频繁项集的子集必为频繁项集”。,关联规则的性质:,性质6.1 频繁项集的子集必为频繁项集。性质6.2 非频繁项集的超集一定是非频繁的。Apriori算法运用性质6.1,通过已知的频繁项集构成长度更大的项集,并将其称为潜在频繁项集。潜在频繁k项集的集合Ck 是指由有可能成为频繁k项集的项集组成的集合。以后只需
8、计算潜在频繁项集的支持度,而不必计算所有不同项集的支持度,因此在一定程度上减少了计算量。,Apriori算法,(1)L1=频繁1项集;(2)for(k=2;Lk-1;k+)do begin(3)Ck=apriori_gen(Lk-1);/新的潜在频繁项集(4)for all transactions tD do begin(5)Ct=subset(Ck,t);/t中包含的潜在频繁项集(6)for all candidates cCt do(7)c.count+;(8)end;(9)Lk=cCk|c.countminsup(10)end;(11)Answer=,实例,Database TDB,1
9、st scan,C1,L1,L2,C2,C2,2nd scan,C3,L3,3rd scan,Visualization of Association Rules:Pane Graph,Visualization of Association Rules:Rule Graph,提高Apriori算法的方法,Hash-based itemset counting(散列项集计数)Transaction reduction(事务压缩)Partitioning(划分)Sampling(采样),关联规则挖掘算法,Agrawal等人提出的AIS,Apriori和AprioriTidCumulate和Str
10、atify,Houstsma等人提出的SETMPark等人提出的DHPSavasere等人的PARTITIONHan等人提出的不生成候选集直接生成频繁模式FPGrowth其中最有效和有影响的算法为Apriori,DHP和PARTITION,FPGrowth。,用Frequent-Pattern tree(FP-tree)结构压缩数据库,高度浓缩,同时对频繁集的挖掘又完备的避免代价较高的数据库扫描开发一种高效的基于FP-tree的频繁集挖掘算法采用分而治之的方法学:分解数据挖掘任务为小任务避免生成关联规则:只使用部分数据库!,挖掘频繁集 不用生成候选集,最小支持度=0.5,TIDItems bo
11、ught(ordered)frequent items100f,a,c,d,g,i,m,pf,c,a,m,p200a,b,c,f,l,m,of,c,a,b,m300 b,f,h,j,of,b400 b,c,k,s,pc,b,p500 a,f,c,e,l,p,m,nf,c,a,m,p,步骤:扫描数据库一次,得到频繁1-项集把项按支持度递减排序再一次扫描数据库,建立FP-tree,用交易数据库建立 FP-tree,完备:不会打破交易中的任何模式包含了频繁模式挖掘所需的全部信息紧密去除不相关信息不包含非频繁项支持度降序排列:支持度高的项在FP-tree中共享的机会也高决不会比原数据库大(如果不计算树
12、节点的额外开销)例子:对于 Connect-4 数据库,压缩率超过 100,FP-tree 结构的好处,基本思想(分而治之)用FP-tree地归增长频繁集方法 对每个项,生成它的 条件模式库,然后是它的 条件 FP-tree对每个新生成的条件FP-tree,重复这个步骤直到结果FP-tree为空,或只含维一的一个路径(此路径的每个子路径对应的项集都是频繁集),用 FP-tree挖掘频繁集,为FP-tree中的每个节点生成条件模式库用条件模式库构造对应的条件FP-tree递归构造条件 FP-trees 同时增长其包含的频繁集如果条件FP-tree只包含一个路径,则直接生成所包含的频繁集。,挖掘
13、FP-tree的主要步骤,从FP-tree的头表开始按照每个频繁项的连接遍历 FP-tree列出能够到达此项的所有前缀路径,得到条件模式库,条件模式库itemcond.pattern basecf:3afc:3bfca:1,f:1,c:1mfca:2,fcab:1pfcam:2,cb:1,步骤1:从 FP-tree 到条件模式库,节点裢接任何包含ai,的可能频繁集,都可以从FP-tree头表中的ai沿着ai 的节点链接得到前缀路径要计算路径P 中包含节点ai 的频繁集,只要考察到达ai 的路径前缀即可,且其支持度等于节点ai 的支持度,FP-tree支持条件模式库构造的属性,对每个模式库计算库
14、中每个项的支持度用模式库中的频繁项建立FP-tree,m-条件模式库:fca:2,fcab:1,All frequent patterns concerning mm,fm,cm,am,fcm,fam,cam,fcam,f:4,c:1,b:1,p:1,b:1,c:3,a:3,b:1,m:2,p:2,m:1,头表Item frequency head f4c4a3b3m3p3,步骤2:建立条件 FP-tree,通过建立条件模式库得到频繁集,“am”的条件模式库:(fc:3),“cm”的条件模式:(f:3),f:3,cm-条件 FP-tree,“cam”条件模式库:(f:3),f:3,cam-条件
15、 FP-tree,第3步:递归挖掘条件FP-tree,关联规则价值衡量与发展,关联规则价值衡量关联规则最新进展,规则价值衡量,对关联规则的评价与价值衡量涉及两个层面:系统客观的层面用户主观的层面,系统客观层面,使用“支持度和信任度”框架可能会产生一些不正确的规则。只凭支持度和信任度阈值未必总能找出符合实际的规则。,用户主观层面,只有用户才能决定规则的有效性、可行性。所以,应该将用户的需求和系统更加紧密地结合起来。可以采用基于约束(Consraint-based)的数据挖掘方法。具体约束的内容有:数据约束、限定数据挖掘的维和层次、规则约束。如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,
16、又能明确数据挖掘的目标。,关联规则新进展,在基于一维布尔型关联规则的算法研究中先后出现了AIS、SETM等数据挖掘算法。R.Agrawal等人提出的Apriori 是经典算法。随后的关联规则发现算法大多数建立在Apriori算法基础上,或进行改造,或衍生变种。比如AprioriTid和AprioriHybrid算法。Lin等人提出解决规则挖掘算法中的数据倾斜问题,从而使算法具有较好的均衡性。Park等人提出把哈希表结构用于关联规则挖掘。,关联规则新进展(续),数据挖掘工作是在海量数据库上进行的,数据库的规模对规则的挖掘时间有很大影响。Agrawal首先提出事务缩减技术,Han和Park等人也分
17、别在减小数据规模上做了一些工作。抽样的方法是由Toivonen提出的。Brin等人采用动态项集计数方法求解频繁项集。Aggarwal提出用图论和格的理论求解频繁项集的方法。Prutax算法就是用格遍历的办法求解频繁项集。,关联规则新进展(续),关联规则模型有很多扩展,如顺序模型挖掘,在顺序时间段上进行挖掘等。还有挖掘空间关联规则,挖掘周期性关联规则,挖掘负关联规则,挖掘交易内部关联规则等。Guralnik提出顺序时间段问题的形式描述语言,以便描述用户感兴趣的时间段,并且构建了有效的数据结构SP树(顺序模式树)和自底向上的数据挖掘算法。最大模式挖掘是Bayardo等人提出来的。,关联规则新进展(
18、续),随后人们开始探讨频率接近项集。Pei给出了一种有效的数据挖掘算法。B.zden等人的周期性关联规则是针对具有时间属性的事务数据库,发现在规律性的时间间隔中满足最小支持度和信任度的规则。贝尔实验室的S.Ramaswamy等人进一步发展了周期性关联规则,提出挖掘符合日历的关联规则(Calendric Association Rules)算法,用以进行市场货篮分析。Fang等人给出冰山查询数据挖掘算法。,关联规则新进展(续),T.Hannu等人把负边界引入规则发现算法中,每次挖掘不仅保存频繁项集,而且同时保存负边界,达到下次挖掘时减少扫描次数的目的。Srikant等人通过研究关联规则的上下文,
19、提出规则兴趣度尺度用以剔除冗余规则。Zakia还用项集聚类技术求解最大的近似潜在频繁项集,然后用格迁移思想生成每个聚类中的频繁项集。CAR,也叫分类关联规则,是Lin等人提出的一种新的分类方法,是分类技术与关联规则思想相结合的产物,并给出解决方案和算法。,关联规则新进展(续),Cheung等人提出关联规则的增量算法。Thomas等人把负边界的概念引入其中,进一步发展了增量算法。如,基于Apriori框架的并行和分布式数据挖掘算法。Oates等人将MSDD算法改造为分布式算法。还有其他的并行算法,如利用垂直数据库探求项集聚类等。,聚类分析,聚类分析简介聚类分析中的数据类型划分方法层次方法,聚类(
20、Clustering)分析简介,聚类(Clustering)是对物理的或抽象的对象集合分组的过程。聚类生成的组称为簇(Cluster),簇是数据对象的集合。簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。相异度可以根据描述对象的属性值计算,对象间的距离是最常采用的度量指标。,聚类分析简介(续),聚类分析是数据分析中的一种重要技术,它的应用极为广泛。许多领域中都会涉及聚类分析方法的应用与研究工作,如数据挖掘、统计学、机器学习、模式识别、生物学、空间数据库技术、电子商务等。,聚类分析简介(续),从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统
21、计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。,聚类分析简介(续),从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。,聚类分析简介(续),从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况
22、,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。,聚类的常规应用,模式识别空间数据分析 在GIS中,通过聚类发现特征空间来建立主题索引;在空间数据挖掘中,检测并解释空间中的簇;图象处理经济学(尤其是市场研究方面)WWW文档分类分析WEB日志数据来发现相似的访问模式,应用聚类分析的例子,市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购买了汽
23、车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;,什么是一个好的聚类方法?,一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点:高的簇内相似性低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;,聚类分析中的数据类型,聚类分析主要针对的数据类型包括区间标度变量、二元变量、标称变量、序数型变量,以及由这些变量类型构成的复合类型。一些基于内存的聚类算法通常采用数据矩阵
24、和相异度矩阵两种典型的数据结构。,数据矩阵(Data Matrix),设有n个对象,可用p个变量(属性)描述每个对象,则np矩阵 称为数据矩阵。数据矩阵是对象-变量结构的数据表达方式。,相异度矩阵(Dissimilarity Matrix),按n个对象两两间的相异度构建n阶矩阵(因为相异度矩阵是对称的,只需写出上三角或下三角即可):其中d(i,j)表示对象i与j的相异度,它是一个非负的数值。当对象i和j越相似或“接近”时,d(i,j)值越接近0;而对象i和j越不相同或相距“越远”时,d(i,j)值越大。显然,d(i,j)=d(j,i),d(i,i)=0。相异度矩阵是对象-对象结构的一种数据表达
25、方式。,评价聚类质量,差异度/相似度矩阵:相似度通常用距离函数来表示;有一个单独的质量评估函数来评判一个簇的好坏;对不同类型的变量,距离函数的定义通常是不同的;根据实际的应用和数据的语义,在计算距离的时候,不同的变量有不同的权值相联系;很难定义“足够相似了”或者“足够好了”只能凭主观确定;,聚类分析中的数据类型,区间标度变量;二元变量;标称型,序数型变量;混合类型变量;,对象间距离的计算,设两个p维向量xi=(xi1,xi2,xi p)T和xj=(xj1,xj2,xj p)T分别表示两个对象,有多种形式的距离度量可以采用。闵可夫斯基(Minkowski)距离:曼哈坦(Manhattan)距离:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘应 数据 挖掘 PPT 课件

链接地址:https://www.31ppt.com/p-5519581.html