关联规则挖掘理论课件.ppt
《关联规则挖掘理论课件.ppt》由会员分享,可在线阅读,更多相关《关联规则挖掘理论课件.ppt(18页珍藏版)》请在三一办公上搜索。
1、1,三 关联规则挖掘理论,基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法对项目集格空间理论的发展关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法,2,关联规则挖掘是数据挖掘研究的基础,关联规则挖掘(Association Rule Mining)是数据挖掘中研究较早而且至今仍活跃的研究方法之一。最早是由Agrawal等人提出的(1993)。最初提出的动机是针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库(Transaction Database)中不同商品之间的联系规则。关联规则的挖掘工作成果颇丰。例如,关联规则的挖掘理论、算法设计、算法
2、的性能以及应用推广、并行关联规则挖掘(Parallel Association Rule Mining)以及数量关联规则挖掘(Quantitive Association Rule Mining)等。关联规则挖掘是数据挖掘的其他研究分支的基础。,3,事务数据库,设I=i1,i2,im 是一个项目集合,事务数据库D=t1,t2,tn 是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,n)都对应I上的一个子集。一个事务数据库可以用来刻画:购物记录:I是全部物品集合,D是购物清单,每个元组ti是一次购买物品的集合(它当然是I的一个子集)。其它应用问题,4,支持度与频繁项目集,定义(项
3、目集的支持度).给定一个全局项目集I和数据库D,一个项目集I1I在D上的支持度(Support)是包含I1的事务在D中所占的百分比:support(I1)=|t D|I1 t|/|D|。定义(频繁项目集).给定全局项目集I和数据库D,D中所有满足用户指定的最小支持度(Minsupport)的项目集,即大于或等于minsupport的I的非空子集,称为频繁项目集(频集:Frequent Itemsets)或者大项目集(Large Iitemsets)。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(最大频集:Maximum Frequent Itemsets)或最大大项目
4、集(Maximum Large Iitemsets)。,5,可信度与关联规则,定义(关联规则与可信度).给定一个全局项目集I和数据库D,一个定义在I和D上的关联规则形如I1I2,并且它的可信度或信任度或置信度(Confidence)是指包含I1和I2的事务数与包含I1的事务数之比,即Confidence(I1I2)=support(I1I2)/support(I1),其中I1,I2I,I1I2=。定义(强关联规则).D在I上满足最小支持度和最小信任度(Minconfidence)的关联规则称为强关联规则(Strong Association Rule)。,6,关联规则挖掘基本过程,关联规则挖掘
5、问题可以划分成两个子问题:1.发现频繁项目集:通过用户给定Minsupport,寻找所有频繁项目集或者最大频繁项目集。2生成关联规则:通过用户给定Minconfidence,在频繁项目集中,寻找关联规则。第1个子问题是近年来关联规则挖掘算法研究的重点。,7,第三章 关联规则挖掘理论和算法,基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法对项目集格空间理论的发展关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法,8,频繁项目集生成算法分析,Agrawal等人建立了用于事务数据库挖掘的项目集格空间理论(1993,Appriori 属性)。1994年,Agrawal 等人提出了著名的A
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关联 规则 挖掘 理论 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3719477.html