空间关联规则挖掘.ppt
《空间关联规则挖掘.ppt》由会员分享,可在线阅读,更多相关《空间关联规则挖掘.ppt(48页珍藏版)》请在三一办公上搜索。
1、空间关联规则挖掘Spatial Association Rule Mining,高勇北京大学遥感与地理信息系统研究所,关联规则挖掘,频繁模式(frequent pattern)频繁出现在数据集中的模式,如项集、子序列、子结构频繁项集、(频繁)序列模式、(频繁)结构模式关联规则挖掘发现大量数据中项集之间有趣的关联在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、因果结构主要面向事务数据库(transaction-based databases)应用购物篮分析交叉销售和贩卖分析分类设计等,购物篮分析(1),购物篮在商场中拥有大量的商品(项目),如:牛奶
2、、面包等顾客将所购买的商品放入到自己的购物篮中通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的购买习惯哪些物品经常被顾客购买?同一次购买中,哪些商品经常会被一起购买?一般顾客的购买过程中是否存在一定的购买时间序列?具体应用:利润最大化商品货架设计:更加适合客户的购物路径货存安排:实现超市的零库存管理用户分类:提供个性化的服务,购物篮分析(2),购物篮问题的关联规则表示如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示关
3、联规则的两个兴趣度度量支持度(support)、置信度(confidence)支持度和置信度分别是衡量实用性和确定性的指标支持度2%:所有事务(购买记录)中的2%同时购买了计算机和软件置信度60%:意味着购买了计算机的人中,60%也购买了软件,关联规则,给定:项的集合:I=i1,i2,.,in。项的集合称为项集 任务相关数据D是数据库事务的集合,每个事务T则是项的集合,使得。每个事务由事务标识符TID标识设A为项集,事务T包含A当且仅当关联规则是如下蕴涵式:其中 并且 规则 在事务集D中成立,并且具有支持度s和置信度cs是事务集合D中包含AB的百分比c是事务集合D中包含A的事务中同时也包含B的
4、百分比关联规则是有趣的,如果它满足最小支持度(min_sup)阈值与最小置信度(min_conf)阈值,并称之为强规则,前提条件结论支持度,置信度,频繁项集,项(item)的集合称为项集(itemset)包含k个项的项集称为k项集项集的出现频率包含项集的事务数目,简称项集的频率、支持度计数、计数概率定义的支持度称为相对支持度,出现频率(或支持度计数)称为绝对支持度频繁项集如果项集I的相对支持度满足预定义的最小支持度阈值(绝对支持度满足最小支持度计数阈值),则I是频繁项集频繁k项集的集合记为Lk置信度可以由支持度导出因此,挖掘关联规则的问题可以归结为挖掘频繁项集,关联规则的示例,A C(50%,
5、66.6%)C A(50%,100%),Min.support=50%Min.confidence=50%,关联规则挖掘的步骤,二个步骤找出所有频繁项集频繁性大于等于预定义的最小支持度计数由频繁项集产生强关联规则满足最小支持度和最小置信度的规则问题如果一个项集是频繁的,则它的每个子集也是频繁的频繁项集个数太大,计算机无法存储和计算闭频繁项集和极大频繁项集如果不存在真超项集Y,使得Y与X在S中有相同的支持度计数,则称项集X在数据集S中是闭的项集X是S中的闭频繁项集,如果X在S中是闭的和频繁的项集X是S中的极大频繁项集(或极大项集),如果X是频繁的,并且不存在X的超项集Y在S中是频繁的闭频繁项集包
6、含了频繁项集的完整信息,关联规则挖掘的分类(1),根据关联规则的类型正关联规则负关联规则:负负,负正,正负根据挖掘的模式的完全性频繁项集的完全集闭频繁项集极大频繁项集被约束的频繁项集:满足用户指定的一组约束的频繁项集近似的频繁项集:只推导被挖掘的频繁项集的近似支持度计数接近匹配的频繁项集:与接近或几乎匹配的项集的支持度相符的项集最频繁的k个项集根据规则集所涉及的抽象层单层关联规则多层关联规则(在不同的抽象层发现关联规则),关联规则挖掘的分类(2),根据规则中涉及的数据维单维关联规则(single-dimensional association rule)关联规则中的项或属性只涉及一个维多维关联
7、规则(multidimensional association rule)关联规则涉及两个或多个维根据规则中所处理的值类型布尔关联规则规则考虑的关联是项是否出现量化关联规则规则描述的是量化的项或属性间的关联性,仅涉及buys这个维,关联规则挖掘的分类(3),根据所挖掘的规则类型关联规则相关规则(correlation rule)对关联规则进一步分析,发现统计相关强梯度联系(strong gradient relationship)梯度:项集与它的父母(泛化的项集)、子女(特殊化的项集)、兄弟(可比较的项集)相比之下的度量比率例如:iphone与ipod销售的关联,都是Apple的产品根据所挖掘
8、的模式类型频繁项集挖掘从事务或关系数据集挖掘频繁项集序列模式挖掘从序列数据集中搜索频繁子序列序列记录了事件的次序结构模式挖掘在结构化数据集中搜索频繁子结构结构:图、格、树、序列、集合、单个项,或这些结构的组合,Apriori算法,Apriori算法(R Agrawal&R Srikant,1994)挖掘布尔关联规则频繁项集的算法是一种逐层搜索的迭代方法:用k项集探求(k+1)项集首先找出频繁1项集,该集合记为L1用L1找出频繁2项集的集合L2如此继续下去,直到找到最大频繁项集Apriori性质频繁项集的所有非空子集也一定是频繁的AB模式不可能比A更频繁的出现Apriori算法是反单调的一个集合
9、如果不能通过测试,则该集合的所有超集也不能通过相同的测试Apriori的性质用于压缩搜索空间,来提高频繁项集逐层产生的效率,Apriori算法的步骤,连接步为了找Lk,通过将Lk-1与自己连接产生候选k项集的集合,该候选k项集记为CkLk-1中的两个项集l1和l2可以执行连接操作 的条件是连接的结果项集是剪枝步Ck是Lk的超集它的成员可能不是频繁的,但是所有频繁的k项集都在Ck中扫描数据库,通过计算每个k项集的支持度,得到Lk 压缩Ck使用Apriori性质,即如果一个k项集的(k-1)子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除,Apriori算法:示例,销售记录表D,最小
10、支持计数:2,由频繁项集产生关联规则,强关联规则满足最小支持度和最小置信度频繁项集满足最小支持度置信度计算关联规则的产生对于每个频繁项集l,产生l的所有非空子集对于l的每个非空子集s,如果则输出规则,由频繁项集产生关联规则:示例,l=I1,I2,I5,其关联规则 confidence=2/4=50%confidence=2/2=100%confidence=2/2=100%confidence=2/6=33%confidence=2/7=29%confidence=2/2=100%如果最小置信度阈值为70%,则强关联规则为,销售记录表D,频繁项集,多层关联规则,数据项中经常会形成概念分层底层的
11、数据项,其支持度往往也较低多层关联规则在多个抽象层上挖掘数据产生的关联规则在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的,挖掘多层关联规则的方法,使用置信度支持度框架,基于概念分层,采用自顶向下策略概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度由概念层1开始,向下到较低的更特定的概念层,在每个概念层累积计数计算频繁项,直到不能再找到频繁项集每一层的关联规则挖掘可以使用Apriori等多种方法搜索策略一致支持度:对于所有层使用一致的最小支持度递减支持度:在较低层使用递减的最小支持度基于分组的支持度:使用基于项或基于分组的最小支持度冗余问题由于项间的“祖先”关系,有些发
12、现的规则将是冗余的规则R1是R2的祖先,如果R1能够通过将R2中的项用它的概念分层的祖先替换得到,多维关联规则,单维关联规则(维内关联规则)包含单个谓词buys(X,“milk”)buys(X,“bread”)多维关联规则涉及两个或多个维或谓词的关联规则维间关联规则(inter-dimensional association rule)具有不重复谓词的多维关联规则age(X,”19-25”)occupation(X,“student”)=buys(X,“coke”)混合维关联规则(hybrid-dimensional association rule)具有重复谓词的多维关联规则age(X,”1
13、9-25”)buys(X,“popcorn”)=buys(X,“coke”)多维关联规则挖掘搜索的不是频繁项集,而是频繁谓词集k谓词集是包含k个合取谓词的集合,多维关联规则挖掘的技术,数据属性分类属性具有有限个不同值,值之间无序量化属性数值类型的值,并且值之间有一个隐含的序多维关联规则挖掘根据量化属性的处理分为2种方法量化属性的静态离散化使用预定义的概念分层对量化属性进行静态地离散化离散化在挖掘之前进行(动态)量化关联规则根据数据的分布,将量化属性离散化或聚类到“箱”离散化的过程是动态的,在挖掘过程中进行,以满足某种挖掘标准,量化属性静态离散化挖掘多维关联规则,量化属性用预定义的概念分层或离散
14、化技术,在挖掘前离散化数值属性的值用区间代替分类属性可以泛化到较高的概念层数据立方体技术非常适合挖掘多维关联规则n维方体的单元用于存放对应n谓词集的计数或支持度0-D方体用于存放任务相关数据的事务总数如果包含感兴趣的维的数据立方体已经存在并物化,挖掘将会很快可以利用Apriori性质频繁谓词集的每个子集也必须是频繁的,挖掘量化关联规则,量化关联规则多维关联规则。其中数值属性根据某种挖掘标准(如最大化置信度),进行动态的离散化2-维量化关联规则:Aquan1 Aquan2 Acat两个量化属性和一个分类属性间的关联例如:age(X,”30-39”)income(X,”42K-48K”)buys(
15、X,”HDTV”)挖掘方法:关联规则聚类系统(ARCS)(1)分箱;(2)找出频繁谓词集;(3)关联规则聚类,强关联规则的问题,下表数据可以得出buys(X,“computer games”)buys(X,“videos”)40%,66%但其实全部人中购买录像带的人数是75%,比66%多事实上录像带和游戏是负相关的。由此可见A B的置信度有欺骗性,它只是给出A,B条件概率的估计,而不度量A,B间蕴涵的实际强度,由关联挖掘到相关分析,相关规则A B support,confidence,correlation不仅用支持度和置信度度量,而且用A和B之间的相关度量相关度量:提升度(lift)项集A的
16、出现独立于项集B的出现,如果P(AB)=P(A)P(B);否则作为事件项集A和B是依赖的(dependent)和相关的(correlated)如果lift1,则A和B是正相关的,一个的出现蕴含另一个的出现如果lift=1,则A和B是独立的,没有相关性如果lift1,则A和B是负相关的2度量X的全置信度A和B余弦,0.5,正相关=0.5,独立0.5,负相关,空间规则,空间数据挖掘中的规则(Koperski,1995)空间特征规则(spatial characteristic rule)关于一个空间数据集的一般性描述例:一系列地理区域的天气模式的描述空间判别规则(spatial discrimin
17、ant rule)关于不同类别空间数据之间的特征对比和判别的一般性描述例:两个地理区域的天气模式的比较空间关联规则(spatial association rule)空间数据库中一类空间对象与另一类空间对象之间关联的描述性规则例:加拿大的大部分大城市都位于美国-加拿大边境附近,空间关联规则,空间关联规则的特殊性:空间关系空间关联规则的形式:A B cA and B are sets of predicates,at least one element is a spatial predicates:the support of a pattern A in a set of spatial o
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 关联 规则 挖掘
链接地址:https://www.31ppt.com/p-5296768.html