关联分析高级概念.ppt
《关联分析高级概念.ppt》由会员分享,可在线阅读,更多相关《关联分析高级概念.ppt(101页珍藏版)》请在三一办公上搜索。
1、关联分析:高级概念,第7章关联分析:高级概念,关联分析处理事务数据,Rules Discovered:Diaper-Beer,处理分类属性,我们可能发现关于因特网用户特征的有趣信息:网上购物=是 关注隐私=是,许多应用包含对称二元属性和标称属性。表7-1显示的因特网调查数据包含对称二元属性,如:性别、家庭计算机、网上聊天、网上购物和关注隐私;还包括标称属性,如文化程度和州。,处理分类属性,为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。例如:标称属性文化程度可以用三个二元项取
2、代 文化程度=大学 文化程度=研究生 文化程度=高中类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。,处理分类属性,将关联分析用于二元化后的数据时,需要考虑如下问题。(1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。,处理分类属性,将关联分析用于二元化后的数据时,需要考虑如下问题。(2)某些属性值的频率可能比其他属性高很多。如:假定85%的被调查人都有家庭计算机,如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产
3、生许多冗余模式。家庭计算机=是,网上购物=是 关注隐私=是解决办法:使用处理具有宽支持度的极差数据集的技术。,处理分类属性,将关联分析用于二元化后的数据时,需要考虑如下问题。(3)计算时间可能增加,特别是当新创建的项变成频繁项时。因为会产生更多的候选项集。解决办法:避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如州=X,州=Y,的候选项集,因为该项集支持度为零。,处理连续属性,因特网调查数据可能还包含连续属性,如表7-3所示。挖掘连续属性可能揭示数据的内在联系,如“年收入超过120k的用户属于45-60年龄组”或“拥有超过3个email帐号并且每周上网超过15小时的用户通常关注
4、个人隐私”:包含连续属性的关联规则通常称作量化关联规则(quantiative association rule)。对连续数据进行关联分析的方法:基于离散化的方法非离散化方法基于统计学的方法,基于离散化的方法,离散化是处理连续属性最常用的方法。这种方法将连续属性的邻近值分组,形成有限个区间。例如:年龄属性可以划分为如下区间:12,16),16,20),20,24),56,60)离散化技术:等宽、等频、聚类表7-4显示了离散化和二元化后的因特网调查数据。,属性离散化的一个关键在于划分每个属性的区间个数和宽度。然而,确定正确的区间是困难的。,如果支持度阈值=5%,置信度阈值=65%。我们可以从表中
5、推出年龄和网上聊天隐含强规则:16,24)网上聊天=是(s=8.8%,c=81.5%)44,60)网上聊天=否(s=16.8%,c=70%)区间宽度对关联分析结果的影响。(1)如果区间太宽,则可能因为缺乏置信度而失去某些规则例如:当区间宽度为24岁时,上面的两个规则变为 16,36)网上聊天=是(s=30%,57.7%)36,60)网上聊天=否(s=28%,58.3%),区间宽度对关联分析结果的影响。(2)如果区间太窄,则可能因为缺乏支持度而失去某些规则例如:当区间宽度为4岁时,上面的两个规则变为 16,20)网上聊天=是(s=4.4%,84.6%)20,24)网上聊天=是(s=4.4%,78
6、.6%)(3)当区间宽度为8岁时,上面的两个规则变为 44,52)网上聊天=否(s=8.4%,70%)52,60)网上聊天=否(s=8.4%,70%)12,20)网上聊天=是(s=9.2%,60.5%)20,28)网上聊天=是(s=9.2%,60.0%),非离散化方法,有一些应用,分析者更感兴趣的是发现连续属性之间的关系。例如,找出表7-6所示文本文档中词的关联。,在文本挖掘中,分析者更感兴趣的是发现词之间的关联(例如:数据和挖掘)。而不是词频区间(例如,数据:1,4,挖掘:2,3)之间的关联。一种方法是将数据变换成0/1矩阵;其中,如果规范化词频超过某个阈值t,则值为1,否则为0。该方法缺点
7、是阈值难确定。,另一种方法是采用min-apriori方法。S(word1,word2)=min(0.3,0.6)+min(0.1,0.2)+min(0.4,0.2)+min(0.2,0)=0.6Min-apriori中支持度s随着词的规范化频率增加而增大。随包含该词的文档个数增加而单调递增。,处理概念分层,概念分层是定义在一个特定的域中的各种实体或概念的多层组织。概念分层可以用有向无环图表示。,概念分层主要优点(1)位于层次结构较下层的项(如:AC适配器)可能没有足够的支持度,但是,作为概念分层结构中它们的父母结点(如:便携机配件)具有较高支持度。(2)在较低层发现的规则倾向于过于特殊,可能
8、不如较高层的规则令人感兴趣。(如:脱脂牛奶普通面包,脱脂牛奶白面包,等过于特殊),实现概念分层的方法每个事务t用它的扩展事务t取代,其中,t包含t中所有项和它们的对应祖先。如:事务DVD,普通面包可以扩展为DVD,普通面包,家电,电子产品,面包,食品然后对扩展的数据库使用如Apriori等已有的算法来发现跨越多个概念层的规则。,概念分层主要缺点(1)处于较高层的项比处于较低层的项趋向于具有较高的支持度计数。(2)概念分层的引入增加了关联分析的计算时间。(3)概念分层的引入可能产生冗余规则。规则X Y是冗余的,如果存在一个更一般的规则X Y,其中X是X的祖先,Y是Y的祖先,并且两个规则具有非常相
9、似的置信度。例如:面包 牛奶,白面包 脱脂牛奶,序列模式,购物篮数据常常包含关于商品何时被顾客购买的时间信息。可以使用这种信息,将顾客在一段时间内的购物拼接成事务序列。然而,迄今为止所讨论的关联模式概念都只强调同时出现关系,而忽略数据中的序列信息。对于识别动态系统的重现特征,或预测特定事件的未来发生,序列信息可能是非常有价值的。,序列模式,将与对象A有关的所有事件按时间增序排列,就得到A的一个序列(sequence),Sequence Database:,一般地,序列是元素(element)的有序列表,可以记作s=,其中每个ej是一个或多个事件的集族,即ej=i1,i2,ik。,Sequenc
10、e,E1E2,E1E3,E2,E3E4,E2,Element(Transaction),Event(Item),序列数据的例子,子序列(Subsequence),序列t是另一个序列s的子序列(subsequence),如果t中每个有序元素都是s中一个有序元素的子集。,序列模式发现(Sequential Pattern Mining),设D是包含一个或多个数据序列的数据集:序列s的支持度是包含s的所有数据序列所占的比例。如果序列s的支持度大于或等于用户指定的阈值minsup,则称s是一个序列模式(或频繁序列)。定义7.1 序列模式发现:给定序列数据库D和用户指定的最小支持度阈值minsup,序列
11、模式发现的任务是找出支持度大于或等于minsup的所有序列。,例子,Minsup=50%Examples of Frequent Subsequences:s=60%s=60%s=80%s=80%s=80%s=60%s=60%s=60%s=60%,提取序列模式:蛮力方法,给定n个事件的集族:i1,i2,i3,in候选 1-序列:,候选 2-序列:,候选 3-序列:,候选序列的个数比候选项集的个数大得多。产生更多候选的原因有下面两个一个项在项集中最多出现一次,但一个事件可以在序列中出现多次。给定两个项i1和i2,只能产生一个候选2-项集i1,i2,但却可以产生许多候选2-序列,如,。次序在序列中
12、是重要的,但在项集中不重要。例如,1,2和2,1表示同一个项集,而和对应于不同的序列,因此必须分别产生。先验原理对序列数据成立。包含特定k-序列的任何数据序列必然包含该k-序列的所有(k-1)-序列。,序列模式发现的类Apriori算法,候选产生,一对频繁(k-1)-序列合并,产生候选k-序列。为了避免重复产生候选,传统的Apriori算法仅当前k-1项相同时才合并一对频繁k-项集。类似的方法可以用于序列。例子通过合并和得到。由于事件3和事件4属于第二个序列的不同元素,它们在合并后序列中也属于不同的元素。通过合并和得到。由于事件3和事件4属于第二个序列的相同元素,4被合并到第一个序列的最后一个
13、元素中。,候选剪枝一个候选k-序列被剪枝,如果它的(k-1)-序列最少有一个是非频繁的。例如,假设是一个候选4-序列。我们需要检查和是否是频繁3-序列。由于它们都不是频繁的,因此可以删除候选。支持度计数在支持度计数期间,算法将枚举属于一个特定数据序列的所有候选k-序列。计数之后,算法将识别出频繁k-序列,并可以丢弃其支持度计数小于最小支持度阈值minsup的候选。,图7-6,时限约束,模式的事件和元素都施加时限约束。例子:学生A:学生B:感兴趣的模式是,意思是说注册数据挖掘课程的学生必须先选修数据库系统和统计学方面的课程。显然,该模式被这两个学生支持,尽管他们都没有同时选修统计学和数据库系统。
14、相比之下,一个10年之前选修了统计学课程的学生不能认为支持该模式,因为这些课程的时间间隔太长了。,图7-7解释了可以施加在模式上的某些时限约束。,最大跨度约束,最大跨度约束指定整个序列中所允许的事件的最晚和最早发生时间的最大时间差。假定最大时间跨度maxspan=3,下面的表包含了给定的数据序列支持和不支持的序列模式。,一般,maxspan越长,在数据序列中 检测到模式的可能性就越大。然而,较长的maxspan也可能捕获不真实的模式可能涉及陈旧事件。最大跨度约束影响序列模式发现算法的支持度计数。施加最大时间跨度约束之后,有些数据序列就不再支持候选模式。,最小间隔和最大间隔约束,时限约束也可以通
15、过限制序列中两个相继元素之间的时间差来指定。如果最大时间差(maxgap)是一周,则元素中的事件必须在前一个元素的事件出现后的一周之内出现。如果最小时间差(mingap)是0,则元素中的事件必须在前一个元素的事件出现之后出现。,假定maxgap=3,mingap=1,下表给出了模式通过或未通过最大间隔和最小间隔约束的例子。,与最大跨度一样,这些约束也影响序列模式发现算法的支持度计数,因为当最小间隔和最大间隔约束存在时,有些数据序列就不再支持候选模式。使用最大间隔约束可能违反先验原理。为了解释这一点,考虑图7-5中的数据集。如果没有最小间隔或最大间隔约束,和的支持度都是60%。然而,如果ming
16、ap=0,maxgap=1,则的支持度下降至40%,而的支持度仍然是60%。这与先验原理相违背。,例子,Minsup=50%Examples of Frequent Subsequences:s=60%s=60%s=80%s=80%s=80%s=60%s=60%s=60%s=60%,定义7.2 邻接子序列序列s是序列w=的邻接子序列(contiguous subsequence),如果下列条件之一成立:(1)s是从e1或ek中删除一个事件后由w得到。(2)s是从至少包含两个事件的任意eiw中删除一个 事件后由w得到。(3)s是t的邻接子序列,而t是w的邻接子序列。,定义7.3 修订的先验原理如
17、果一个k-序列是频繁的,则它的所有邻接(k-1)-子序列也一定是频繁的。在候选剪枝阶段,并非所有的k-序列都需要检查,因为它们中的一些可能违反最大间隔约束。例如,如果maxgap=1,则不必检查候选的子序列是否是频繁的,因为元素2,3和5之间的时间差大于一个时间单位。我们只需要考察的邻接子序列,包括,和。,窗口大小约束,最后,元素sj中的事件不必同时出现。可以定义一个窗口大小阈值(ws)来指定序列模式的任意元素中事件最晚和最早出现之间的最大允许时间差。窗口大小为0表明模式同一元素中的所有事件必须同时出现。下面的例子使用ws=2,mingap=0,maxgap=3,maxspan=,子图模式,关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关联 分析 高级 概念
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6091935.html