CLIQUE算法的基本思路.ppt
《CLIQUE算法的基本思路.ppt》由会员分享,可在线阅读,更多相关《CLIQUE算法的基本思路.ppt(25页珍藏版)》请在三一办公上搜索。
1、CLIQUE算法的基本思路,采用基于密度的算法聚类(cluster)就是一个区域,满足该区域中的点的密度大于与之相邻的区域。把数据空间分割成网格单元(unit),将落到某个单元中的点的个数当成这个单元的密度(density)。可以指定一个数值,当某个单元中的点的个数大于该数值时,我们就说这个单元格是稠密(dense)的。聚类也就定义为连通的所有的稠密单元格的集合。,基本概念,设A=A1,A2,Ad是n个域的集合,那么S=A1A2Ad就是一个d维空间,我们将A1,A2,Ad看成是S的维(属性);算法的输入是一个n维空间中的点集,设为V=v1,v2,vm,其中vi=vi1,vi2,vid。vi的第
2、j个分量vijAj;通过一个输入参数,可以将空间S的每一维分成相同的个区间,从而将整个空间分成了有限个不相交的类矩形单元(units),每一个这样的矩形单元可以描述为u1,u2,ud,其中ui=li,hi)是一个前闭后开区间;,基本概念,一个点v=v1,v2,vd落入一个单元u=u1,u2,ud中,当且仅当对于每一个ui都有li。密度阈值是另一个输入参数;,基本概念,对于S的任何子空间,例如子空间Sub=At1At2Atk,(kd,并且当ij时有titj成立),可以在该子空间中定义单元格,选择率等相同概念。,基本概念,一个聚类(cluster)可以定义为,在k维空间中由一些连通的稠密单元组成的
3、最大单元集;两个k维中的单元格u1,u2称为连通的(connected)当且仅当:(1)这两个单元格有一个公共的面;或者(2)u1,u2都跟另一个单元格u3连通;两个单元格u1=rt1,rt2,rtk,u2=rt1,rt2,rtk有一个公共的面是指,存在k-1个维度(不妨设这k-1维就是At1,At2,Atk-1),有rtj=rtj成立(j=1,2,k-1),并且对于第Atk维有htk=ltk,或者htk=ltk成立;,基本概念,区域(region)是指一个每一边都与坐标轴平行的类矩形。也就是说这类区域是由单元格组成的且具有规则的形状,这样一个区域就可以用区间的交的形式表示出来;区域R包含于一
4、个聚类C,当且仅当RC=R;进一步我们称这样的R是最大的(maximal)当且仅当没有一个R的超集R也包含于C;一个聚类C的最小描述是上述最大区域(maximal region)的一个集合R,R中的最大区域刚好覆盖C,集合r中的最大区域是没有冗余的,即R的任何子集都不能覆盖C;,例子,d-demensional spaceNumber of intervalsunitselectivity of a unitdensity threshold Dense unitClusterRegion maximal regionminimal description of a cluster,例子,su
5、bspace,问题描述,Given a set of data points and the input parameters,and,find clusters in all subspaces of the original data space and present a mimimal description of each cluster in the form of a DNF expression.,CLIQUE算法,Identification of subspace that contain clustersIdentification of clustersGenerati
6、on of minimal description for the clusters,第一步:识别含有聚类的子空间,A bottom-up algorithm to find dense unitsDetermines 1-dimensional dense units by making a pass over the dataHaving determined(k-1)-dimensional dense units,the candidate k-dimensional units are determined using candidate generation procedure.M
7、DL-based pruningTo decide which subspaces(and the corresponding dense units)are interesting.MDL-Minimal Description Length,candidate generation procedure,Input:Dk-1,the set of all(k-1)-dimensional dense unitOutput:a superset of the set of all k-dimensional dense unitsAlgorithm:,MDL-based pruning,Cov
8、erage of subspace sjSort the subspaces in the descending order of their coverageDivide the sorted list of subspaces into two sets:the selected set I and the pruned set PHow to arrive at the cut point,MDL-based pruning,The code length is minimized to determine the optimal cut point i,MDL-based prunin
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CLIQUE 算法 基本思路
链接地址:https://www.31ppt.com/p-5421902.html