第10章聚类方法(续)ppt课件.ppt
《第10章聚类方法(续)ppt课件.ppt》由会员分享,可在线阅读,更多相关《第10章聚类方法(续)ppt课件.ppt(87页珍藏版)》请在三一办公上搜索。
1、第10章 聚类方法,10.4 基于密度的聚类算法,很多算法都使用距离来描述数据之间的相似性,但对于非凸数据集,只用距离来描述是不够的。此时可用密度来取代距离描述相似性,即基于密度的聚类算法。它不是基于各种各样的距离,所以能克服基于距离的算法只能发现“类圆形”的聚类的缺点。,10.4.1 DBSCAN算法,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法是一种性能优越的基于密度的空间聚类算法。它的基本思想是,如果一个点p和另一个点q是密度相连的,则p和q属于同一个簇。,1. 相关概念,定义10.6 以数据集
2、D中一个点p为圆心,以为半径的圆形区域内的数据点的集合称为p的-邻域,用N(p)表示,即:N(p)=q | qD dist(p,q),点p的-邻域,定义10.7 给定一个参数MinPts,如果数据集D中的一个点p的-邻域至少包含MinPts个点(含点p自身),则称p为核心点。在图10.36中,如果MinPts=7,则p为核心点(核心点用实心圆点表示)。,为核心点,定义10.8 给定数据集D中的两个点p、q,如果q在p的-邻域内,而p是一个核心点,则称点q是从p出发直接密度可达的。在图10.36中,qN(p),如果p是一个核心点,则q是从p出发直接密度可达。,为核心点, q是从p出发直接密度可达
3、,定义10.9 对于给定的和MinPts,如果数据集D中存在一个点链p1、p2、pn,p1=q,pn=p,对于piD(1in),pi+1是从pi出发直接密度可达的,则点p是从点q出发密度可达的。,点p是从点q密度可达的,定义10.10 对于给定的和MinPts,如果数据集D中存在如果存在点oD,使点p和q都是从o出发密度可达的,那么点p到q是密度相连的。密度相连关系是对称的。如图10.38所示,p到q是密度相连的,则q到p是密度相连的。,到q是密度相连的,定义10.12 数据集D中不是核心点,但落在某个核心点的邻域内的点称为边界点。边界点可能落在多个核心点的邻域内,边界点为稠密区域边缘上的点。
4、数据集D中不是核心点也不是边界点的点称为噪声点,噪声点不属于任何簇,它属于稀疏区域中的点。例如,如图10.39所示,MinPts=4,用实心圆点表示核心点,用空心圆点表示边界点,用方形点表示噪声点。,核心点、边界点和噪声点,2. DBSCAN算法,DBSCAN算法基本思想是:首先选取一个未标记类别的核心点,并创建一个新簇;然后,寻找所有从该核心点出发关于和MinPts密度可达的点,并标记为该簇。重复这个过程,直至处理完所有点,即没有未标记簇的核心点。,输入:数据集D,邻域半径,最小点数MinPts输出:关于(,MinPts)的所有簇的集合方法:其过程描述如下:,do 从数据集D中抽取一个未处理
5、过的点p; if (p是核心点) 找出所有从p出发关于(,MinPts)密度可达的点,形成一个簇; else p是边界点或噪声点(非核心点),跳出本次循环,寻找下一点; until (所有点都被处理);,【例10.11】有如表10.14所示的数据集,其在二维空间中的分布情况如图10.40所示。用户输入=1,MinPts=4,采用DBSCAN算法进行聚类的过程如下。,散点图,DBSCAN算法的优点是基于密度定义,相对抗噪音,能处理任意形状和大小的簇。其缺点是对参数(,MinPts)敏感,当簇的密度变化太大时,会产生较大误差。,10.4.2 OPTICS算法,OPTICS并不显示的产生结果簇,而是
6、为聚类分析生成一个增广的簇排序(比如以可达距离为纵轴,样本点输出次序为横轴的坐标图),这个排序代表了各样本点基于密度的聚类结构。它包含的信息等价于从一个广泛的参数设置所获得的基于密度的聚类,换句话说,从这个排序中可以得到基于任何参数和MinPts的DBSCAN算法的聚类结果。,定义10.13 设o是数据集D中一个点,为距离,MinPts是一个自然数,MinPts-dist(o)是o到其最邻近的MinPts个邻接点的最大距离,则o的核心距离为:,也就是说,对于点o,它的核心距离为使o成为核点的最小。如果o不是核心对象,则o的核心距离没有定义。,定义10.14 设点p、o为数据集D中的点,为距离,
7、MinPts是一个自然数,点p关于点o的可达距离定义为:,也就是说,点p关于点o的可达距离是指o的核心距离和o与p之间欧几里得距离之间的较大值。如果o不是核心对象,o和p之间的可达距离没有意义。,例如,如图10.41所示,设=6,MinPts=5。显然o为核心点,点o到最邻近的5个点(含自身)的最大距离为=3,所以核心点o的核心距离为3。点p关于o的可达距离=MAX3,dist(o,p)=3(点p属于o的最邻近的MinPts个点之一)。点q关于o的可达距离=MAX3,dist(o,q)=dist(o,q)(点q属于o的邻域内的点,但不属于最邻近的MinPts个点之一)。,OPTICS算法产生了
8、数据集的排序,并为每个点存储了核心距离和相应的可达距离。也就是说,OPTICS的结果是将所有点按照其直接密度可达的最近的核心点的可达距离进行排序,称为簇排序。然后可以基于OPTICS产生的排序信息来提取簇,对于从该排序中提取小于的每个距离值的聚类已经足够。,基于数据集的簇排序可以图形化的描述,有助于理解。例如,图10.42是一个简单的二维数据集的可达性图,它给出了如何对数据结构化和聚类的一般观察。数据点连同它们各自的可达距离按簇顺序绘出。从中看到,核心距离比会生成更好的聚类结果。,【例10.12】有如表10.16所示的数据集,在二维空间中的分布情况如图10.43所示。当设置=2,MinPts=
9、4时,采用OPTICS算法进行聚类的过程如下:,散点图,(1)求各个点的可达距离,其结果如表10.17所示,表中序号指出输出次序,对于未输出的点,表示该点的可达距离没有定义,用OPTICS簇次序图表示,其结果如图10.44所示,其中横坐标对应点的簇次序,纵坐标对应点的可达距离。,OPTICS中的簇次序图,(2)从图中看到,根据可达距离的大小可以分成3个簇,即a,e,b,d,c,f,g,j,k,i,h,n,q,o,m。这和DBSCAN算法设置=1.0,MinPts=4时的聚类结果是相同的。,OPTICS中的簇次序图,(3)通过分析簇次序图还能直接得到这样的结果:当参数=1.5,MinPts=4时
10、的聚类结果只有两个簇,即a,e,b,d,c,f,g,j,k,i,h,也就是说,在OPTICS簇次序图中所有可达距离Y值小于1.5的样本点都不加区分地划入一个簇中这和DBSCAN算法设置=1.5,MinPts=4时的聚类结果是相同的。不在这两个簇中的其他点被认为是离群点。,OPTICS中的簇次序图,OPTICS算法的特点如下:,对于真实的,高维的数据集合而言,绝大多数算法对参数值是非常敏感的,参数的设置通常是依靠经验,难以确定。而OPTICS算法可以帮助找出合适的参数。OPTICS算法通过对象排序识别聚类结构。OPTICS没有显式地产生一个数据类簇,它为自动和交互的聚类分析计算一个簇排序。这个次
11、序代表了数据的基于密度的聚类结构。,10.5 基于网格的聚类算法,基于网格的聚类方法使用一种多分辨率的网格数据结构,将对象空间量化为有限数目的单元,形成网格结构,所有的聚类操作都在网格上进行。其处理速度独立于数据对象的个数,仅依赖于量化空间中每一维的单元个数,因此处理速度快。,10.5.1 STING算法,STING(Statistaical INformation Grid)算法是基于空间数据挖掘的算法,将数据空间区域划分为矩形单元,并且对应于不同级别的分辨率,存在着不同层次的矩形单元,高层的每个单元被分为多个低一层的单元。每个网络单元的统计信息被预先计算和存储,供处理和查询使用。,STIN
12、G结构中的结点,通常每个单元具有以下统计信息方面的参数:,单元内的对象数目count; 单元内所有对象的均值mean; 单元内对象属性的标准差stdev; 单元内对象属性的最小值min; 单元内对象属性的最大值max; 单元内对象属性值遵循的分布类型distr,可以是正态的、均匀的、指数的或NONE(分布未知)。,较高层单元的参数可以很容易地从低层单元的参数计算得到。设count、mean、stdev、min、max和distr分别表示当前单元的参数,与该单元相对应的低层单元的参数分别用counti、meani、stdevi、mini、maxi和distri表示,则count、mean、std
13、ev、min、max和distr可以按如下方式计算:,在完成一个有关空间信息的查询时,先将查询转化为统计信息,然后使用STING算法在层次结构中查找相关的统计参数。STING算法如下:,输入:层次网格结构T,查询要求Q输出:满足查询要求的相关单元的区域方法:其过程描述如下:,(1)从层次结构T的一个层次开始;(2)对于这一层次的每个单元,计算查询Q相关的属性值;(3)从计算的属性值及其约束条件中,将每一个单元标注成相关或者不相关;(4)如果这一层是底层,则转到(6),否则就转(5);(5)由层次结构转到下一层依照(2)进行计算;(6)若查询结果满足,转到(8),否则转到(7);(7)恢复数据到
14、相关的单元格进一步处理以得到满意结果,转到(8);(8)算法结束。,【例10.13】有如图10.46所示的层次网格结构,共3层,第3层中每个单元的面积为10m2,第2层和第3层中每个单元的count=4。采用STING算法查询某个房屋的占地面积的过程如下。,从第一层开始,假设找到该房屋的相关单元有3个,所有相并单元用阴影表示,再在第2层中找到相关单元共10个,继续在第3层中找到相关单元共28个,最后求出面积为2810共280m2。,STING算法具有如下优点: 存储在每个单元的统计信息是不依赖于具体的查询的,所以基于网格的计算独立于查询。 网格层次结构有利于增量更新和并行处理。 执行效率高,扫
15、描一遍数据集计算出每个单元的统计信息,产生聚类的时间复杂度是O(n),n是数据集中对象的个数。层次结构建成后,查询处理时间是O(k),k是最低层网格单元的数目,通常kn。,STING算法的缺点如下: 如果粒度比较细,处理的代价会显著增加;但是,如果网格结构最低层的粒度太粗,将会降低聚类分析的质量。 在构建一个父单元时没有考虑孩子单元和其相邻单元之间的关系,因此,结果簇的边界或者是水平的,或者是竖直的,没有斜的分界线。 尽管该技术有快速的处理速度,但可能降低簇的质量和精确性。,10.5.2 WaveCluster算法,WaveCluster算法利用小波变换聚类,既是基于网格的,也是基于密度的。其
16、主要思想是:首先量化特征空间,形成一个多维网格结构,然后用小波变换来变换原特征空间,在小波变换中,用一个合适的内核函数进行旋转,产生一个变形后的空间,使数据中的簇易于区分。在变换后的空间中发现密集区域。可以在不同分辨率的下产生基于用户需求的聚类。,小波变换是一种有效的数学分析方法,广泛应用于边界的处理与滤波、时频分析、信噪分离与提取弱信号以及多尺度边缘侦测等。就聚类而言,小波变换具有提供无监督聚类、有效地消除离群点、有利于在不同精度(分辨率)上发现簇和高效率的优点。,样例及其多种分辨率结果,WaveCluster算法如下:,输入:多维数据集的特征向量输出:聚类对象方法:其过程描述如下:,对特征
17、空间进行量化,把每个维度分成若干段,这样,整个空间分成单元,然后把对象分配到相应的单元;对量化后的特征空间进行离散小波变换;在变化后的特征空间的子波段中找出相连的部分,就是簇;为每个簇所包含的单元分配相应的标记;建立查找表,用于把变换后特征空间中的单元映射到原特征空间中的单元;把每个单元的标记分配给该单元内的所有对象,将对象映射成簇。,WaveCluster算法的优点如下: 它提供无监督聚类;采用了加强点簇区域,而抵制簇边界之外的较弱信息的帽形(hat-shape)过滤器。这样在原特征空间中的密集区域成为附近点的吸引点(attractor)和较远点的抵制点(inhibitor)。这意味着数据的
18、聚类自动地突显出来,并清洗”周围的区域。这样小波变换的另一个优点是能够自动地排除离群点。 小波变换的多分辨率特征有助于发现不同精度的聚类。 基于小波的聚类速度很快。 对输入顺序不敏感,不需要事先知道簇的数目,并且能够快速处理大型数据集,能够发现任意复杂形状的聚类。,WaveCluster算法的不足是:量化特征空间形成多维网格结构时,需要消耗较大的存储空间,仅适合于特征空间可以明显量化的数据集进行聚类。所以WaveCluster算法主要用于空间数据聚类。,10.5.3 CLIQUE算法,CLIQUE(Clustering In Quest)算法是基于网格和密度的空间聚类算法。该算法的基本思想是:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 章聚类 方法 ppt 课件
链接地址:https://www.31ppt.com/p-1373212.html