《聚类分析》课件.ppt
《《聚类分析》课件.ppt》由会员分享,可在线阅读,更多相关《《聚类分析》课件.ppt(196页珍藏版)》请在三一办公上搜索。
1、1,第06章 聚类分析,2,聚类分析的基本思想及意义,聚类分析是研究分类问题的多元数据分析方法聚类分析是数值分类学的一分支 在经济学中有广泛的应用背景 城镇居民收入分析 产品质量指标 等等,3,聚类分析的基本思想及意义,聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。,4,聚类分析的基本思想及意义,
2、多元数据形成数据矩阵,在这个数据矩阵中,共有n个样品(列向),p个指标(行向)。聚类分析有两种类型:按样品聚类或按变量(指标)聚类。,5,聚类分析与判别分析的区别和联系,聚类分析一般寻求客观的分类方法。在进行聚类之前,对总体到底有几类类型并不知道(究竟分几类较为合适需从计算中探索调整)。判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本基础上,对当前的新样本判定它们属于哪个总体。联系:例如当我们对研究的多元数据的特征不熟悉,就要先进行聚类分析,才能考虑判别分析问题。,6,聚类分析的方法,重点介绍 谱系聚类法 快速聚类法,7,样品间的相似性度量距离,设有n个样品的多元观测数据:每个样
3、品可看成p元空间的一个点,n个样品组成p元空间的n个点。我们用各点之间的距离来衡量各种样品之间的相似程度(或靠近程度)。,8,样品间的相似性度量距离,设 是样品 之间的距离,一般要求它满足下列条件:在聚类分析中,有些距离不满足3),我们在广义的角度上仍称它为距离。,9,聚类分析中的常用距离,欧式距离 令,形成一个距离矩阵 其中。,10,例 6.1,为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇居民生活消费规律,需要利用调查资料对这5个省分类。指标变量共8个,含义如下:x1:人均粮食支出,x2:人均副食支出,x3:人均烟酒茶支出,x4:人均其他副食支出,x5:人均衣着商品支出,x5:人均
4、日用品支出,x7:人均燃料支出,x8:人均非商品支出。数据资料示于表6.2。将每个省份的数据看成一个样 品,计算样品之间的欧式距离矩阵。,11,例 6.1,表6.2 1991年5省城镇居民月均消费(单位:元/人),12,例 6.1,解 以1,2,3,4,5分别表示辽宁、浙江、河南、甘肃、青海5个省(样品)。计算每两个样品之间的欧式距离 如,13,例 6.1,从而得到距离矩阵如下:(因是对称矩阵,故只用下三角部分表示)。D中各元素数值的大小,反映了5个省消费水平的接近程度。,14,聚类分析中的常用距离,绝对距离Minkowski距离 其中。当 时分别是欧式距离、绝对距离。Minkowski距离又
5、称 距离,距离即欧式距离,距离即绝对距离。,15,聚类分析中的常用距离,Chebyshev距离 Chebyshev距离是Minkowski距离当 时的极限。,16,聚类分析中的常用距离,以上距离与各变量指标的量纲有关,为消除量纲的影响,有时应先对数据进行标准化,然后用标准化数据计算距离。标准化数据 其中,17,聚类分析中的常用距离,方差加权距离 对标准化数据 计算欧式距离时,即是方差加权距离。,18,聚类分析中的常用距离,马氏距离 其中 是由样品 算得的协方差矩阵:其中,19,样品间的相似性度量距离,Q型聚类:样品聚类在SAS系统中,采用欧式距离聚类或先将数据标准化,再计算欧式距离进行聚类。(
6、实际上就是采用了方差加权距离),20,变量间的相似性度量相似系数,当对p个指标变量进行聚类时,用相似系数来衡量变量之间的相似性程度(或关联性程度)。一般的,若 表示变量 之间的相似系数,应满足:,21,变量间的相似性度量相似系数,相关系数 设由样品 算得协方差矩阵S与相关矩阵R。设 则变量 的相关系数为,22,变量间的相似性度量相似系数,是变量 的观测值 与 的观测值 间的相关系数。,23,变量间的相似性度量相似系数,夹角余弦 设变量 的观测值各为 与 其夹角余弦为,24,例 6.2,设 为两个二态变量(设只取0,1两个值),其观测值向量 和(注意分量只由0,1构成)可总结为下列联表形式:求(
7、1)的相关系数;(2)的夹角余弦。,25,例 6.2,解(1)注意:,26,27,例 6.2,又,28,例 6.2,同理因此,29,例 6.2,(2)因为所以,30,变量间的相似性度量相似系数,变量聚类通常称为R型聚类。在R型聚类中,相似矩阵 是出发点。相似系数矩阵可以是相关矩阵,也可以是夹角余弦矩阵,Spearman相关矩阵。,31,变量间的相似性度量相似系数,有时变量之间也可以用距离来描述它们的接近程度。距离和相似系数之间可以相互转化。设 是一个距离,则 是相似系数,若 是相似系数,则可令 或 或,32,谱系聚类法,谱系聚类法是目前应用很广泛的一种聚类方法。谱系聚类法的思想重点讨论:Q型聚
8、类问题。关键:定义类与类的距离,33,类间距离,以 分别表示样品,以 简记 与 的距离 分别表示两个类,设它们分别含有 个样品。若类 中有样品,则其均值 称为类 的重心。,34,类间距离,由于类的形式和形状多种多样,所以类与类之间的距离有多种定义与计算方法。下面我们介绍类间距离的定义。类 与 之间的距离记为。(1)最短距离 即用两类中样品之间的距离最短者作为两类距离。,35,类间距离,(2)最长距离即用两类中样品之间的距离最长者作为两类距离。(3)类平均距离即用两类中所有两两样品之间的距离平均作为两类之间的距离。类平均距离还可用下列方式定义:,36,类间距离,(4)重心距离 其中 分别是 的重
9、心。这是用两类的重心之间的距离作为两类距离。(5)离差平方和距离对重心法而言,。,37,类间距离的递推公式,按照谱系聚类法的思想,先将样品聚合成小类,再逐步扩大为大类。设类 由类 合并所得,则 包含 个样品。问题:由 与其他类 的距离计算 与 的距离 建立类间距离的递推公式,38,类间距离的递推公式,类间距离的递推方式(1)最短距离事实上,39,类间距离的递推公式,类间距离的递推方式(2)最长距离事实上,40,类间距离的递推公式,类间距离的递推方式(3)类平均距离事实上,41,类间距离的递推公式,类间距离的递推方式(3)类平均距离对于类平均距离的下列定义方式:可得递推公式,42,类间距离的递推
10、公式,类间距离的递推方式(4)重心距离事实上,由 的合并集 的重心是而,43,类间距离的递推公式,类间距离的递推方式(4)重心距离由有,44,类间距离的递推公式,类间距离的递推方式(5)离差平方和距离若记 是离差平方和距离,是重心平方距离,则有,45,类间距离的递推公式,在一定条件下,以上介绍的5种类间距离的递推公式可以构成统一的形式。假定样品之间的距离皆采用欧式平方距离,即 则类间距离递推公式有统一的形式:,46,类间距离的递推公式,表6.3 类间距离的参数,47,类间距离的递推公式,注,48,谱系聚类法的步骤,以Q型聚类为例说明谱系聚类法的步骤1)n个样品开始时作为n个类,计算两两之间的距
11、 离,构成一个对称距离矩阵此时,。,49,谱系聚类法的步骤,2)选择 中的非对角线上的最小元素,设这个最小元素是。这时。将 合并成一个新类。在 中消去 所对应的行与列,并加入由新类 与剩下的其他未聚合的类间的距离组成的一行和一列,得到一个新的距离矩阵,它是n-1阶方阵。,50,谱系聚类法的步骤,3)从 出发重复步骤2的作法得。再由 出发重复上述步骤,直到n个样品聚为1个大类为止。4)在合并过程中要记下合并样品的编号及两类合并时的水平(即距离)并绘制聚类谱系图。,51,谱系聚类PROCCLUSTER过程,Proc cluster过程提供了最短距离法(Single Linkage)、最长距离法(C
12、omplete linkage)、类平均法(Average linkage)、重心法(Centroid method)等11种谱系聚类方法。,52,谱系聚类PROCCLUSTER过程,基本语句 PROCCLUSTER options;VAR variables;ID variable;,53,谱系聚类PROCCLUSTER过程,PROCCLUSTER options;1)DATASAS data set:该语句指出要进行聚类分析的SAS数据集名称,它可以是含各观测向量的原始数据集,也可以是“距离”矩阵(TYPE DISTANCE),其中“距离”可以是通常的欧氏距离,也可以是其他的距离或变换后的
13、相似度量。若是原始观测数据,则每个数据向量被当作欧氏空间中的坐标点以计算欧氏距离矩阵。,54,谱系聚类PROCCLUSTER过程,注意 本过程总是按照距离矩阵中的元素取值由小到大聚类,因此当使用相似度量矩阵对变量聚类时,要首先对相似度量矩阵中的元素作变换,使得值小的元素对应两个更相似的变量,通常采用的变换为、或 等,这里 为原相似度量矩阵中的元素。,55,谱系聚类PROCCLUSTER过程,PROCCLUSTER options;2)OUTTREESAS data set:生成一个用于画聚类谱系图的输出数据集。若省略此句,则SAS系统自动用DATA1,DATA2,规则命名这种数据集。3)MET
14、HODname:此语句是本过程必需的,它指出具体使用的聚类方法。它可以是SAS系统中包含的11种方法的任何一种。主要有:,56,谱系聚类PROCCLUSTER过程,SINGLE(或SIN):要求使用最短距离法。COMPLETE(或COM):要求使用最长距离法。AVERAGE(或AVE):要求使用类平均法。在此过程中类平均法使用欧氏距离的平方,若不需要再平方,可在“options”部分写上“NOSQUARE”。CENTROID(或CEN):要求使用重心法。如果 不规定“NOSQUARE”,则距离数据被平方。,57,谱系聚类PROCCLUSTER过程,MEDIAN(或MED):要求使用中间距离法。
15、若不规定“NOSQUARE”选项,则使用平方距离。WARD(或WAR):要求使用WARD最小方差法。若不规定“NOSQUARE”选项,则使用平方距离。,58,谱系聚类PROCCLUSTER过程,PROCCLUSTER options;4)NOSQUARE:阻止过程在METHODAVERAGE、CENTROID、MEDIAN或WARD方法中将输入的距离平方。5)NONORM:阻止将距离规范化。6)PSEUDO:要求打印伪F统计量及伪 统计量的值。只有当输入数据是原始观测数据(但“METHOD”选项不能是SIN)或“METHOD”选项是AVE、CEN或WAR时,才可选此项。,59,谱系聚类PROC
16、CLUSTER过程,PROCCLUSTER options;7)RSQUARE(或RSQ):要求打印出 统计量和半偏相关统计量SPRSQ的值。当输入数据是原始观测数据且“METHOD”选项是AVE或CEN时,才可选此项。,60,谱系聚类PROCCLUSTER过程,VAR variables;此语句的“variables”部分列出参与聚类分析的数值变量名称。若省略此句,则未列在其他语句(如其后的ID语句)中的数值变量均参与分析。,61,谱系聚类PROCCLUSTER过程,ID variables;ID变量的值用以表述各样品的名称,它通常时定性变量。若该语句被省略,该过程自动将各样品(或变量)命名
17、为“OBn”,其中n表示第n个样品(或变量)。,62,谱系聚类PROCTREE过程,用于画出谱系图基本语句:PROC TREE options;ID variable;,63,谱系聚类PROCTREE过程,PROC TREE options;1)HORIZONTAL:表示谱系图水平放置。2)VERTICAL:表示谱系图垂直放置。3)SPACESm:表示各ID变量值的间隔单位,这里m是正整数。4)GRAPHICS:要求画高分辨率的聚类谱系图。5)NCLUSTERSm:指定在输出分类结果数据集中所分成的类的个数。6)OUTSAS data set:输出分类结果。,64,例 6.3,从例6.1算得的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 课件

链接地址:https://www.31ppt.com/p-5048873.html