SAS讲义 第三十九课聚类分析.docx
《SAS讲义 第三十九课聚类分析.docx》由会员分享,可在线阅读,更多相关《SAS讲义 第三十九课聚类分析.docx(34页珍藏版)》请在三一办公上搜索。
1、第三十九课聚类分析聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别面貌尚不 清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道 各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知 属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道,这时对 数据的分类就需借助聚类分析方法来解决。聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据 特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的 这
2、些对象倾向于不相似。关于聚类分析的任何通则必定是含糊的、不明确的,因为在众多的 各种不同领域里聚类方法已经发展了,类和对象间的相似性具有不同定义。各种聚类分析方 法通过用于聚类分析的各种各样的领域反映出来。因此尽管聚类方法有很多种,但不管哪一 种都不能说得到的分类是准确的。下面我们介绍聚类分析中常用的一些方法。一、距离和相似系数什么是“类”呢?粗略地说,相似物体的集合称作类;聚类分析的目的就是把相似的东 西归类。其次“相似”是什么含意?怎样度量“相似”?我们必须给出度量“相似”的统计 指标。聚类根据实际的需要有两个方向,一是对样品的聚类,一是对变量的聚类。相应的聚类 统计量有两类:一种统计指标
3、是类与类之间距离,它是把每一个样品看成高维空间中的一个 点,类与类之间用某种原则规定它们的距离,将距离近的点聚合成一类,距离远的点聚合成 另一类。距离一般用于对样品分类。另一种是相似系数,根据这个统计指标将比较相似的变量归为一类,而把不怎么相似的 变量归为另一类,用它可以把变量的亲疏关系直观地表示出来。1.距离设有n组样品,每组样品有p个变量,n组样品数据如表39.1所示:表39.1p个变量的n组样品数据样品号 变量12nXXXX11121n1XXXX21222n 2.- -.:, ,XXXXp1P2 Pnp第i个与第j个样品之间距离用气表示,d一般应满足下面的条件:气 0当第i个样品与第j个
4、样品相等;上海财经大学经济信息管理系IS/SHUFE. d 2 0 对一切 i, j;. d d 对一切 i, j. d V d + d行 对一切对一切i, j , k。最常用的距离有欧几里德距离、闵可夫斯基和马氏距离:1) 欧几里德(Euclid)距离:2)闵可夫斯基(Minkowski)距离:(39.1)xjk(39.2)(n d = Y xijikI k=1g 一般为1或2,如果g=1时也称之为绝对值距离,g=2时即为欧几里德距离。dij=(x x )S 1(x x )i j i j(39.3)其中x,为第i个样品的p个元素组成的向量,x,为第j个样品的p个元素组成的向量,S-1 为n个
5、样品的pXp的协方差矩阵的逆矩阵。2.相似系数聚类分析有时也需要对变量进行聚类。在对变量进行聚类时,也可以定义变量间的距离, 通常使用变量间的相似系数。常用的相似系数有:1)夹角余弦夹角余弦作为变量间的相似关系,它忽视各变量的绝对长度,着重从形状方面反映它们之间的关系。记变量x,与Xj的夹角余弦为c ,其中i, j = 1,2, p,则有, ij2)相关系数cij-k=1x. 2 x. 2 k=1 k=1 J(39.4)变量x,与Xj的相关系数为rij (x x )(x x )-k=1 (x x )2 (x x )2 ik ijk jLk=1k =1x表示第i个指标的平均值。i上海财经大学经济
6、信息管理系IS/SHUFE(39.5)3) 马氏(Mathalanobis)距离:借助于相似系数,可以定义变量之间的距离。例如,采用非相似测度距离为d =1-C2 , ijij或4司=1-rj。另外,还有其他一些定义相似系数的方法。二、类的特征和类与类之间距离及统计量我们的目的是聚类,那么什么叫类呢?由于客观事物的千差万别,在不同的问题中类的 含义是不尽相同的。如图39-1中表现是五种不同类型的类。图39-1各种形式的类企图给类一个严格的定义,绝非一件简单的事。下面给出类的几个定义,不同的定义适 用于不同的场合。用G表示类,假设G中有k个元素,用i、j表示G中第i、j个因素。定义1 T为一给定
7、的阈值,如果对任意的i, j e G,有d T (d为i和j的距离), 则称G为一个类。定义2 T为一给定的阈值,如果对每个i e G,有二 * d T,则称g为一个类。k - 1ii巨定义3 T为一给定的阈值,如果对任意一个i e G,一定存在j e G,使得d T,则 ij称G为一个类。易见,定义1的要求是最高的,凡符合它的类,一定也是后两种定义的类。此外,凡符 合定义2的类,也一定是定义3的类。1.类的特征现在类G的元素用气,xm表示,m为G内的样品数,可以从不同的角度来刻画G的 特征。常用的特征有如下三种:1)均值xG (或称为G的重心):-1寸(39.6)丁 m * xi=12)样品
8、协方差阵:上海财经大学经济信息管理系IS/SHUFEi=1Am 1 G3) G的直径。它有多种定义,例如:D =Y (x -X)G x )= tr(A )i=1D = max dG i, jeG lJ(39.7)(39.8)(39.9)2,类的距离在聚类分析中,不仅要考虑各个类的特征,而且还要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法。令Gp和Gq中分别有p和q个样品,它们的重心分别记为又和J。下面给出一些常用的类与类之间距离定义,用D(p,q)表示:1)最短距离:D(p, q ) =minjk(39.10)类与类之间距离定义为G和G中最邻近的两个样品
9、的距离。最短距离法有许多理想的理 论性质,但在蒙特卡洛(Monto Carlo)模拟研究中(例:Milligan 1980)进行得很不顺利。 它不对类的形状加以限制,保证了对拉长和不规则类的检测,例如,如图39-1中的(b)、 (c)、(e)(d)形式的类。但它却牺牲了恢复压缩类的性能,另外它也趋向于在分开主要类 之前去掉分布的尾部(Hartigan 1981)。2)最长距离:(39.11)D(p,q )= max djk类与类之间距离定义为G和G中最远的两个样品的距离。最长距离法严重地倾向于产生 直径粗略相等的类,而且可能被异常值严重地扭曲。例如,如图39-1中的(a)形式的类。 最长距离法
10、由Sorensen( 1948)提出。3)重心法距离:(39.12)D(p,q)= ( -x -x )类与类之间距离定义为两个重心或均值xp和xq之间欧氏距离的平方。重心法在处理异常值 上比其他谱系方法更稳健,但是在其他方便不如Ward或类平均距离法的效果好(Milligan 1980)。重心法由 Sokal 和 Michener(1958)提出。4)类平均距离:上海财经大学经济信息管理系IS/SHUFE(39.13)D(p,q)=1- d pq ij ieGpjeGq类与类之间距离定义为G和G中所有两个样品对之间距离的平均。类平均距离法趋向于 合并具有较小偏差的类,而且稍微有点倾向与产生相同
11、方差的类。例如,如图39-1中的(a) 形式的类。类平均距离法首先由Sokal和Michener(1958)提出。5) Ward最小方差法或Ward离差平方和距离:若采用直径(式39.8)的定义方法,用Dp、Dq分别表示Gp和弓勺的直径,用D表示大类DPu Dq的直径,则=(x -x )(x -x )ieGPD =(x -x )(x -x )ieGq(39.14)(39.15) (x - x) (x - x)ieG UG p q其中x =p + qxi ieG UG p q。用离差平方和法定义Gp和Gq之间的距离为两个类对所有变量的ANOVA平方和,即可以证明这种定义是有意义的,D (p, q
12、) = D - D - D并且(39.16)DP+q = Dp + D(39.17) + 庭G - x)G - x )q p + q p q p q那么A. (p, q )= Pqp + q pTq),(39.18)如果样品间的距离采用欧氏距离,上式可表为(39.19)D (p,q)= -+-D(p,q)这表明,D (p,q)与重心法的距离(式39.12)D(p,q)只差一个常数pq/(p + q)倍, 这个倍数显然与这两类的样品数P和q有关。Ward离差平方和距离法在每次合并Gp类和Gq类为G内类时,总是选择这样两个G类 和Gq类,使它们合并成6内类后的Dw(p,q)值最小,故也称为Ward
13、最小方差法。合并后 增加的最小方差D (p,q)除以合并后总的离差平方和窜S的比值(即半偏R 2)的统计意义上海财经大学经济信息管理系IS/SHUFE是容易解释的。Ward最小方差法一般是在多元正态混合型、等球形协方差、等抽样概率假设 下合并类。所以,Ward方法趋向于合并具有少量观察的类,并倾向于形成具有大约相同数目 观察的类。例如,如图7-4中的(a)形式的类。Ward方法对异常值也很敏感(Milligan 1980)。 最小方差法或离差平方和由Ward(1963)提出。6)密度估计法:密度估计法是一类使用非参数概率密度的聚类方法。例如,如图39-1中的(b)形式的 类。包括两个步骤:使用
14、一种基于密度估计的新的非相似测度d*来计算样品七和七的近 邻关系;然后根据基于d *方法计算的距离,采用最小距离法进行聚类。有三种不同的密度 估计法: k最近邻估计法k最近邻估计法(Wong和Lane 1983)使用k最近邻密度估计来计算距离。令r (x)为点 kx到第k个最近观察的距离。考虑以点x为中心气(x)为半径的封闭球,在x点的密度估计函数f (x)等于球内的观察数目除以球的体积所得比值。这样,新的非相似测度距离d*为:d*(x.,x )=(39.20)(1/ f (x ) +1/ f (x ,)/2如果d(x ,x ) max(r (x ), r (x ).j. jk i k j8否
15、则k最近邻估计法适用于样品数目较多且密度较高的类。 均匀核估计法均匀核估计使用了均匀核密度估计来计算距离。考虑以点x为中心r为半径的封闭球, 在x点的密度估计函数f (x)等于球内的观察数目除以球的体积所得比值。它与k最近邻估计法的主要区别为半径是一个指定的值,即封闭球大小是一样的(均匀核。这样,新的非相似 测度距离d *为:d *( x, x.)=(39.21)(1/ f (x ) +1/f (x )/2如果d(x ,x ) r.ji j8否则 Wong混合法Wong混合法初始聚类时采用k最近邻估计法,得到初始分类Gp、Gq和Gm,及也可从输入数据集得到类的均值七、七和七,样品数P、q和m。
16、判断这三个初始分类中某二个 初始分类是近邻的标准为:(假设判断类Gp和G(39.22)d 2( x , x ) d 2( x , x ) + d 2( x , x )那么,新的非相似测度距离d *为上海财经大学经济信息管理系IS/SHUFE如果Gp和G是近邻否则 勺(39.23)(D + D + (p + q)d2(x ,元)/4)v/2 d*(Xp, x ) = 3)的变量数据,首先使用proc candisc典型判别分析过程 对原始变量进行降维,计算出典型变量can1、can2、can3等。一般情况下,3个或3个以内 的典型变量就已经能很好地概括原始数据的变异了。然后,对这些典型变量作散点
17、图。通常的显著性检验,比如方差分析的F检验,对于检验类之间的差异是无效的。Arnold (1979)使用模拟的方法导出了有关确定类的个数准则的有用信息。Sarle(1983)在应用广 泛的模拟基础上,发展提出立方聚类准则CCC(Cubic Clustering Criterion)o这个准则可以用 于原始的假设检验及估计总体分类的数目。CCC是基于这样的假设:在超矩形上的均匀分布上海财经大学经济信息管理系IS/SHUFE将粗略地被分为形状像超正方体一样的类。如果在大样本时有可能分成合适数目的超正方体, 那么这个假设将给出很准确的结果。但在其他情况下,CCC将给出比较保守的结果。Milligan
18、(1984)和Cooper(1985)使用4种谱系聚类方法比较了 30种不同总体类型的 聚类个数确定。在对样本数据的模拟研究中,找出了以下三个最好的准则:伪统计量; 伪12统计量;立方聚类准则CCC。在cluster过程中这三个准则都被应用和输出,而在 fastclus过程中仅伪F统计量和CCC统计量被应用和输出。我们建议寻找这三种统计量之间 的一致性,即:CCC统计量和F统计量的局部峰值所对应的聚类数,与这个聚类数伪12统计量的一个较小值和下一个聚类数的一个较大伪12统计量相吻合。还必须强调这些准则仅仅适 用于紧凑的或略微拉长的类,也较好地适合于略微正态分布的类。或许,研究类的个数的最好方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS讲义 第三十九课聚类分析 SAS 讲义 第三 十九 聚类分析
链接地址:https://www.31ppt.com/p-4889353.html