第12讲聚类分析ppt课件.ppt
《第12讲聚类分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第12讲聚类分析ppt课件.ppt(140页珍藏版)》请在三一办公上搜索。
1、,聚类分析2Cluster Analysis,分类,俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的省份成若干类,就有很多种分类法;可以按照地域或自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。,聚类分析做什么?,聚类分析,对于一个数据,人们既可以对观测值(事件,样品)来分类(相当于对数据中的行分类),也可以对变量(指标)进行分类(相当于对数据中的列分类)。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完
2、全可以按照数据本身的规律来分类。,聚类分析做什么?,第四节 Q型系统聚类法,系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。,hierarchical clustering method,聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析
3、、判别分析一起被称为多元分析的三大方法。,聚类分析,1.聚类的目的,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。,根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。,根据某种准则(最短距离法、最长距离法、中间距离法、重心法),,2.聚类的种类,根据分类的原理可将聚类分析分为:系统聚类与快速聚类根据分类的对象可将聚类分析分为:系统Q型与R型(即样品聚类clustering for individuals 与指标聚类clustering for variables),设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为:Q型聚类以距
4、离作为统计量,R型聚类以相似系数作为统计量。,聚类分析概述,3.聚类分析数据格式,k,饮料数据(drink.sav),16种饮料的热量、咖啡因、钠及价格四种变量,样本聚类结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。,(一)距离,假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij,Q型聚类统计量(距离),把n个样本点看成p维空间的n个点1、绝对距离(Block距离)2、欧氏距离(Euclidean distance),Q型聚类统
5、计量(距离),3、明考斯基距离(Minkowski)4、兰氏距离5、马氏距离6、切比雪夫距离(Chebychev),Q型聚类统计量(距离),2.明氏(Minkowski)距离,实例计算,品,绝对值距离,Euclidian距离的平方,Euclidian距离,变量标准化后的Euclidian距离,作用:消除量纲的影响,4.Lance和Williams 距离,5.斜交空间距离,可考虑变量间相关性问题,6.配合距离,适用于分类变量,尤其是名义尺度变量,步骤:,1、对数据进行变换处理,消除量纲2、构造n个类,每个类只包含一个样本计算3、n个样本两两间的距离dij4、合并距离最近的两类为一新类5、计算新类
6、与当前各类的距离,重复(4)6、画聚类图7、决定类的个数和类,第四节 Q型系统聚类法,类与类之间的距离,1.最短距离法(single linkage)2.最长距离法(complete linkage)3.中间距离法(median method)4.类平均法(average linkage)5.可变类平均法(flexible-beta method)6.重心法(centroid method)7.Ward离差平方和法(Wards minimum-variance method),类与类之间的距离,8.Mcquitty的相似分析法(Mcquittys similarity analysis)9.最
7、大似然估计法(EML)10.密度估计(density linkage)11.两阶段密度估计法(two-stage density linkage)等。,最小距离法(single linkage method)极小异常值在实际中不多出现,避免极大值的影响,(一)最短距离法(single linkage,nearest neighbor),两类间两样本距离最短为A2与B1之间的距离,例:如下图所示 1、设全部样本分为6类,2、作距离矩阵D(0),(一)最短距离法,3、求最小元素:4、把1,3合并7=(1,3)4,6合并8=(4,6)5、作距离矩阵D(1),(一)最短距离法,*3、求最小元素:*4、
8、把8,5,2 合并9=(2,5,4,6)5、作距离矩阵D(2),(一)最短距离法,7=(1,3),最短距离法案例,以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。,例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分,G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海,d12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-3.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13
9、=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0,河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4,d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6
10、0D2=1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3=7 0 1 12.80 0 2 23.54 11.67 0,河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6,G8=G1,G2,最短距离法案例,d78=mind71,d72=12.80 7 8D4=7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2,最短距离法案例,案例2.6个民族的粗死亡率与期望寿命,待续!,(习作1)最短距离
11、法,现有5个样品,每个只有一个指标,它们分别是1,2,4.5,6,8.试用最短距离把它们分类.,G1=1,G2=2,G3=4.5,G4=6,G5=8.,(二)最长距离法(complete linkage,furthest neighbor),样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离,最大距离法(complete linkage method)可能被极大值扭曲,删除这些值之后再聚类,(三)中间距离法(median method),最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离,K,L,J,M,(四)中间距离法的变形可变法,(五)
12、类平均法(average linkage between group),SPSS作为默认方法,称为 between-groups linkage,K,L,J,M,类平均法案例,(六)可变类平均法(flexible-beta method),类平均法的变型,K,L,J,M,类平均距离法(average linkage method)类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类法,(六)可变类平均法(flexible-beta method),(七)重心法(centroid method),B2A2*B1 A1*B3*,类类间的距离用各自重心间的距离表示,重心法(cen
13、troid hierarchical method)类的重心之间的距离对异常值不敏感,结果更稳定,(七)重心法(centroid method),(八)Ward最小方差法(Ward minimum variance method),先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSMSSKSSL)最小的两类合并,直至所有的样品归为一类为止。,离差平方和法(ward method),D2=WMWKWL即对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。,案例,(九)八种系统聚类方法的统一,以上聚类方法的计算步骤完全相同,
14、仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:,八种系统聚类法公式的参数,系统聚类法的性质,单调性 中间距离法、重心法不具有单调性空间的浓缩与扩张 不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。,几种聚类方法获得的结果不一定相同,什么情况下需要聚类,以上分析,没有大量的数据去支持,Data Mining就什么都挖不出来。大量的数据不等于大量的垃圾,我们需要针对客户市场细分所需要的资料。如需要知道白金持卡人和金卡持卡人的流动率,各自平均消费水平有多少,等;聚类分析可以辅助企业进行客户细分,但是Data mi
15、ning的客户细分不等同于商业领域的细分,看不懂结果,也可能造成企业管理层无法对结果善加利用。,聚类的应用领域,1.CLUSTER过程,例8.3.1 下面的例题是对游泳运动员进行项目(姿势)分类的实例。为简化,又说明问题,只取10名运动员的3项测试数据为例。其中:变量X1=肩宽/髋宽*100;X2=胸厚/胸围*100;X3=腿长/身长*100。预计分为4类:蝶、仰、蛙、爬。已知NO=9、8、4、6的运动员分别是这4种姿势成绩突出者。下面的程序对10名运动员用重心法进行聚类分析,用TREE过程画出树形图,并建输出数据集,该数据集中还要包括原始变量X1X3的数据,以便用PLOT过程绘制散点图。由于
16、数据单位均为长度比乘100,故没有选用STD选项。(本例数据取自:徐迪生、刘学贞编著的体育用数据处理方法和程序第三册,北京体育学院教务处印)。,聚类的应用的SAS程序,聚类的应用例的SAS程序,运行结果:,程序解释及统计结论:从聚类历史数据和下面的树形图可以看出编号为2和5的首先聚为一类,类号为9(CL9),成员数为2。第二步CL9与编号为8的观测聚为一类,类号8(CL8),成员数为3。第三步同时有3对观测:编号1、4;编号3、7;编号6、10。各聚为一类,类号分别为7(CL7)、6(CL6)、5(CL5)成员数都为2。第四步CL6与编号为9的观测聚为CL4,成员数为3。第五步CL8与CL4聚
17、为CL3,成员数为6;第六步 CL3、CL5聚为CL2,成员数为8。第七步 CL7、CL2聚为CL1,成员数为10,即最终聚为一类。从PSEUDO F值的变化看有两个峰:一个聚类数为4时,其值为15.20,另一个聚类数为9时,其值为12.78,显然是没有意义的。因此,从伪F值可以判断分为4类是合适的,这和TREE图是一致的。,2.FASTCLUS过程,例8.3.2 下面是对费雪提供的鸢尾花数据进行聚类分析,这是进行多因素分析的典型数据,我们采用该数据进行样本快聚类。数据是对3种鸢尾花:刚毛鸢尾花(SPNO=1)、变色鸢尾花(SPN()=2)、佛吉尼亚尼鸢尾花(SPN()=3)各采集50个样本,
18、测量其花萼长(SLEN)、花萼宽(SWID)、花辨长(PLEN)、花辨宽(PWID)、单位为mm,并记录了这3种鸢尾花的编号(SPN()),以便与聚类结果进行比较。,RUN;PROC FASTCLUS DATA=L.IRIS MAXC=3 MAXITER=10 OUT=CLUS3;VAR SLEN SWID PLEN PWID;PROC FREQ;TABLES CLUSTER*SPECIES;TITLE FISHERS IRIS DATA;RUN;PROC CANDISC OUT=CAN NOPRINT;CLASS CLUSTER;VAR SLEN SWID PLEN PWID;TITLE2
19、CANONICAL DISCRIMINANT ANALYSIS OF IRIS CLUSTERS;RUN;PROC PLOT;PLOT CAN2*CAN1=CLUSTER;TITLE2PLOT OF CANONICAL VARIABLES IDENTIFIED BY CLUSTER;RUN;,聚类方法,动态聚类法开始将个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。有序样品的聚类 个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。其他还有加入法、有重叠的类、模糊聚类等。,例6.4.2某研究者收集了24种菌株,其中
20、1722号为已知的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他为未知菌株。镶得各菌株的16种脂肪酸百分含量,试作样品聚类分析,以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。菌株号X1X2X3 X4X5X6 X7X8 10.7728 18.87010.0000 0.76950.0000 44.9435 0.0000 16.5758 20.8642 19.92630.0000 0.81190.7419 45.9775 0.0000 13.6080 30.8243 21.09770.0000 0.42410.7293 45.1447 0.0000 15.6668 40.9229
21、20.07570.0000 0.70150.7018 44.3025 0.0000 15.9571 50.8873 20.72610.0000 0.48120.8167 45.7282 0.0000 14.6814 60.6894 10.10210.8601 2.82470.0000 11.0901 2.2253 14.7233 70.6287 17.45620.0000 0.87870.0000 51.1227 0.0000 16.6821 81.7146 21.07121.2745 6.93230.0000 11.9821 0.0000 14.2464 90.8440 20.79480.0
22、000 0.52890.7024 42.4289 0.0000 17.1255100.9797 23.43130.0000 0.47780.7890 43.9119 0.0000 14.5129110.9811 23.52690.0000 0.49890.8375 42.3814 0.0000 14.8207121.0560 17.45861.0481 1.15910.6113 15.8986 2.1618 13.1660,用CLUSTER过程实现样品聚类分析,130.3342 10.92180.0000 0.93790.0000 30.5689 0.0000 16.1205141.3816
23、15.97311.0270 1.21060.5663 20.0942 2.1881 11.7304151.3435 23.12941.2489 0.89390.0000 12.3388 2.0595 12.1598162.3861 19.74560.0000 0.90930.3389 68.8572 0.00004.9522171.6180 23.57860.0000 2.65970.0000 12.3110 0.0000 14.0923181.0469 23.69990.0000 0.76980.7172 49.0165 0.0000 12.1561190.7539 13.02840.000
24、0 2.29780.8085 30.6336 0.0000 10.4001201.3813 23.09620.0000 1.76880.0000 21.8800 0.0000 14.6781210.41628.66350.0000 1.43220.6001 28.0838 0.0000 13.7243222.0717 21.19060.0000 1.15770.6255 66.8966 0.00005.6805231.0133 17.25850.0000 1.16230.6673 19.7117 0.0000 14.8122240.33467.04280.0000 1.13860.5445 2
25、7.0624 0.0000 14.2519,菌株号X1X2X3 X4X5X6 X7X8,菌株号X9X10 X11X12 X13 X14X15 X16 10.00000.00007.6919 2.12394.96563.0461 0.00000.0000 20.00000.00008.5596 1.53175.02541.3041 0.00000.0000 30.00000.00007.5724 1.82854.27091.4724 0.00000.0000 40.00000.00007.8116 1.95554.10901.6377 0.00000.0000 50.00000.00007.93
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 12 聚类分析 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3176802.html