欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第12讲聚类分析ppt课件.ppt

    • 资源ID:3176802       资源大小:3.92MB        全文页数:140页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第12讲聚类分析ppt课件.ppt

    ,聚类分析2Cluster Analysis,分类,俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的省份成若干类,就有很多种分类法;可以按照地域或自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。,聚类分析做什么?,聚类分析,对于一个数据,人们既可以对观测值(事件,样品)来分类(相当于对数据中的行分类),也可以对变量(指标)进行分类(相当于对数据中的列分类)。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。,聚类分析做什么?,第四节 Q型系统聚类法,系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。,hierarchical clustering method,聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。,聚类分析,1.聚类的目的,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。,根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。,根据某种准则(最短距离法、最长距离法、中间距离法、重心法),,2.聚类的种类,根据分类的原理可将聚类分析分为:系统聚类与快速聚类根据分类的对象可将聚类分析分为:系统Q型与R型(即样品聚类clustering for individuals 与指标聚类clustering for variables),设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为:Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。,聚类分析概述,3.聚类分析数据格式,k,饮料数据(drink.sav),16种饮料的热量、咖啡因、钠及价格四种变量,样本聚类结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。,(一)距离,假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij,Q型聚类统计量(距离),把n个样本点看成p维空间的n个点1、绝对距离(Block距离)2、欧氏距离(Euclidean distance),Q型聚类统计量(距离),3、明考斯基距离(Minkowski)4、兰氏距离5、马氏距离6、切比雪夫距离(Chebychev),Q型聚类统计量(距离),2.明氏(Minkowski)距离,实例计算,品,绝对值距离,Euclidian距离的平方,Euclidian距离,变量标准化后的Euclidian距离,作用:消除量纲的影响,4.Lance和Williams 距离,5.斜交空间距离,可考虑变量间相关性问题,6.配合距离,适用于分类变量,尤其是名义尺度变量,步骤:,1、对数据进行变换处理,消除量纲2、构造n个类,每个类只包含一个样本计算3、n个样本两两间的距离dij4、合并距离最近的两类为一新类5、计算新类与当前各类的距离,重复(4)6、画聚类图7、决定类的个数和类,第四节 Q型系统聚类法,类与类之间的距离,1.最短距离法(single linkage)2.最长距离法(complete linkage)3.中间距离法(median method)4.类平均法(average linkage)5.可变类平均法(flexible-beta method)6.重心法(centroid method)7.Ward离差平方和法(Wards minimum-variance method),类与类之间的距离,8.Mcquitty的相似分析法(Mcquittys similarity analysis)9.最大似然估计法(EML)10.密度估计(density linkage)11.两阶段密度估计法(two-stage density linkage)等。,最小距离法(single linkage method)极小异常值在实际中不多出现,避免极大值的影响,(一)最短距离法(single linkage,nearest neighbor),两类间两样本距离最短为A2与B1之间的距离,例:如下图所示 1、设全部样本分为6类,2、作距离矩阵D(0),(一)最短距离法,3、求最小元素:4、把1,3合并7=(1,3)4,6合并8=(4,6)5、作距离矩阵D(1),(一)最短距离法,*3、求最小元素:*4、把8,5,2 合并9=(2,5,4,6)5、作距离矩阵D(2),(一)最短距离法,7=(1,3),最短距离法案例,以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。,例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分,G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海,d12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-3.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0,河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4,d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2=1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3=7 0 1 12.80 0 2 23.54 11.67 0,河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6,G8=G1,G2,最短距离法案例,d78=mind71,d72=12.80 7 8D4=7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2,最短距离法案例,案例2.6个民族的粗死亡率与期望寿命,待续!,(习作1)最短距离法,现有5个样品,每个只有一个指标,它们分别是1,2,4.5,6,8.试用最短距离把它们分类.,G1=1,G2=2,G3=4.5,G4=6,G5=8.,(二)最长距离法(complete linkage,furthest neighbor),样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离,最大距离法(complete linkage method)可能被极大值扭曲,删除这些值之后再聚类,(三)中间距离法(median method),最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离,K,L,J,M,(四)中间距离法的变形可变法,(五)类平均法(average linkage between group),SPSS作为默认方法,称为 between-groups linkage,K,L,J,M,类平均法案例,(六)可变类平均法(flexible-beta method),类平均法的变型,K,L,J,M,类平均距离法(average linkage method)类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类法,(六)可变类平均法(flexible-beta method),(七)重心法(centroid method),B2A2*B1 A1*B3*,类类间的距离用各自重心间的距离表示,重心法(centroid hierarchical method)类的重心之间的距离对异常值不敏感,结果更稳定,(七)重心法(centroid method),(八)Ward最小方差法(Ward minimum variance method),先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSMSSKSSL)最小的两类合并,直至所有的样品归为一类为止。,离差平方和法(ward method),D2=WMWKWL即对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。,案例,(九)八种系统聚类方法的统一,以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:,八种系统聚类法公式的参数,系统聚类法的性质,单调性 中间距离法、重心法不具有单调性空间的浓缩与扩张 不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。,几种聚类方法获得的结果不一定相同,什么情况下需要聚类,以上分析,没有大量的数据去支持,Data Mining就什么都挖不出来。大量的数据不等于大量的垃圾,我们需要针对客户市场细分所需要的资料。如需要知道白金持卡人和金卡持卡人的流动率,各自平均消费水平有多少,等;聚类分析可以辅助企业进行客户细分,但是Data mining的客户细分不等同于商业领域的细分,看不懂结果,也可能造成企业管理层无法对结果善加利用。,聚类的应用领域,1.CLUSTER过程,例8.3.1 下面的例题是对游泳运动员进行项目(姿势)分类的实例。为简化,又说明问题,只取10名运动员的3项测试数据为例。其中:变量X1=肩宽/髋宽*100;X2=胸厚/胸围*100;X3=腿长/身长*100。预计分为4类:蝶、仰、蛙、爬。已知NO=9、8、4、6的运动员分别是这4种姿势成绩突出者。下面的程序对10名运动员用重心法进行聚类分析,用TREE过程画出树形图,并建输出数据集,该数据集中还要包括原始变量X1X3的数据,以便用PLOT过程绘制散点图。由于数据单位均为长度比乘100,故没有选用STD选项。(本例数据取自:徐迪生、刘学贞编著的体育用数据处理方法和程序第三册,北京体育学院教务处印)。,聚类的应用的SAS程序,聚类的应用例的SAS程序,运行结果:,程序解释及统计结论:从聚类历史数据和下面的树形图可以看出编号为2和5的首先聚为一类,类号为9(CL9),成员数为2。第二步CL9与编号为8的观测聚为一类,类号8(CL8),成员数为3。第三步同时有3对观测:编号1、4;编号3、7;编号6、10。各聚为一类,类号分别为7(CL7)、6(CL6)、5(CL5)成员数都为2。第四步CL6与编号为9的观测聚为CL4,成员数为3。第五步CL8与CL4聚为CL3,成员数为6;第六步 CL3、CL5聚为CL2,成员数为8。第七步 CL7、CL2聚为CL1,成员数为10,即最终聚为一类。从PSEUDO F值的变化看有两个峰:一个聚类数为4时,其值为15.20,另一个聚类数为9时,其值为12.78,显然是没有意义的。因此,从伪F值可以判断分为4类是合适的,这和TREE图是一致的。,2.FASTCLUS过程,例8.3.2 下面是对费雪提供的鸢尾花数据进行聚类分析,这是进行多因素分析的典型数据,我们采用该数据进行样本快聚类。数据是对3种鸢尾花:刚毛鸢尾花(SPNO=1)、变色鸢尾花(SPN()=2)、佛吉尼亚尼鸢尾花(SPN()=3)各采集50个样本,测量其花萼长(SLEN)、花萼宽(SWID)、花辨长(PLEN)、花辨宽(PWID)、单位为mm,并记录了这3种鸢尾花的编号(SPN()),以便与聚类结果进行比较。,RUN;PROC FASTCLUS DATA=L.IRIS MAXC=3 MAXITER=10 OUT=CLUS3;VAR SLEN SWID PLEN PWID;PROC FREQ;TABLES CLUSTER*SPECIES;TITLE FISHERS IRIS DATA;RUN;PROC CANDISC OUT=CAN NOPRINT;CLASS CLUSTER;VAR SLEN SWID PLEN PWID;TITLE2 CANONICAL DISCRIMINANT ANALYSIS OF IRIS CLUSTERS;RUN;PROC PLOT;PLOT CAN2*CAN1=CLUSTER;TITLE2PLOT OF CANONICAL VARIABLES IDENTIFIED BY CLUSTER;RUN;,聚类方法,动态聚类法开始将个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。有序样品的聚类 个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。其他还有加入法、有重叠的类、模糊聚类等。,例6.4.2某研究者收集了24种菌株,其中1722号为已知的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他为未知菌株。镶得各菌株的16种脂肪酸百分含量,试作样品聚类分析,以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。菌株号X1X2X3 X4X5X6 X7X8 10.7728 18.87010.0000 0.76950.0000 44.9435 0.0000 16.5758 20.8642 19.92630.0000 0.81190.7419 45.9775 0.0000 13.6080 30.8243 21.09770.0000 0.42410.7293 45.1447 0.0000 15.6668 40.9229 20.07570.0000 0.70150.7018 44.3025 0.0000 15.9571 50.8873 20.72610.0000 0.48120.8167 45.7282 0.0000 14.6814 60.6894 10.10210.8601 2.82470.0000 11.0901 2.2253 14.7233 70.6287 17.45620.0000 0.87870.0000 51.1227 0.0000 16.6821 81.7146 21.07121.2745 6.93230.0000 11.9821 0.0000 14.2464 90.8440 20.79480.0000 0.52890.7024 42.4289 0.0000 17.1255100.9797 23.43130.0000 0.47780.7890 43.9119 0.0000 14.5129110.9811 23.52690.0000 0.49890.8375 42.3814 0.0000 14.8207121.0560 17.45861.0481 1.15910.6113 15.8986 2.1618 13.1660,用CLUSTER过程实现样品聚类分析,130.3342 10.92180.0000 0.93790.0000 30.5689 0.0000 16.1205141.3816 15.97311.0270 1.21060.5663 20.0942 2.1881 11.7304151.3435 23.12941.2489 0.89390.0000 12.3388 2.0595 12.1598162.3861 19.74560.0000 0.90930.3389 68.8572 0.00004.9522171.6180 23.57860.0000 2.65970.0000 12.3110 0.0000 14.0923181.0469 23.69990.0000 0.76980.7172 49.0165 0.0000 12.1561190.7539 13.02840.0000 2.29780.8085 30.6336 0.0000 10.4001201.3813 23.09620.0000 1.76880.0000 21.8800 0.0000 14.6781210.41628.66350.0000 1.43220.6001 28.0838 0.0000 13.7243222.0717 21.19060.0000 1.15770.6255 66.8966 0.00005.6805231.0133 17.25850.0000 1.16230.6673 19.7117 0.0000 14.8122240.33467.04280.0000 1.13860.5445 27.0624 0.0000 14.2519,菌株号X1X2X3 X4X5X6 X7X8,菌株号X9X10 X11X12 X13 X14X15 X16 10.00000.00007.6919 2.12394.96563.0461 0.00000.0000 20.00000.00008.5596 1.53175.02541.3041 0.00000.0000 30.00000.00007.5724 1.82854.27091.4724 0.00000.0000 40.00000.00007.8116 1.95554.10901.6377 0.00000.0000 50.00000.00007.9308 1.92054.22991.5044 0.00000.0000 61.26051.6238 29.8684 1.4462 16.05724.6744 1.54750.9376 70.00000.00006.7399 1.30213.67871.0890 0.00000.0000 80.83871.1903 22.3226 1.0350 11.15133.2862 1.05400.6633 90.00000.00008.5508 1.92234.63461.3074 0.00000.0000100.00000.00007.4513 1.75094.03731.4142 0.00000.0000110.00000.00007.5800 1.85513.97291.3863 0.00000.0000121.12511.2887 23.9812 1.5252 11.79113.5647 1.20110.7989130.86140.9350 20.0491 2.4606 10.92632.9423 0.96800.5866141.13181.3370 23.1882 1.3790 11.71413.5635 1.18380.7657151.18421.3267 23.9904 1.1520 11.93333.6034 1.13750.7110,160.00000.00000.0000 1.64290.00000.0000 0.00000.0000170.88831.2167 23.3105 1.3039 11.74623.4875 1.10420.6779180.00000.00005.5289 2.24502.88500.9707 0.00000.0000190.87541.4161 20.6589 2.4703 10.29902.9556 0.95220.6328200.72850.9902 18 5709 1.52539.53872.8917 1.01690.7444211.09791.5293 22.6316 2.6314 12.32233.4616 1.12000.7169220.00000.00000.0000 1.66320.00000.0000 0.00000.0000231.07891.3638 23.0015 1.7719 11.43943.3958 1.06580.6366241.16501.4980 23.8449 2.5176 13.26883.6558 1.12390.7382,菌株号X9X10 X11X12 X13 X14X15 X16,SAS程序DATA cly;INPUT x1-x16;CARDS;.数据流.;PROC CLUSTER STANDARD METHOD=AVERAGE NONORM NOSQUARE CCC PSEUDO OUT=TREE;PROC TREE DATA=TREE HORIZONTAL SPACES=1;RUN;程序修改指导 在SAS中用系统聚类法对样品进行聚类时提供了11只同的聚类形式(即距离的定义方法不同),指定的方法是在METHOD后面填入个相应的选择项,它们是:AVERAGE(平均法)CENTROID(重心分量法)COMPLETE(最长距离法)DENSITY(非参数概率密度估计法)EML(最大似然法)FLEXIBLE(flexible-beta法)MCQUITTY(Mcquitty的相似分析法)MEDIAN(中位数法)SINGLE(最短距离法)TWOSTAGE(两阶段密度法)WARD(Ward最小方差法),不同的聚类形式之间的主要区别在于:计算新类与其他类之间的距离的递推公式不同,一旦任何两类之间的距离算出来后,仍按距离最小者先合并。用不同的聚类形式对同一批资料进行聚类,其聚类结果不完全相同,需结合专业知识从各种聚类结果中选择最合适的。这11种方法所对应的递推公式从略,感兴趣的读者可参阅有关专著。第个过程步是调用CLUSTER过程进行样品聚类分析。选用的聚类形式是平均法(AVERAGE);对变量实施标准化(STANDARD);在选用多数聚类形式时,NONORM阻止距离被正态化成均数为或均方根为;当METHOD=WARD时,NONORM阻止类间平夯总平和正态化而产生半偏相关平;当METHOD=DENSITY,EML,或TWOSTAGE时,选择项NONORM无效;当METHOD=CENTROID,MEDIAN或WARD时,NOSQUARE阻止距离被平。选择项CCC、PSEUDO都是为了计算一些统计量用以判别全部样品究竟聚成几类合适。CCC要求打印出聚类判别据的立方(即判断资料聚成几类合适的一种统计量)及在一致无效假设下近似期望值R2,PSEUDO要求打印伪F(标志PSF)和t2(标志PST2)统计量。当分类数目不同时,它们就有不同的取值,CCC和PSF出现峰值所对应的分类数较合适、PST2出现峰值的前一行所对应的分类数较合适。OUT=TREE产生个名为TREE的输出数据集,它可被TREE过程用来输出聚类结果的树状图。HORIZONTAL要求将树状图水平置,SPACES要求置各样品之间的间隔为。所输出的图看上去并不直观(从略),用GRAPH模块绘出样品聚类图的SAS程序很长,将在本章第节中给出。,输出结果及其解释Average Linkage Cluster AnalysisEigenvalues of the Correlation Matrix EigenvalueDifferenceProportionCumulative 1 8.29203 5.943440.518252 0.518252 2.34859 0.275440.146787 0.665043 2.07316 0.898580.129572 0.794614 1.17458 0.170750.073411 0.868025 1.00383 0.357150.062740 0.930766 0.64669 0.331180.040418 0.971187 0.31551 0.255370.019719 0.990908 0.06014 0.011210.003759 0.994669 0.04893 0.025310.003058 0.99772 10 0.02361 0.016150.001476 0.99919 11 0.00747 0.004130.000467 0.99966 12 0.00333 0.002070.000208 0.99987 13 0.00127 0.000730.000079 0.99995 14 0.00053 0.000340.000033 0.99998 15 0.00019 0.000050.000012 0.99999 16 0.00014.0.000009 1.00000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation=1这是用平均距离法进行样品聚类分析的结果,首先给出的是相关矩阵的特征值、两相邻特征值之差、各特征值占总方差16的百分比和累计百分比。,NCL Clusters Joined FREQSPRSQ RSQ ERSQCCC PSF PST2DistTie23 OB10 OB112 0.00005 1.000.837.0.20022 OB3OB4 2 0.00020 1.000.373.0.38521 CL22 OB5 3 0.00043 0.999.2192.10.51920 OB21 OB242 0.00044 0.999.186.0.57219 CL21 OB9 4 0.00079 0.998.1442.50.66018 CL19 CL236 0.00210 0.996.87.45.70.83017 OB2CL187 0.00140 0.995.80.22.00.88316 OB12 OB142 0.00112 0.993.81.0.0.90815 OB16 OB222 0.00173 0.992.77.0.1.12914 OB1OB7 2 0.00189 0.990.74.9.1.18013 CL17 OB188 0.00391 0.986.64.24.71.34812 OB19 OB232 0.00643 0.979.52.1.2.17611 CL12 CL204 0.01116 0.968.39.83.22.30510 CL16 OB153 0.00930 0.959.36.48.32.311 9 CL14 CL13 10 0.02663 0.932.25.9 19.82.609 8 OB13 CL115 0.01324 0.919.26.02.22.747 7 OB6CL104 0.02156 0.898.24.84.13.434 6 CL8OB176 0.03236 0.865.23.14.14.027 5 CL7CL610 0.09296 0.772.16.17.84.565 4 CL9CL15 12 0.09833 0.674 0.6450.85 13.8 25.14.801 3 CL5OB811 0.06510 0.609 0.5591.18 16.33.15.731 2 CL4CL323 0.45944 0.149 0.427-3.793.9 24.76.376 1 CL2OB20 24 0.14942 0.000 0.0000.00.3.98.392,接着给出了将24个样品依次聚成23类的结果。NCL为聚类数;(Clusters Joined)为每次聚成个新类的个样品(标有OB)或旧类(标有CL);FREQ为新类中所含的样品数;SPRSQ为半偏R2,它表示每一次合并对信息的损失程度,看这列的数值可知:从类合并成类时损失最多,此统计量表明聚成类较合适;RSQ为R2,它反映的是累计聚类结果,上一次的R2减去本次半偏R2等于本次R2,从类合并成类R2减少了很多,它也支持分类;ERSQ为在一致无效假设下近似期望的R2;再结合CCC、PSF、PST2这个统计量的值,看看究竟分几类较合适。CCC在NCL=3时达到唯一的峰值1.18;PSF在NCL=16、NCL=8和NCL=3时次达靛值,但在NCL=3时峰更陡些;PST2在多处出现峰值,但从NCL=3到NCL=2比从NCL=5到NCL=4时峰值增加的幅度更大一些。综合这个统计量的结果可知:将24个样品分为类较合适。Aver Dist为两样品或类间的平均距离。下面详细看看样品聚类的过程:开始24个样品各自成类,共有24类,经过次运算后,将第10号与第11号样品合并成个新类,记为CL23,因为此时共有23类,经过第次运算后,将第3号与第4号样品合并成另个新类,记为CL22,因为此时共有22类;依次类推。若有SASGRAPH模块,并运行本章第节中所给的程序,可得到图6.4.1。,图6.4.1 样品聚类分析的动态过程。从图上可清楚地看出:聚成类是较合适的。按图中纵轴方向由上往下样品排列的顺序号,若聚成类,各类所包含的样品分别为:(1022)、(218)、(20)。由此可看出:第20号样品与其他样品相似程度较小。专业结论因1722号样品是已知菌株,故得知:24号与21号最接近、16号与22号最接近、23号与19号最接近、(10,11,3,4,5,9,2)号与18号最接近。,如果在例6.4.2中的样品数不是24,而是成千上万,甚至更多,用CLUSTER过程就需要计算很长时间,况且,在实际问题中,常希望将样品聚成较少的几类更有实用价值。此时,用SAS中提供的FASTCLUS过程能很好地将资料聚成两类或三类。程序会自动给每个样朴上所属类别的标记,于是,可对每类样品作进一步地分析。例6.4.3 在例6.4.1中进行了人脑老化资料的变量聚类分析,资料中含有10个指标60个样品,但此资料实际上有893个样品。现使用FASTCLUS过程对全部资料进行快速聚类分析,结合专业知识可知,将脑老化程度分为轻、中、重为宜。资料太多,从略,这里仅给出SAS程序。SAS程序D6P7.PRGDATA a1;DATA b1 b2 b3;INFILE c:llhyjb.dat;SET aaa;INPUT age tj sg xx xs IF c=1 THEN OUTPUT b1;ts ck bj jj bs;IF c=2 THEN OUTPUT b2;PROC FASTCLUS OUT=aaaIF c=3 THEN OUTPUT b3;MAXC=3 CLUSTER=c;PROC PRINT DATA=b1;VAR age tj sg xx xs PROC PRINT DATA=b2;ts ck bj jj bs;PROC PRINT DATA=b3;RUN;RUN;(程序的第部分)(程序的第部分),程序修改指导数据很多,存在硬盘C上,文件名为LLHYJB.DAT,它有893行10列。首先调用FASTCLUS过程对资料进行快速聚类,要求将那些在10个指标上尽可能接近的样品聚在同一类,共聚成类(MAXC=3);分类的标志用C表示(CLUSTER=C),它的取值为;将聚类结果(含原始数据和分类标志)输出到数据集AAA中去(OUT=AAA)。程序的第部分是产生个数据集B1、B2、B3,它们分别包含标志为、的样品,最后用PRINT过程将它们分别输出到OUTPUT窗口中去(结果从略),也可对数据集作其他处理。,用ACECLUS过程对需作样品聚类分析的资料进行预处理少数场合下用CLUSTER或FASTCLUS过程进行样品聚类效果不佳,这可能是由于资料不满足经典聚分析方法所要求的条件,为此,SAS提供了个专门用于对需作样品聚类分析的资料进行预处理的过程,即ACECLUS过程,它可以对数据进行线性转换,使转换后的数据满足经典聚类分析方法的要求。例6.4.4沿用例6.4.2资料,先用ACECLUS过程,后用CLUSTER过程进行样品聚类分析。SAS程序D6P8.PRGDATA cly;INFILE a:clyclust.dat;INPUT x1-x16;PROC ACECLUS OUT=aaa P=0.02;PROC CLUSTER DATA=aaa STANDARD METHOD=AVERAGE NONORM NOSQUARECCCPSEUDOOUT=TREE;PROC TREE DATA=TREE HORIZONTAL SPACES=1;RUN;程序修改指导此程序仅比D6Pd.PRG多了调用ACECLUS过程的语句,这里的P=0.02是个控制迭代过程的量。,主要输出结果及其解释 Average Linkage Cluster AnalysisAverNCL Clusters Joined FREQSPRSQ RSQ ERSQCCC PSF PST2DistTie23 OB3OB102 0.00156 0.998.29.1.1.51522 CL23 OB5 3 0.00593 0.993.12.63.82.66821 OB4OB112 0.00534 0.987.11.5.2.80220 OB12 OB142 0.00742 0.980.10.2.3.30419 CL22 OB9 4 0.01062 0.969.8.72.83.47318 CL21 OB183 0.01571 0.953.7.22.94.32117 CL19 CL187 0.02882 0.925.5.43.74.52216 OB16 OB222 0.01395 0.911.5.4.4.53215 OB2CL178 0.01893 0.892.5.31.74.78714 OB21 OB242 0.01607 0.876.5.4.4.86313 CL15 OB7 9 0.03610 0.840.4.82.96.13612 CL20 OB153 0.03208 0.807.4.64.36.16111 OB1CL13 10 0.03532 0.772.4.42.36.22910 OB19 CL143 0.03046 0.742.4.51.96.2659 CL10 OB234 0.03340 0.708.4.61.46.6478 OB13 CL9 5 0.03564 0.673.4.71.36.8757 OB6CL124 0.03941 0.633.4.92.06.9206 CL11 CL16 12 0.07909 0.554.4.54.67.1475 CL7CL8 9 0.07953 0.475.4.32.97.5824 CL5OB17 10 0.04408 0.431 0.473-1.145.01.37.6403 CL6CL422 0.24796 0.183 0.383-4.342.38.78.4412 CL3OB823 0.07661 0.106 0.263-3.312.62.09.2631 CL2OB20 24 0.10596 0.000 0.0000.00.2.6 10.474,我们以多元分析中一个经典的数据作为例子,这是Fisher分析过的鸢尾花数据,有三种不同鸢尾花(Setosa、Versicolor、Virginica),种类信息存入了变量SPECIES,并对每一种测量了50棵植株的花瓣长(PETALLEN)、花瓣宽(PETALWID)、花萼长(SEPALLEN)、花萼宽(SEPALWID)。这个数据已知分类,并不属于聚类分析的研究范围。这里我们为了示例,假装不知道样本的分类情况(既不知道类数也不知道每一个观测属于的类别),让SAS取进行聚类分析,如果得到的类数和分类结果符合真实的植物分类,我们就可以知道聚类分析产生了好的结果。这里我们假定数据已输入SASUSER.IRIS中(见系统帮助菜单的“Sa

    注意事项

    本文(第12讲聚类分析ppt课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开