聚类与判别分析.ppt
第五章 聚类与判别分析(一),主要内容,聚类及判别分析快速样本聚类分层聚类判别分析,5.1 聚类与判别概述,聚类和判别都是分类学的基本方法,而分类学是人类认识世界的基础科学。掌握聚类和判别的方法对进一步运用统计这一工具来认识世界有着极其重要的意义。聚类有两种基本的方法:快速样本聚类和分层聚类。判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法。,5.1 聚类与判别概述,5.1.1 聚类分析聚类分析(Cluster Analysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类的个体差异很大。根据分类对象不同分为样品聚类和变量聚类。样品聚类在统计学中又称为Q 型聚类。用SPSS 的术语来说就是对事件(cases)进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。变量聚类在统计学中有称为R 型聚类。反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。,5.1 聚类与判别概述,5.1.1 聚类分析根据分类对象的不同,样品(观测量)聚类和变量聚类两种:样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。,5.1 聚类与判别概述,5.1.2 判别分析判别分析(Discriminant)是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家、植物学家对动物、植物如何分类的研究和某个动物、植物属于哪一类、哪一目、哪一纲的判断等。,5.1 聚类与判别概述,5.1.3 Classify 的功能SPSS 中进行聚类和判别分析的统计过程,是由菜单“Analyze”令“Classify”导出的。选择“Classify”,可以显示三个过程命令:(1)K-Means Cluster 进行快速聚类过程。(2)Hierarchical Cluster 进行样本聚类和变量聚类过程。(3)Discriminant 进行判别分析过程。,5.2 快速聚类,5.2.1 快速聚类的概念K-Means Cluster 执行快速样本聚类,使用k 均值分类法对观测量进行聚类。可以完全使用系统默认值执行该命令,也可以对聚类过程设置各种参数进行人为的干预。例如,可以事先指定把数据文件的观测量分为几类;指定使聚类过程中止的判据,或迭代次数等。进行快速样本聚类首先要选择用于聚类分析的变量和类数。参与聚类分析的变量必须是数值型变量,且至少要有一个。为了清楚地表明各观测量最后聚到哪一类,还应该指定一个表明观测量特征的变量作为标识变量,例如编号、姓名之类的变量。聚类必须大于等于2,但聚类数不能大于数据文件中的观测量数。,5.2 快速聚类,5.2.1 快速聚类的概念如果选择了n 个数值型变量参与聚类分析,最后要求聚类数为k。那么可以由系统首先选择k 个观测量(也可以由用户指定)作为聚类的种子,n 个变量组成n 维空间。每个观测量在n 维空间中是个点。K 个事先指定的观测量就是k 个聚类中心点,也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心所在地类中;形成第一次迭代形成的k 类。根据组成每一类的观测量计算各变量均值,每一类中的n 个均值在n 维空间中又形成k 个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或中止迭代的判据要求时,迭代停止,聚类结束。从上述分析过程可以看出,K-Means Cluster 不仅是快速样本聚类过程,而且是一种逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。,5.2 快速聚类,5.2.1 快速聚类的概念例1为研究儿童生长发育的分期,调查1253 名1个月至7 岁儿童的身高(cm)、体重(kg)、胸围(cm)和坐高(cm)资料。资料作如下整理:先把1个月至7 岁划成 19 个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2 月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。,5.2 快速聚类,5.2.1 快速聚类的概念例1,5.2 快速聚类,5.2.1 快速聚类的概念例1激活“Analyze”菜单选“Classify”中的“K-Means Cluster”项,弹出K-Means Cluster Analysis 对话框(如图所示)。从对话框左侧的变量列表中选x1、x2、x3、x4,点击向右的按钮使之进入Variables 框;在Number of Clusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两种:Iterate and dassify指先定初始类别中心点,而后按K-means 算法作叠代分类;Classify only 指仅按初始类别中心点分类,本例选用前一方法。,5.2 快速聚类,5.2.1 快速聚类的概念例1 表1、表2显示:首先系统根据用户的指定,按4 类聚合确定初始聚类的各变量中心点,未经K-means 算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。表3对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均0.001,即聚类效果好。,5.2 快速聚类,5.2.1 快速聚类的概念例1 这样,原有19 类(即原有的19 个月份分组)聚合成4 类,第一类含原有1类,第二类含原有1类,第三类含原有2 类,第四类含原有15 类。具体结果系统以变量名QCLI 存于原始数据文件中,5.3 分层聚类,5.3 分层聚类调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式。一是对研究对象本身进行分类,称为Q 型举类;另一种是对研究对象的观察指标进行分类,称为R 型聚类。变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量集时,损失信息很少。,5.3 分层聚类,5.3 分层聚类通常情况下,在聚类进行之前,Proximitice 过程先根据反映各类特性的变量对原始数据进行预处理,即利用标准化方法对原始数据进行一次转换,并进行相似性测度或距离测度。然后Cluster 过程根据转换后的数据进行聚类分析。在SPSS for WindowS 中,分层聚类各方法都包含了Proximitice 过程对数据的处理和Cluster 过程对数据的分析。给出的统计量可以帮助用户确定最好的分类结果。Cluster 过程可以通过Plot 选择项给出两种统计图:Dendrogram 树形图Icicle 冰柱图。Cluster 过程的输出项可以选择,还可以建立新变量,把聚类结果即每个个体被分配到的类号作为新变量的值保存到当前的工作数据文件中。,5.3 分层聚类,例2 现在测定了29 名儿童的X6血红蛋白(g/100ml)与微量元素X1钙、X2镁、X3铁、X4锰、X5铜(pg/100ml)测定结果如表所示。由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R 型指标聚类)筛选代表性指标,以便更经济、快捷地评价儿童的营养状态。,5.3 分层聚类,例2 数据见表,5.3 分层聚类,例2 数据见表,5.3 分层聚类,例2从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6,点击向右的箭头按钮使之进入Variable(s)框;在Cluster 处选择聚类类型,其中Cases 表示观察对象聚类,Variables表示变量聚类,选择Variables点击Statistics”按钮,弹出Hierarchical Cluster Analysis:Statistics 对话框,选择Proximty matrix,要求显示欧氏不相似系数平方矩阵,5.3 分层聚类,例2 点击“Plots”按钮弹出Hierarchical Cluster Anal sis:Plots 对话框,选择Dendrogram 项。点击“Method”按钮弹出Hierarchical Cluster AnalysiS:Method 对话框,系统提供了7 种聚类方法供用户选择,本例选择类间平均链锁法(系统默认方法)。选择距离测量方法,系统提供了8 种形式供用户选择,本例选用Pearson correlation,5.3 分层聚类,例2 表1是数据处理的基本信息;表2是欧式不相似系数平方矩阵。,5.3 分层聚类,例2 表3是聚类过程表,显示x3和x6先合并,之间的相关系数最大0.864;接着是x1和x2合并相关系数是0.745;依次类推;图1是聚类为5类的垂直冰柱图。,5.3 分层聚类,例2 图2是树形聚类图。,5.3 分层聚类,测度方法有计算连续变量的距离、离散变量的不相似性、二值变量的距离或不相似性。连续变量距离计算方法有:欧氏距离:(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离即不相似性。距离平方:(Xi-Yi)2,目的是减少误差。相似测度:(XiYi)2/(Xi2)(Yi2),即两项间的相似性是向量间的余弦,值域-11,用0值表示相互垂直。皮氏相关:(ZXiZYi)2/(n-1),即两项间的相似性是向量间的线性相关性,范围-11,0值表明非线性相关。切氏距离:Max|Xi-Yi|,即两项间的距离是变量间最大差值的绝对值。布氏距离:|Xi-Yi|,两项间的距离是每个变量值之差的绝对值总和。明氏距离:(|Xi-Yi|p)1/p。自定距离:(|Xi-Yi|p)1/r。若r=p,则为明氏距离。,5.4 判别分析,判别分析是根据观察或测量到若干变量值,判断研究对象如何分类的方法。如动物、植物分类、环境污染综合指数等都可以用判别分析来解决。进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小,5.4 判别分析,Discriminant 过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数,并把各观测量的自变量值回代到判别函数中,根据判别函数对观测量所属类别进行判别。对比原始数据的分类和技判别函数所判的分类,给出错分概率。判别分析可以根据类间协方差矩阵,也可以根据类内协方差矩阵。每一已知类的先验概率可以取其值相等即等于l/mi,m 为已知类数,也可以与各类样本量成正比。判别分析可以根据要求,给出各类观测量的单变量的描述统计量;线性(费雪Fisher)判别函数系数或标准化及本标准化的典则判别函数的系数;类内相关矩阵,类内、类间协方差矩阵和总协方差矩阵;给出按判别函数判别(回代)的各观测量所属类别;带有错分率的判别分析小结;还可以根据要求生成表明各类分布的区域图和散点图。,5.4 判别分析,判别分析采用较多的是Fisher判别法。所谓Fisher判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。如果是是多类,则这些数据是多位空间的点,只要给定了中心(几个类别),定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。假定这里只有两类。数据中的每个观测值是二维空间的一个点。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。,5.4 判别分析,5.4 判别分析,5.4 判别分析概念例3为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了50 一59 岁冠心病人15 例和正常人16 例的舒张压和胆固醇指标,结果如表所示,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。,5.4 判别分析,例3 数据,5.4 判别分析,例3 数据舒张压(x1)和胆固醇(x2),result(冠心病人1,正常人2),5.4 判别分析,5.4 判别分析概念例3 define range 对话框,min填1,max填2,5.4 判别分析,5.4 判别分析概念例3 statistics 对话框选means和unstandardized,5.4 判别分析,例3 在classify对话框,选combined groups要求合并判断结果。选casewise results要求逐一回带重新判断。选summary table 要求进行总体评判,5.4 判别分析,例3 要求将回代结果保存在原始数据中,5.4 判别分析,例3 表1是数据分析过程,表2是基本统计信息。系统处理数据简明表;数据按变量RESULT 分组,共有31 个样本作为判别基础数据进入分析,其中第一组15 例,第二组16 例。同时,分组给出各变量的均数(means)与标准差(standard deviations),5.4 判别分析,5.4 判别分析概念例3 表3以后6张表是典型判别函数特征值表,5.4 判别分析,例3 表9和表10是判别函数对观测量分类的结果,5.4 判别分析,例3 表11是对原始数据逐一进行判别分析。打*的为错判。,5.4 判别分析,例3 表12是分类结论。冠心病人正常判别12人,错判3人,正常人正确判断13人,错判3人。即病人组判定正确率为80%。0%,正常人组81.3%,总体为80.6%的正确率,5.4 判别分析,例3 根据给出的模型参数,得到判别方程为D=0.638x1+0.800 x2-10.753.式中x1为舒张压,x1为胆固醇。两类的判别以0为分界点。小于0为正常人,大于0为病人。,5.4 判别分析,例3 表13是保存在原属数据中的回代结果。,5.4 判别分析,例4 鸢尾花数据(花瓣,花萼的长宽)5个变量:花瓣长(slen),花瓣宽(swid),花萼长(plen),花萼宽(pwid),分类号(1:Setosa,2:Versicolor,3:Virginica)(data14-04),StatisticsClassify Discriminant:(1)Variables:independent(slen,swid,plen,pwid)Grouping(spno)Define range(min-1,max-3)(2)Classify:prior probability(All group equal)use covariance matrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorial map)Display(Summary table)(3)Statistics:Descriptive(Means)Function Coefficients(Fishers,Unstandardized)Matrix(Within-groups correlation,Within-groups covariance,Separate-groups covariance,Total covariance)(4)Save:(Predicted group membership,Discriminant Scores,Probability of group membership),5.4 判别分析,鸢尾花数据(数据分析过程简明表),5.4 判别分析,鸢尾花数据(原始数据的描述),5.4 判别分析,鸢尾花数据(合并类内相关阵和协方差阵),5.4 判别分析,鸢尾花数据(总协方差阵),5.4 判别分析,鸢尾花数据(特征值表)Eigenvalue:用于分析的前两个典则判别函数的特征值,是组间平方和与组内平方和之比值.最大特征值与组均值最大的向量对应,第二大特征值对应着次大的组均值向量典则相关系数(canonical correlation):是组间平方和与总平方和之比的平方根.被平方的是由组间差异解释的变异总和的比.,5.4 判别分析,鸢尾花数据(Wilks Lambda统计量)检验的零假设是各组变量均值相等.Lambda接近0表示组均值不同,接近1表示组均值没有不同.Chi-square是lambda的卡方转换,用于确定其显著性.,5.4 判别分析,鸢尾花数据(有关判别函数的输出):标准化的典则判别函数系数(使用时必须用标准化的自变量),5.4 判别分析,典则判别函数系数,5.4 判别分析,鸢尾花数据(有关判别函数的输出)这是类均值(重心)处的典则判别函数值:这是典则判别函数(前面两个函数)在类均值(重心)处的值,5.4 判别分析,鸢尾花数据(用判别函数对观测量分类结果),先验概率,费歇判别函数系数把自变量代入三个式子,哪个大归谁.,5.4 判别分析,Territorial MapCanonical DiscriminantFunction 2-12.0-8.0-4.0.0 4.0 8.0 12.0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12.0 12 23 12 23 12 23 12 23 12 23 12 23 8.0 12 23 12 23 12 23 12 23 12 23 12 23 4.0 12 23 12 23 12 23 12 23 12 23 12 23*.0*12 23 12*23 12 23 12 23 12 23 12 23-4.0 12 23 12 23 12 23 12 23 12 23 12 23-8.0 12 23 12 23 12 23 12 23 12 23 12 23-12.0 12 23 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌-12.0-8.0-4.0.0 4.0 8.0 12.0 Canonical Discriminant Function 1Symbols used in territorial mapSymbol Group Label-1 1 刚毛鸢尾花 2 2 变色鸢尾花 3 3 佛吉尼亚鸢尾花*Indicates a group centroid,鸢尾花数据Territory Map(区域图)Canonical Discriminate Function 1VersusCanonical Discriminate Function 2三种鸢尾花的典则变量值把一个典则变量组成的坐标平面分成三个区域.*为中心坐标.,鸢尾花数据(预测分类结果),可以看出分错率,5.4 判别分析,作业,习题1.现有16种饮料相关的数据如表所示。试对这些饮料进行分类,并分析价格与其他三个饮料特征的关系,作业,习题2.现有瓦韦属薄叶组各种一些形状的平均值,是通过分层聚类分析这些种之间的可能亲缘关系。并进行判别分析,