聚类与判别分析.ppt
《聚类与判别分析.ppt》由会员分享,可在线阅读,更多相关《聚类与判别分析.ppt(63页珍藏版)》请在三一办公上搜索。
1、第五章 聚类与判别分析(一),主要内容,聚类及判别分析快速样本聚类分层聚类判别分析,5.1 聚类与判别概述,聚类和判别都是分类学的基本方法,而分类学是人类认识世界的基础科学。掌握聚类和判别的方法对进一步运用统计这一工具来认识世界有着极其重要的意义。聚类有两种基本的方法:快速样本聚类和分层聚类。判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法。,5.1 聚类与判别概述,5.1.1 聚类分析聚类分析(Cluster Analysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同
2、类的个体差异很大。根据分类对象不同分为样品聚类和变量聚类。样品聚类在统计学中又称为Q 型聚类。用SPSS 的术语来说就是对事件(cases)进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。变量聚类在统计学中有称为R 型聚类。反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。,5.1 聚类与判别概述,5.1.1 聚类分析根据分类对象的不同,样品(观测量)聚类和变量聚类两种:样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)变量聚类:找出彼此独
3、立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。,5.1 聚类与判别概述,5.1.2 判别分析判别分析(Discriminant)是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家、植物学家对动物、植物如何分类的研究和某个动物、植物属于哪一类、哪一目、哪一纲的判断等。,5.1 聚类与判别概述,5.1.3 Classify 的功能SPSS 中进行聚类
4、和判别分析的统计过程,是由菜单“Analyze”令“Classify”导出的。选择“Classify”,可以显示三个过程命令:(1)K-Means Cluster 进行快速聚类过程。(2)Hierarchical Cluster 进行样本聚类和变量聚类过程。(3)Discriminant 进行判别分析过程。,5.2 快速聚类,5.2.1 快速聚类的概念K-Means Cluster 执行快速样本聚类,使用k 均值分类法对观测量进行聚类。可以完全使用系统默认值执行该命令,也可以对聚类过程设置各种参数进行人为的干预。例如,可以事先指定把数据文件的观测量分为几类;指定使聚类过程中止的判据,或迭代次数
5、等。进行快速样本聚类首先要选择用于聚类分析的变量和类数。参与聚类分析的变量必须是数值型变量,且至少要有一个。为了清楚地表明各观测量最后聚到哪一类,还应该指定一个表明观测量特征的变量作为标识变量,例如编号、姓名之类的变量。聚类必须大于等于2,但聚类数不能大于数据文件中的观测量数。,5.2 快速聚类,5.2.1 快速聚类的概念如果选择了n 个数值型变量参与聚类分析,最后要求聚类数为k。那么可以由系统首先选择k 个观测量(也可以由用户指定)作为聚类的种子,n 个变量组成n 维空间。每个观测量在n 维空间中是个点。K 个事先指定的观测量就是k 个聚类中心点,也称为初始类中心。按照距这几个类中心的距离最
6、小原则把观测量分派到各类中心所在地类中;形成第一次迭代形成的k 类。根据组成每一类的观测量计算各变量均值,每一类中的n 个均值在n 维空间中又形成k 个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或中止迭代的判据要求时,迭代停止,聚类结束。从上述分析过程可以看出,K-Means Cluster 不仅是快速样本聚类过程,而且是一种逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。,5.2 快速聚类,5.2.1 快速聚类的概念例1为研究儿童生长发育的分期,调查1253 名1个月至7 岁儿童的身高(cm)、体重(kg)、胸围(c
7、m)和坐高(cm)资料。资料作如下整理:先把1个月至7 岁划成 19 个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2 月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。,5.2 快速聚类,5.2.1 快速聚类的概念例1,5.2 快速聚类,5.2.1 快速聚类的概念例1激活“Analyze”菜单选“Classify”中的“K-Means Cluster”项,弹出K-Means Cluster Analy
8、sis 对话框(如图所示)。从对话框左侧的变量列表中选x1、x2、x3、x4,点击向右的按钮使之进入Variables 框;在Number of Clusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两种:Iterate and dassify指先定初始类别中心点,而后按K-means 算法作叠代分类;Classify only 指仅按初始类别中心点分类,本例选用前一方法。,5.2 快速聚类,5.2.1 快速聚类的概念例1 表1、表2显示:首先系统根据用户的指定,按4 类聚合确定初始聚类的各变量中心点,未经K-means 算法叠代,其类别间距离并非最优;经叠代运算
9、后类别间各变量中心值得到修正。表3对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均0.001,即聚类效果好。,5.2 快速聚类,5.2.1 快速聚类的概念例1 这样,原有19 类(即原有的19 个月份分组)聚合成4 类,第一类含原有1类,第二类含原有1类,第三类含原有2 类,第四类含原有15 类。具体结果系统以变量名QCLI 存于原始数据文件中,5.3 分层聚类,5.3 分层聚类调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式。一是对研究对象本身进行分类,称为Q 型举类;另
10、一种是对研究对象的观察指标进行分类,称为R 型聚类。变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量集时,损失信息很少。,5.3 分层聚类,5.3 分层聚类通常情况下,在聚类进行之前,Proximitice 过程先根据反映各类特性的变量对原始数据进行预处理,即利用标准化方法对原始数据进行一次转换,并进行相似性测度或距离测度。然后Cluster 过程根据转换后的数据进行聚类分析。在SPSS for WindowS 中,分层聚类各方法都包含了Proximitice 过程对数据的处理和Cluster 过程对数据的分析。给出的统计量可以帮助用户确定
11、最好的分类结果。Cluster 过程可以通过Plot 选择项给出两种统计图:Dendrogram 树形图Icicle 冰柱图。Cluster 过程的输出项可以选择,还可以建立新变量,把聚类结果即每个个体被分配到的类号作为新变量的值保存到当前的工作数据文件中。,5.3 分层聚类,例2 现在测定了29 名儿童的X6血红蛋白(g/100ml)与微量元素X1钙、X2镁、X3铁、X4锰、X5铜(pg/100ml)测定结果如表所示。由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R 型指标聚类)筛选代表性指标,以便更经济、快捷地评价儿童的营养状态。,5.3 分层聚类,例2 数据见表,5.3 分层聚
12、类,例2 数据见表,5.3 分层聚类,例2从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6,点击向右的箭头按钮使之进入Variable(s)框;在Cluster 处选择聚类类型,其中Cases 表示观察对象聚类,Variables表示变量聚类,选择Variables点击Statistics”按钮,弹出Hierarchical Cluster Analysis:Statistics 对话框,选择Proximty matrix,要求显示欧氏不相似系数平方矩阵,5.3 分层聚类,例2 点击“Plots”按钮弹出Hierarchical Cluster Anal sis:Plots 对话框
13、,选择Dendrogram 项。点击“Method”按钮弹出Hierarchical Cluster AnalysiS:Method 对话框,系统提供了7 种聚类方法供用户选择,本例选择类间平均链锁法(系统默认方法)。选择距离测量方法,系统提供了8 种形式供用户选择,本例选用Pearson correlation,5.3 分层聚类,例2 表1是数据处理的基本信息;表2是欧式不相似系数平方矩阵。,5.3 分层聚类,例2 表3是聚类过程表,显示x3和x6先合并,之间的相关系数最大0.864;接着是x1和x2合并相关系数是0.745;依次类推;图1是聚类为5类的垂直冰柱图。,5.3 分层聚类,例2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析

链接地址:https://www.31ppt.com/p-5377243.html