第15章聚类分析1统计学原理课件.ppt
《第15章聚类分析1统计学原理课件.ppt》由会员分享,可在线阅读,更多相关《第15章聚类分析1统计学原理课件.ppt(58页珍藏版)》请在三一办公上搜索。
1、2008年8月,第15章,聚类分析,聚类分析,1 聚类分析的基本原理2 系统聚类3 K-均值聚类,2008年8月,学习目标,聚类分析的基本思想和原理 层次聚类和K-均值聚类的基本过程解释聚类的结果层次聚类和K-均值聚类的差异及应用条件聚类分析的注意事项用SPSS进行聚类分析,2008年8月,在现实生活中,分类问题是十分常见的根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家按照消费者的特征对消费者分类,按照产品特征对产品分类这些分类中,有的事先并不知道存在什么类别,完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析;有的则是在事先有了某种分类标准之后,判定一个新的研
2、究对象应该归属到哪一类别,这在统计上则称为判别分析(discriminant analysis)本章主要介绍聚类分析方法,聚类分析 (cluster analysis),1 聚类分析的基本原理1.1 什么是聚类分析?1.2 相似性的度量,聚类分析,1.1 什么是聚类分析?,聚类分析的思想和原理,2008年8月,把“对象”分成不同的类别这些类不是事先给定的,而是直接根据数据的特征确定的把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大聚类分析就是按照对象之间的“相似”程度把对象进行分类,什么是聚类分析? (cluster analysis),2008年8月,聚
3、类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量按照变量对所观察的样本进行分类称为Q型聚类按照多项经济指标(变量)对不同的地区(样本)进行分类按照样本对多个变量进行分类,则称为R型聚类按照不同地区的样本数据对多个经济变量进行分类两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类),什么是聚类分析? (两种分类方式),2008年8月,按对象的“相似”程度分类根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具,也称为相似系数变量间的相似系数越大,说明它们越相近根据变量来测度样本之间的相似程度则使用“距
4、离”把离得比较近的归为一类,而离得比较远的放在不同的类,什么是聚类分析? (按什么分类),1.2 相似性的度量,聚类分析的思想和原理,2008年8月,聚类分析中是用“距离”或“相似系数”来度量对象之间的相似性31个地区的人均GDP数据就是直线上的31个点,每一个点对应一个地区如果按照人均GDP对它们进行分类,就可以把在直线上离得比较近的那些点归为一类。如果再考虑财政收入,那么人均GDP和财政收入就是二维平面上的一个点,31个地区就是平面中的31个点多个变量就是高维空间中的一个点,31个地区就是高维空间中的31个点各个点之间距离的远近就是分类的依据,相似性的度量,2008年8月,在对样本进行分类
5、时,度量样本之间的相似性使用点间距离点间距离的计算方法主要有欧氏距离(Euclidean distance)平方欧氏距离(Squared Euclidean distance)Block距离(Block distance)Chebychev距离(Chebychev distance)马氏距离(Minkovski distance)最常用的是平方欧氏距离,相似性的度量(样本点间距离的计算方法),2008年8月,相似性的度量(样本点间距离的计算方法),2008年8月,在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有,相似性的度量(变量相似系数的计算方法),2 系统聚类2.1 系统聚
6、类的两种方式2.2 类间距离的计算方法2.3 系统聚类的应用,聚类分析,2.1 系统聚类的两种方式,2 系统聚类,2008年8月,系统聚类又称层次聚类事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反,系统聚类(hierarchical cluster),2008年8月,将每一个样本作为一类,如果是k个样本就分k成类按照某种方法度量样本之间的距离,并将距离最近的两个样本合并为一个类别,从而形成了k-1个类别再计算出新产生的类别与其他各类别之间的距离,并将距离最近的两个类别合并为一类。这时
7、,如果类别的个数仍然大于1,则继续重复这一步,直到所有的类别都合并成一类为止总是先把离得最近的两个类进行合并合并越晚的类,距离越远事先并不会指定最后要分成多少类,而是把所有可能的分类都列出,再视具体情况选择一个合适的分类结果,系统聚类(合并法),2008年8月,分解方法原理与合并法相反先把所有的对象(样本或变量)作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类(其中的一类只有一个对象)再度量类别中剩余对象之间的距离或相似程度,并将最远的分离出去,不断重复这一过程,直到所有的对象都自成一类为止SPSS中只提供了合并法,系统聚类(分解法),2.2 类间
8、距离的计算方法,系统聚类,2008年8月,在系统聚类法中,当类别多于1个时,就涉及到如何定义两个类别之间的距离问题计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果实际中较常用的是离差平方和法(Wards method),又称Ward法,类间距离的计算方法,2008年8月,类间距离的计算方法,2008年8月,Nearest neighbor(最短距离法)用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离Furthest neighbor(最长距离法)用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离Centroid clusterin
9、g(重心法)用两个类别的重心之间的距离来表示两个类别之间的距离between-groups linkage(组间平均距离法)SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离Wards method(离差平方和法)使各类别中的离差平方和较小,而不同类别之间的离差平方和较大,类间距离的计算方法,2.3 系统聚类的应用,系统聚类,2008年8月,【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析,层次聚类的应用 (实例分析),31个地区的6项经济指标,2008年8月,用SPSS进行层次聚类,第1步 选择【An
10、alyze】下拉菜单,并选择【Classify- Hierarchical Cluster】,进入主对话框第2步 将用于聚类的所有变量选入【Variable(s)】;把区分样 本的标签 (本例为“地区”)选入【Label Cases by】;若 对样本进行聚类,在【Cluster】下选择【Cases】(本 例选择对样本聚类),若对变量进行聚类,在 【Cluster】下选择【Variables】第3步 点入【Statistics】选中【Agglomeration schedule】, 点击【Continue】回到主对话框第4步 点入【Plots】选中【Dendrogram】,点击 【Contin
11、ue】回到主对话框,2008年8月,用SPSS进行层次聚类,第5步 点入【Method】,在【Cluster Method】中选择类间距离的 定义方法(本例选择Wards method);在【Measure】下选择 点间距离的定义方法(本例使用Squared Euclidean distance);在【Transform Values】的【Standardize】框中 选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框第6步 点入【Save】,在【Cluster Membership】下选择在原始数 据中保留分类结果,其中【Single so
12、lution】表示指定要分成 类时各样本所属的类,【Range of solution】表示指定要分成 最少类、最多类时各样本所属的类(SPSS会将分类的结果以 变量形式保存到原数据窗口中),点击【Continue】【OK】,用SPSS进行系统聚类,2008年8月,SPSS的输出结果(实例分析),层次聚类过程的步骤号,2008年8月,SPSS的输出结果(实例分析),层次聚类过程的步骤号,第1列是聚类的步骤号。第2列和第3列给出了每一步被合并的对象(这里是地区)首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。在后面的步骤中,对于包
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 15 聚类分析 统计学 原理 课件
链接地址:https://www.31ppt.com/p-1488002.html