SPSS聚类分析详解课件.ppt
《SPSS聚类分析详解课件.ppt》由会员分享,可在线阅读,更多相关《SPSS聚类分析详解课件.ppt(80页珍藏版)》请在三一办公上搜索。
1、聚类分析,聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元素的集合。分类:1、系统聚类法-(分层聚类)系统聚类法是应用最广泛的一种 (Hierarchical Cluster过程) 1)、 聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为 一类。 2)、 分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类 (R型)。2、非系统聚类法-(快速聚类法-K-均值聚类法)(K-means Cluster)3、两步聚类法-一种探索性的聚类方法(TwoStep Cluster),K-均值聚类分析K-means Cluster,又称为快速样本聚类法,是非系统聚类中最常用的聚
2、类法。优点: 是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。缺点: 应用范围有限,要求用户制定分类数目(要告知),只能对观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量。,基本原理具体做法1、按照指定的分类数目n,按某种方法选择某些观测量,设为Z1,Z2,Zn,作为初始聚心。2、计算每个观测量到各个聚心的欧氏距离。即 按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心。3、使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心
3、间最小距离的倍数时,或者到达迭代次数的上限时,停止迭代。,数据标准化处理:,存储中间过程数据,数据标准化处理,并存储。,指定5类,收敛标准值,存储最终结果输出情况,在数据文件中(QCL-1、QCL-2),初始聚心选项,输出方差分析表,初始聚类中心表,具体城市看后表,最终聚类中心表,聚类结果:QCL-1说明聚类结果,QCL-2说明聚类的长度情况,系统聚类法Hierarchical Cluster,系统聚类法优点: 既可以对观测量(样品)也可对变量进行聚类,既可以连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。,应用实例,某电冰箱厂开发某一新产品,在投放市场前希望对以往经销的国
4、内6个地区征集对新产品的评价,若对新产品的评价指标有三项:式样、性能、颜色,评价的调整表采用10分制,调查结果的数据如下表,1 2 3 4 5 6,性能 9 1 10 9 2 8 颜色 8 2 7 9 4 6 式样 7 2 8 3 5 7,地区(样品),指标,用分类法对6个样品进行分类,以估计哪些地区最有可能经销这类新产品?,按公式计算两两样品间的相似系数,得相似矩阵,1 2 3 4 5 6,123456,Q =,按四条原则进行分类,作聚类分析图,X3X6X1X4X2X5,1,0.994,0.955,0.994,0.933,一、问题提出聚类分析对一批样品或指标进行分类的一种统 计方法。,具体处
5、理方法:(思路),1、具体研究的分类对象:样品或指标2、方法:把“性质相似”或“相互关系密切”的样品或指标聚在一起。3、步骤:1)首先给出度量“相似”或“关系密切”的统计指标,2)形成一个由小到大的分析系统。3)把整个分类系统画成一张分类图,(3)相关系数(4)关联系数,指标:(1)统计指标是相似系数。 根据相似性归为一类,否则为另一类。 (2)统计指标是样品(空间的点)之间的距离 将距离近的点归成一类,否则为另一类。,二、聚类统计量,首先定义一些分类统计指标 刻画样或指标之间的相似程度(这些统计指标称为聚类统计量),在市场研究中,样品 用作分类的事物 指标 用来作为分类依据的变量。(如:年龄
6、、收入、销售量),(一)相似系数(夹角余弦) 一般式:假定每个样品包含有P项指标,若有几个样品的调查数据,每一个样品都可看成P维空间中的一个向量,对于任意两个样品Xi和Xj的相似程度可用这两个向量之间的夹角余弦,来表示:,Xi和Xj相重合时,夹角,相似程度为,Xi和Xj相互垂直时,,相似程度为,相似密切,解析几何知识:相似系数,其中:,如果把上述n个样品的任何两个样品的相似系数,都计算出来并排列成一,个矩阵:,根据算出的,,就可对n个样品进行聚类,用相似系数作为聚类统计量时的分类方法,1、分类原则: (1)若选出一对样品,在已分好的类中未出现,则形成一个独立新类。 (2)若选出两个样品中,有一
7、个是在已分好的类中出现过,则把另一个样品也加入到该类中去。 (3)若选出一对样品,都分别出现已经分好的两类中,则把这两个类联结在一起。 (4)若选出的一对样品都出现在同一组中,则这对样品就不用再分组了。按上述四条原则反复进行,直到把所有样品都分类完毕,最后以分类图形式表示,2、分类方法,例:设有7个样品,每个样品测得P个指标,数据如表,X1 X2 X3 X4 X5 X6 X7,样品,指标,要求对此7个样品进行聚类,采用的聚类统计量是相似系数(夹角余弦),首先计算所有的两个样品间的相似系数,1 2 3 4 5 6 7,1234567,Q =,按矩阵中的数值对7个样品(按四个原则)进行聚类,1 2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 聚类分析 详解 课件
链接地址:https://www.31ppt.com/p-1524253.html