欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    聚类分析(楷体字2014).ppt

    • 资源ID:6018505       资源大小:1.76MB        全文页数:148页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    聚类分析(楷体字2014).ppt

    第一节 聚类分析简介第二节 距离和相似系数第三节 系统聚类法第四节 K均值聚类法第五节 SPSS实现,1、什么是聚类?,聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。,早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物。,俗语说,物以类聚、人以群分。,第一节 聚类分析简介,2、聚类分析无处不在,谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以.识别顾客购买模式(如喜欢一大早来买酸奶 和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样),挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户 对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传 单命中率更高,成本更低!,2、聚类分析无处不在,谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变 量对客户分类,找出“黄金客户”!这样银行可以 制定更吸引的服务,留住客户!比如:一定额度和期限的免息透资服务!贵宾打折卡!在他或她生日的时候送上一个小蛋糕!,2、聚类分析无处不在,3、什么情况下需要聚类,为什么这样分类?什么是分类的根据?因为每一个类别里面的人消费方式都不一 样,需要针对不同的人群,制定不同的关系 管理方式,以提高客户对公司商业活动的相 应率。,4、聚类的应用领域,经济领域:帮助市场分析人员从客户数据库中发现不 同的客户群,并且用购买模式来刻画不同 的客户群的特征。谁喜欢打国际长途,在什么时间,打到那 里?对住宅区进行聚类,确定自动提款机ATM 的安放位置 股票市场板块分析,找出最具活力的板块 龙头股 企业信用等级分类,生物学领域 推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域 作为其他数学算法的预处理步骤,获得数 据分布状况,集中对特定的类做进一步的 研究,4、聚类的应用领域,5、有贡献的研究领域,数据挖掘 聚类可伸缩性、各种各种复杂形状类的识 别,高维聚类等统计学 主要集中在基于距离的聚类分析,发现球 状类,机器学习 无指导学习(聚类不依赖预先定义的 类,不等同于分类)空间数据技术生物学市场营销学,5、有贡献的研究领域,6、什么情况下需要聚类,以上分析,没有大量的数据去支持,Data Mining就什么都挖不出来。大量的数据不等于大量的垃圾,我们需要针对 客户市场细分所需要的资料。如需要知道白金 持卡人和金卡持卡人的流动率,各自平均消费 水平有多少,等;聚类分析可以辅助企业进行客户细分,但是 Data mining的客户细分不等同于商业领域的细 分,看不懂结果,也可能造成企业管理层无法 对结果善加利用。,判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。,7、聚类分析原理介绍,聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是 根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定,聚类方法的目的是寻找数据中:潜在的自然分组结构a structure of“natural”grouping 感兴趣的关系relationship,7、聚类分析原理介绍,什么是自然分组结构Natural grouping?看看以下的例子:有16张牌,如何将 他们分为一组一组 的牌呢?,7、聚类分析原理介绍,分成四组每组里花色相同组与组之间花色相异,花色相同的牌为一副,7、聚类分析原理介绍,分成四组符号相同的牌为一组,符号相同的的牌,7、聚类分析原理介绍,分成两组颜色相同的牌为一组,颜色相同的配对,7、聚类分析原理介绍,这个例子告诉我们,分组的意义在于 我们怎么定义并度量“相似性”Similar因此衍生出一系列度量相似性的算法,7、聚类分析原理介绍,相似性Similar的度量(统计学角度)距离Q型聚类 主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变 量的聚类):明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)兰氏距离 马氏距离 斜交空间距离,7、聚类分析原理介绍,相似系数R型聚类 用于对变量分类,可以用变量之间的相似 系数的变形如1rij定义距离,7、聚类分析原理介绍,第二节 距离和相似系数,相似性度量:距离和相似系数。,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。,样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。,1、变量的测量尺度,通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。,间隔尺度变量:变量用连续的量来表示,如长 度、重量、速度、温度等。,有序尺度变量:变量度量时不用明确的数量表 示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。,名义尺度变量:变量用一些类表示,这些类之 间既无等级关系也无数量关系,如性别、职业、产品的型号等。,本章主要讨论具有间隔尺度变量的样品聚类分析方法。,2、距离,设xij为第i个样品的第j个指标,数据矩阵如表,当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令,dij-第i个样品与第j个样品之间的距离,3、常用点间距离,(1)Minkowski距离,当q=1时即为绝对值距离(Block):,(1)Minkowski距离,当q=2时即为欧式距离:,当q=时即为Chebychev距离:,Minkowski距离有以下两个缺点:,明氏距离的数值与指标的量纲有关。当各变量的测量值相差悬殊时,常发生“大数吃小数”的现象,为消除量纲的影响,通常先将每个变量进行标准化。,明氏距离的定义没有考虑各个变量之间相关性的影响。,(2)标准化的欧式距离,(3)马氏距离,马氏距离又称为广义欧氏距离。马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。马氏距离不受指标量纲及指标间相关性的影响。,(4)距离矩阵,dij-第i个样品与第j个样品之间的距离,实例计算,绝对值距离:,实例计算,欧式距离:,聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。,4、相似系数,cij-第i个变量与第j个变量的相似系数,5、常用相似系数,(1)夹角余弦,(2)Pearson相关系数,当对变量标准化之后,则夹角余弦与相关系数一样.,(3)相似系数矩阵,cij-第i个变量与第j个变量的相似系数,实例计算,夹角余弦:,实例计算,Pearson相关系数:,相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。,由距离来构造相似系数总是可能的,如令,这里dij为第i个样品与第j个样品的距离,显然cij 满足定义相似系数的三个条件,故可作为相似系数。,距离必须满足定义距离的四个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵(cij)为非负定时,如令,则dij满足距离定义的四个条件。,第三节 系统聚类法,系统聚类也叫层次聚类,是聚类分析诸方法 中用得最多的一种。基本思想是:开始将每个样品各自作为一 类,并规定样品之间的距离和类与类之间的 距离,然后将距离最近的两类合并成一个新 类,计算新类与其他类的距离;重复进行两 个最近类的合并,每次减少一类,直至所有 的样品合并为一类。,常用的系统聚类方法,1、最短距离法(single linkage)2、最长距离法(complete linkage)3、中间距离法(median method)4、类平均法(average linkage)5、重心法(centroid method)6、Ward离差平方和法(Wards minimum-variance method),上述 6 种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。,1、最短距离法,定义类GK与类GL之间的距离为两类最近样品间的距离,即,最短距离法的聚类步骤,Step 1 规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵。,Step 2 选择 D(0)中的最小元素,设为DKL,则将GK和GL合并成一个新类,记为GM,即,Step 3 计算新类GM与任一类GJ之间距离的递推公式为,在D(0)中,GK和GL所在的行和列合并成一个新行新列,对应GM,计算该行列上的新距离值,其余行列上的距离值不变,这样就得到新的距离矩阵,记作D(1)。,Step 4 对D(1)重复上述对D(0)的两步得D(2),如此下去直至所有元素合并成一类为止。如果某一步D(m)中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距离Dij(采用欧式距离)得距离矩阵,D(0)中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1):,D(1)中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2):,D(2)中最小值为D36,合并G3和G6为G8,重新计算距离矩阵D(3),最后将G8和G7合并为G9,所有合为一类,过程终止。,按聚类的过程画聚类谱系图,观察此图,我们可以把5个样品分为3类:,2、最长距离法,定义类GK与类GL之间的距离为两类最远样品间的距离,即,最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。,递推公式:,最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距离Dij(采用欧式距离)得距离矩阵,D(0)中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1):,D(1)中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2):,D(2)中最小值为D36,合并G3和G6为G8,重新计算距离矩阵D(3),最后将G8和G7合并为G9,所有合为一类,过程终止。,按聚类的过程画聚类谱系图,观察此图,我们可以把5个样品分为3类:,3、中间距离法,类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。,设某一步将GK和GL合并为GM,对于任一类GJ,考虑由DKJ、DLJ和DKL为边组成的三角形,取DKL边中线作为DMJ。由余弦定理可得,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距离Dij(采用欧式距离)得距离矩阵,D(0)2中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1)2:,D(1)2中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2)2:,D(2)2中最小值为D36,合并G3和G6为G8,重新计算距离矩阵D(3)2,最后将G8和G7合并为G9,所有合为一类,过程终止。,按聚类的过程画聚类谱系图,观察此图,我们可以把5个样品分为3类:,4、类平均法,类平均法(average linkage)有两种定义,一种定义为将类与类之间的距离定义为所有样品对之间的平均距离,即定义GK和GL之间的距离为,nK和nL分别为GK和GL之中的样品个数。可以得到它的一个递推公式:,另一种定义为将类与类之间的平方距离为所有样品对之间的平方距离的平均值,即定义GK和GL之间的距离为,递推公式:,类平均法较好地利用了所有样品之间的信息,在很多情况下被认为是一种比较好的系统距离法。,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距离Dij(采用欧式距离)得距离矩阵,D(0)2中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1)2:,D(1)2中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2)2:,D(2)2中最小值为D36,合并G3和G6为G8,重新计算距离矩阵D(3)2,最后将G8和G7合并为G9,所有合为一类,过程终止。,按聚类的过程画聚类谱系图,观察此图,我们可以把5个样品分为3类:,5、重心法,类与类之间的距离定义为它们的重心(均值)之间的欧式距离。即设GK和GL的重心分别为 和 则GK和GL之间的距离为,递推公式为:,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距离Dij(采用欧式距离)得距离矩阵,D(0)2中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1)2:,D(1)2中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2)2:,D(2)2中最小值为D36,合并G3和G6为G8,重新计算距离矩阵D(3)2,最后将G8和G7合并为G9,所有合为一类,过程终止。,按聚类的过程画聚类谱系图,观察此图,我们可以把5个样品分为3类:,6、离差平方和法(Ward方法),源于方差分析。,类内离差平方和:类中各样品到类重心(均值)的平方欧式距离之和。基本思路:两类合并后,离差平方和就会增加。每次选择使离差平方和增加(SSMSSKSSL)最小的两类进行合并,直至所有的样品归为一类。,设类GK和GL合并成新类GM,则GK、GL和GM的离差平方和分别是,它们各自反映了各类内样品的分散程度。如果GK和GL这两类相距较近,则合并后所增加的离差平方和WMWKWL应该较小;否则,应较大。于是定义GK和GL之间的平方距离为:,GK和GL之间的平方距离也可以表示为:,离差平方和之间有递推公式:,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距离Dij(采用欧式距离)得距离矩阵,D(0)2中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1)2:,两样品间的距离的平方恰为它们之间欧氏距离平方的一半。,D(1)2中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2)2:,D(2)2中最小值为D36,合并G3和G6为G8,重新计算距离矩阵D(3)2,最后将G8和G7合并为G9,所有合为一类,过程终止。,按聚类的过程画聚类谱系图,观察此图,我们可以把5个样品分为3类:,7、各种聚类方法的统一,以上聚类方法的计算步骤完全相同,仅类与类之间的距离定义不同。Lance和Williams于1967年将其统一为:,注意:几种聚类方法获得的结果不一定相同,类的个数,如果能够分成若干个很分开的类,则类的个数就比较容易确定;反之,如果无论怎样分都很难分成明显分开的若干类,则类个数的确定就比较困难了。确定类个数的常用方法有:给定一个阈值T。观测样品的散点图。使用统计量。包括:R2统计量,半偏R2统计量,伪F统计量和伪t 2统计量。,例 根据第三产业国内生产总值的9 项指标,对华东地区6省1市进行分类,原始数据如下表:,类平均法,重心法,第四节 K均值聚类法,也叫动态聚类、逐步聚类、迭代聚类与系统聚类的主要区别非层次性递推过程从初始分类开始不断优化的过程当样本量很大时,用系统聚类法的计算工作量极大,作出的树状图也十分复杂,不便于分析,用快速聚类较好。,思想:首先将样品粗糙地分类,然后再依据样品间的距离按一定规则逐步调整,直至不能再调整为止。适合于:样本数目较大的数据集的聚类分析 局限性:需要事先指定分类的数目,而且此数目对最终分类结果有较大影响。,解决办法:实际中一般要对多个分类的数目进行尝试,以找出合理的分类结果,基本思想:选取若干个样品作为凝聚点,计算每个样品和凝聚点的距离,进行初始分类,然后根据初始分类计算其重心,再进行第二次分类,一直到所有样品不再调整为止。,用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。快速聚类的步骤:1、随机选取两个点x1(1)和x2(1)作为凝聚点;2、对于任何点xk,分别计算d(xk,x1(1)和d(xk,x2(1);3、若d(xk,x1(1)d(xk,x2(1),则将xk划为第一类,否则划给第二类。于是得图(c)的两个类。,4、分别计算两个类的重心,则得x1(2)和x2(2),以其为新的凝聚点,对空间中的点进行重新分类,得到新分类。,(b)任取两个凝聚点,(a)空间的群点,(e)第二次分类,优点:计算量小,方法简便,可以根据经验,先作主观分类。缺点:结果受选择凝聚点好坏的影响,分类结果不稳定。,选择凝聚点和确定初始分类,凝聚点就是一批有代表性的点,是欲形成类的中心。凝聚点的 选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点 的不同选择,其最终分类结果也将出现不同。故选择时要慎重通常选择凝聚点的方法有:,(1)人为选择:当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为凝聚点。,(2)重心法:将数据人为地分为A类,计算每一类的重心,将重心作为凝聚点。,(3)密度法:以某个正数d为半径,以每个样品为球心,落在这个球内的样品数(不包括作为球心的样品)称为这个样品的密度。计算所有样品点的密度后,首先选择密度最大的样品为第一凝聚点。然后选出密度次大的样品点,若它与第一个凝 聚点的距离大于2d,则将其作为第二个凝聚点;否则舍去这点。这样,按密度由大到小依次考查,直至全部样品考查完毕为止此方法中,d要给得合适,太大了使凝聚点个数太 少,太小了使凝聚点个数太多。,(4)人为地选择一正数d:首先以所有样品的均值作为第一凝聚点。然后依次考察每个样品,若某样品与已选定的凝聚点的距 离均大于d,该样品作为新的凝聚点,否则考察下一个样品。,动态聚类法的基本步骤:,第一:选择凝聚点 第二:初始分类 对于取定的凝聚点,视每个凝聚点为一类,将每个样品根据定义的距离向最近的凝聚点归类。,第三:修改分类 得到初始分类,计算各类的重心,以这些重心作为新的凝聚点,重新进行分类,重复步骤2,3,直到分类的结果与上一步的分类结果相同,表明分类已经合理为止。,例:某商店5位售货员的销售量和教育程度如下表:,对这5位售货员分类。,计算各样品点两两之间的距离,得到如下的距离矩阵,1、选择凝聚点,D25最大,可选择2和5作为凝聚点。,对于取定的凝聚点,视每个凝聚点为一类,将每个样品根据定义的距离,向最近的凝聚点归类。,2、初始分类,得到初始分类为:,3、修改分类,以这两个重心点作为凝聚点,再按最小距离原则重新聚类,计算G1和G2的重心:G1的重心(1,1.5)G2的重心(7.33,1.67),得到分类结果为:,修改前后所分的类相同,故可停止修改。,5个售货员可分为两类:,1,2和3,4,5,第五节 SPSS实现,在SPSS中利用系统聚类法进行聚类分析,在SPSS中利用K均值法进行聚类分析,在SPSS中利用系统聚类法进行聚类分析,设有20个土壤样品分别对5个变量的观测数据如表所示,试利用系统聚类法对其进行样品聚类分析。,(一)操作步骤,1.在SPSS窗口中选择AnalyzeClassify Hierachical Cluster,调出系统聚类分析主界面,并将变量X1X5移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。,系统聚类法主界面,2.点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。这里我们选择系统默认值,点击Continue按钮,返回主界面。,3.点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram复选框和Icicle栏中的None单选按钮,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。,Plots子对话框,4.点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定聚类的方法,包括组间连接法、组内连接法、最近距离法、最远距离法等;Measure栏用于选择对距离和相似性的测度方法;剩下的Transform Values和Transform Measures栏用于选择对原始数据进行标准化的方法。单击Continue按钮,返回主界面。,Method子对话框,5.点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果。点击Continue,返回主界面。,Save子对话框,6.点击OK按钮,运行系统聚类过程。,(二)主要运行结果解释,1.在结果输出窗口中输出聚类树形图(Dendrogram),从树形图可以看到,若将20个样品分为两类,则样品2,6,19,7和样品1为一类,其余的为另一类;若将样品分为三类,则样品8,9,4从第二类中分离出来,自成一类;依此类推。,2.由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的三个表示分类结果的新变量。变量名为clu4_1、clu3_1和clu2-1的三个分类变量分别表明了把样品分成4类、3类和2类的分类情况。,利用K均值法进行聚类分析,我国各地区2003年三次产业产值如表所示,试根据三次产业产值利用K均值法对我国31个省、自治区和直辖市进行聚类分析。,(一)操作步骤,1.在SPSS窗口中选择AnalyzeClassifyK-Means Cluster,调出K均值聚类分析主界面,并将变量移入Variables框中,将标志变量Region移入Label Case by框中。,在Method框中选择Iterate classify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classify only,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将31个地区分为3类。至于Centers按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。,2.点击Iterate按钮,对迭代参数进行设置。Maximum Iterations参数框用于设定K-means算法迭代的最大次数,Convergence Criterion参数框用于设定算法的收敛判据,其值应该介于0和1之间。例如判据设置为0.02,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。这里我们选择系统默认的标准。单击Continue,返回主界面。,3.点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。其中Cluster membership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;Distance from cluster center选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中,单击Continue按钮返回。,4.点击Options按钮,指定要计算的统计量。选中Initial cluster centers和Cluster information for each case复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离。单击Continue返回。,5.点击OK按钮,运行K均值聚类分析程序。,(二)主要运行结果解释,1.Initial Cluster Centers(给出初始类中心),2.Iteration History(给出每次迭代结束后类中心的变动)从表中可以看到本次聚类过程共经历了三次迭代。由于我们在Iterate子对话框中使用系统默认的选项(最大迭代次数为10和收敛判据为0),所以在第三次迭代后,类中心的变化为0,从而迭代停止。,3.Cluster Membership(给出各观测量所属的类及与所属类中心的距离)表中Cluster列给出了观测量所属的类别,Distance列给出了观测量与所属类中心的距离。(出于排版要求,此表经过加工,因此与原始输出表形态有一定差异),Cluster Membership,4.Final Cluster Centers(给出聚类结果形成的类中心的各变量值),结合刚才的两张表可以看出31个地区被分成3类。第一类包括:江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元,属于三个产业都比较发达的地区。第二类包括:天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区。这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元,属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和212.87亿元,属于中等发达地区。,下表为我国某年各省市社会发展相关指标数据,试对他们进行聚类分析,并对结果进行分析。,作业题:,

    注意事项

    本文(聚类分析(楷体字2014).ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开