多元统计应用 (聚类分析).ppt

资源ID：2842291 资源大小：191.50KB 全文页数：44页
资源格式： PPT 下载积分：8金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要8金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

多元统计应用 (聚类分析).ppt

数理统计及其应用,聚类分析 Cluster Analysis,第一节聚类分析方法第二节聚类统计量第三节无量纲化方法第四节 Q型系统聚类法第五节 R型系统聚类法第六节快速聚类法推荐阅读,第一节聚类分析方法,聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。基本思想是根据事物本身的特性研究个体分类的方法；聚类原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。,基本程序：是根据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量，然后利用统计量将样品或指标进行归类。具体进行聚类时，由于目的、要求不同，因而产生各种不同的聚类方法：由小类合并到大类的方法由大类分解为小类的方法静态聚类法、动态聚类法按样本聚类（Q）、按指标聚类（R）,在社会经济领域中存在着大量分类问题，如：对我国31个省市自治区独立核算工业企业经济效益进行分析，一般不是逐省市自治区去分析，而较好地做法是选取能反映企业经济效益的代表性指标，如百元固定资产实现利税、资金利税、产值利税率等，根据这些指标对全国各省市自治区进行分类，然后根据分类结果对企业经济效益进行综合评价，就易于得出科学的分析。,第二节聚类统计量,一、概述二、Q型聚类统计量三、R型聚类统计量,概述,设有n个样本单位，每个样本测得p项指标（变量），原始资料阵为：Q型聚类以距离作为统计量，R型聚类以相似系数作为统计量。,Q型聚类统计量（距离）,把n个样本点看成p维空间的n个点1、绝对距离（Block距离）2、欧氏距离(Euclidean distance),3、明考斯基距离(Minkowski)4、兰氏距离5、马氏距离6、切比雪夫距离(Chebychev),R型聚类统计量,对两个指标之间的相似程度用相似系数来刻划，相似系数的绝对值越接近于1，表示指标间的关系越密切，绝对值越接近于0，表示指标间的关系越疏远。,1、夹角余弦2、相关系数3、同号率,第三节无量纲化方法,所谓无量纲化处理，是将原始数据矩阵中每个元素按照某种特定的运算把它变成一个新值，且是数值的变化不依赖于原始数据中其它数据的新值。,1、极差正规化（规格化变换、阈值法）2、标准化变换3、功效系数法4、相对化变换,例：某年我国部分省市经济效益情况用以上几种方法对其无量纲化。,第四节 Q型系统聚类法,系统聚类法（层次聚类法）：在聚类分析的开始，每个样本自成一类；然后，按照某种方法度量所有样本之间的亲疏程度，并把最相似的样本首先聚成一小类；接下来，度量剩余的样本和小类间的亲疏程度，并将当前最接近的样本或小类再聚成一类；再接下来，再度量剩余的样本和小类间的亲疏程度，并将当前最接近的样本或小类再聚成一类；如此反复，直到所有样本聚成一类为止。,步骤：,1、对数据进行变换处理，消除量纲2、构造n个类，每个类只包含一个样本计算3、n个样本两两间的距离dij4、合并距离最近的两类为一新类5、计算新类与当前各类的距离，重复（4）6、画聚类图7、决定类的个数和类,类与类间距离的确定,一、最短距离法二、最长距离法三、中间距离法四、重心距离法五、类平均法六、离差平方和,最短距离法(Nearest Neighbor),以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。,例1：为了研究辽宁省5省区某年城镇居民生活消费的分布规律，根据调查资料做类型划分(spssex/ex501),G1=辽宁，G2=浙江，G3=河南，G4=甘肃，G5=青海=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0,河南与甘肃的距离最近，先将二者（3和4）合为一类G6=G2，G4,d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06 d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2=1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80;d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3=7 0 1 12.80 0 2 23.54 11.67 0,河南、甘肃与青海并为一新类G7=G6，G5=G3，G4，G6,G8=G1,G2,d78=mind71,d72=12.80 7 8D4=7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2,最长距离法(furthest neighbor),以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离。,例2：对例1的数据以最长距离法聚类。,d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0,河南与甘肃的距离最近，先将二者（3和4）合为一类G6=G2，G4,d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2=1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0,河南、甘肃与青海并为一新类G7=G6，G5=G3，G4，G6,d71=d(3,4,5)1=maxd13,d14,d15=13.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3=7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4=7 0 8 24.63 0,G8=G1,G2,中位数法（Median clustering),用两位类的中位数间的距离作为两类的距离,Gt,Gl,Gm,重心法,用两类的重心间的距离作为两类的距离,组间平均链锁法（Between-groups linkage),定义两个小类之间的距离为所有样本对间的平均距离。利用了所有样本对距离的信息。,组内平均链锁法（Within-groups linkage),对所有样本对的距离求平均值，包括小类之间的样本对、小类内的样本对,离差平方和法(Wards method word),使小类内各样本的欧氏距离总平方和增加最小的两小类合并为一类。将q固定时，要选择使S达到极小的分类，一切可能的分法有：,Ward 寻找到一个局部最优解的方法。先将n个样本各成一类，然后每次缩小一类，每缩小一类离差平方和就要增大，选择使离差平方和S增加最小的两类合并，直至所有样本归为一类为止。,例3：为了研究某年全国各地区农民家庭收支的分布规律，根据抽样调查资料进行分类处理，共抽取28个省、市、自治区的样本，每个样本有六个指标，分别为食品、衣着、燃料、住房、生活用品及其它、文化生活服务支出。原始资料见 spssex/ex512,第五节 R型系统聚类法,一、最小系数法二、最大系数法三、中间系数法,对变量聚类，是一种降维的方法，用于在变量众多时寻找有代表性的变量，以便当用少量、有代表性的变量代替大变量时损失信息很少。,第六节快速聚类,如果选择了N个数值型变量参与聚类分析，最后要求聚类数K，那么可以由系统首先选择K个观测量作为聚类的种子，也称初始类中心、凝聚点，按照距这几个类中心的距离最小原则把观测量分到各类中心所在的类中去，形成第一次迭代形成的K类。根据组成每一类的观测量计算各变量均值，每一类中的n个均值在N维空间中又形成K个点，这就是第二次迭代的类中心，按照这种方法依次迭代下去直到分类比较合理为止。,凝聚点的选择,1、经验选择2、对样本人为或随机分类，以每类的重心作为凝聚点3、最小最大距离法。如果欲将n个样本点分为q类，先选取距离最大的两点xi1,xi2为前两个凝聚点，然后选取第3个凝聚点xi3，由于其余所有点与前两个凝聚点都有最短距离，在全部最短距离中选择最长距离，这个距离的两端一个是xi1或xi2，而另一个就是我们要选择的xi3.4、密度法,例4：有15个样品，每个样品有两个经相对化处理后的指标y1,y2，试用密度法先取凝聚点。（距离以欧氏距离计算，球半径为0.3）数据见spssex/ex513在SPSS中计算出距离矩阵，归纳出各样本的密度为：凝聚点为样本6，12，1，13,初始分类,1、人为地分类2、选择凝聚点后，将与其最近的凝聚点归并3、选择凝聚点后，每个凝聚点自成一类，将样本依次归入其距离最近的凝聚点那一类，并立即计算该类的重心，以代替原来的凝聚点，再计算下一个样本的归类。4、先对样本数据标准化，然后计算统计量,这个数接近几，就归入第几类,快速聚类步骤,1、选择分析变量2、指定聚类数目3、选择k个样本作为凝聚点4、按照距初始类中心最小的原则将各观察量分到聚类中心所在的类中去，形成第一步迭代的k类5、计算每类中所有变量的均值，作为第二次迭代的中心6、重复3、4步，直至指定的迭代次数或达到终止的条件例5：仍以例3的数据资料，进行快速聚类（分为4类）,例5：仍以例3的数据资料，进行快速聚类（分为4类）,SPSS,聚类方法的选择：between-groups linkage:组间连接 within-groups linkage:组内连接 nearest neighbor:最近邻法 furthest neighbor:最远邻法 centroid clustering:重心聚类法 median clustering:中位数法 Wards method:离差平方和法,对距离的测度方法选择：Euclidean distance:欧氏距离 squared Euclidean distance:欧氏距离平方 cosine:相似性测度 Pearson correlation:皮尔逊相关 Chebychev:切比雪夫距离 block:绝对距离 Minkowski:明考斯基距离 customized:自定义选择统计表：Dendrogram:树形图 Icicle:冰柱图,推荐阅读,数量经济技术经济研究 2003.7中国可持续发展问题特征研究暨中等发达国家可持续发展模式的聚类分析,有问题，请提问,

注意事项

本文（多元统计应用 (聚类分析).ppt）为本站会员（laozhun）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。