欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    多元统计分析——基于R语言课件聚类分析.pptx

    • 资源ID:1722116       资源大小:1.92MB        全文页数:24页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析——基于R语言课件聚类分析.pptx

    多元统计分析,中国人民大学:何晓群苏州大学:马学俊,基于R语言,多元统计分析中国人民大学:何晓群基于R语言,聚类分析,学习目标:1.了解适合用聚类分析解决的问题;2.理解对象之间的相似性是如何测量的;3.区别不同的距离;4.区分不同的聚类方法及其相应的应用;5.理解如何选择类的个数;6.简述聚类分析的局限。,03,聚类分析学习目标:03,3.1 聚类分析的基本思想,3.1.1 目的,聚类分析不仅可以用来对样品进行分类,而且可以用来对变量进行分类。对样品的分类常称为型聚类分析,对变量的分类常称为型聚类分析。与多元分析的其他方法相比,聚类分析的方法还是比较粗糙的,理论上也不算完善,但由于它能解决许多实际问题,所以很受实际研究者重视,同回归分析、判别分析一起称为多元分析的三大方法。,3.1 聚类分析的基本思想3.1.1 目的聚类分析不仅可以用,3.1 聚类分析的基本思想,3.1.2 聚类的分类方法,3.1 聚类分析的基本思想3.1.2 聚类的分类方法分类方法,3.2 相似性度量,3.2 相似性度量距离定义,3.2 相似性度量,3.2 相似性度量间隔尺度定义,3.3 类和类的特征,3.3.1 类的定义,用表示类,设中有个元素,这些元素用,等表示。,3.3 类和类的特征3.3.1 类的定义用表示类,设,3.3 类和类的特征,3.3.2 类的特征,3.3 类和类的特征3.3.2 类的特征特征,3.3 类和类的特征,3.3.3 类的距离定义,3.3 类和类的特征3.3.3 类的距离定义定义,3.4 系统聚类法,系统聚类法是聚类分析诸方法中使用最多的。它包含下列步骤:,3.4 系统聚类法系统聚类法是聚类分析诸方法中使用最多的。它,3.4 系统聚类法,3.4.1 最短距离法和最长距离法,3.4 系统聚类法3.4.1 最短距离法和最长距离法,3.4 系统聚类法,3.4.2 重心法和类平均法,3.4 系统聚类法3.4.2 重心法和类平均法,3.4 系统聚类法,3.4.3 离差平方和法,3.4 系统聚类法3.4.3 离差平方和法,3.4 系统聚类法,3.4.4 分类数的确定,聚类分析的目的是要对研究对象进行分类,因此,如何选择分类数成为各种聚类方法中的主要问题之一。实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。德穆曼(Demirmen)曾提出根据树状结构图来分类的准则。准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。准则2:各类所包含的元素都不应过多。准则3:分类的数目应该符合使用的目的。准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。,分类准则,3.4 系统聚类法3.4.4 分类数的确定聚类分析的目的是要,3.5 均值聚类和有序样品的聚类,3.5.1 均值法(快速聚类法),K-均值法主要思想:把每个样品聚集到其最近形心(均值)类中步骤:(1)把样品粗略分成K个初始类。(2)进行修改,逐个分派样品到其最近均值类中(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值)。(3)重复第2步,直到各类无元素进出。注意:样品的最终聚类在某种程度上依赖于最初的划分或种子点的选择。为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如果最终分类与原来一样,则不必再行计算;否则,须另行考虑聚类算法。,3.5 均值聚类和有序样品的聚类3.5.1 均值法(快速聚类,3.5 均值聚类和有序样品的聚类,3.5.2 有序样品的聚类,3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类,3.5 均值聚类和有序样品的聚类,3.5.2 有序样品的聚类,3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类,3.6 模糊聚类分析,3.6.1 模糊聚类的几个基本概念,3.6 模糊聚类分析3.6.1 模糊聚类的几个基本概念,3.6 模糊聚类分析,3.6.2 FCM聚类方法,3.6 模糊聚类分析3.6.2 FCM聚类方法,3.6 模糊聚类分析,3.6.3 FCM聚类算法,3.6 模糊聚类分析3.6.3 FCM聚类算法,3.7 计算步骤与上机实现,系统聚类,快速聚类,模糊聚类用R软件操作具体步骤如下:,(1)分析需要研究的问题,确定聚类分析所需的多元变量;(2)选择对样品聚类还是对指标聚类;(3)选择合适的聚类方法;(4)选择所需的输出结果。,3.7 计算步骤与上机实现系统聚类,快速聚类,模糊聚类用R软,3.7 计算步骤与上机实现,城镇居民消费水平通常用食品、衣着、居住、生活用品及服务、交通通信、文教娱乐、医疗保健和其他用品及服务支出这八项指标来描述,八项指标间可能存在一定的线性关系。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。下表列出了2016年我国分地区 (不含港澳台)城镇居民的人均消费支出的部分原始数据,数据来源于2017年 中国统计年鉴。,X1:食品烟酒支出 X2:衣着支出 X3:居住支出 X4:生活用品及服务支出X5:交通通信支出 X6:教育文化娱乐支出 X7:医疗保健支出 X8:其他用品及服务支出,2016年分地区城镇居民人均消费支出,3.7 计算步骤与上机实现城镇居民消费水平通常用食品、衣着、,3.7 计算步骤与上机实现,对2016年我国分地区 (不含港澳台)城镇居民的人均消费支出,我们采用欧氏距离,分别运用类平均法(组间联结)、最短距离法、最长距离法,对31个省、直辖市、自治区分类。下面详细介绍使用R进行系统聚类的步骤。,3.7 计算步骤与上机实现对2016年我国分地区 (不含港澳,3.7 计算步骤与上机实现,不同聚类方法的聚类结果对比表如下:,由上表可知,当把所有样品分为三类时,类平均法和最长距离法所得到的结果一致,北京,上海为一类,这两个地区的居民平均消费水平最高;天津,江苏,浙江,福建,广东为一类,这些地区的居民平均消费水平居中;其余的地区为一类,居民的平均消费水平较低。但最短距离法将北京和上海分别聚为一类,其余为一类,相对不如类平均法和最长距离法得到的分类结果合理。,3.7 计算步骤与上机实现不同聚类方法的聚类结果对比表如下:,

    注意事项

    本文(多元统计分析——基于R语言课件聚类分析.pptx)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开