欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第十五章聚类分析.ppt

    • 资源ID:4747667       资源大小:386.03KB        全文页数:18页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第十五章聚类分析.ppt

    第十五章 聚类分析,上海第二医科大学生物统计教研室,聚类分析的意义,第一节 聚类分析的基本概念 聚类分析(Cluster analysis)又称集群分析,它是研究“物以类聚”的一种数理统计方法。聚类分析可将一些观察对象依据某些特征加以归类。例如临床上为修复耳缺损,可先以正常耳朵的耳长、耳宽、耳外展距等指标为依据,对耳朵进行聚类分析,把正常耳朵划分成几类,然后找出各类之标准化耳朵,以供临床修复各种耳缺损病员时参考。,聚类分析和判别分析的比较,判别分析时总体中各类别的划分是十分清楚的。判别分析需要知道一批已知分类的训练样品,在此基础上建立判别函数,所以它是有师可循的方法。聚类分析时总体中各类别的划分是不清楚的,甚至到底应分成几类也不知道,用于聚类分析的原始数据中没有类别变量,所以是无师可循的统计分析方法。,聚类分析的方法,系统聚类法:用于对小样本的样品间聚类及对指标聚类。逐步聚类法或称快速聚类法:用于对大样本的样品间聚类。有序样品聚类法:用于对有排列次序的样本的样品间聚类,要求必须是次序相邻的样品才能聚在一类。,聚类分析的方法,模糊聚类法:建立在模糊数学基础上的对样品间聚类的方法,适用于小样本。分割聚类法:适用于对指标聚类,聚类统计量,定义:在聚类分析中反映样品或变量间关系亲疏程度的统计量称为聚类统计量,常用的聚类统计量分为距离和相似系数两种。距 离:用于对样品的聚类。常用欧氏距离,在求距离前,需把指标进行标准化。相似系数:常用于对变量的聚类。一般采用相关系数。,第二节 系统聚类法(systematic cluster method)基本思想:首先定义样品间距离及类与类之间的距离;开始时每个样品各看成一类,将距离最近的两类合并;重新计算新类与其它类的距离,再将距离最近的两类合并;再计算新类与其它类的距离,这样一步步的进行下去,每一步减少一类,直至所有的样品都合并成一类为止。,二 系统聚类法,系统聚类法,整个聚类过程可作成聚类图或树状谱(tree diagram),按树状谱作出适当的分类。类与类之间的距离有各种不同的定义方法。定义不同即产生不同的算法。而不同的算法可能聚得不同的结果。实践中可用不同的方法,聚得多个结果,然后根据专业知识选择较合理的分类结果。,类与类间距离定义方法,类与类之间距离定义方法:最短距离法(single linkage):类与类之间距离定义为两类间样品距离的最小值。最长距离法(complete linkage):类与类之间距离定义为两类间样品距离的最大值。,类与类间距离定义方法,重心法(centroid method):类与类之间距离定义为两类的重心之间的距离。类平均法(average linkage):类与类之间距离定义为两类间样品距离的平均值。,定义类与类之间距离方法示意图:,A2 A1*,B2 B1*B3*,A类 B类,类与类间距离定义方法,类与类间距离定义方法,中间距离法(median method)可变类平均法(flexible-beta method)、Mcquitty的相似分析法(Mcquittys similarity analysis)Ward离差平方和法(Wards minimum-variance method)、最大似然估计法(EML)、密度估计(density linkage)两阶段密度估计法(two-stage density linkage),快速聚类法原理,第三节 快速聚类法 它首先选择一些初始凝聚点,把这些凝聚点作为今后聚类的核心;接着把每个样品根据欧氏距离归入到与该样品最近的凝聚点所代表的类,以构成暂时的类;再用这些暂时的类的重心代替初始凝聚点作为新的凝聚点,再一次把每个样品归入到与该样品最近的凝聚点所代表的类,构成新的暂时的类,这样一直进行下去,直至分成的类再没有什么变化为止。,快速聚类法原理,初始凝聚点可以人为地凭经验选择,以这些初始凝聚点建立一个数据文件,在FASTCLUS的SEED=选择项中输入该数据文件即可。初始凝聚点也可由FASTCLUS过程自动选择。如果由过程自动选择初始凝聚点则需在选择项MAXCLUSTERS=k(或MAXC=k)中给出所允许分类的最大个数,选用不同的k值可得到不同的聚类结果,根据专业知识和实际应用的需要,从中选择较合理的分类结果。,快速聚类法原理,注意:快速聚类法须调用FASTCLUS过程,但FASTCLUS过程没有对指标进行标准化的功能,因此,须先用STANDARD过程对聚类指标进行标准化,然后再调用FASTCLUS过程进行快速聚类分析。,指标分割聚类法原理,第四节 对指标的分割聚类法 分割聚类的过程如下:首先给出一个初始分类,然后重复以下步骤:(1)挑选一个欲分割的类,这个被分割的类的类内差异最大。(2)把选中的类分割成两个类。再根据某准测把此类中所有变量分别归入这两个类。这种分割过程一直进行下去,直至达到某种分割停止准则为止。,指标分割聚类法原理,分割停止准则可为:(1)已达到了用户指明的所期望分类 的最大个数。可用MAXC=变量数。(2)每类类成份所能解释的方差所占 比例都大于某指定值。(3)每类第二特征根均小于某指定值。第(2)和(3)意味着每个类别内各指标间的关系都很密切,不需要再进一步分割。PROC VARCLUS有很多选择项,但用缺省值通常就能够得出很好的结果,因而在一般情况下均使用缺省说明。,指标分割聚类法原理,初始分类可由用户给出,可指定某些变量作为初始分类。如果没有提供初始分类情况,SAS的VARCLUS过程开始把所有变量都合为一个类,然后开始分割。VARCLUS过程也可根据用户的要求使不同层次的类,构成一个系统结构,即相当于系统聚类,用户可选用HIERARCHY选择项达到此要求,其聚类过程的树状结构可用选择项OUTTREE=SAS数据集,输出到数据集中,进一步用TREE过程画出聚类图。,

    注意事项

    本文(第十五章聚类分析.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开