多元统计分析聚类分析.ppt
《多元统计分析聚类分析.ppt》由会员分享,可在线阅读,更多相关《多元统计分析聚类分析.ppt(107页珍藏版)》请在三一办公上搜索。
1、Cluster Analysis,第五章聚类分析,第一节什么是聚类分析,聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。与多元分析的其他方法相比,该方法理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,应用方面取得了很大成功。,举 例,对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。,应聘者得分如下,例如,对上市公司的经营业绩进行分类;例如,根据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。例如,当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由
2、于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。,聚类分析内容,系统聚类 动态聚类 模糊聚类 图论聚类,第二节距离和相似系数,描述亲疏程度有两个途径:1、把每个样品看成p维(变量的个数为 p个)空间的一个点,在p维坐标中,定义点与点之间的距离。2、用某种相似系数来描述样品之间的亲 疏程度。,变量的类型,变量按测量尺度的不同可以分为以下三类:1、间隔尺度变量(数值型变量)用连续的数量来度量,如长度、重量、产值、成本 2、有序尺度变量(有序变量)如一、二、三等品 不能用明确的数量度量,用等级表示,有次序关系。3、名义尺度变量 用一些类来表示。性
3、别中的男与女,职业的分类。,聚类的种类,根据分类的对象可将聚类分析分为:(1)Q型(即样品的聚类clustering for individuals)(2)R型(即变量或指标的聚类clustering for variables),1、对样品分类(Q型)常用的距离与相似系数的定义,样本资料矩阵,样本资料矩阵,(1)距离,假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij,定义距离的准则,定义第i个和第j个样品间的距离要求满足如下四个条件(距离可以自己定义,只要满足距离的条件):,距离矩阵,样品间距离矩阵,明氏
4、(Minkowski)距离,绝对值距离,绝对值距离实例,欧式(Euclidian)距离,二维空间欧式距离,欧氏Euclidian距离实例,切比雪夫距离,变量标准化,标准化欧式距离,马氏Mahalanobis 距离,Mahalanobis 距离实例,兰氏 Canberra距离,距离矩阵,样品间距离矩阵,例 题,学生的身高与体重资料,(2)相似系数,研究样品间的关系常用距离,研究指标(变量)间的关系常用相似系数。相似系数常用的有:夹角余弦与相关系数,2、对指标(变量)分类(R型),相似系数的定义,夹角余弦(Cosine),相似矩阵,变量间相似矩阵,相关系数,相似矩阵,第三节 八种系统聚类方法(hi
5、erarchical clustering method),将n个样品各作为一类,系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤进行:,计算n个样品两两之间的距离,构成距离矩阵,合并距离最近的两类为一新类,计算新类与当前各类的距离。再合并、计算,直至只有一类为止,画聚类图,解释,类与类之间的距离,1.最短距离法(single linkage)2.最长距离法(complete linkage)3.中间距离法(median method)4.重心法(centroid method)5.类平均法(average linkage)6.可变类平均法(flexible-beta method)7.
6、可变法8.离差平方和法(Wards minimum-variance method),(一)最短距离法(single linkage,nearest neighbor),类类间:两类间两两 样品距离最短,递推公式,例1,设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离),D(0),表1,D(1),表2,D(2),表3,D(3),表4,聚类谱系图,最短距离法聚类的步骤,1、定义样品之间的距离,计算初始距离矩阵D(0)2、找出D(0)中非对角线上的最小值,设为Dpq,将对应的两类Gp和Gq合并成一个新类,记为Gr,即Gr=(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 聚类分析

链接地址:https://www.31ppt.com/p-6308045.html