《应用多元分析》第三版(第六章聚类分析)ppt课件.ppt
《《应用多元分析》第三版(第六章聚类分析)ppt课件.ppt》由会员分享,可在线阅读,更多相关《《应用多元分析》第三版(第六章聚类分析)ppt课件.ppt(74页珍藏版)》请在三一办公上搜索。
1、第六章 聚类分析,6.1 引言6.2 距离和相似系数6.3 系统聚类法6.4 动态聚类法,6.1 引言,判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。,相似性的不同定义,6.2 距离和相似系数,相似性度量:距离和相似系数。距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这
2、些定义与变量的类型有着非常密切的关系。,变量的测量尺度,通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。本章主要讨论具有间隔尺度变量的样品聚类分析方法。,一、距离,设xij为第i个样品的第j个指标,数据矩阵列于表6.2.1。,表6.2.1 数据矩阵,距离dij一般应满足的四个条件,(i) dij0,对一切i,j;(
3、ii) dij=0,当且仅当第i个样品与第j个样品的各变量值相同;(iii) dij=dji,对一切i,j;(iv) dijdik+dkj,对一切i,j,k。,常用的距离,1.明考夫斯基(Minkowski)距离2.兰氏(Lance和Williams)距离3.马氏(Mahalanobis)距离4.斜交空间距离,1.明考夫斯基距离,第i个样品与第j个样品间的明考夫斯基距离(简称明氏距离)定义为这里q为某一自然数。明氏距离有以下三种特殊形式:(i)当q=1时, ,称为绝对值距离,常被形象地称作“城市街区”距离;(ii)当q=2时, ,称为欧氏距离,这是聚类分析中最常用的一个距离;(iii)当q=时
4、, ,称为切比雪夫距离。,绝对值距离图示,对各变量的数据作标准化处理,当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令 其中 和 分别为第j个变量的样本均值和样本方差。,2.兰氏距离,当xji0,j=1,2,n,i=1,2,p时,可以定义第i个样品与第j个样品间的兰氏距离为这个距离与各变量的单位无关。由于它对大的异常值不敏感,故适用于高度偏斜的数据。明氏距离和兰氏距离都没有考虑变量间的相关性,因此这两种距离更适合各变量之间互不相关的情形。,3.马氏距离,第i个样品与第j个样品间的马氏距离为其中xi=(xi1,xi2, ,xip),xj=(xj1
5、,xj2, ,xjp),S为样本协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关。但马氏距离有一个很大的缺陷,就是马氏距离公式中的S难以确定。没有关于不同类的先验知识,S就无法计算。因此,在实际聚类分析中,马氏距离不是理想的距离。,名义尺度变量的一种距离定义,例6.2.1 某高校举办一个培训班,从学员的资料中得到这样六个变量:性别(x1),取值为男和女;外语语种(x2),取值为英、日和俄;专业(x3),取值为统计、会计和金融;职业(x4),取值为教师和非教师;居住处(x5),取值为校内和校外;学历(x6),取值为本科和本科以下。现有两名学员: x1=(男,英,
6、统计,非教师,校外,本科)x2=(女,英,金融,教师,校外,本科以下)这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m1,不配合的变量数为m2,则它们之间的距离可定义为故按此定义本例中x1 与x2 之间的距离为2/3。,二、相似系数,聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间的相似性程度就
7、越高;反之,则越低。聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。,相似系数一般需满足的条件,(1)cij=1,当且仅当xi=axj+b,a(0) 和b是常数; (2)|cij|1,对一切i,j; (3)cij=cji,对一切i,j。,两个向量的夹角余弦,1.夹角余弦,变量xi与xj的夹角余弦定义为它是Rn中变量xi的观测向量(x1i,x2i,xni)与变量xj的观测向量(x1j,x2j,xnj)之间夹角ij的余弦函数,即cij(1)=cosij。,2.相关系数,变量xi与xj的相关系数为如果变量xi与xj是已标准化了的,则它们间的夹角余弦就是相关系数。,相似系数除常用来度
8、量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。由距离来构造相似系数总是可能的,如令 这里dij为第i个样品与第j个样品的距离,显然cij满足定义相似系数的三个条件,故可作为相似系数。距离必须满足定义距离的四个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵(cij)为非负定时,如令 则dij满足距离定义的四个条件。,6.3 系统聚类法,系统聚类法(hierarchical clustering method)是聚类分析诸方法中用得最多的一种。基本思想是:开始将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然
9、后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。 本节介绍的八种系统聚类方法,其区别在于类与类之间距离的计算方法不同。,一开始每个样品各自作为一类,6.3 系统聚类法,一、最短距离法 二、最长距离法三、中间距离法四、类平均法五、重心法六、离差平方和法(Ward方法) 七、系统聚类法的统一八、类的个数,一、最短距离法,定义类与类之间的距离为两类最近样品间的距离,即,图6.3.1 最短距离法:DKL=d23,最短距离法的聚类步骤,(1)规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵。(2)选择D(0)
10、中的最小元素,设为DKL,则将GK和GL合并成一个新类,记为GM,即GM= GKGL。 (3)计算新类GM与任一类GJ之间距离的递推公式为,递推公式的图示理解,最短距离法的聚类步骤,在D(0)中,GK和GL所在的行和列合并成一个新行新列,对应GM ,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作D(1) 。(4)对D(1)重复上述对D(0)的两步得D(2) ,如此下去直至所有元素合并成一类为止。,如果某一步D(m)中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。最短距离法最容易产生结。由于最短距离法
11、是用两类之间最近样本点的距离来聚的,因此该方法不适合对分离得很差的群体进行聚类,例6.3.1 设有五个样品,每个只测量了一个指标,分别是1,2,6,8,11,试用最短距离法将它们分类。记G1=1,G2=2,G3=6,G4=8,G5=11,样品间采用绝对值距离。,表6.3.1 D(0),其中G6= G1G2,其中G7= G3G4,表6.3.2 D(1),表6.3.3 D(2),其中G6= G1G2,表6.3.4 D(3),图6.3.2 最短距离法树形图,二、最长距离法,类与类之间的距离定义为两类最远样品间的距离,即,图6.3.3 最长距离法: DKL=d15,最长距离法与最短距离法的并类步骤完全
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用多元分析 应用多元分析第三版第六章 聚类分析ppt课件 应用 多元 分析 第三 第六 聚类分析 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1400643.html