聚类分析(楷体字2014).ppt
《聚类分析(楷体字2014).ppt》由会员分享,可在线阅读,更多相关《聚类分析(楷体字2014).ppt(148页珍藏版)》请在三一办公上搜索。
1、第一节 聚类分析简介第二节 距离和相似系数第三节 系统聚类法第四节 K均值聚类法第五节 SPSS实现,1、什么是聚类?,聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。,早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物。,俗语说,物以类聚、人以群分。,第一节 聚类分析简介,2、聚类分析无处不在,谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以.识别顾客购买模式(如喜欢一大早来买酸奶 和鲜肉,习惯周
2、末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样),挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户 对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传 单命中率更高,成本更低!,2、聚类分析无处不在,谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变 量对客户分类,找出“黄金客户”!这样银行可以 制定更吸引的服务,留住客户!比如:一定额度和期限的免息透资服务!贵宾打折卡!在他或她生日的时候送上一个小蛋糕!,2、聚类分析无处不在,3、什么情况下需要聚类,为什么这样分类?什么是分类的根据?因为每一个类别里面的人消费方式
3、都不一 样,需要针对不同的人群,制定不同的关系 管理方式,以提高客户对公司商业活动的相 应率。,4、聚类的应用领域,经济领域:帮助市场分析人员从客户数据库中发现不 同的客户群,并且用购买模式来刻画不同 的客户群的特征。谁喜欢打国际长途,在什么时间,打到那 里?对住宅区进行聚类,确定自动提款机ATM 的安放位置 股票市场板块分析,找出最具活力的板块 龙头股 企业信用等级分类,生物学领域 推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域 作为其他数学算法的预处理步骤,获得数 据分布状况,集中对特定的类做进一步的 研究,4、聚类的应用领域,5、有贡献的研究领域,数据挖掘 聚类可伸缩性、
4、各种各种复杂形状类的识 别,高维聚类等统计学 主要集中在基于距离的聚类分析,发现球 状类,机器学习 无指导学习(聚类不依赖预先定义的 类,不等同于分类)空间数据技术生物学市场营销学,5、有贡献的研究领域,6、什么情况下需要聚类,以上分析,没有大量的数据去支持,Data Mining就什么都挖不出来。大量的数据不等于大量的垃圾,我们需要针对 客户市场细分所需要的资料。如需要知道白金 持卡人和金卡持卡人的流动率,各自平均消费 水平有多少,等;聚类分析可以辅助企业进行客户细分,但是 Data mining的客户细分不等同于商业领域的细 分,看不懂结果,也可能造成企业管理层无法 对结果善加利用。,判别
5、分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。,7、聚类分析原理介绍,聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是 根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定,聚类方法的目的是寻找数据中:潜在的自然分组结构a structure of“natural”grouping 感兴趣的关系relationship,7、聚类分析
6、原理介绍,什么是自然分组结构Natural grouping?看看以下的例子:有16张牌,如何将 他们分为一组一组 的牌呢?,7、聚类分析原理介绍,分成四组每组里花色相同组与组之间花色相异,花色相同的牌为一副,7、聚类分析原理介绍,分成四组符号相同的牌为一组,符号相同的的牌,7、聚类分析原理介绍,分成两组颜色相同的牌为一组,颜色相同的配对,7、聚类分析原理介绍,这个例子告诉我们,分组的意义在于 我们怎么定义并度量“相似性”Similar因此衍生出一系列度量相似性的算法,7、聚类分析原理介绍,相似性Similar的度量(统计学角度)距离Q型聚类 主要用于对样本分类 常用的距离有(只适用于具有间隔
7、尺度变 量的聚类):明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)兰氏距离 马氏距离 斜交空间距离,7、聚类分析原理介绍,相似系数R型聚类 用于对变量分类,可以用变量之间的相似 系数的变形如1rij定义距离,7、聚类分析原理介绍,第二节 距离和相似系数,相似性度量:距离和相似系数。,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。,样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。,1、变量的测量尺度,通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。,间隔尺度变量:变量用连续的量来表示,如长 度、重量、速度、温度等
8、。,有序尺度变量:变量度量时不用明确的数量表 示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。,名义尺度变量:变量用一些类表示,这些类之 间既无等级关系也无数量关系,如性别、职业、产品的型号等。,本章主要讨论具有间隔尺度变量的样品聚类分析方法。,2、距离,设xij为第i个样品的第j个指标,数据矩阵如表,当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令,dij-第i个样品与第j个样品之间的距离,3、常用点间距离,(1)Minkowski距离,当q=1时即为绝对值距离(Block):,(1)Minkowski距离,当q=2时即
9、为欧式距离:,当q=时即为Chebychev距离:,Minkowski距离有以下两个缺点:,明氏距离的数值与指标的量纲有关。当各变量的测量值相差悬殊时,常发生“大数吃小数”的现象,为消除量纲的影响,通常先将每个变量进行标准化。,明氏距离的定义没有考虑各个变量之间相关性的影响。,(2)标准化的欧式距离,(3)马氏距离,马氏距离又称为广义欧氏距离。马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。马氏距离不受指标量纲及指标间相关性的影响。,(4)距离矩阵,dij-第i个样品与第j个样品之间的距离,实例计算,绝对值距离
10、:,实例计算,欧式距离:,聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。,4、相似系数,cij-第i个变量与第j个变量的相似系数,5、常用相似系数,(1)夹角余弦,(2)Pearson相关系数,当对变量标准化之后,则夹角余弦与相关系数一样.,(3)相似系数矩阵,cij-第i个变量与第j个变量的相似系数,实例计算,夹角余弦:,实例计算,Pearson相关系数:,相似系数除常用来度量变
11、量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。,由距离来构造相似系数总是可能的,如令,这里dij为第i个样品与第j个样品的距离,显然cij 满足定义相似系数的三个条件,故可作为相似系数。,距离必须满足定义距离的四个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵(cij)为非负定时,如令,则dij满足距离定义的四个条件。,第三节 系统聚类法,系统聚类也叫层次聚类,是聚类分析诸方法 中用得最多的一种。基本思想是:开始将每个样品各自作为一 类,并规定样品之间的距离和类与类之间的 距离,然后将距离最近的两类合并成一个新 类,计算新类
12、与其他类的距离;重复进行两 个最近类的合并,每次减少一类,直至所有 的样品合并为一类。,常用的系统聚类方法,1、最短距离法(single linkage)2、最长距离法(complete linkage)3、中间距离法(median method)4、类平均法(average linkage)5、重心法(centroid method)6、Ward离差平方和法(Wards minimum-variance method),上述 6 种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。,1、最短距离法,定义类GK与类GL之间的距离为两类最近样品间的距离,即,最短距离法的聚类步骤,Step
13、 1 规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵。,Step 2 选择 D(0)中的最小元素,设为DKL,则将GK和GL合并成一个新类,记为GM,即,Step 3 计算新类GM与任一类GJ之间距离的递推公式为,在D(0)中,GK和GL所在的行和列合并成一个新行新列,对应GM,计算该行列上的新距离值,其余行列上的距离值不变,这样就得到新的距离矩阵,记作D(1)。,Step 4 对D(1)重复上述对D(0)的两步得D(2),如此下去直至所有元素合并成一类为止。如果某一步D(m)中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。
14、,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距离Dij(采用欧式距离)得距离矩阵,D(0)中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1):,D(1)中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2):,D(2)中最小值为D36,合并G3和G6为G8,重新计算距离矩阵D(3),最后将G8和G7合并为G9,所有合为一类,过程终止。,按聚类的过程画聚类谱系图,观察此图,我们可以把5个样品分为3类:,2、最长距离法,定义类GK与类GL之间
15、的距离为两类最远样品间的距离,即,最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。,递推公式:,最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距离Dij(采用欧式距离)得距离矩阵,D(0)中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1):,D(1)中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2):,D(2)中最小值为D36
16、,合并G3和G6为G8,重新计算距离矩阵D(3),最后将G8和G7合并为G9,所有合为一类,过程终止。,按聚类的过程画聚类谱系图,观察此图,我们可以把5个样品分为3类:,3、中间距离法,类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。,设某一步将GK和GL合并为GM,对于任一类GJ,考虑由DKJ、DLJ和DKL为边组成的三角形,取DKL边中线作为DMJ。由余弦定理可得,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距
17、离Dij(采用欧式距离)得距离矩阵,D(0)2中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1)2:,D(1)2中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2)2:,D(2)2中最小值为D36,合并G3和G6为G8,重新计算距离矩阵D(3)2,最后将G8和G7合并为G9,所有合为一类,过程终止。,按聚类的过程画聚类谱系图,观察此图,我们可以把5个样品分为3类:,4、类平均法,类平均法(average linkage)有两种定义,一种定义为将类与类之间的距离定义为所有样品对之间的平均距离,即定义GK和GL之间的距离为,nK和nL分别为GK和GL之中的样品个数。可以得
18、到它的一个递推公式:,另一种定义为将类与类之间的平方距离为所有样品对之间的平方距离的平均值,即定义GK和GL之间的距离为,递推公式:,类平均法较好地利用了所有样品之间的信息,在很多情况下被认为是一种比较好的系统距离法。,例 设抽取5个样品,每个样品观察2个指标,x1:您每月大约喝多少瓶啤酒,x2:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。,计算5个样品两两之间的距离Dij(采用欧式距离)得距离矩阵,D(0)2中最小值为D45,合并G4和G5为G6,重新计算距离矩阵D(1)2:,D(1)2中最小值为D12,合并G1和G2为G7,重新计算距离矩阵D(2)2:,D(2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 楷体 2014

链接地址:https://www.31ppt.com/p-6018505.html