聚类分析的思想课件.ppt
《聚类分析的思想课件.ppt》由会员分享,可在线阅读,更多相关《聚类分析的思想课件.ppt(112页珍藏版)》请在三一办公上搜索。
1、2023/3/24,中国人民大学六西格玛质量管理研究中心,1,多元统计分析,何晓群,中国人民大学出版社,2023/3/24,中国人民大学六西格玛质量管理研究中心,2,第三章 聚类分析,3.1 聚类分析的思想3.2 相似性度量3.3 类和类的特征3.4 系统聚类法3.5 模糊聚类分析3.6 K-均值聚类和有序样本聚类3.7 计算步骤与上机实现3.8 社会经济案例研究,2023/3/24,中国人民大学六西格玛质量管理研究中心,3,第三章 聚类分析,人们往往会碰到通过划分同种属性的对象很好地解决问题的情形,而不论这些对象是个体、公司、产品甚至行为。如果没有一种客观的方法,基于在总体内区分群体的战略选
2、择,比如市场细分将不可能,其他领域也会遇到类似的问题,研究者都在基于一个多维剖面的观测中寻找某种“自然”结构。为此最常用的技巧是聚类分析,聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。本章将介绍聚类分析的性质和目的,并且引导研究者使用各种聚类分析方法。,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,4,3.1 聚类分析的思想,3.1.1 导言在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅
3、凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,5,3.1 聚类分析的思想,目录 上页 下页 返回 结束,我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品
4、(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。,2023/3/24,中国人民大学六西格玛质量管理研究中心,6,3.1 聚类分析的思想,目录 上页 下页 返回 结束,在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。过去人们主要靠经验和专业知识,作定性分类处理,致使许多分类带有主观性和
5、任意性,不能很好的提示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。,2023/3/24,中国人民大学六西格玛质量管理研究中心,7,3.1 聚类分析的思想,目录 上页 下页 返回 结束,为了克服定性分类时存在的不足,数学这个有用的工具逐渐被引进到分类学中,形成数值分类学。后来随着多元分析的引进,聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一
6、起被称为多元分析的三大方法。,2023/3/24,中国人民大学六西格玛质量管理研究中心,8,3.1 聚类分析的思想,目录 上页 下页 返回 结束,3.1.2 聚类的目的在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。【例3.1】若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表3.1。在表中,“标准工资收入”、“职工奖金”、“职工津贴”、“性别”、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数”、“政治面貌
7、”等,指标如何选择取决于聚类的目的。,2023/3/24,中国人民大学六西格玛质量管理研究中心,9,3.1 聚类分析的思想,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,10,3.1 聚类分析的思想,目录 上页 下页 返回 结束,例3.1中的8个指标,前6个是定量的,后2个是定性的。如果分得更细一些,指标的类型有三种尺度间隔尺度。变量用连续的量来表示。有序尺度。指标用有序的等级来表示,有次序关系,但没有数量表示。名义尺度。指标用一些类来表示,这些类之间没有等级关系也没有数量关系。不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔
8、尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。,2023/3/24,中国人民大学六西格玛质量管理研究中心,11,3.1 聚类分析的思想,目录 上页 下页 返回 结束,聚类分析根据实际的需要可能有两个方向,一是对样品(如例3.1中的户主),一是对指标聚类。第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。由于经济问题的复杂性,欲给类下一个严格的定义是困难的,在3.2中,我们将给类一些待探讨的定义。聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:(1)系统聚类法。(2)模糊聚类法。(3)K-均值法。(4)有序样品的聚类。(5)分解法。(6)加入法
9、。,2023/3/24,中国人民大学六西格玛质量管理研究中心,12,3.2 相似性度量,目录 上页 下页 返回 结束,从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性“度量。在相似性度量的选择中,常常包含许多主观上的考虑,但是最重要的考虑是指标(包括离散的、连续的和二态的)性质或观测的尺度(名义的、次序的、间隔的和比率的)以及有关的知识。当对样品进行聚类时,“靠近”往往由某种距离来刻画。另一方面,当对指标聚类时,根据相关系数或某种关联性度量来聚类。,2023/3/24,中国人民大学六西格玛质量管理研究中心,13,3.2 相似性度量,目录 上页 下页 返回 结束,2023
10、/3/24,中国人民大学六西格玛质量管理研究中心,14,3.2 相似性度量,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,15,3.2 相似性度量,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,16,3.2 相似性度量,目录 上页 下页 返回 结束,(1)当各指标的测量值相差悬殊时,先对数据标准化,然后用标准化后的数据计算距离,即兰氏距离。(2)一种改进的距离就是在前面曾讨论过的马氏距离,它对一切线性变换是不变的,不受指标量纲的影响。它对指标的相关性也作了考虑,我们仅用一个例子来说明。,2023/3/24,中国
11、人民大学六西格玛质量管理研究中心,17,3.2 相似性度量,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,18,3.2 相似性度量,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,19,3.2 相似性度量,目录 上页 下页 返回 结束,以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。,2023/3/24,中国人民大学六西格玛质量管理研究中心,20,3.2 相似性度量,目录 上页 下页 返回 结束,定义距离的较灵活的思想方法。【例3.3】欧洲各国的语言有许多相似之处,有的
12、十分相似。为了研究这些语言的历史关系,也许通过比较它们数字的表达比较恰当。表3.3列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的1,2,10的拼法,希望计算这11种语言之间的距离。,2023/3/24,中国人民大学六西格玛质量管理研究中心,21,3.2 相似性度量,目录 上页 下页 返回 结束,显然,此例无法直接用上述公式来计算距离,仔细观察表3.3,发现前三种文字(英、挪、丹)很相似,尤其每个单词的第一个字母,于是产生一种定义距离的办法:用两种语言的10个数词中的第一个字母不相同的个数来定义两种语言之间的距离,例如英语和挪威语中只有1和8的第一
13、个字母不同,故它们之间的距离为2。十一种语言之间两两的距离列于表3.4中。,2023/3/24,中国人民大学六西格玛质量管理研究中心,22,3.2 相似性度量,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,23,3.2 相似性度量,目录 上页 下页 返回 结束,对于间隔尺度,常用的相似系数有:(1)夹角余弦。这是受相似形的启发而来,图3.1中的曲线AB和CD尽管长度不一,但形状相似,当长度不是主要矛盾时,应定义一种相似系数使AB和CD呈现出比较密切的关系。而夹角余弦适合这一要求。,2023/3/24,中国人民大学六西格玛质量管理研究中心,24,3.2
14、相似性度量,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,25,3.2 相似性度量,目录 上页 下页 返回 结束,(2)相关系数。这是大家最熟悉的统计量,它是将数据标准化后的夹角余弦。有时指标之间也可用距离来描述它们的接近程度。实际上距离和相似系数之间可以互相转化,,2023/3/24,中国人民大学六西格玛质量管理研究中心,26,3.3 类和类的特征,目录 上页 下页 返回 结束,目的是聚类,那么什么叫类呢?由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。给类下一个严格的定义,决非易事。下面给出类的适用于不同的场合几个定义。,2023/3/
15、24,中国人民大学六西格玛质量管理研究中心,27,3.3 类和类的特征,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,28,3.3 类和类的特征,目录 上页 下页 返回 结束,易见,定义3.1的要求是最高的,凡符合它的类,一定也是后三种定义的类。此外,凡符合定义3.2的类,也一定是定义3.3的类。,2023/3/24,中国人民大学六西格玛质量管理研究中心,29,3.3 类和类的特征,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,30,3.3 类和类的特征,目录 上页 下页 返回 结束,在聚类分析中,不仅要考虑各
16、个类的特征,而且要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法。,2023/3/24,中国人民大学六西格玛质量管理研究中心,31,3.3 类和类的特征,目录 上页 下页 返回 结束,(1)最短距离法。(nearest neighbor或single linkage method),2023/3/24,中国人民大学六西格玛质量管理研究中心,32,3.3 类和类的特征,目录 上页 下页 返回 结束,(2)最长距离法(farthest neighbor或complete linkage method)。,2023/3/24,中国人民大学六西格玛质量管理研究中心
17、,33,3.3 类和类的特征,目录 上页 下页 返回 结束,(3)类平均法(group average method)。,2023/3/24,中国人民大学六西格玛质量管理研究中心,34,3.3 类和类的特征,目录 上页 下页 返回 结束,(4)重心法(Centroid method)。,(5)离差平方和法(Sum of Squares method)。,2023/3/24,中国人民大学六西格玛质量管理研究中心,35,3.4 系统聚类法,目录 上页 下页 返回 结束,系统聚类法(hierarchical clustering method)在聚类分析中诸方法中用的最多,包含下列步骤:,2023/
18、3/24,中国人民大学六西格玛质量管理研究中心,36,3.4 系统聚类法,目录 上页 下页 返回 结束,不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的例子,来说明各种系统聚类法。【例3.4】为了研究辽宁等5省份2000年城镇居民消费支出的分布规律,根据调查资料作类型划分。指标名称及原始数据见表3.5。资料来源10,2023/3/24,中国人民大学六西格玛质量管理研究中心,37,3.4 系统聚类法,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,38,3.4 系统聚类法,目录 上页 下页 返回 结束,3.4.1 最短距离
19、法和最长距离法 所谓最短距离法就是类与类之间的距离采用(3.12)的系统聚类方法。,2023/3/24,中国人民大学六西格玛质量管理研究中心,39,3.4 系统聚类法,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,40,3.4 系统聚类法,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,41,3.4 系统聚类法,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,42,3.4 系统聚类法,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,4
20、3,3.4 系统聚类法,目录 上页 下页 返回 结束,所谓最长距离法是类与类之间的距离采用(3.13)的系统聚类法。选择最大的距离作为新类与其他类之间的距离,然后将类间距离最小的两类进行合并,一直合并到只有一类为止。上述两方法中,主要的不同是计算新类与其他类的距离的递推公式不同。,2023/3/24,中国人民大学六西格玛质量管理研究中心,44,3.4 系统聚类法,目录 上页 下页 返回 结束,最短距离法也可用于对指标的分类,分类时可以用距离也可以用相似系数。但用相似系数时应找最大的元素并类,计算新类与其他类的距离应使用公式(3.19)。最短距离法的主要缺点是它有链接聚合的趋势,因为类与类之间的
21、距离为所有距离中的最短者,两类合并以后,它与其他类的距离缩小了,这样容易形成一个比较大的类,大部分样品都被聚在一类中,在树状聚类图中,会看到一个延伸的链状结构,所以最短距离法的聚类效果并不好,实际中不提倡使用。,2023/3/24,中国人民大学六西格玛质量管理研究中心,45,3.4 系统聚类法,目录 上页 下页 返回 结束,最长距离法克服了最短距离法链接聚合的缺陷,两类合并以后与其他类的距离是原来两个类中的距离最大者,加大了合并后的类与其他类的距离。,本例中最短距离法与最长距离法得到的结果是相同的。,2023/3/24,中国人民大学六西格玛质量管理研究中心,46,3.4 系统聚类法,目录 上页
22、 下页 返回 结束,3.4.2 重心法和类平均法从物理的观点看,一个类用它的重心(该类样品的均值)做代表比较合理,类与类之间的距离就用重心之间的距离来代表。,2023/3/24,中国人民大学六西格玛质量管理研究中心,47,3.4 系统聚类法,目录 上页 下页 返回 结束,重心法虽有很好的代表性,但并未充分利用各样本的信息,有人建议将两类之间的距离平方定义为这两类元素两两之间的平均平方距离,即类平均法。类平均法是聚类效果较好、应用比较广泛的一种聚类方法。它有两种形式,一种是组间联结法(Between-groups linkage),另一种是组内联结法(Within-groups linkage)
23、。组间联结法在计算距离时只考虑两类之间样品之间距离的平均,组内联结法在计算距离时把两组所有个案之间的距离都考虑在内。,2023/3/24,中国人民大学六西格玛质量管理研究中心,48,3.4 系统聚类法,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,49,3.4 系统聚类法,目录 上页 下页 返回 结束,3.4.3 离差平方和法(或称Ward方法)离差平方和方法是由Ward提出来的,许多资料上称做Ward法。他的思想是来于方差分析,如果类分得正确,同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。,2023/3/24,中国人民大学六西格玛质量
24、管理研究中心,50,3.4 系统聚类法,目录 上页 下页 返回 结束,2023/3/24,中国人民大学六西格玛质量管理研究中心,51,3.4 系统聚类法,目录 上页 下页 返回 结束,离差平方和法放弃了在一切分类中求的极小值的要求,而是设计出某种规格:找到一个局部最优解,Ward法就是找局部最优解的一个方法。其思想是先将n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使增加最小的两类合并,直到所有的样品归为一类为止。,2023/3/24,中国人民大学六西格玛质量管理研究中心,52,3.4 系统聚类法,目录 上页 下页 返回 结束,3.4.4 分类数的确定如何选择分类数是
25、各种聚类方法中的主要问题之一。在K均值聚类法中聚类之前需要指定分类数,谱系聚类法(系统聚类法)中我们最终得到的只是一个树状结构图,从图中可以看出存在很多类,但问题是如何确定类的最佳个数。确定分类数的问题是聚类分析中迄今为止尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,这样就给不出从理论上和实践中都可行的虚无假设。实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。,2023/3/24,中国人民大学六西格玛质量管理研究中心,53,3.4 系统聚类法,目录 上页 下页 返回 结束,Demir-men曾提出了根据树状结构图来分类的准则:准则1:任何类都
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 思想 课件

链接地址:https://www.31ppt.com/p-3835407.html