主成分分析ppt课件.pptx
《主成分分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《主成分分析ppt课件.pptx(66页珍藏版)》请在三一办公上搜索。
1、主成分分析,11.1 什么是主成分分析及其基本思想,问题的提出: 在对某一事物进行实证分析研究中,为了更全面准确反映出事物的特征及其发展规律,往往考虑与其有关系的多个指标,因此会产生的问题: (1)为避免漏掉重要信息而考虑尽量多的指标 (2)随着考虑指标的增多增加了问题的复杂性,并且多指标之间不可避免会造成信息的大量重叠(相关性),这种重叠有时甚至会掩盖事物的真正特征与内在规律。 目的:,11.1 什么是主成分分析及其基本思想,主成分分析(Principal Component Analysis,PCA)也称为主分量分析,是一种数据降维技术,主成分分析正是研究如何将多个具有较强相关性指标化为少
2、数几个综合指标来解释原来变量绝大多数信息的一种多元统计方法。把转化生成的综合指标称之为主成分。,11.1 什么是主成分分析及其基本思想,例1:某厂商要做一件上衣,需要测量很多尺寸,如 身长,体重,袖长,胸围,腰围,肩宽,肩厚等十几项指标 将多种指标综合成几个少数的综合指标,作为分类的型号,可综合成3项指标:一项反映长度的指标,一项反映胖瘦的指标,一项反映特体的指标。,例2:医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综合总会面临以下问题: 1. 各指标量纲不同,不能直接相加; 2. 各指标间存在相关,直接相加产生信息重
3、叠; 3.相加时需要考虑各指标的权重。,主成分分析的基本思想: 设法将用原来众多具有一定相关性的指标(比如p个)重新组合成一组新的相互无关的综合指标来代替原来指标,同时根据实际需要,从中取几个较少的综合指标(主成分)尽可能多地反映原来指标的信息。,11.1 什么是主成分分析及其基本思想,注: 通常数学上的处理:新的综合指标是原来p个指标的线性组合。指标“信息量”的表达用方差来表示,方差越大,表示该指标包含的信息越多。 因此,在所有的线性组合中选取方差最大的F1作为第一主成分,将方差次大的F2作为第二主成分,且要求Cov(F1,)=0,保证F1中的信息不出现在F2中,以此类推,构造第三、第四,第
4、p主成分。,11.1 什么是主成分分析及其基本思想,11.1 什么是主成分分析及其基本思想,实际工作中,挑选前几个最大的主成分代替原来的指标信息,虽然会损失一部分信息,但是由于我们抓住了主要矛盾,在实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。,原始指标的线性组合,综合指标间不相关,且方差递减,第一主成分,第二主成分,第p主成分,选取前几个最大的主成分代替原来指标的信息,尽可能多地找出相关指标作为原始指标,主成分分析流程图:,11.2 主成分分析数学模型及几何解释,上述方程组要求:,11.2 主成分分析数学模型及几何解释,11.2 主成分分析
5、数学模型及几何解释,用数学语言描述就是要求:,11.2 主成分分析数学模型及几何解释,注:(1)数学模型中用线性组合基于两种原因:数学上容易处理和在实践中效果好。(2)每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi)趋于无穷大,就没有意义了,常用的限制要求就是:,主成分分析的几何解释,平移、旋转坐标轴,如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。,根据旋转变换的公式:,旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某问题时,
6、即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。,11.3 总体主成分的推导及性质,(1)主成分的推导:求主成分就是寻找X的线性函数 使相应的方差尽可能地大,即使,11.3 总体主成分的推导及性质,11.3 总体主成分的推导及性质,11.3 总体主成分的推导及性质,11.3 总体主成分的推导及性质,上述推导表明: X1,X2,Xp的主成分就是以的特征向量为系数的线性组合,它们互不相关,其方差为的特征根。 主成分的名词是按照特征根取值大小的顺序排列的。 在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前K个。,
7、11.3 总体主成分的推导及性质,定义: 称第一主成分的贡献率为 ,由于 ,所以, 因此,第一主成分的贡献率及时第一主成分方差在全部方差中的比值,这个比值越大,表明第一主成分综合X1,X2,Xp信息的能力越强。,11.3 总体主成分的推导及性质,前K个主成分的贡献率(累计贡献率)定义为: 如果前k个主成分的贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。,11.3 总体主成分的推导及性质,(2)主成分性质性质1性质2,11.3 总体主成分的推导及性质,性质3,11.3 总体主成分的推导及性质,性质4,11.3 总体主成
8、分的推导及性质,性质5 此性质说明:上表中Fk对应的每一列关于各变量相关系数的加权平方和为k即Var(Fk)。,11.3 总体主成分的推导及性质,11.4 有关问题的讨论,(一)从协差阵出发还是从相关阵出发求主成分 从协差阵出发求原始数据的协差阵的特征值特征向量的过程。 从相关阵出发求原始数据的相关阵(标准化数据的协差阵)的特征 值特征向量的过程。 从协差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。,11.4 有关问题的讨论,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,一般不直接由其协差阵出发而应该考虑将数据标准化。 原始数据标准化处理后倾向于各
9、个指标的作用在主成分的构成中相等。数据标准化的过程实际上就是抹杀原始变量离散程度差异的过程,标准化后各变量方差相等均等于1,而实际上方差也是对数据信息的重要概括形式,即对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。,11.4 有关问题的讨论,因此从相关阵出发求主成分有其不足之处,实际问题中不可盲目将数据标准化处理,可分别从协差阵和相关阵出发进行求解并研究其结果的差别,看是否有显著差异并分析产生差异的原因,以确定用哪种结果更为可信。,11.4 有关问题的讨论,(二)主成分分析不要求数据来自正态总体 与很多多元统计分析方法不同,主成分分析不要求
10、数据来自于正态总体,主成分分析实际上就是对矩阵结构的分析,主要用到矩阵运算及矩阵对角化技术。,11.4 有关问题的讨论,(三)主成分分析与重叠信息 主成分分析适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。,11.4 有关问题的讨论,主成分分析对重叠信息的剔除是无能为力的。在实际选取初始变量进入分析时,对原始变量存在多重共线性的问题,应用主成分分析方法时要慎重。要考虑选取的初始变量是否合适,如果出于避免漏掉某些
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 ppt 课件

链接地址:https://www.31ppt.com/p-1392486.html