(ppt)主成分分析.ppt
《(ppt)主成分分析.ppt》由会员分享,可在线阅读,更多相关《(ppt)主成分分析.ppt(89页珍藏版)》请在三一办公上搜索。
1、zf,第五章 主成分分析(Principal Components Analysis),本章重点,什么是主成分和主成分分析?理解主成分分析的基本思想和几何意义?理解并掌握基于协方差矩阵或相关系数矩阵求解主成分?如何确定主成分个数?如何解释主成分?掌握运用SPSS软件求解主成分对软件输出结果进行正确分析,2023/2/21,2zf,多个指标的问题:1、指标与指标可能存在相关关系 信息重叠,分析偏误2、指标太多,增加问题的复杂性和分析难度 如何避免?,2023/2/21,3zf,5.1 主成分分析的基本思想,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利
2、用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。,更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,2023/2/21,5zf,主成分分析:将原来具有相关关系的多个指标简化为少数几个新的综合指标的多元统计方法。,主成分:由
3、原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。,主成分与原始变量之间的关系:(1)主成分保留了原始变量绝大多数信息。(2)主成分的个数大大少于原始变量的数目。(3)各个主成分之间互不相关。(4)每个主成分都是原始变量的线性组合。,2023/2/21,6zf,5.2 数学模型与几何解释数学模型,假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独
4、立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,2023/2/21,7zf,原始指标的线性组合Fi:满足如下的条件:1、每个主成分的系数平方和为1。即 2、主成分之间相互独立,即无重叠的信息。即 3、主成分的方差依次递减,重要性依次递减,Why?,2023/2/21,8zf,假设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。如图所示:,5.2 数学模型与几何解释几何解释,平移、旋转坐标轴,2023/2/21,9zf,由图可以看出这n个样本点无论是沿着x
5、l 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。,Fl轴方向上的离散程度最大,即Fl的方差最大。说明变量Fl代表了原始数据的绝大部分信息,即使不考虑变量F2也无损大局。,2023/2/21,10zf,平移、旋转坐标轴,2023/2/21,11zf,平移、旋转坐标轴,2023/2/21,12zf,根据旋转变换的公式:,2023/2/21,
6、13zf,旋转变换的目的:将原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。主成分分析的几何意义:主成分分析的过程也就是坐标旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,新坐标系中各坐标轴的方向就是原始数据方差最大的方向。,其优点:(1)可达到简化数据结构的目的。(2)新产生的综合变量Fl,F2具有不相关的性质,从而避免了信息重叠所带来的虚假性。,2023/2/21,14zf,了解了主成分分析的基本思想、数学和几何意义后,问题的关键:1、如何进行主成分分析?(主成分分析的方法)基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的
7、量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。2、如何确定主成分个数?主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。3、如何解释主成分所包含的经济意义?,2023/2/21,15zf,主成分分析的目标:1、从相关的X1,X2,Xk,求出相互独立的新综合变量(主成分)Y1,Y2Yk。2、Y(Y1,Y2Yk)的方差(反映信息的含量无遗漏或损失的指标)等于X(X1,X2Xk)的方差。X与Y之间的计算关系是:,5.35.5 主成分的求解及其性质,如何求解主成分?,2023/2/21,16zf,矩阵知识回顾:
8、,(1)特征根与特征向量A、若对任意的k阶方阵C,有数字 与向量 满足:,则称 为C的特征根,为C的相应于 的特征向量。B、同时,方阵C的特征根 是k阶方程 的根。(2)任一k阶方阵C的特征根 的性质:,2023/2/21,17zf,(3)任一k阶的实对称矩阵C的性质:A、实对称矩阵C的非零特征根的数目C的秩B、k阶的实对称矩阵存在k个实特征根C、实对称矩阵的不同特征根的特征向量是正交的D、若 是实对称矩阵C的单位特征向量,则若矩阵,是由特征向量 所构成的,则有:,2023/2/21,18zf,基于协方差矩阵求解主成分,假设有n个样本,每个样本有 p 个观测变量。运用主成分分析构造以下 p 个
9、主成分关于原始变量的线性组合模型:,这就是正交旋转变换矩阵,2023/2/21,19zf,假设p个原始变量的协方差阵为:,这是个什么矩阵?,对角线外的元素不为0意味着什么?,2023/2/21,20zf,对角线外的元素不全为0,意味着原始变量 x1,x2,xp存在相关关系。如何运用主成分分析将这些具有相关关系的变量转化为没有相关关系的新变量(主成分)呢?新变量之间没有相关关系,则意味着它的方差协方差阵为对角矩阵:,如何将 x 转化为并计算出新变量(主成分)?,2023/2/21,21zf,因为x 为正定对称矩阵,所以依据线性代数的知识可知有正交矩阵 A 将x 旋转变换为:,为协方差阵x的特征根
10、A为协方差阵x的特征根所对应的特征向量。,如何计算x的特征根和特征向量A?,x的特征根 1,2,p 分别代表主成分F1,F2,FP的方差;且1 2 p 正交变换矩阵A是 原始变量协方差阵x的特征根对应的特征向量,且满足 AA=1.,2023/2/21,22zf,基于协方差矩阵求解主成分的步骤,1、计算协方差矩阵和其特征根2、计算协方差矩阵特征根对应的特征向量3、第一主成分的系数等于协方差矩阵的第一大特征根对应的特征向量 第二主成分的系数等于协方差矩阵的第二大特征根对应的特征向量,等等,2023/2/21,23zf,4、计算累积贡献率,给出恰当的主成分个数。5、计算所选出的k个主成分的得分。将原
11、始数据的中心化值:代入前k个主成分的表达式,分别计算出各样本k个主成分的得分。,2023/2/21,24zf,例1:假设已知 的协方差阵:请基于协方差阵求解主成分以及各主成分的方差贡献率、累计方差贡献率。,2023/2/21,25zf,()求协方差矩阵的特征根依据求解()求特征根对应的特征向量,2023/2/21,26zf,()主成分:()各主成分的贡献率及累计贡献率:第一主成分贡献率:第二主成分贡献率:第三主成分贡献率:第一和第二主成分的累计贡献率:,2023/2/21,27zf,例2:已知原始变量 的协方差阵为:求解主成分以及各主成分的方差贡献率、累计方差贡献率。,2023/2/21,28
12、zf,()求协方差矩阵的特征根()求特征根对应的特征向量,2023/2/21,29zf,设第一特征根对应的特征向量为:则有:,依据 有:,2023/2/21,30zf,类似可计算出第二,第三特征根对应的特征向量:第一,二,三主成分表达式:,2023/2/21,31zf,由前面的特征根可计算各主成分的贡献率及累计贡献率:第一主成分贡献率第二主成分贡献率:,2023/2/21,32zf,1、主成分的协方差阵为对角矩阵;2、3、4、第j个主成分的方差贡献为:,主成分包含了原始变量的所有信息,协方差矩阵求解中主成分的性质,该比率为第j个主成分方差与原始变量的总方差之比。,2023/2/21,33zf,
13、k 个主成分的累积方差贡献率为:累积方差贡献率越接近1,表示k 个主成分包含原始变量的信息越多。5.主成分载荷:6.主成分Fj与原始变量Xi相关系数的平方:(1)可看作为第j 个主成分可解释Xi多少比率的信息(2)可看作为Xi在第j 个主成分中的相对重要性,见书162页证明,2023/2/21,34zf,基于相关系数矩阵求解主成分,假设p个原始变量的相关系数矩阵阵为:注意(1):相关系数矩阵可看作原始变量协方差阵的标准化形式,即:原始变量标准化的协方差矩阵。注意(2):运用主成分分析法时,若原始变量量纲不一致时,需对变量进行标准化处理基于协方差阵求解主成分;若不标准化则基于相关系数矩阵求解主成
14、分。,这是个对称矩阵,对角线外元素不全为0,见5.5.1例51(P168-170),2023/2/21,35zf,量纲对于主成分分析的影响及消除方法对数据进行标准化处理,以使每一个变量的均值为0,方差为1。数据标准化后,总体的协方差矩阵与总体的相关系数相等。,2023/2/21,36zf,计算步骤:1、计算相关系数矩阵.2、计算相关系数矩阵的特征根 3、计算相关系数矩阵特征根对应的特征向量 4、第一主成分的系数等于相关系数矩阵的第一大特征根对应的特征向量 第二主成分的系数等于相关系数矩阵的第二大特征根对应的特征向量 5、计算累积贡献率,给出恰当的主成分个数。6、计算所选出的k个主成分的得分及前
15、k个主成分的表达式:,2023/2/21,37zf,例题1:企业经济效益综合分析。用5个经济指标 进行考核。用相关系数矩阵法求解主成分。其中计算出的相关系数矩阵为:,2023/2/21,38zf,(1)计算其特征值:(2)各特征值的累计方差贡献率为:(3)从以上方差贡献率看,k=2时主成分个数较为合适。对应的特征向量为:,2023/2/21,39zf,(4)建立第一和第二主成分:,2023/2/21,40zf,相关系数矩阵求解中主成分的性质,1、主成分的协方差矩阵为对角阵.2.3、4、第k个主成分的方差贡献率为:前k个主成分的累积方差贡献率为:5、主成分载荷:6、主成分载荷的平方:,在解释第j
16、个主成分的意义上起着重要作用,(1)可看作为第j 个主成分可解释Xi多少比率的信息(或:Xi 的信息有多少可被第j个主成分解释);(2)可看作为Xi在第j 个主成分中的相对重要性。,2023/2/21,41zf,主成分个数的确定,累积方差贡献率(Cumulative variance explained by components):通常要求累积方差贡献率达到85%以上来确定主成分个数。特征根(eigenvalue):根据特征根来确定;数据标准化情况下:碎石图(Scree plot):依据特征值的变化来确定,即特征值变化趋势图由陡坡变为平坦的转折点即为主成分选择的最佳个数。,2023/2/21
17、,42zf,主成分的解释,运用主成分载荷解释主成分:陈耀辉,景睿沪深股市市场收益率成因的主成份分析,南京航空航天大学学报,2000年2期。蒋亮,罗汉我国东西部城市经济实力比较的主成分分析,经济数学,2003年3期。运用主成分得分系数矩阵解释主成分:王冬我国外汇储备增长因素主成分分析,北京工商大学学报,2006年4期。田波平等主成分分析在中国上市公司综合评价中的作用,数学的实践与认识,2004年4期,2023/2/21,43zf,基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三支股票(Allied Chemical,du Pont,Union Carbide)和石油产业的2支股票(
18、Exxon and Texaco)做了100周的收益率调查(1975年1月1976年10月)。1)利用相关系数矩阵做主成分分析。2)决定要保留的主成分个数,并解释意义。,主成分解释的案例分析,2023/2/21,44zf,(1)相关系数矩阵:,运用主成分分析法进行分析得到以下结果:,(2)相关系数矩阵的特征根:Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0
19、.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295.0.068590 1.00000(3)特征根所对应的特征向量:Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605-.240339-.611705 0.386635-.451262 X2 0.457108-.509305 0.178189 0.206474 0.676223 X3 0.470176-.260448 0.3350
20、56-.662445-.400007 X4 0.421459 0.525665 0.540763 0.472006-.175599 X5 0.421224 0.581970-.435176-.382439 0.385024,2023/2/21,46zf,(4)前两大主成分的累积方差贡献率:,(5)前两大主成分的表达式:,2023/2/21,47zf,(6)碎石图:,2023/2/21,48zf,主成分的解释:1、第一大主成分PRIN1几乎是5只股票的等权平均;可将它看做股票收益率的“市场影响因素”(market component)2、第二大主成分PRIN2 系数在AC,DP,UC(chemi
21、cal stocks)等3只股票上表现为负,而在 EX,TE(oil stocks)等两只股票的系数表现为正;可将它看作为股票收益率的“行业影响因素”(industry component),2023/2/21,49zf,5.5 主成分分析求解应注意的问题:,5.5.1 由协方差矩阵出发求解主成分所得的结果与由相关系数矩阵求解主成分所得结果有很大不同:所得的主成分的方差贡献率与主成分表达式均有显著差别。(1)一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,不直接由其协方差矩阵进行主成分分析,而应该考虑将数据标准化。(若不标准化,则基于相关系数矩阵进行主成分分析)例:对上市公司
22、的财务状况进行分析时,常常涉及利润总额、市盈率、每股净利率等。其中利润总额取值常在几十万到上百万或千万,市盈率一般取值在五到六七十之间,而每股净利率在1以下,不同指标取值范围相差很大,若直接用协方差矩阵进行主成分分析,利润总额的作用将起重要支配作用,而其他两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。,2023/2/21,50zf,(2)对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。因为:对数据标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为1,而方差是数据信息的重要概括形式。数据标准化后抹杀了一部分重要信
23、息,使得标准化后各变量在对主成分构成中的作用趋于相等。,对于采用何种方法求解主成分没有定论。在实际研究中,从不同角度求解并研究其结果的差别以及产生差别的原因,以确定哪种结果更为可信。,5.5.2 与很多多元统计分析方法不同,主成分分析不要求数据来自于正态总体。实际上,主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。5.5.3 主成分是有效剔除了原始变量中的重叠信息,还是按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,还值得讨论。如果计算所得协方差阵(或相关系数矩阵)的最小特征值接近于0,则意味着中心化以后的原始变量之间存在着多重
24、共线性问题,即原始变量存在着不可忽视的重叠信息。此时应注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选。,对原始变量存在多重共线性问题,在应用主成分分析时一定要慎重,应考虑所选初始变量是否合适,是否真实地反映事物的本来面目;主成分分析不能有效地剔除重叠信息,但它至少可发现原始变量是否存在重叠信息,这对减少分析中的失误是有帮助的。,?,2023/2/21,52zf,5.6主成分分析步骤及框图,主成分分析步骤:1.根据研究问题选取初始分析变量;2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;3.求协差阵或相关阵的特征根与相应标准特征向量;4.判断是否存在明显的多重共线性,若
25、存在,则回到第一步;5.得到主成分的表达式并确定主成分个数,选取主成分;6.结合主成分对研究问题进行分析并深入研究。,2023/2/21,53zf,主成分分析框图:,2023/2/21,54zf,5.7 主成分分析的上机实现SPSS 操作,1、analyze-description statistic-description-save standardized as variables(若需要数据标准化,则进行该操作,一般在主成分分析过程中软件已自动进行了此操作)2、analyze-data reduction-Factor3、指定参与分析的变量4、运行factor 过程,2023/2/21,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ppt 成分 分析
链接地址:https://www.31ppt.com/p-2668270.html