《主成分的性质》PPT课件.ppt
《《主成分的性质》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《主成分的性质》PPT课件.ppt(60页珍藏版)》请在三一办公上搜索。
1、,小结 方差逐步减少的p个线性无关的主成分为:,写为矩阵形式:,3 主成分的性质,1.主成分向量的均值和协方差矩阵2.主成分的总方差 3.原始变量Xi与主成分Fk之间的相关系数4.原始变量被主成分的提取率 5.原始变量对主成分的影响,1.主成分向量的均值和协方差矩阵,协方差矩阵V(F)=其中=diag(1,2,p),即V(Fi)=i,i=1,2,p,且F1,F2,Fp互不相关。,均值,2.主成分的总方差,由于所以 或,总方差中属于第i主成分Fi(或被Fi所解释)的比例为:称为主成分Fi的贡献率。第一主成分F1的贡献率最大,表明它解释原始变量 X1,X2,Xp的能力最强,而F2,F3,Fp的解释
2、能力依次递减。主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。,前m个主成分的贡献率之和称为主成分F1,F2,Fm的累计贡献率,它表明F1,F2,Fm解释X1,X2,Xp的能力。通常取(相对于p)较小的m,使得累计贡献达到一个较高的百分比(如8090)。此时,F1,F2,Fm可用来代替X1,X2,Xp,从而达到降维的目的,同时信息的损失却不多。,我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的p个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原
3、来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。,8,3、原始变量与主成分之间的相关系数,9,可见,和 的相关的密切程度取决于对应线性组合系数的大小。,10,4、原始变量被主成分的提取率,前面我们讨论了主成分的贡献率和累计贡献率,他们度量了F1,F2,Fm分别从原始变量X1,X2,Xp中提取了多少信息。那么X1,X2,Xp各有多少信息分别F1,F2,Fm被提取了。应该用什么指标来度量?我们考虑到当讨论F1分别与X1,X2,Xp的关系时,可以讨论F1分别与X1,X2,Xp的相关系数,但是由于相关系数有正有负,所以只有考虑相关系数的平方
4、。,如果我们仅仅提出了m个主成分,则第i 原始变量信息的被提取率为:,是Fj 能说明的第i 原始变量的方差;,是Fj 提取的第i 原始变量信息的比重.,4、原始变量被主成分的提取率,例1 设 的协方差矩阵为:,解得特征根为:,第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。,5.原始变量对主成分的影响,Fk=t1kX1+t2kX2+tpkXp 称tik为第k主成分Fk在第i个原始变量Xi上的载荷,它度量了Xi对Fk的重要程度。在解释主成分时,我们需要考察载荷,同
5、时也应考察一下相关系数。方差大的那些变量与具有大特征值的主成分有较密切的联系,而方差小的另一些变量与具有小特征值的主成分有较强的联系。通常我们取前几个主成分,因此所取主成分会过于照顾方差大的变量,而对方差小的变量却照顾得不够。,例2 设X=(X1,X2,X3)的协方差矩阵为经计算,的特征值及特征向量为1=109.793,2=6.469,3=0.738 相应的主成分分别为:F1=0.305X1+0.041X2+0.951X3F2=0.944X1+0.120X20.308X3F3=0.127X1+0.992X20.002X3,可见,方差大的原始变量X3在很大程度上控制了第一主成分F1,方差小的原始
6、变量X2几乎完全控制了第三主成分F3,方差介于中间的X1则基本控制了第二主成分F2。F1的贡献率为这么高的贡献率首先归因于X3的方差比X1和X2的方差大得多,其次是X1,X2,X3相互之间存在着一定的相关性。F3的特征值相对很小,表明X1,X2,X3之间有这样一个线性依赖关系:0.127X1+0.992X20.002X3c其中c=0.1271+0.99220.0023为一常数。,4 主成分分析的步骤,在实际问题中,X的协方差通常是未知的,样品有,第一步:由X的协方差阵x,求出其特征根,即解方程,可得特征根。,一、基于协方差矩阵,第二步:求出分别所对应的特征向量U1,U2,Up,,第三步:计算累
7、积贡献率,给出恰当的主成分个数。,第四步:计算所选出的k个主成分的得分。将原始数据的中心化值:代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。,一、基于协方差矩阵,二、基于相关系数矩阵 如果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。不同的是计算得分时应采用标准化后的数据。,21,从R出发的主成分性质,(1)E(F*)=0,V(F*)=*,其中。(3)变量 与主成分 之间的相关系数即有,因此,在解释主成分 时,由相关矩阵R求得的载荷 和相关系数 所起的作用是完全相同的,只需选其一用来作主成分解释即可。(4)主成分 对变量 的贡献率(5)。,例3 在
8、例2中,X的相关矩阵R的特征值及特征向量为相应的主成分分别为:,的贡献率为 和 累计贡献率为现比较本例中从R出发和例2中从 出发的主成分计算结果。从R出发的 的贡献率0.705明显小于从出发的F1的贡献率0.938,事实上,原始变量方差之间的差异越大,这一点也就倾向于越明显。可用标准化前的原变量表达如下:,可见,在原变量X1,X2,X3上的载荷相对大小与例2中Fi在X1,X2,X3上的载荷相对大小之间有着非常大的差异。这说明,标准化后的结论完全可能会发生很大的变化,因此标准化不是无关紧要的。,根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主成分的性质 成分 性质 PPT 课件

链接地址:https://www.31ppt.com/p-5627010.html