第五章主成分分析与典型相关分析教材课件.ppt
《第五章主成分分析与典型相关分析教材课件.ppt》由会员分享,可在线阅读,更多相关《第五章主成分分析与典型相关分析教材课件.ppt(58页珍藏版)》请在三一办公上搜索。
1、1,第五章 主成分分析与典型相关分析,主成分分析是研究如何通过原来变量的少数几个线性组合来解释随机向量的方差协方差结构。,具体地说,其目的(1)化简数据 当p个变量的大部分变量能够由它们的k(比p小很多)个主成分(特殊的线性组合)来概括。如果所考虑的问题是这种情况,那么包括在这k个主成分中的信息与原来p个变量几乎一样多,可以用这k个主成分代替原p个变量,这样一来,由p个变量的n次观测组成的数据就被简化为k个主成分的n次观测数据。,2,(2)揭示变量间的关系 主成分的另一种作用是揭示变量之间的一些关系,而这些关系往往是用别的方法或具体专业知识所难以预料的。例如主成分应用在回归分析中,可以给出回归
2、自变量的近似复共线关系,这对于数据分析会带来一些重要信息。,3,5.1 总体主成分,设X1,X2,Xp为某实际问题所涉及的p个随机变量。记X=(X1,X2,Xp)T, 其均值向量=E(X), 协方差矩阵,它是一个p阶非负定矩阵。设li=(li1,li2,lip)T (i=1,2,p)为p个常数向量,考虑如下线性组合:,=(ij)pp=E(X-E(X)(X-E(X)T,4,易知有,如果我们希望用Y1代替原来 p个变量X1,X2,Xp,这就要求Y1尽可能地反映原 p个变量的信息。这里“信息”用Y1的方差来度量,即要求,达到最大。,若l1不加限制,则Var(Y1)无界。在约束条件l1Tl1=1之下,
3、求 l1使Var(Y1)达到最大,由此l1所确定的随机变量,称为 X1,X2,Xp的第一主成分。,5,如果第一主成分Y1还不足以反映原变量的信息,进一步求Y2。为了使Y1和Y2反映原变量的信息不相重叠,要求Y1与Y2不相关,即,于是,在约束条件l2Tl2 =1及l1Tl2 =0之下,求l2 使Var(Y2)达到最大,由此l2 所确定的随机变量Y2=l2TX 称为X1, X2, , Xp的第二主成分。,一般地,在约束条件 及,下,求li 使Var(Yi) 达到最大,由此li所确定的,称为X1,X2,Xp的第i个主成分 。,6,总体主成分的求法,关于总体主成分有如下结论:,定理5.1 设是X=(X
4、1,X2,Xp)T 的协方差矩阵,的特征值及相应的正交单位化特征向量分别为12.p 及1,2,p,则X的第i 主成分为,其中i=(i1, i2, ip)T. 这时易见:,证明从略。,7,以上结果告诉我们,求 X 的各主成分,等价于求它的协方差矩阵的各特征值 及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的X1,X2,Xp 的线性组合分别为X 的 第一、第二、直至第 p 个住成分,而各主成分的方差等于相应的特征值。,8,总体主成分的性质,1. 主成分的协方差矩阵及总方差,记Y=(Y1,Y2,Yp)T为主成分向量,则Y=TX ,其中=(1, 2, p),且,由此得
5、主成分的总方差为,即主成分分析是把p个原变量X1,X2,Xp的总方差分解成p个不相关变量Y1,Y2,Yp 的方差之和。,9,2. 主成分Yi与变量Xj的相关系数,由于 ,故 ,从而,由此可得 Yi 与 Xj相关系数(也称为因子负荷量)为,它给出了主成分Yi与 原始变量Xj 的关联性的度量。,10,称为第k 个主成分Yk 的贡献率;,称为Y1,Y2,Ym的累计贡献率。,定义5.1,实际中常取mp,使前m个主成分的累计贡献率达到较高的比例。累计贡献率表达了前m个主成分提取了原变量X1,X2,Xp的多少信息,但没有表达某个变量被提取了多少信息,为此,定义5.2 前m个主成分对原变量xi的贡献率Fi是
6、,11,通过具体例子说明求总体主成分的方法。,例5.1 设随机变量X=(X1,X2,X3)T 的协方差矩阵为,求 X的各主成分。,解 易得的特征值及相应的正交化特征向量分别为,12,因此X的主成分为,如果只取第一主成分(m=1),则贡献率为,此时对x1,x2,x3的贡献率分别为( ),F1=5.830.3832/1=0.855; F2=0.996; F3=0,13,若取前两个主成分(m=2),则累计贡献率为,此时对x1,x2,x3的贡献率分别为,F1=5.830.3832/1=0.855; F2=0.996; F3=1,前两个主成分与各原始变量的相关系数的计算:,14,前两个主成分与各原始变量
7、的相关系数分别为,15,同理,可求得,即Y1与X1,X2高度相关而与X3不相关;Y2与X3,以概率1呈完全线性关系.,16,标准化变量的主成分,实际中, 不同变量往往有不同的量纲, 由于量纲不同会引起各变量取值的分散程度差异较大, 这时总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差较大的变量, 有时会造成很不合理的结果。为消除这种影响, 常采用变量标准化的方法, 即令,其中:i和ii分别为Xi的数学期望和方差。,这时,的协方差矩阵便是X的相关矩阵,17,其中,利用X的相关矩阵作主成分分析,有如下结论:,X*的第i 个主成分为,18,第 i 个主成分Yi*的贡献率为i*/p
8、,前m个主成分的累计贡献率为,例5.2 设X=(X1,X2)T的协方差矩阵为,相应的相关矩阵为,分别从和 出发,作主成分分析。,Yi*与Xj*的相关系数为,19,解 如果从出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为,X的两个主成分分别为,第一主成分的贡献率为,20,Y1与 X1,X2的相关系数分别为,如果从出发求主成分,可求得其特征值和相应的正交单位化特征向量为,X*的两个主成分分别为,因 X2方差很大, 完全控制了提取信息量占99.2%的第一主成分(X2在Y1中系数为0.999), 淹没了变量X1的作用。,21,此时,第一主成分的贡献率有所下降,为,Y1*与X1*,X2*的
9、相关系数分别为,由 所求得的第一主成分中,X1和X2的权重系数为0.707和0.0707,第一主成分与标准化变量X *的相关性变为0.838,即X1的相对重要性得到提升。此例也证明,由和所求得 的主成分一般是不同的。,在实际运用中,当涉及的变量的变化范围差异较大时,从 出发求主成分比较合理。,22,5.2 样本主成分,当 (或 )未知时,通过 样本估计 。设,为容量为n的简单随机样本,即样本矩阵X为,23,对X进行中心化变换:,记变换后的样本矩阵为X *,则样本离差阵A、协方差矩阵S及相关矩阵R分别为,24,分别以 S和R作为 和 的估计,按前面所述方法求得的主成分称为样本主成分。,不失一般性
10、可假设X已中心标准化,这时协方差矩阵与相关矩阵相同,且 R=XTX,记R的p个主成分为z1, z2, , zp。将样本数据代入可得n个样本主成分值 Z=X, 并称为主成分得分。见下表。,其中为R的特征值对应的特征向量组成的正交阵。, =(1, 2, p),25,若取前 m(mp)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个样本主成分的得分代替原始数据作分析,这样便可以达到降低原始数据维数的目的。,原始数据及其主成分得分,26,解 用相关矩阵进行主成分分析。SAS程序如下:,例5.3 对麻栎树木的地径x1、胸径x2、树高x3、枝下高x4和平均冠幅x5等5项指标进行测量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 成分 分析 典型 相关 教材 课件

链接地址:https://www.31ppt.com/p-1545798.html