第五章主成分分析与典型相关分析教材课件.ppt
1,第五章 主成分分析与典型相关分析,主成分分析是研究如何通过原来变量的少数几个线性组合来解释随机向量的方差协方差结构。,具体地说,其目的(1)化简数据 当p个变量的大部分变量能够由它们的k(比p小很多)个主成分(特殊的线性组合)来概括。如果所考虑的问题是这种情况,那么包括在这k个主成分中的信息与原来p个变量几乎一样多,可以用这k个主成分代替原p个变量,这样一来,由p个变量的n次观测组成的数据就被简化为k个主成分的n次观测数据。,2,(2)揭示变量间的关系 主成分的另一种作用是揭示变量之间的一些关系,而这些关系往往是用别的方法或具体专业知识所难以预料的。例如主成分应用在回归分析中,可以给出回归自变量的近似复共线关系,这对于数据分析会带来一些重要信息。,3,5.1 总体主成分,设X1,X2,Xp为某实际问题所涉及的p个随机变量。记X=(X1,X2,Xp)T, 其均值向量=E(X), 协方差矩阵,它是一个p阶非负定矩阵。设li=(li1,li2,lip)T (i=1,2,p)为p个常数向量,考虑如下线性组合:,=(ij)pp=E(X-E(X)(X-E(X)T,4,易知有,如果我们希望用Y1代替原来 p个变量X1,X2,Xp,这就要求Y1尽可能地反映原 p个变量的信息。这里“信息”用Y1的方差来度量,即要求,达到最大。,若l1不加限制,则Var(Y1)无界。在约束条件l1Tl1=1之下,求 l1使Var(Y1)达到最大,由此l1所确定的随机变量,称为 X1,X2,Xp的第一主成分。,5,如果第一主成分Y1还不足以反映原变量的信息,进一步求Y2。为了使Y1和Y2反映原变量的信息不相重叠,要求Y1与Y2不相关,即,于是,在约束条件l2Tl2 =1及l1Tl2 =0之下,求l2 使Var(Y2)达到最大,由此l2 所确定的随机变量Y2=l2TX 称为X1, X2, , Xp的第二主成分。,一般地,在约束条件 及,下,求li 使Var(Yi) 达到最大,由此li所确定的,称为X1,X2,Xp的第i个主成分 。,6,总体主成分的求法,关于总体主成分有如下结论:,定理5.1 设是X=(X1,X2,Xp)T 的协方差矩阵,的特征值及相应的正交单位化特征向量分别为12.p 及1,2,p,则X的第i 主成分为,其中i=(i1, i2, ip)T. 这时易见:,证明从略。,7,以上结果告诉我们,求 X 的各主成分,等价于求它的协方差矩阵的各特征值 及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的X1,X2,Xp 的线性组合分别为X 的 第一、第二、直至第 p 个住成分,而各主成分的方差等于相应的特征值。,8,总体主成分的性质,1. 主成分的协方差矩阵及总方差,记Y=(Y1,Y2,Yp)T为主成分向量,则Y=TX ,其中=(1, 2, p),且,由此得主成分的总方差为,即主成分分析是把p个原变量X1,X2,Xp的总方差分解成p个不相关变量Y1,Y2,Yp 的方差之和。,9,2. 主成分Yi与变量Xj的相关系数,由于 ,故 ,从而,由此可得 Yi 与 Xj相关系数(也称为因子负荷量)为,它给出了主成分Yi与 原始变量Xj 的关联性的度量。,10,称为第k 个主成分Yk 的贡献率;,称为Y1,Y2,Ym的累计贡献率。,定义5.1,实际中常取mp,使前m个主成分的累计贡献率达到较高的比例。累计贡献率表达了前m个主成分提取了原变量X1,X2,Xp的多少信息,但没有表达某个变量被提取了多少信息,为此,定义5.2 前m个主成分对原变量xi的贡献率Fi是,11,通过具体例子说明求总体主成分的方法。,例5.1 设随机变量X=(X1,X2,X3)T 的协方差矩阵为,求 X的各主成分。,解 易得的特征值及相应的正交化特征向量分别为,12,因此X的主成分为,如果只取第一主成分(m=1),则贡献率为,此时对x1,x2,x3的贡献率分别为( ),F1=5.830.3832/1=0.855; F2=0.996; F3=0,13,若取前两个主成分(m=2),则累计贡献率为,此时对x1,x2,x3的贡献率分别为,F1=5.830.3832/1=0.855; F2=0.996; F3=1,前两个主成分与各原始变量的相关系数的计算:,14,前两个主成分与各原始变量的相关系数分别为,15,同理,可求得,即Y1与X1,X2高度相关而与X3不相关;Y2与X3,以概率1呈完全线性关系.,16,标准化变量的主成分,实际中, 不同变量往往有不同的量纲, 由于量纲不同会引起各变量取值的分散程度差异较大, 这时总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差较大的变量, 有时会造成很不合理的结果。为消除这种影响, 常采用变量标准化的方法, 即令,其中:i和ii分别为Xi的数学期望和方差。,这时,的协方差矩阵便是X的相关矩阵,17,其中,利用X的相关矩阵作主成分分析,有如下结论:,X*的第i 个主成分为,18,第 i 个主成分Yi*的贡献率为i*/p,前m个主成分的累计贡献率为,例5.2 设X=(X1,X2)T的协方差矩阵为,相应的相关矩阵为,分别从和 出发,作主成分分析。,Yi*与Xj*的相关系数为,19,解 如果从出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为,X的两个主成分分别为,第一主成分的贡献率为,20,Y1与 X1,X2的相关系数分别为,如果从出发求主成分,可求得其特征值和相应的正交单位化特征向量为,X*的两个主成分分别为,因 X2方差很大, 完全控制了提取信息量占99.2%的第一主成分(X2在Y1中系数为0.999), 淹没了变量X1的作用。,21,此时,第一主成分的贡献率有所下降,为,Y1*与X1*,X2*的相关系数分别为,由 所求得的第一主成分中,X1和X2的权重系数为0.707和0.0707,第一主成分与标准化变量X *的相关性变为0.838,即X1的相对重要性得到提升。此例也证明,由和所求得 的主成分一般是不同的。,在实际运用中,当涉及的变量的变化范围差异较大时,从 出发求主成分比较合理。,22,5.2 样本主成分,当 (或 )未知时,通过 样本估计 。设,为容量为n的简单随机样本,即样本矩阵X为,23,对X进行中心化变换:,记变换后的样本矩阵为X *,则样本离差阵A、协方差矩阵S及相关矩阵R分别为,24,分别以 S和R作为 和 的估计,按前面所述方法求得的主成分称为样本主成分。,不失一般性可假设X已中心标准化,这时协方差矩阵与相关矩阵相同,且 R=XTX,记R的p个主成分为z1, z2, , zp。将样本数据代入可得n个样本主成分值 Z=X, 并称为主成分得分。见下表。,其中为R的特征值对应的特征向量组成的正交阵。, =(1, 2, p),25,若取前 m(mp)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个样本主成分的得分代替原始数据作分析,这样便可以达到降低原始数据维数的目的。,原始数据及其主成分得分,26,解 用相关矩阵进行主成分分析。SAS程序如下:,例5.3 对麻栎树木的地径x1、胸径x2、树高x3、枝下高x4和平均冠幅x5等5项指标进行测量,其数据如下表(见P106)。试对这5项指标进行主成分分析。,27,data exm53; input x1-x5;cards; 8.7 5.8 4.8 2.7 2.7.48.0 44.0 15.8 3.5 8.6;proc princomp data=exm53 prefix=z out=b53;var x1-x5; run;proc print data=b53;var z1 z2 x1-x5;run;,rincomp 主成分分析过程;prefix=z 主成分用z表示, 缺省为prin;out=b53 输出主成分得分到b53数据集。,28,第一主成分的贡献率为77.77%;前两个主成分的累计贡献率达98.14,可取前两个主成分。,输出部分结果:,29,前两个主成分:,xi*为标准化变量。,30,前两个主成分得分和原始数据:,可用主成分得分进行其他分析,如聚类分析等。,31,若要计算主成分zk与原变量xi的因子负荷r(zk,xi)及前m个主成分对原变量xi的贡献率Fi,可用因子分析过程factor计算,在上述程序后增加以下程序即可。,proc factor data=exm53 method=prin n=2 simple;var x1-x5; run;,因子负荷r(zk,xi),前m个主成分对原变量xi的贡献率Fi,32,解 用协方差矩阵进行主成分分析。SAS程序如下:,例5.4 对10名男中学生的身高(X1)胸围(X2)和体重(X3)进行测量,得数据如下表所示。对其作主成分分析。,33,data ex5_4; input x1-x3;cards;149.5 69.5 38.5 162.5 77.0 55.5162.7 78.5 50.8 162.2 87.5 65.5156.5 74.5 49.0 156.1 74.5 45.5172.0 76.5 51.0 173.2 81.5 59.5159.5 74.5 43.5 157.7 79.0 53.5;proc princomp cov prefix=y;var x1-x3;run;,rincomp 主成分分析过程;cov用协方差矩阵计算,缺省为相关阵;prefix=y 主成分用y表示, 缺省为prin。,34,计算结果:,35,前两个主成分的累计贡献率已达98.855,实际应用中可只取前两个主成分,即,36,第一主成分y1是身高值(x1)胸围值(x2)和体重值(x3) 的加权和,当一个学生的y1值较大时,可以推断他较高或较胖或又高又胖,反之,当一个学生的身材比较魁梧时,所对应的y1值也较大。故第一主成分是反映学生身材是否魁梧的综合指标,可称为“大小”因子。,第二主成分y2的表达式中,身高 (x1)前的系数为正,而胸围(x2)和体重(x3)的系数为负,当一个学生的y2值较大时,说明x1的值较大,而 x2,x3相对较小,即该生较高且瘦。可称之为“形状”因子。,37,例5.5 某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润率指标,14家企业关于这8个指标的统计数据如下表。试进行主成分分析.,38,data ex5_5; input n x1-x8;cards;1 40.4 24.7 7.2 6.1 8.3 8.7 2.442 20.0.14 38.5 9.1 11.3 9.5 12.2 16.4 1.327 11.6;proc princomp prefix=y out=b55;var x1-x8;proc sort data=b55 ; by descending y1;proc print data=b55; var n y1; run;,Out=b55 输出主成分得分到数据集b55中;sort排序,descending降序,缺省为升序。,解 用相关矩阵求主成分,SAS程序如下:,39,输出结果: (1)简单统计量和相关矩阵,40,(2)相关矩阵的特征值,主成分的贡献率和累积贡献率。,由此看到,前2个标准化样本主成分累计贡献率已达到89.73%,故只需取前2个主成分即可。,41,(3) 特征向量,前2个主成分为,42,为标准化变量。,注意: y1近似是8个标准化变量的等权重之和,反映各企业总效益大小的综合指标,y1值越大,则企业的效益越好。由于y1的贡献率高达76.71%,故若用y1的得分值对各企业进行排序,能从整体上反映企业之间的效益差别。,43,(4) 利用第一主成分的得分对14个企业排序,第9家企业的效益最好,第12家企业的效益最差。,44,需要指出的是,关于主成分的实际意义,要结合具体问题和有关专业知识才能给出合理的解释。,注意 虽然利用主成分本身可对所研究的问题在一定程度上作分析,但主成分分析本身往往并不是目的,而是达到目的的一种手段。因此,它多用在大型研究项目的某个中间环节中。例如,把它用于多元回归中,便产生了主成分回归,这种回归具有一些优良性质。另外,它还可以用于聚类分析、判别分析和因子分析等。,45,5.3 典型相关分析,典型相关分析是研究两组变量之间相关关系的一种统计方。基本思想是:当讨论两组变量Y=(Y1,Y2, , Yp1)T和X=(X1,X2,,Xp2)T(p1p2)之间的关系时,先构造两个新的综合变量和,使和分别是Yi, i=1,2, p1和Xj, j=1,2, p2 的线性组合,即:,用U,V之间的相关系数,反映两组变量Y, X之间的相关性。,46,在U=V=1的条件下, 选, 使rUV达到最大,综合变量和称为第一对典型相关变量,记为U(1)和V(1), 相应的变换系数为(1)和(1), 相关系数记为r(1), 并称为第一典型相关系数。,用U,V之间的相关系数,反映两组变量Y, X之间的相关性。,同理作出p1对典型相关变量,各典型变量之间互不相关,且r(1)r(2) r(p1), 这种分析过程称为典型相关分析。,47,记R11, R22分别为Y和X的样本相关矩阵, R12, R21分别为Y与X和X与Y的相关矩阵, B=R11-1/2R12R22-1R21R11-1/2的特征根为1222p12, 标准正交化特征向量为Ti,i=1,2, p1 , 则,典型相关系数 r(k)的显著性检验统计量为,48,典型相关系数 r(k)的显著性检验统计量为,其中: n为样本量; 自由度为(p1-k+1)(p2-k+1);,当k22(p1-k+1)(p2-k+1)时, r(k)显著。,例5.6 研究单株小麦形态性状Y和产量性状X之间的关系。其中 Y=(Y1, Y2)T, X=(X1, X2, X3)T, Y1株高(cm),Y2穗长(cm),X1单株成穗数(个),X2每穗的粒数(粒),X3 千粒重(g)。测得n=19个小麦品种数据如下:,49,例5.6 研究单株小麦形态性状Y和产量性状X之间的关系。其中 Y=(Y1, Y2)T, X=(X1, X2, X3)T, Y1株高(cm),Y2穗长(cm),X1单株成穗数(个),X2每穗的粒数(粒),X3 千粒重(g)。测得n=19个小麦品种数据如下:,试进行小麦形态性状与产量性状的典型相关分析。,解 SAS程序如下:,50,解 SAS程序如下:,data exm54;input variety$1-10 y1 y2 x1 x2 x3;cards;烟农15 78.735 7.520 5.065 37.335 36.640山农110031 71.230 7.040 3.875 28.365 52.730冀84-5418 74.015 9.130 4.530 34.000 30.690;proc cancorr data=exm54 simple corr vprefix=u wprefix=v out=b54; var y1-y2; with x1-x3; run;proc print data=b54;var u1 v1 y1 y2 x1 x2 x3; run;,51,输出部分结果:,均值和标准差,52,相关矩阵,R12,R22,R11,53,典型相关系数与特征值,典型相关系数: r(1)=0.665593, r(2)=0.434104;特征值: 1=0.7954, 2=0.2322.,54,典型相关系数的检验,55,原始典型变量的组合系数,56,标准化典型变量的组合系数,57,典型结构(原变量与典型变量间的相关系数),58,典型变量得分,