多元课件第七章.ppt
《多元课件第七章.ppt》由会员分享,可在线阅读,更多相关《多元课件第七章.ppt(113页珍藏版)》请在三一办公上搜索。
1、1,应用多元统计分析,第七章 主成分分析,2,第七章 主成分分析目 录,7.1 总体的主成分7.2 样本的主成分7.3 主成分分析的应用,3,第七章 主成分分析,多变量分析(Multivariate Analysis)是处理多变量(多指标)的统计问题。多个变量之间常存在相关性,人们希望用较少不相关的变量来代替原来较多且相关的变量。主成分就是要从原变量的各种线性组合中找出能集中反映原变量信息的综合变量。,4,第七章7.1 总体的主成分什么是主成分分析,主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法.在实际问题中,研究多指标的问题是经常遇到的问题.由于变量个数太多,并且彼此之间存在着
2、一定的相关性,势必增加分析问题的复杂性.主成分分析就是设法把原来的多个指标重新组合成较少几个新的互不相关的综合变量来代替原来的变量;而且这几个综合变量又能够尽可能多地反映原来变量的信息.利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法.,5,第七章 7.1总体的主成分什么是主成分,设X=(X1,Xp)是p维随机向量,均值向量E(X)=,协差阵D(X)=.考虑它的线性变换:,易见:,(7.1.2),(7.1.1),6,第七章 7.1总体的主成分什么是主成分,假如我们希望用Z1来代替原来的p个变量X1,Xp,这就要求Z1尽可能多地反映原来p个变量的信息,这里所说的“信息”用什
3、么来表达呢?最经典的方法是用Z1的方差来表达.Var(Z1)越大,表示Z1包含的信息越多.由()式看出,对a1必须有某种限制.否则可使Var(Z1).常用的限制是:a1a1=1.若存在满足以上约束的a1,使Var(Z1)达最大,Z1就称为第一主成分(或主分量).,7,第七章 7.1总体的主成分什么是主成分,如果第一主成分不足以代表原来p个变量的绝大部分信息.考虑X的第二个线性组合Z2.为了有效地代表原变量组的信息,Z1已体现(反映)的信息不希望在Z2中出现,用统计术语来讲,就是要求 Cov(Z2,Z1)=a2a1=0.(7.1.3)于是求Z2时,就是在约束a2a2=1和(7.1.3)下,求a2
4、使Var(Z2)达最大,所求之Z2称为第二主成分,类似地可求得第三主成分,第四主成分,.,第p主成分.,8,第七章 7.1总体的主成分什么是主成分,换言之,若原数据有p个变量,则恰好可得到p个主成分:1.每个主成分都是原变量的线性组合;2.不同主成分间互不相关(互相正交);3.主成分以其方差减少次序排列:第一主成分具有最大方差,第二主成分是与第一主成分正交的原变量的线性组合中具有最大方差者,其余主成分都有类似的性质.,9,第七章 7.1总体的主成分什么是主成分,或者说,若原变量包含有一定的信息,则全体主成分包含与原变量相同的信息.方差反映了变量取值的离散程度,方差大小表示了变量包含信息的多少.
5、第一主成分包含了尽可能多的信息,不同的主成分包含的信息互不重复;第二主成分包含除第一主成分外剩余信息中尽可能多的信息;其余主成分都有类似的性质.,10,第七章 7.1总体的主成分主成分的定义,定义 设X=(X1,Xp)为p维随机向量.称 Zi=aiX 为X的第i 主成分(i=1,2,p),如果:aiai=1(i=1,2,p);当i 1时 aiaj=0(j=1,i-1);Var(Zi)=Max Var(X).=1,aj=0(j=1,i-1),11,第七章 7.1总体的主成分主成分的几何意义,从代数学观点看主成分就是p个变量的一些特殊的线性组合,而从几何上看这些线性组合正是把X1,Xp构成的坐标系
6、旋转产生的新坐标系,新坐标轴使之通过样本变差最大的方向(或者说具有最大的样本方差).设有n个观测,每个观测有p个变量X1,Xp,它们的综合指标(主成分)记为Z1,Zp.当p=2时原变量为X1,X2.设(X1,X2)服从二元正态分布,则样品点X(i)=(xi1,xi2)(i=1,2,n)的散布图(见下面图形)在一个椭圆内分布着.,12,第七章 7.1总体的主成分主成分的几何意义,Z1,Z2,13,第七章 7.1总体的主成分主成分的几何意义,对于二元正态随机向量,n个点散布在一个椭圆内(当X1,X2相关性越强,这个椭圆就越扁).若取椭圆的长轴为坐标轴Z1,椭圆的短轴为Z2,这相当于在平面上作一个坐
7、标变换,即按逆时针方向旋转一个角度a,根据旋转变换公式,新老坐标之间有关系:Z1=Cos aX1+Sin aX2 Z2=-Sin aX1+Cos aX2Z1 Z2 是原变量X1和X2 的特殊线性组合.,14,第七章 7.1总体的主成分主成分的几何意义,从图上可以看出二维平面上n个点的波动(用二个变量的方差和表示)大部分可以归结为在Z1方向的波动,而在Z2 方向上的波动很小,可以忽略.这样一来,二维问题可以降为一维了,只取第一 个综合变量Z1即可,而Z1是椭圆的长轴.一般情况,p个变量组成p维空间,n个样品点就是p维空间的n个点.对于p元正态分布变量来说,找主成分的问题就是找p维空间中椭球的主轴
8、问题.,15,第七章 7.1总体的主成分主成分分析的内容,主成分分析的计算一般是从原变量的协差阵或相关矩阵出发进行,包含以下内容:1.各主成分的构成;2.各主成分的方差及其在总方差中所占的比例(贡献率);3.每个观测在各个主成分下的得分值;4.各主成分与原变量的相关性.,16,第七章 7.1总体的主成分主成分的求法,设p维随机向量X的均值E(X)=0,协差阵D(X)=0.由定义7.1.1,求第一主成分Z1=a1X的问题就是求a1=(a11,a21,ap1),使得在a1a1=1下,Var(Z1)达最大.这是条件极值问题,用拉格朗日乘数法.令(a1)=Var(a1X)-(a1a1-1)=a1a1-
9、(a1Ipa1-1),由,(7.1.4),(见附录(8.3)式),17,第七章 7.1总体的主成分主成分的求法,因a10,故|-I|=0,求解(7.1.4),其实就是求的特征值和特征向量问题.设=1是的最大特征值,则相应的单位特征向量a1即为所求.一般地,求X的第i主成分就是求的第i大特征值对应的单位特征向量.,定理 设X=(X1,Xp)是p维随机向量,且D(X)=,的特征值12p,a1,a2,ap为相应的单位正交特征向量,则X的第i主成分为 Zi=aiX(i=1,2,p).,18,第七章 7.1总体的主成分回顾附录中定理7.2,定理7.2 设B是p阶对称阵,i=chi(B)是B的第i大的特征
10、值,li 是相应于i的B的标准化特征向量(i1,p),x为任一非零p维向量,那么有,右边不等式的等号当x=cl1时成立,左边不等式的等号当x=clp时成立,这里c是非零常数.,19,第七章 7.1总体的主成分回顾附录中定理7.2,(2)记2=(lr+1,lp),即2是由lr+1,lp 张成的空间,则,2,且当x=clr+1 时达到最大值,这里c非零常数.,20,第七章 7.1总体的主成分定理的证明,定理证明 因为对称阵,利用附录中定理7.2的结论(1),可知对任意非零向量a有,且最大值在a=a1时达到.故在a1a1=1的约束条件下,使得,达极大值.,21,第七章 7.1总体的主成分定理的证明,
11、根据主成分的定义7.1.1,Z1=a1 X为X的第一主成分.对r=2,3,p,记r(ar,ap),利用附录中的定理7.2的结论(2)即得,r,且最大值在a=ar时达到.,22,第七章 7.1总体的主成分定理的证明,故在arar=1的约束条件下,ar 满足,且使得,达极大值.根据主成分的定义7.1.1,Zr=ar X为X的第r主成分.(证毕),23,第七章 7.1总体的主成分定理的推论,设Z=(Z1,Z2,Z p)为p维随机向量,则其分量Zi(i=1,2,p)依次是X的第i主成分的充分必要条件是:Z=AX,A为正交阵;D(Z)=diag(1,2,p),即随机向量Z的协差阵为对角阵;12p 0.,
12、24,第七章 7.1总体的主成分主成分的性质,主成分Zi就是以的单位特征向量ai为系数的线性组合,它们互不相关,且方差Var(Zi)=i.记=(ij),=diag(1,2,p),其中12p为的特征值,a1,a2,ap是相应的单位正交特征向量.主成分向量Z=(Z1,Zp),其中 Zi=aiX(i=1,2,p)总体主成分有如下性质:,25,第七章 7.1总体的主成分主成分的性质,(1)D(Z)=,即p个主成分的方差为:Var(Zi)=i,且它们是互不相关(2),通常称 为原总体X的总方差,该性质说明原总体X的总方差可分解为不相关的主成分的方差和.,26,第七章 7.1总体的主成分主成分的性质,即p
13、个原变量所提供的总信息(总方差)的绝大部分只须用前m个主成分来代替。这说明若前几个主成分集中了大部分信息,则后几个主成分的方差都很小,包含的信息也很少.在实际应用时就可用前面较少的几个主成分来代替原p个变量来描述数据的变化.,且存在,27,第七章 7.1总体的主成分主成分的性质,(3)主成分Zk与原始变量Xi的相关系数,证明:Var(Xi)=ii Var(Zk)=k Cov(Xi,Zk)=Cov(eiX,ak X)=ei ak=ei(k ak)=k aik(ei是第i个元素为1,其余为0的单位向量),28,第七章 7.1总体的主成分主成分的性质,常把主成分Zk与原始变量Xi的相关系数称为因子负
14、荷量(或因子载荷量).利用因子载荷量,可对指标分类.如果把主成分与原始变量的相关系数列成表7.1的形式,则由相关系数的公式,还可得出性质(4)和(5).,表7.1,29,第七章 7.1总体的主成分主成分的性质,因Xi也可表成Z1,Zp的线性组合,且 Z1,Zp相互独立,由回归分析的知识,Xi 与 Z1,Zp的全相关系数的平方和等于1,即表7.1中每一行的平方和均为1.,事实上,由 故有,30,第七章 7.1总体的主成分主成分的性质,因Zk可表成X1,Xp的线性组合,但X1,Xp 一般有相关性,由Zk与Xi的相关系数的公式,可得出表7.1中Zk对应的每一列关于各变量方差的加权平方和为k(即Var
15、(Zk)=k).,31,第七章 7.1总体的主成分主成分的贡献率,主成分分析的目的是为了简化数据结构(即减少变量的个数),故在实际应用中一般不用p个主成分,而选用前m(mp)个主成分.m取多大,这是一个很实际的问题.为此,我们引进贡献率的概念.,32,第七章 7.1总体的主成分主成分的贡献率,定义 称k/1+.+m+p 为主成分Zk的贡献率;又称 fm=1+2+.+m/1+2+.+m+p为 主成分Z1,Zm(mp)的累计贡献率.通常取m,使累计贡献率达到70%或80%以上,累计贡献率的大小表达m个主成分提取了X1,Xp的多少信息,但它没有表达某个变量被提取了多少信息,为此又引入另一个概念.,3
16、3,第七章 7.1总体的主成分主成分的贡献率,定义 前m个主成分Z1,Zm 对原变量Xi的贡献率i(m)定义为 Xi 与Z1,Zm 的相关关系数的平方,它等于,34,第七章 7.1总体的主成分主成分的贡献率-例子,例7.1.1 设随机向量X=(X1,X2,X3)的协差阵为,1-2 0-2 5 00 0 2,=,试求X的主成分及其对变量Xi的贡献率i(i=1,2,3).解 的特征值为 1=3+81/2,2=2,3=3-81/2.由相应标准化特征向量可得出主成分:,35,第七章 7.1 总体的主成分主成分的贡献率-例子,Z1=0.383 X1-0.924X2,Z2=X3(X3本身就是一个主分量,它
17、与X1,X2不相关),Z3=0.924X1+0.383 X2.当取m=1或m=2时,主成分对X的贡献率可达72.8%或97.85%.下表 列出m个主分量对变量Xi的贡献率,36,第七章 7.1总体的主成分 标准化变量的主成分及性质,在实际问题中,不同的变量往往有不同的量纲,而通过来求主成分首先优先照顾方差(ii)大的变量,有时会造成很不合理的结果,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化的方法.即令,37,第七章 7.1总体的主成分标准化变量的主成分及性质,标准化后的随机向量X*=(X1*,X2*,Xp*)的协差阵*就是原随机向量X的相关阵R.从相关阵R出发来求主成
18、分,记为Z*=(Z1*,Zp*),则Z*与Z具有相似的性质.把主成分Zk*(k=1,p)对变量Xi*的因子负荷量ik=(Zk*,Xi*)列成表7.2.,38,第七章 7.1总体的主成分标准化变量的主成分及性质,7.2,39,40,第七章 7.2 样本的主成分,在实际问题中,一般协差阵未知,需要通过样本来估计.设X(t)=(xt1,xtp)(t=1,n)为来自总体X的样本,记样本资料阵,x11,x12,x1px21,x22,x2p.xn1,xn2,xnp,X=,记样本协差阵为S,样本相关阵为R,并用S作为 的估计或用R作为总体相关阵的估计.,41,第七章 7.2 样本的主成分 样本主成分及其性质
19、,假定每个变量的观测数据都已标准化(X=0),这时样本协差阵就是样本相关阵R,且 R=S=离差阵/(n-1)=XX/(n-1)仍记R 阵的p个主成分为Z1,Zp,12p0为R的特征根,a1,a2,ap为相应的标准化特征向量(记正交阵A=(a1,ap).显然第i个样本主成分为 Zi=aiX(i=1,p).,42,第七章 7.2样本的主成分 样本主成分及其性质,将第t个样品X(t)=(xt1,xtp)的值代入Zi得样品t的第i个主成分得分 zti=aiX(t)(i=1,p).记Z(t)=(zt1,zt2,ztp)(t=1,n)=(a1X(t),a2X(t),apX(t)=AX(t)称Z(t)为第t
20、个样品的主成分得分向量.,43,第七章 7.2样本的主成分 样本主成分及其性质,表7.3 原始数据和样本主成分得分,令,(z1,z2,zp),样本主成分Z1 Z2 Zp,44,第七章 7.2 样本的主成分 样本主成分及其性质,样本主成分得分阵Z和原始数据阵X有如下关系,Z=,Z(1)Z(2).Z(n),X(1)AX(2)A.X(n)A,=X A,=,或 X=ZA,其中 Z(t)=AX(t)(t=1,2,n)样本主成分得分具有如下一些性质.,(np),(np),(pp),45,第七章 7.2 样本的主成分样本主成分及其性质,(1)Z=(Z(1)+Z(2)+Z(n)/n=(AX(1)+AX(2)+
21、AX(n)/n=AX=0,以下由样本主成分得分的协差阵来得出样本主成分的性质(1)的另一结论.样本主成分得分的协差阵为 SZ=ZZ/(n-1)标准化变量的样本协差阵就是样本相关阵R,且 R=XX/(n-1)R阵的p个特征根12 p 相应的标准化特征向量为a1,a2,ap。,46,第七章 7.2 样本的主成分样本主成分及其性质,记正交阵A=(a1,ap).则有 ARA=diag(1,2,p)又知 Z=XA,则 SZ=ZZ/(n-1)=AXXA/(n-1)=ARA=diag(1,2,p)=ZZ=(n-1),47,第七章 7.2 样本的主成分样本主成分及其性质,zi zi=(n-1)i(i=1,2,
22、p)zizj=0(当ij 时)上式说明样本主成分得分的样本均值为0,样本协差阵为对角阵.当ij 时,第i个主成分得分向量zi与第j个主成分得分zj是相互正交的.,48,第七章 7.2 样本的主成分样本主成分及其性质,因 ARA=diag(1,2,p)称k/p为样本主成分Zk的贡献率;又称 fm=1+m/p为样本主成分Z1,Zm(mp)的累计贡献率.,49,第七章 7.2 样本的主成分样本主成分及其性质,(3)样本主成分具有使残差平方和最小的优良性 如果我们只取前m个主成分(mp),并考虑用前m 个主成分Z1,Zm的线性组合表示Xj的回归方程:Xj=bj1Z1+bjmZm+j(j=1,p)(*)
23、则当bjk=ajk(k=1,m)时,可使回归方程的残差平方和达最小值.而且回归方程的决定系数R2(j)=j(m).我们把j(m)称为m个主成分对原变量Xj的贡献率,j(m)的大小反映了m个主成分能够反映Xj的变差的比例.,50,第七章 7.2 样本的主成分样本主成分及其性质,把表7.3给出的原始变量的观测数据和前m个主成分的得分数据作为以上模型(*)中因变量X1,X p和自变量Z1,Zm的观测数据.问题化为:按最小二乘准则求参数矩阵B:,,使得残差平方和 Q(B)达最小.,(pm),51,第七章 7.2 样本的主成分样本主成分及其性质,(nm),记,(np),则多对多的回归模型(*)的矩阵形式
24、为:X=Z*B+E由多因变量的回归分析(参见第四章)的理论知:参数矩阵B的最小二乘估计为,52,第七章 7.2 样本的主成分样本主成分及其性质,B=(Z*Z*)-1 Z*X,记A*=(a1,am),A2=(am+1,aP)则由 Z=(Z*|Z2)=XA=X(A*|A2)可得 Z*=XA*且因 A*RA*=diag(1,2,m),于是 Z*Z*=A*XXA*=(n-1)A*RA*=(n-1)diag(1,2,m),53,第七章 7.2 样本的主成分样本主成分及其性质,*,(A*),*,54,第七章 7.2 样本的主成分样本主成分及其性质,即当 B=A*或 bjk=ajk(j=1,2,p;k=1,
25、m)时,可使回归的残差平方和达最小值.而Xj 回归方程的决定系数 R2(j)=j(m)(j=1,2,p).(见习题7-8),55,第七章 7.2样本的主成分主成分的个数及解释,主成分分析的目的之一是简化数据结构,用尽可能少的主成分Z1,Zm(mp)代替原来的p个变量,这样就把p个变量的n次观测数据简化为m个主成分的得分数据.在这里要求:m个主成分所反映的信息与原来p个变量提供的信息差不多;m个主成分又能对资料所具有的意义进行解释.,56,第七章 7.2样本的主成分主成分个数的确定,主成分的个数m如何选取是实际工作者关心的问题.关于主成分的个数如何确定,常用的标准有两个:(1)按累计贡献率达到一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 课件 第七
链接地址:https://www.31ppt.com/p-6109266.html