因子分析与数学建模.docx
因子分析与数学建模因子分析与数学建模 一、预备知识 1多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,表示如下 X=(X1,X2,L,Xp)' éX11êX21 X=êêMêêëXn1X12X22LLOLMXn2X1pùúX2pú=(X,X,L,X12MúúXnpúûæX(1)'öç÷çX(2)'÷)=pçM÷ ç÷çX'÷è(n)ø2随机向量的数字特征及其性质 设X=(X1,X2,L,Xp)',称E(X)=(EX1,EX2,L,EXp)'为X的均值或数学期望,或记E(X)、EXi为m、mi,即m=(m1,m2,L,mp)'。 性质:E(AX)=AE(X),E(AXB)=AE(X)B, E(AX+BY)=AE(X)+BE(Y)。 设X=(X1,X2,L,Xp)',Y=(Y1,Y2,L,Yq)',称 éCov(X1,X1)êDCov(X2,X1)êD(X)=E(X-EX)(X-EX)'=êMêêëCov(Xp,X1)Cov(X1,X2)Cov(X2,X2)MCov(Xp,X2)LLOLCov(X1,Xp)ùúCov(X2,Xp)úúMúCov(Xp,Xp)úû 为X的方差或协差阵。常简记D(X)为S,Cov(Xi,Yj)为sij,则S=(sij)p´p。 称X和Y的协差阵为 DCov(X,Y)=E(X-EX)(Y-EY)' éCov(X1,Y1)êCov(X2,Y1)ê=êMêêëCov(Xp,Y1)Cov(X1,Y2)Cov(X2,Y2)MCov(Xp,Y2)LLOLCov(X1,Yq)ùúCov(X2,Yq)ú úMúCov(Xp,Yq)úû 随机向量X的相关矩阵: R=(rij)p´p,其中rij=Cov(Xi,Xj)Var(Xi)Var(Xj)=sijsiisjj1 设标准离差阵V2és11ê=êê0ë1-10Os1ppùúú,则有 úû112 S=V2RV-1,R=(V2)S(V2) 性质:D(X)³0 对任意常数向量a,有D(X+a)=D(X) D(AX)=AD(X)A' Cov(AX,BY)=ACov(X,Y)B'。 多元正态分布的定义 若p维 随机向量X=(X1,X2,L,Xp)'的密度函数为 f(x1,x2,L,xp)=12ppS1/2æ1ö-1expç-(x-m)'S(x-m)÷ è2ø 其中x=(x1,x2,L,xp)',则称X服从p维正态分布,记为XNp(m,S)。 多元正态分布的参数估计 随机样本:X(1),X(2),L,X(n) 相互独立且与总体同分布。其中 X(i)=(Xi1,Xi2,L,Xip)',i=1,2,L,n.其中Xij为第i个样品对第j个指标的观察。éX11êX21êX=êMêêëXn1X12X22LLOLMXn2X1pùúX2pú=(X,X,L,X12MúúXnpúûæX(1)'öç÷çX(2)'÷)=ç是一个随机矩阵,称pM÷ç÷çX'÷è(n)ø为观测矩阵或样本资料阵。多元分析的很多方法都是运用各种手段从观测矩阵出发去提取有关信息。 多元样本的数字特征 _ 样本均值向量 X=1nnnåXa=1(a)_æ_ö=çX1,X2,L,Xp÷' èø_(a)_ 样本离差阵 Sp´p= 样本协差阵 Vp´p=å(Xa=1-X)(X(a)-X)'=(sij)p´p 1n1nS m,S的极大似然估计 Ù_Ù m=X,S=重要的分布 S. Wishart 分布 Hotelling T分布 Wilks 分布 二、主成分分析 1 基本思想与数学模型 在实际问题中经常遇到多指标的研究,多数情况下,不同指标之间有一定的相关性,由于指标较多,从而增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的相互无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这种将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析或主分量分析。也是数学上处理降维的一种方法。 它的基本思想是将原来p个指标作线性组合,作为新的综合指标,这种线性组合需要加以某些限制,应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”最经典的方法就是用F1的方差来表达。即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应2该是方差最大的。故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达即要求Cov(F1,F2)=0,称F2为第二主成分。依此类推可以造出共p个主成分,这些主成分之间不仅不相关,而且它们的方差依次递减。实际应用中往往挑选前几个最大主成分,虽然这样做会损失一部分信息,但由于减少了变量的数目又抓住了主要矛盾,从而有利于问题的分析和处理。 设有n个样品,每个样品观测p个指标,得到原始数据资料阵 éX11êX21êX=êMêêXn1ëX12X22LLOLMXn2X1pùúX2pú=(X,X,L,X12MúúXnpûúp) 考虑线性组合: Fi=a1iX1+a2iX2+L+apiXp,i=1,2,L,p 限制a1i+a2i+L+api=1,并使Fi,i=1,2,L.p具有上述要求来求出系数aij。由线性代数的知识恰好是求协差阵S的特征根所对应的特征向量。即数学上可以证明使Var(F1)达到最大,这个最大值是在S的第一个特征值所对应特征向量处达到。依此类推使Var(Fi)达到最大值是在S的第i个特征值所对应特征向量处达到。所222以X1,X2,L,Xp的主成分就是以S的特征向量为系数的线性组合,它们互不相关,其方差为S的特征值。 由于S的特征值l1³l2³L³lp>0,所以有: Var(F1)³Var(F2)³L³Var(Fp)>0, 可见主成分的名次是按特征值取值大小的顺序排列的。 在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前kpk个,累计贡献率定义为ålii=1åli=1i,如果前k个主成分的累计贡献率达到85%,表明取前k个主成分基本包含了全部测量所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。 当协差阵S未知时,可用其估计值S来代替。当原始变量X1,X2,L,Xp标准化后,有S=R=1nX'X。,因此一般求R的特征根和特征向量。 2 计算步骤 设有n个样品,每个样品观测p个指标,将原始数据写成矩阵 éX11êX21êX=êMêêXn1ëX12X221nX'X的特征根相差n倍,但它LLOLMXn2X1pùúX2pú MúúXnpûú 将原始数据标准化。 建立变量的相关系数阵R。R=(rij)p´p,不妨设R=X'X 求R的特征根l1³l2³L³lp>0及相应的单位特征向量: éa11ùéa12ùéa1pùêúêúêúa21a22a2pú,a=êú,L,a=êú a1=ê2pêMúêMúêMúêúêúêúaaaêêêëp1úûëp2úûëppúû 写出主成分 Fi=a1iX1+a2iX2+L+apiXp,i=1,2,L,p 3 实际应用 利用主成分F1,F2,L,Fm做线性组合,以各主成分的方差贡献率为权重构造综合评价函数。 只用第一个主成分作评估指数,但这种方法使用的前提条件是所有的评估指标变量都是正相关的,即相关系数阵R的每个元素都是正的。