数学建模 聚类分析因子分析实例.docx
《数学建模 聚类分析因子分析实例.docx》由会员分享,可在线阅读,更多相关《数学建模 聚类分析因子分析实例.docx(46页珍藏版)》请在三一办公上搜索。
1、数学建模 聚类分析因子分析实例多元统计分析中的降维方法在四川省社会福利中的应用 由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标,由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研
2、究结果也会偏差很大。因此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想。 一 多元统计分析方法中降维的方法 1.概述 多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一
3、些“类似的”对象或变量分组。多元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。 在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方
4、法。其中主成分分析和因子分析是在作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。 2 主成分分析 2.1主成分分析的基本思想 在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下,将原来众多具有一定线性相关性的p个指标压缩成少数几个互不相关的综合指标,并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释。由于主成分分析浓缩了众多指标的信息,降低了指标的维度,从而简化指标的结构,深刻反映问题的内在规律。 2.2 主成分分析的数学模型 设对某一事物的研究涉及指标
5、(变量):X1,X2,L,XP,这p项指标构成p维的随机向量X=(X1,X2,L,XP),其均值和协方差矩阵分别是m=E(X),。 对X进行线性变换,原来的变量X1,X2,L,XP的线性组合可以形成新的综合变量,用Y表示,满足: Y1=u11X1+u12X2+L+u1pXpY2=u21X1+u22X2+L+u2pXp LLY=uX+uX+L+uXp11p22pppp矩阵表示为:Y=UX,其中 Y=(Y1,Y2,L,u11Yp),U=Mup1u12Mup2LLu1pMupp,X=(X1,X2,L,Xp) 由于不同的线性变换得到的综合变量Y的统计特性不同,为了达到较好的效果,我们希望Yi=uiX的
6、方差尽可能大且新的综合变量Yi之间相互独立。由以下原则来确定新的综合变量Yi: uiui=ui12+ui22+L+uip2=1 (i=1,2,L,p); Yi与Yj相互独立,即无重复信息cov(Yi,Yj)=0 (ij;i,j=1,2,L,p); Y1是X1,X2,L,XP的一切线性组合(系数满足上述方程组)中方差最大的,Y2是与Y1不相关的X1,X2,L,XP的一切线性组合中方差最大的,Yp与Y1,Y2,L,Yp-1都不相关的X1,X2,L,XP的一切线性组合中方差最大的。 在实际应用时,通常挑选前几个方差比较大的主成分,虽然这样做会丢失一部分信息,但它使我们抓住了主要矛盾进行深入分析,并从
7、原始数据中进一步提出了某些新的信息,因而在某些实际问题的研究中得益比较大,这种既减少了变量的个数又抓住了主要矛盾的做法有利于问题的分析和处理。 2.3 总体主成分的导出及性质 在实际求解主成分时,常常是从原始变量的协方差矩阵或相关矩阵的结构出发,而从两个出发点求解出的主成分不同。 2.3.1 从协方差矩阵出发求解主成分 性质1:设矩阵A=A,将A的特征值l1,l2,L,ln依大小顺序排列,不妨设l1l2Lln,g1,g2,L,gp为矩阵A各特征值对应的标准正交特征向量,则对任意向量x有maxx0xAxxx=l1,minx0xAxxx=lnSl1l2Llp为性质2:设随机向量X=(X1,X2,L
8、,Xp)的协方差矩阵为S,的特征值,g1,g2,L,gp为矩阵S各特征值对应的标准正交向量,则第i个主成分为:Yi=g1iX1+g2iX2+L+gpiXp (i=1,2,L,p),此时 var(Yi)=giSgi=li,cov(Yi,Yj)=giSgi=0。 由以上性质,我们把原始变量X=(X1,X2,L,Xp)的协方差矩阵S的非零特征值l1l2Llp0对应的标准化特征向量g1,g2,L,gp分别作为系数向量,即Y1=g1X,Y2=g2X,Yp=gpX分别为X=(X1,X2,L,Xp)的第一主成分、第二主成分,第p主成分的充要条件是: Y=uX,uu=I,即u为p阶正交阵; Y的分量Y1,Y2
9、,L,Yp之间相互独立; Y的p个分量Y1,Y2,L,Yp方差依次递减。 于是随机向量X=(X1,X2,L,Xp)与随机向量Y=(Y1,Y2,L,Yp)之间存在关uu111uu212系式:Y=uX=gX=MMuup1pu12u22Mup2LLOLu1pu2pMuppgX11gX22=MMXpgpX1X2MXp由于在无论S的各特征值是否存在相等的情况,对应的标准化特征向量g1,g2,L,gp总是存在,所以总是可以找到对应的各特征值的相互正交的特征向量。故将主成分的求解转换为求解原始变量X=(X1,X2,L,Xp)的协方差阵S的特征值和特征向量。 性质3:第k个主成分Yk的方差贡献率为ak=lkp
10、(k=1,2,L,p),反映主成ili=1分Yk提取原始变量总信息的百分比。 k性质4:主成分Y1,Y2,L,Yk的累积贡献率为a(k)=li=1pi,反映ili=1主成分Y1,Y2,L,Yk解释原始变量信息的百分比。 p性质5:Yi=r1iX1+r2iX2+L+rpiXp,其中r2ji=1,称rji为主成分Yi在原始j=1变量Xj上的载荷。它度量了Xj对Yi的重要程度。 性质6:第i个主成分Yi与原始变量Xj的相关系数r(Yi,Xj)称为因子负荷量,表示主成分Yi中包含原始变量Xj信息的百分比,它与载荷rji成正比。 2.3.2 从相关矩阵出发求解主成分 为了消除原始变量不同量纲与数量级的影
11、响,对原始变量作标准化变换: 令 Zi=Xi-misii,i=1,2,L,p,其中mi,sii分别表示变量Xi的期望和方差。 000M 11令 B2s110=M0LLOLs22M0spp则原始变量进行标准化变换为:Z=(B2)-1(X-m) 11-1-1显然有 cov(Z)=(B2)S(B2)1r12=Mr1pr121MLLOLr1pr2pr2p=R M1设求解出相关阵R的特征值与对应的标准正交特征向量,则求解出的主成分与原始变量的关系式为: 1Yi=giZ=gi(B2)(X-m),i=1,2,L,p -12.4 样本主成分的导出 在实际研究工作中,总体协方差阵S与相关阵R通常是未知的,于是需
12、要通过样本数据来估计。设有n个样品,每个样品有p个指标,这样共得到np个数据,原始资料矩阵为: x11x21X=Mxn1x12x22Mxn2nLLLx1px2p Mxnp记S=n-11n(xki-xi)(xki-xi),xi=1k=1nxkik=1R=(rij),rij=ppsijsiisjj,i=1,2,L,p 样本协方差矩阵S为总体协方差阵S的无偏估计,样本相关阵R为总体相关阵的估计。若原始资料矩阵X是经过标准化处理的,则由矩阵X求得的协方差阵S就是相关矩阵R。所以根据相关阵R来求解主成分。 根据总体主成分的定义,主成分Y=(Y1,Y2,L,Yp)的协方差是: cov(Y)=ucov(X)
13、u=uSu=L其中L为对角矩阵 l10L=M00LLOLl2M000 Mlp假定资料矩阵X为已经作了标准化处理后的数据矩阵,则可以由相关矩阵R代替协方差矩阵S,则上式可表示为: uRu=L Ru=uL 即r11r21Mrp1r12r22Mrp2LLOLr1pu11r2pu21MMrppup1u12u22Mup2LLOLu1pu11u2pu=21MMuppup1u12u22Mup2LLOLu1pl1u2pMupp0l2O0 lp整理为齐次方程组为 (r11-l1)u11+r12u12+Lr1pu1p=0r21u11+(r22-l2)u12+Lr2pu1p=0 LLru+ru+L(r-l)u=0p
14、212ppp1p1p11即 r11-l1r21Mrp1r12r22-l2Mrp2LLOLr1pr2pMrpp-lp=R-lI=0 即所求的新的综合变量的方差li(i=1,2,L,p)是特征方程组R-lI=0的p个根,l为相关矩阵的特征值,相应的各个uij是其特征向量的分量。特征值l1l2Llp0,其相应的特征向量记为g1,g2,L,gp,则相对于Yi的方差为var(Yi)=var(giX)=li。且协方差为:cov(Yi,Yj)=cov(giX,gjX)=0 由此可有新的综合变量Y1,Y2,L,Yp彼此不相关,并且Yi的方差为li,则Y1=g1X,Y2=g2X,Yp=gpX分别为X=(X1,X
15、2,L,Xp)的第一主成分、第二主成分,第p主成分。主成分的方差贡献就等于R的相应特征值。利用样本数据求解主成分的过程就转化为求解相关阵R或协方差阵S的特征值和特征向量的过程。 2.5 主成分分析的步骤 2.5.1 将原始变量进行标准化处理Zi=Xi-misii; 2.5.2 计算标准化指标的相关系数矩阵R 2.5.3 求解相关系数矩阵R的特征向量u=(uij)pp和特征值l1l2Llp0; 2.5.4 计算各个主成分的方差贡献率ak及累积贡献率a(k); 2.5.5 确定主成分的个数; 通常根据实际问题的需要由累计贡献率a(k)85%的前k个成分来代替原来p个变量的信息,或选取所有特征值大于
16、1的成分作为主成分,也可根据特征值的变化来确定,即根据SPSS输出的碎石图的转折点来决定选取主成分的个数。 2.5.6 对确定出的主成分作出实际意义的解释; 2.5.7 利用所确定出的主成分的方差贡献率计算综合评价值,从而对被评价对象进行排名和比较。 综合得分3 因子分析 3.1 因子分析的基本思想 因子分析是根据相关性大小把原始变量进行分组,使得同组内的变量之间相关性高,而不同组的变量之间的相关性低。每组变量代表一个基本结构,并用一个不可观测的综合变量来表示。对于所研究的某一具体问题,原始变量分解为两部分之和。一部分是少数几个不可观测的公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
17、 3.2 因子分析的数学模型 设有p个指标,则因子分析数学模型为: X1=r11Y1+r12Y2+L+r1pYpX2=r21Y1+r22Y2+L+r2pYp LLX=rY+rY+L+rYp11p22pppp其中,X1,X2,L,Xp是已标准化的可观测的评价指标。F1,F2,L,Fk出现在每个指标Xi的表达式中,称为公共因子,公共因子是不可观测的,其含义要根据具体问题来解释。ei是各个对应指标Xi所特有的因子,故称为特殊因子,它与公共因子之间彼此独立。rij是指标Xi在公共因子Fj上的系数,称为因子载荷,因子载荷rij的统计含义是指标Xi在公共因子Fj上的相关系数,表示Xi与Fj线性相关程度。
18、用矩阵形式表示为: X=AF+e其中X=(X1,X2,L,Xp),F=(F1,F2,L,Fk),e=(e1,e2,L,ep),r11r21A=rp1r12r22rp2r1mr2m,A称为因子载荷矩阵。 rpm其统计含义是: AA中的第i行元素ri1,ri2,L,rim说明了指标Xi依赖于各个公共因子的程度。 中第j列元素r1j,r2j,L,rmj说明了公共因子Fj与各个指标的联系程度。故常根据该列绝对值较大的因子载荷所对应的指标来解释这个公共因子的实际意义。 mA中的第i行元素ri1,ri2,L,rim的平方和hi=2rj=1p2ij称为指标Xi的共同度。 A中第j列元素r1j,r2j,L,r
19、mj的平方和gj=2r表示公共因子F对原始指2ijji=1标所提供的方差贡献的总和,衡量各个公共因子的相对重要性。称aj=gjp=1p2ijrpi=1为公共因子Fj的方差贡献率,aj越大,公共因子Fj越重要。 3.3 因子分析的步骤 3.3.1 将原始变量数据进行标准化处理Zi=Xi-misii; 3.2.2 计算标准化指标的相关系数矩阵R; 3.2.3 求解相关系数矩阵R的特征向量u=(uij)pp和特征值l1l2Llp0; 3.2.4 确定公共因子的个数,设为m个,即选择特征值1的个数m或根据累积方差贡献率85的准则所确定的个数m为公共因子个数; 3.2.5 求解初始因子载荷矩阵A=(ai
20、j)pp=(uijlj)pp; 常用的方法有:主成分法、主轴因子法、极大似然法等。本文用主成分法寻找公因子的方法如下: 设从相关矩阵出发求解主成分,设有p个变量,则可以找出p个主成分,将所得的p个主成分由大到小排列,记为Y1,Y2,L,Yp,则主成分与原始变量之间有 Y1=r11X1+r12X2+L+r1pXpY2=r21X1+r22X2+L+r2pXp LLY=rX+rX+L+rXp11p22pppp其中rij是随机变量X的相关矩阵的特征值所对应的特征向量的分量,特征向量之间正交,从X到Y的转换关系的可逆得到由Y到X的转换关系 X1=r11Y1+r12Y2+L+r1pYpX2=r21Y1+r
21、22Y2+L+r2pYp LLX=rY+rY+L+rYp11p22pppp只保留前m个主成分,而把后面的p-m个主成分用特殊因子ei代替,即 X1=r11Y1+r12Y2+L+r1mYm+e1X2=r21Y1+r22Y2+L+r2mYm+e2LLXp=rp1Y1+rp2Y2+L+rpmYm+ep为了把Yi转化为合适的公因子,需要把主成分Yi变为方差为1的变量,故 令 Fi=Yili,aij=gjilj 则 X1=a11F1+a12F2+L+a1mFm+e1X2=a21F1+a22F2+L+a2mFm+e2LLXp=ap1F1+ap2F2+L+apmFm+ep设样本相关系数矩阵R的特征值为l1l
22、2Llp0,其相应的标准正交特征向量为g1,g2,L,gp,设mp,则因子载荷矩阵A的一个估计值为: u11l1lulm)=211Mup1l1u12u22Mup2l2l2l2LLOL=(gl,gA112l2,L,gmu2mlm Mupmlmu1mlm=ai12+ai22+L+aim2。 共同度的估计为:hi3.2.6 建立因子模型 kZj=aj=1ijFj+aiei,i=1,2,L,p 其中F1,F2,L,Fk为公共因子,e=(e1,e2,L,ep)为特殊因子。 3.2.7 对公共因子进行重新命名,并解释公共因子的实际含义 当初始因子载荷矩阵A难以对公共因子的实际意义作出解释时,先要对A作方差
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学建模 聚类分析因子分析实例 数学 建模 聚类分析 因子分析 实例
链接地址:https://www.31ppt.com/p-3559299.html