两个多重相关变量组的统计分析数学毕业论文.doc
《两个多重相关变量组的统计分析数学毕业论文.doc》由会员分享,可在线阅读,更多相关《两个多重相关变量组的统计分析数学毕业论文.doc(17页珍藏版)》请在三一办公上搜索。
1、两个多重相关变量组的统计分析摘 要本文介绍两组相关变量问的典型相关与典型冗余分析的统计分析方法,以及在SAS软件包中如何实现,文中给出了一个典型的例子。关键词:统计分析;典型相关;典型冗余分析 在实际问题中,经常遇到需要研究两组变量间的相关关系,而且每组变量中间常常存在多重相关性。比如工厂生产的产品质量指标与原材料、工艺指标间的相关关系;体育科研中运动员的体力测试指标与运动能力指标间的相关关系;经济领域中投资性变量与国民收入变量间的相关关系;教育学中学生高考各科成绩与高二年级各主科成绩间的相关关系;医学研究中患某种疾病病人的各种症状程度与用科学方法检查的一些指标间的相关关系等等。 研究两个变量
2、组之间相关关系的常用方法是多元统计中的典型相关分析(参考2和 3)。如果进一步研究这两组多重相关变量间的相互依赖关系,即考虑多对多的回归建模问题,除了最小二乘准则下的多对多回归分析、双重筛选逐步回归分析,以及提取自变量成分的主成分回归等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法。关于多对多回归建模问题,我们将另文介绍。本文介绍典型相关与典型冗余分析,它是偏最小二乘回归的理论基础。 一 典型相关分析的基本思想与解法 第一组变量记为X= ,第二组变量记为Y= (不妨设pq)。典型相关分析借助于主成分分析提取成分的思想,从第一组变量X提取典型成分V (V是X1,Xp的线性组合);再从第二
3、组变量Y提取典型成分W(W是Y1,Yq的线性组合), 并要求V和W 的相关程度达到最大。这时V和W 的相关程度可以大致反映两组变量X和Y的相关关系。记p+q维随机向量Z=的协差阵=,其中11一是X的协差阵,22:是Y的协差阵,l2=21是X,Y的协差阵。我们用X和Y的线性组合V=X和W=Y之问的相关来研究X和Y之间的相关。我们希望找到a和b,使(V,W)最大。由相关系数的定义, (V,W)=分析上式将发现:在使得V,W的相关达最大的同时, V和W的方差将达最小,这说明按此准则得到的典型成分V和W,对原变量组X和Y的代表性最差,它们无法更多地反映原变量组的变异信息。另方面因V,W任意线性组合的相
4、关系数与 V,W 的相关系数相等,即使得相关系数最大的V=X和W=X并不唯一。故在典型相关分析解法中附加了约束条件: Var(U) = 11a = 1 Var(V)= 22b = 1。问题化为在约束条件Var(U)=1,Var(V)=1下,求a和b,使得(U,V)= l2b达最大。定义l 设X=,Y=,p+q维随机向量的均值向量为 O,协差阵O(不妨设pq)。如果存在a1 = (al1,alp)和b1 = (b1l,b1q)使得 1=(1X, lY)= 则称X , Y是X,Y的第一对典型相关变量,它们之间的相关系数称为第一个典型相关系数。 如果存在和使得 kX , kY和前面 k-1对典型变量
5、都不关; Var(kX) = l,Var( kY) = 1; kX与 kY的相关系数 最大,则称kX , kY是X,Y的第k对典型相关变量,它们之间的相关系数称为第k个典型相关系数。已知p+q维总体Z的n次中心化观测数据阵为:若假定,则协差阵的最大似然估计为 下面我们将从样本协差阵S出发,来讨论两组变量问的相关关系。 令为pq阵,则pq阵和qq阵的非零特征根相同,且非零特征根均为正的。若rk(T)=rk(S12)=rp(因pq),非零特征根依次为 O(且iO,i=1,r)。记r阶对角阵D=diag(i,r)。利用pq阵T的奇异值分解定理(参考4)有其中口(i=l,r)为对应于的单位正交特征向量
6、;(i=1,r)为对应于的单位正交特征向量,且与满足关系式: 。令 ,容易验证与满足:则为X,Y的第i对样本典型相关变量,为第i个样本典型相关系数。二 典型相关系数的显著性检验 总体z的两组变量X=和Y=如果不相关,即Cov(X,Y)= 12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间的相关关系之前,应首先对假设H0:l2=0作统计检验,它等价于检验H0:l=0。 设总体,用似然比方法可导出检验H0:l2=0的似然比统计量,利用矩阵行列式及其分块行列式的关系,可得出 其中p+q阶方阵s是的最大似然估计量,Sy分别是ij (i,j=1,2)的最大似然估计是的特征值。 统计量
7、的精确分布已由Hotelting(1936年)等人给出,但表达式很复杂。由统计量 出发可导出检验H0的近似检验方法,如 Willks统计量,Pillai的迹,Hotettintg-Lawley迹和Roy的极大根等(参阅2)。 当否定H0时,表明X,Y相关,进而可得出至少第一个典型相关系数10。相应的第一 对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部分信息。两组变量余下的部分可认为不相关,这时1(i=2,p)。故在否定H0后,有必要检验即第i个及以后的所有典型相关系数均为0。利用似然比方法可导出检验的似然比统计量,并给出该统计量的近似分布。从i=2开始逐个检验,直到某个i0,使
8、相容时为止。这时说明第i0个及以后的所有典型相关系数均为0。假定经检验,前m个典型相关系数显著地不等于0(mp)。 三 典型结构与典型冗余分析 1典型结构 求出典型变量后,进一步可以来计算原始变量与典型变量之问的相关系数阵典型结 构。 记A=(al,a2,ar)为Pr矩阵,B=(bl,b2,br)为qr矩阵,典型随机向量;随机向量Z的协差阵为=0, 随机向量的协差阵为是的最大似然然估计。则 Cov(X,V)=Cov(X,X)=11A,Cov(X,W)=Cov(X,Y)=12B, Cov(Y,V)=Gov(Y,X)= 12A,Cov(Y,W)=Coy(X,Y)=22B。 用Sij代替以上公式中的
9、ij(i,j=1,2),即可计算出原始变量与典型变量之间的协差阵。由协差阵还可以计算原始变量与典型变量之间的相关系数阵。若假定原始变量均为标准化变量,则以上计算得到的原始变量与典型变量的协方差阵就是相关系数阵。若计算这四个相关系数阵中各列(或各行)相关系数的平方和,还将得出下面一些有关的概念。 2几个概念 类似于主成分分析,把Vk看成是由第一组标准化变量X提取的成分,Wk看成是由第二组标准化变量Y提取的成分,由相关阵R(X,V)=S11A=r(Xj,Vk)(p,r)和R(Y,W)=S11B=r(Xj,Vk)(q,r)分别计算第k列的平方和。记 并称)(或)为第k个典型变量 Vk(或Wk)解释本
10、组变量X(或Y)总变差的百分比。记 并称 (或)为前m(mr)个典型变量 ()解释本组变量X(或Y)总变差的累计百分比。 在典型相关分析中,从两组变量分别提取的两个典型成分首先要求相关程度最大,同时也希望每个典型成分解释各组变差的百分比也尽可能的大。百分比的多少反映由每组变量提取的用于典型相关分析的变差的多少。 类似于主成分分析,还可以引入前m个典型变量对本组第j个变量Xi(或Yj,)的贡献等概念(参考1)。 3典型冗余分析 我们进一步来讨论典型变量解释另一组变量总变差百分比的问题。在典型相关分析中,因所提取的每对典型成分保证其相关程度达最大,故每个典型成分不仅解释了本组变量韵信息,还解释了另
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 两个 多重 相关 变量 统计分析 数学 毕业论文

链接地址:https://www.31ppt.com/p-4015491.html