第10章典型相关分析.ppt
《第10章典型相关分析.ppt》由会员分享,可在线阅读,更多相关《第10章典型相关分析.ppt(117页珍藏版)》请在三一办公上搜索。
1、第十章,典型相关分析,Canonical Correlation Analysis,1.两个随机变量Y与X 简单相关系数2.一个随机变量Y与一组随机变量X1,X2,Xp 多重相关(复相关系数)3.一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp 典型相关系数,何时采用典型相关分析,典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。,典型相关是研究两组变量之间相关性的一种统计分析方法.也是一种降维技术.由Hotelling(1935,1936)最早提出,Cooley and Lohnes(1971)、Kshirsagar(1972)和 Mardi
2、a,Kent,and Bibby(1979)推动了它的应用。,什么是典型相关分析?典型相关分析是研究两组变量之间相关关系的一种多元统计分析方法它借用主成分分析降维的思想,分别对两组变量提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系,典型相关关系研究两组变量之间整体的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量所研究的两组变量可以是一组为自变量,而另一组变量为因变量;两组变量也可以是同等的地位,但典型相关关系要求两组变量都至少是间隔
3、尺度,通常情况下,为了研究两组变量 的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。,在解决实际问题中,这种方法有广泛的应用。如,在工厂里常常要研究产品的q个质量指标 和p个原材料的指标 之间的相关关系;也可以是采用典型相关分析来解决的问题。如果能够采用类似于主成分的思想,分别找出两组变量的线性组合既可以使变量个数简化,又可以达到分析相关性的目的。,例 家庭特征与家庭消费之间的关系,为了了解家庭的特征与其消费模
4、式之间的关系。调查了70个家庭的下面两组变量:,分析两组变量之间的关系。,变量间的相关系数矩阵,Y2,Y3,Y1,X2,X1,典型相关分析的思想:,首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,,然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。,V2和W2与V1和W1相互独立,但V2和W2相关.如此继续下去,直至进行到 r 步,两组变量的相关性被提取完为止.R min(p,q),可以得到 r 组变量.,典型相关的数学描述,一般地,假设有一组变量X1,Xp与Y1,Yq,我们要研究这两组变量的相关关系,如何给两组变量之间的相关性
5、以数量的描述?,当 p=q=1 时,就是研究两个变量 X 与 Y 之间的相关关系.相关系数就是最常见的度量,其定义为,为Y与X1,Xp的全相关系数,全相关系数用于度量一个随机变量Y与一组随机向量X1,Xp的相关关系.,当 p,q 1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是 求 和,使得新的综合变量,和,之间有最大可能的相关,基于这个思想就产生了典型相关分析.,10.1 总体典型相关,易得出对任意的常数 e,f,c 和 d,均有,典型相关变量的解法,1.第一对典型相关变量的求法,令 则 V,W 的相关系数,用拉格朗日乘子法,令,(其中1和
6、2为拉格朗日乘子),为求 的极大值,对上式分别关于,求偏导,并令其为零,得,(10.1.1),再分别用 左乘方程(10.1.1),该方程的左端是 的p+q次多项式.求解 的高次方程(10.1.3),把求得的最大的 代回方程组(10.1.2),再求得 和,从而得出第一对典型相关变量.,具体计算时,因的高次方程(10.1.3)不易解;将其代入方程组(10.1.2)后还需求解(p+q)阶方程.为了计算上的简便,常作以下变换:,用1222-1左乘方程组(10.1.2)的第二项,将上()式代入方程组(10.1.2)得第一式得:,即,再用11-1左乘上式得:,的特征根是,相应的特征向量为,将 左乘(10.
7、1.2)的第一式,并将第二式代入,得,(),再用22-1左乘()式得:,的特征根是,相应的特征向量为,故求解方程(10.1.3)等价于求解方程组(10.1.4):,(10.1.4),由于110,220,故 11-1 0,22-1 0.,结论:2既是M1又是M2的特征根,和是相应于M1和M2的特征向量。,至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。,第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。,在剩余的相关中再求出第二对典型变量和他们的典型相关系数.设第二对典型变量为:,求第二
8、对典型相关变量就等价于求2和2,使,2.典型相关变量的一般求法,例 家庭特征与家庭消费之间的关系,为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:,分析两组变量之间的关系。,变量间的相关系数矩阵,典型变量的性质,1、同一组的典型变量之间互不相关,2、不同组的典型变量之间相关性,3、Vi,Wi 的均值为0,方差为1.,例 家庭特征与家庭消费之间的关系,为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:,分析两组变量之间的关系。,变量间的相关系数矩阵,两个反映消费的指标与第一对典型变量中V1的相关系数分别为0.9866和0.8872,可以看出V1可
9、以作为消费特性的指标,第一对典型变量中V1与Y2之间的相关系数为0.9822,可见典型变量V1主要代表了了家庭收入,V1和 W1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的;,第二对典型变量中V2与X2的相关系数为0.4614,可以看出V2可以作为文化消费特性的指标,第二对典型变量中W2与Y1和Y3之间的分别相关系数为0.8464和0.3013,可见典型变量W2主要代表了家庭成员的年龄特征和教育程度,V2和 W2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的有关。,求解典型相关系数的步骤,求X,Y 变量组的相关阵R=求矩阵A、B 可以证明A、
10、B有相同的非零特征根3.求A或B的i(相关平方)与Cov(Vi,Wi),i1,m4.求A、B关于i的特征根向量即变量系数,典型相关系数计算实例,Cov(X)R11,Cov(Y)R22,Cov(Y,X)R21,Cov(X,Y)R12,1.求矩阵A、B,A(66)矩阵,B(55)矩阵,2.求矩阵A、B的(相关系数的平方),A、B有相同的非零特征值,B矩阵求(典型相关系数的平方),5个与典型相关系数,3.求A、B关于i的变量系数(求解第1典型变量系数),求解第2典型变量系数,求解第5典型变量系数,5组(标准化)典型变量系数(X),5组(标准化)典型变量系数(X),由标准化典型变量系数获得原变量X对应
11、的粗典型变量系数,粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。,5组(标准化)典型变量系数(Y),典型相关系数的特点,两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变(无论原变量标准化与否,获得的典型相关系数不变).第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,即R1max(|Cov(Xi,Yj)|)或 R1max(|Cov(X,Yj)|),R1max(|Cov(Xi,Y)|),10.2 样本典型相关系数,在实际应用中,总体的协方差矩阵常常是未知的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵进行
12、估计,然后利用估计得到的协方差或相关系数矩阵进行分析.由于估计中抽样误差的存在,所以估计以后还需要进行有关的假设检验.,已知总体 Z 的 n 次观测数据为:,若假定ZNp+q(,),则协方差阵 的最大似然估计为,显然,Sij(i,j=1,2)是ij的无偏估计.下面我们将从样本协方差阵S出发,来讨论两组变量间的相关关系.,一、样本典型相关变量和典型相关系数,计算 S 的特征根和特征向量,求M1和 M2的特征根,对应的特征向量.则特征向量构成典型变量的系数,特征根为典型变量相关系数的平方,二、典型相关系数的显著性检验,全部总体典型相关系数均为0部分总体典型相关系数为0,典型相关分析是否恰当,应该取
13、决于两组原变量之间是否相关,如果两组变量之间毫无相关性而言,则不应该作典型相关分析.用样本来估计总体的典型相关系数是否有误,需要进行检验.,(一)整体检验,所以,两边同时求行列式,有,事实上,由于 所以若M的特征根为,则(I-M)的特征根为(1-).根据矩阵行列式与特征根的关系,可得:,在原假设为真的情况下,检验的统计量,近似服从自由度为pq的2分布.在给定的显著性水平下,如果22(pq),则拒绝原假设,认为至少有一对典型变量之间的相关性显著.,(二)部分总体典型相关系数为零的检验,当否定H0时,表明X,Y相关,进而可得出至少第一个相关系数10,相应的第一对典型相关变量V1,W1可能已经提取了
14、两组变量相关关系的绝大部分信息.两组变量余下的部分可认为不相关,这时k0(k=2,p).因此在否定H0后,有必要再检验H0(k):k=0(k=2,p),即第k个及以后的所有典型相关系数均为0(k=2,3,p).,检验的统计量,近似服从自由度为(p-k+1)(q-k+1)的2分布.在给定的显著性水平下,如果22(p-k+1)(q-k+1),则拒绝原假设H0(k),即第k个典型相关系数显著的不等于0.否则认为k=0.对H0(k)从k=2开始逐个检验,知道某个k0,使 相容时为止.这时说明第k0个及以后的所有典型相关系数均为0.,(三)样本典型变量的得分值,与原变量间的相关程度和典型变量系数有关.,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 典型 相关 分析
链接地址:https://www.31ppt.com/p-6616658.html