多元统计分析典型相关分析.ppt
典型相关分析,引言,在统计学中,对两个随机变量的关系,可用线性相关系数来分析;研究一个随机变量与多个随机变量之间的关系,可用复相关系数。然而在对社会经济现象问题的研究中,通常需要考察多个变量与多个变量之间即两组变量之间的相关性。,例如为了研究证劵市场走势与宏观国民经济之间的关系,需要分析反映证劵市场状况的指标,如股票价格指数、股票市值、股票融资量等与经济增长率、物价指数、固定资产投资、事业率、进出口额等宏观经济变量两组变量之间的相关关系。在分析评估某种社会经济投入与产出系统时,研究投入与产出情况之间的联系时,投入情况可以从人力、物力、财力等多个方面反映,产出情况也可以从产值、利税、收入等多个方面反映。,如果直接对这些变量的相关进行两两分析,很难得到关于这两组变量之间关系的一个清楚印象。希望能够把多个变量与多个变量之间的相关化为两个变量之间的相关。现在的问题是为每一组变量选取一个综合变量作为代表;而一组变量最简单的综合形式就是该组变量的线性组合。由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因此必须找到既有意义又可以确定的线性组合。,典型相关分析的概念,典型相关分析(canonical correlation analysis)就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变量(和其他线性组合相比)之间的相关系数最大。典型相关分析是测度两组变量之间相关程度的一种多元统计方法。,典型相关分析的基本思想,典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的综合变量能代表原始变量大部分的信息,同时,与由另一组变量生成的新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对,第三对,使得各对典型相关变量之间互不相关,典型相关变量之间的简单相关系数称为典型相关系数,典型相关分析就是用典型相关系数衡量两组变量之间的相关性。,典型相关分析的基本假设,1.二变量之间的相关系数是基于线性关系,若为非线性则须将资料转为线性。2.典型变量间的典型相关为一线性关系,若为非线性则不会被接受。3.典型相关不要求变量服从正态分布,只要該变量 能不减少和其他变量相关程度。,典型相关分析的基本步骤,(一)确定典型相关分析的研究目标(二)设计典型相关分析(三)检验典型相关分析的基本假设(四)典型函数的估计和识别(五)解释典型变量(六)验证模型,第一步:确定典型相关分析的研究目标,典型相关分析是对两组变量整体相关关系的分析。通常一组可定义为自变量组,另一组可定义为因变量组,典型相关分析要达到以下目标:1确定两组变量是相互独立,或者相反,确定两组变量间存在关系的大小。2 为每组变量推出一组权重,使每组变量的线性组合达到最大程度相关,即找到第一对典型相关变量,然后分别找出第二对,第三对等等 3 解释自变量组与因变量组存在的相关关系,通常是通过测量每个变量对典型函数的相对贡献来衡量。,第二步:设计典型相关分析,典型相关分析对变量类型、样本容量有一定要求,要求数据为定量数据,样本容量至少保持为每个变量10个观测,同时在变量的选择上要根据相关的专业理论来进行设计。,第三步:检验典型相关分析的基本假设,1、线性性假设:典型相关分析是对线性相关分析的分析,若变量间不是线性关系,则典型相关分析是不适用的。2、正态性假设:虽然允许使用非正态变量,但是正态性是有意义的,因为它标准化了分布,允许变量间的更高程度的相关。对于每个典型函数的多元正态性的统计检验是必要的。由于多元正态性检验不一定可行,流行的准则是保证每个单变量的正态性。这样,尽管不严格要求正态性,建议所有变量都检验正态性,如有必要,对变量进行变换。,第四步:典型函数估计和识别,1 推导典型函数 典型函数推导类似于没有旋转的因子分析的过程。典型相关分析集中说明两组变量之间的相关关系,结果是第一对典型变量具有最大相关关系,第二对得到的是第一对没有解释的两组变量的最大相关关系2 典型函数的解释 通常提取的典型相关变量都是某个显著性水平上显著的函数,对其的解释基于如下假设,即认为典型相关变量中每组的变量对共同方差有较大贡献。典型相关变量的实际重要程度体现在典型相关系数的大小上,典型相关系数值越大,说明该典型相关系数对应的典型相关变量就越重要,越能体现两组变量间的相关关系。,第五步:解释典型变量.,建立典型相关分析模型后,需要对模型的结果进行解释,可以用以下三种方法来说明。三种方法:1 典型权重(标准化的典型变量系数)2 典型载荷(解释典型相关分析结果的基础;反应原始变量与典型变量的共同方差,即每个原始变量对典型变量的相对贡献)3 典型交叉载荷(提供了一个更直接的测量因变量组和自变量组关系的指标),1、典型权重,传统的解释典型函数的方法包括观察每个原始变量在它的典型变量中的典型权重的符号和大小。有较大的典型权重,则说明原始变量对它的典型变量贡献较大,反之则相反。原始变量的典型权重有相反的符号说明变量之间存在一种反面关系,反之则有正面关系。但是这种解释遭到了很多批评。这些问题说明在解释典型相关的时候慎用典型权重。,2、典型载荷,由于典型权重的缺陷,典型载荷逐步成为解释典型相关分析结果的基础。典型载荷,也称典型结构相关系数,是原始变量(自变量或者因变量)与它的典型变量间的简单线性相关系数。典型载荷反映原始变量与典型变量的共同方差,它的解释类似于因子载荷,就是每个原始变量对典型函数的相对贡献。,3、典型交叉载荷,它的提出是作为典型载荷的替代。计算典型交叉载荷是使每个原始因变量与自变量典型变量直接相关,反之亦然。交叉载荷提供了一个更直接的测量因变量组与自变量组关系的指标。,第六步:验证与诊断,与其他的多元分析方法一样,典型相关分析的结果应该验证,以保证结果不是只适合于样本,而是适合于总体。最直接的方法是构造两个子样本(如果样本量允许),在每个子样本上分别做分析。这样结果可以比较典型函数的相似性、典型载荷等。如果存在显著差别,研究者应深入分析,保证最后结果是总体的代表而不只是单个样本的反映。另一种方法是测量结果对于剔除一个因变量或自变量的灵敏度,保证典型权重和典型载荷的稳定性,典型相关分析的局限性,1 典型相关反应变量组的线性组合所共享的方差,而不是从变量提取的方差2 计算典型函数推导的典型权重有较大的不稳定性3 推导的典型权重是最大化线性组合间的相关关系,而不是提取的方差4 典型变量的解释比较困难,因为他们是用来最大化线性关系的5 难以识别自变量和因变量的子集间有意义的关系,只能通过一些不充分的测量,如载荷和交叉载荷,谢谢大家!,