多元回归和相关.ppt
第十章 多元回归和相关,第一节 多元回归第二节 多元相关和偏相关,本章主要内容有:,确定各个自变数对依变数的各自效应和综合效应,即建立由各个自变数描述和预测依变数反应量的多元回归方程;对上述综合效应和各自效应的显著性进行测验,并在大量自变数中选择仅对依变数有显著效应的自变数,建立最优多元回归方程;评定各个自变数对依变数的相对重要性,以便研究者抓住关键,能动地调控依变数的响应量。,第一节 多元回归,一、多元回归方程二、多元回归的假设测验三、最优多元线性回归方程的统计选择四、自变数的相对重要性,一、多元回归方程多元回归或复回归(multiple regression):依变数依两个或两个以上自变数的回归。(一)多元回归的线性模型和多元回归方程式若依变数Y 同时受到m 个自变数X1、X2、Xm 的影响,且这m 个自变数皆与Y 成线性关系,则这m+1个变数的关系就形成m 元线性回归。,一个m元线性回归总体的线性模型为:其中,N(0,)。一个m元线性回归的样本观察值组成为:,(101),(102),一个m元线性回归方程可给定为:b0是x1、x2、xm 都为0时y 的点估计值;b1是by123m 的简写,它是在x2,x3,xm 皆保持一定时,x1 每增加一个单位对y的效应,称为x2,x3,xm 不变(取常量)时x1 对y 的偏回归系数(partial regression coefficient)。,(103),(二)多元回归统计数的计算,(102)用矩阵表示为:即 Y=Xb+e(104),其中(三)多元回归方程的估计标准误 Qy/12m 称为多元离回归平方和或多元回归剩余平方和,它反映了回归估计值和实测值y之间的差异。最小 自由度:=n-(m+1),(105),sy/12m,(106),二、多元回归的假设测验,(一)多元回归关系的假设测验测验 m 个自变数的综合对 Y 的效应是否显著。若令回归方程中b1、b2、bm 的总体回归系数为、,则这一测验所对应的假设为H0:0 对HA:不全为0。,由于多元回归下 SSy 可分解为 Uy/12m 和 Qy/12m 两部分,Uy/12m由 x1、x2、xm的不同所引起,具有=m;Qy/12m与 x1、x2、xm的不同无关,具有=n-(m+1),由之构成的F 值:,(108),(二)偏回归关系的假设测验,偏回归系数的假设测验,就是测验各个偏回归系数bi(i=1,2,,m)来自=0的总体的概率,所作的假设为H0:=0对HA:0,测验方法有两种。1t 测验,服从 的 t 分布,可测验 bi 的显著性。,(109),=sy/12m,(1010),(1011),2.F 测验(1012)就是y对xi的偏回归平方和,。(1013),三、最优多元线性回归方程的统计选择,剔除不显著自变数的过程称为自变数的统计选择,所得的仅包含显著自变数的多元回归方程,叫做最优的多元线性回归方程。,逐步回归(stepwise regression):为了获得最优方程,回归计算就要一步一步做下去,直至所有不显著的自变数皆被剔除为止。自变数统计选择的具体步骤为:第一步:m个自变数的回归分析,一直进行到偏回归的假设测验。,第二步:m-1个自变数的回归分析,也是一直进行到 偏回归的假设测验。第三步:m-2个自变数的回归分析,又一直进行到偏回归的假设测验。如此重复进行,直至留下的所有自变数的偏回归都显著,即得最优多元线性回归方程。,四、自变数的相对重要性,偏回归系数bi本身并不能反映自变数的相对重要性,其原因有二:bi是带有具体单位的,单位不同则无从比较;即使单位相同,若Xi的变异度不同,也不能比较。通径系数(path coefficient,记作pi):即对bi进行标准化,在分子和分母分别除以Y 和Xi的标准差,从而消除单位和变异度不同的影响,获得一个表示Xi 对Y 相对重要性的统计数。,通径系数 pi 统计意义是:若 Xi 增加一个标准差单位,Y 将增加(pi0)或减少(pi0)pi 个标准差单位。,(1014),第二节 多元相关和偏相关,一、多元相关二、偏相关三、偏相关和简单相关的关系,一、多元相关,多元相关或复相关(multiple correlation):在M=m+1个变数中,m个变数的综合和1个变数的相关。偏相关(partial correlation):在其余M-2个变数皆固定时,指定的两个变数间的相关。,(一)多元相关系数在m个自变数和1个依变数的多元相关中,多元相关系数记作 Ry12m,读作依变数y和m个自变数的多元相关系数。Ry12m=(1015),多元相关系数为多元回归平方和与总变异平方和之比的平方根。Ry12m的存在区间为0,1。(二)多元相关系数的假设测验令总体的多元相关系数为,则对多元相关系数的假设测验为H0:对HA:,,F 测验:其中的=m,=n-(m+1),R2为 的简写。,(1016),二、偏相关,(一)偏相关系数偏相关系数:表示在其它M-2个变数都保持一定时,指定的两个变数间相关的密切程度。偏相关系数以r 带右下标表示。如有X1、X2、X3 3个变数,则r123表示X3变数保持一定时,X1和X2变数的偏相关系数;,若有M 个变数,则偏相关系数共有M(M-1)/2个。偏相关系数的取值范围是-1,1。偏相关系数解法是:由简单相关系数rij(i,j=1,2,M)组成的相关矩阵:,求得其逆矩阵:令xi 和xj 的偏相关系数为rij,解得 后即有 rij(1018),矩阵以主对角线为轴而对称,即rij=rji。逆阵 R-1中 的元素也是以主对角线为轴而对称的。(二)偏相关系数 的假设测验可测验H0:=0 对 HA:0。该测验的 t 具有。,三、偏相关和简单相关的关系,当要排除其他变数干扰,研究两个变数间单独的关系时采用偏相关与偏回归;当考虑到变数间实际存在的关系而要研究某一个变数为代表的综合效应间的相关与回归时则采用简单相关和简单回归。,