多重线性回归分析.ppt
多重线性回归分析,军事医学科学院统计学教研室高 辉,2,内 容,3,一、方法简介,1.1 分析目的与方法选择 研究一个因变量与一个自变量间的线性关系时 简单线性回归分析 研究一个因变量与多个自变量间的线性关系时 多重线性回归分析 研究多个因变量与多个自变量间的线性关系时 多元多重线性回归分析,4,一、方法简介,1.2 概念 用回归方程定量地刻画一个因变量与多个自变量之间的线性依存关系,称为多重线性回归分析(multiple linear regression analysis)。自变量是相互独立的连续型变量或分类变量。,一、方法简介,1.3 数据结构 表1 进行多重线性回归分析资料的数据结构,5,6,二、基本原理,2.1 原理简介 多重线性回归模型:Y=b0+b1X1+b2X2+bkXk+e=bX+e 其中,bj(j=0,1,2,k)为未知参数,e为随机误差项。,7,二、基本原理,2.1 原理简介 多重线性回归模型中包含多个自变量,它们同时对因变量Y 发生作用。若要考察一个自变量对Y 的影响,就必须假设其他自变量保持不变。,8,二、基本原理,2.1 原理简介 因此,多重线性回归模型中的回归系数为偏回归系数。它反映的是当模型中的其他自变量不变时,其中一个自变量对因变量Y 的均值的影响。,9,二、基本原理,2.2 前提条件 多重线性回归分析要求资料满足线性(Linear)、独立性(Independence)、正态性(Normality)和方差齐性(Equal variance),即LINE条件。除此之外,还要求多个自变量之间相关性不要太强。,10,二、基本原理,2.2 前提条件线性指自变量与因变量之间的关系是线性的独立性指各观测值之间是相互独立的正态性指自变量取不同值时,因变量服从正 态分布方差齐性指自变量取不同值时,因变量的方 差相等,11,三、分析步骤,1.基本任务 求出模型中参数的估计值,对模型和参数进行假设检验;对自变量进行共线性诊断,对观测值进行异常值诊断;结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。,12,三、分析步骤,2.具体步骤2.1 回归参数估计 多重线性回归分析的参数估计,常采用最小二乘法(OLS)进行。参数估计值为:,13,三、分析步骤,2.具体步骤2.2 模型检验 根据方差分析的思想,将总的离均差平方和SS总分解为回归平方和SS回和残差平方和SS残两部分。SS总的自由度为n-1,SS回的自由度为k,SS残的自由度为n-k-1。,14,三、分析步骤,2.具体步骤2.2 模型检验,15,三、分析步骤,2.具体步骤2.2 模型检验 模型的显著性检验步骤为:第一步,建立检验假设。H0:b1=b2=bk=0H1:b1,b2,bk不同时为0,16,三、分析步骤,2.具体步骤2.2 模型检验 模型的显著性检验步骤为:第二步,计算统计量F的值。,17,三、分析步骤,2.具体步骤2.2 模型检验 模型的显著性检验步骤为:第三步,确定P值,下统计学结论。根据检验统计量F的值和自由度,确定其对应的P值。若Pa,则接受H0,认为回归模型的系数全部为0;若Pa,则拒绝H0,接受H1,认为回归模型的系数不全为0。,18,三、分析步骤,2.具体步骤2.3 参数检验 回归方程有统计学意义,可以说明整体上自变量对Y 有影响,但并不意味着每个自变量对因变量的影响都有统计学意义。,19,三、分析步骤,2.具体步骤2.3 参数检验 考察各个自变量对因变量的影响,即检验其系数是否为0。若某自变量对因变量的影响无统计学意义,可将其从模型中删除,重新建立回归方程。,20,三、分析步骤,2.具体步骤2.3 参数检验 对自变量Xi的系数是否为0进行假设检验,步骤为:第一步,建立检验假设。H0:bi=0H1:bi0,21,三、分析步骤,2.具体步骤2.3 参数检验第二步,计算检验统计量。,22,三、分析步骤,2.具体步骤2.3 参数检验第三步,确定P值。根据自由度和临界水平,查t分布表,可得双侧界值为ta/2(n-k-1)。,23,三、分析步骤,2.具体步骤2.3 参数检验 若t ta/2(n-k-1)或t-ta/2(n-k-1),则Pa。此时,拒绝H0,接受H1,认为该回归系数不等于0。反之,则接受H0,认为该回归系数为0。,24,三、分析步骤,例1 为推算少年儿童心脏面积,重庆医科大学对33名8岁正常男童进行观测,获得身高(x1,cm)、体重(x2,cm)、心脏横径(x3,cm)、心脏纵径(x4,cm)、心脏宽径(x5,cm)、胸腔横径(x6,cm)及心脏面积(y,cm2)的值,结果如表2。,25,三、分析步骤,表2 33名8岁正常男童的观测数据,26,三、分析步骤,SAS程序如下,27,三、分析步骤,SAS结果 模型检验结果,28,三、分析步骤,SAS结果 参数估计及假设检验结果,29,三、分析步骤,2.具体步骤2.4 变量筛选 由例1的分析结果可知,不是所有的自变量都对因变量的作用都有统计学意义。故需要找到一个较好的回归方程,使之满足:方程内的自变量对回归都有统计学意义,方程外的自变量对回归都无统计学意义。,30,三、分析步骤,2.具体步骤2.4 变量筛选 这就是自变量的选择问题,或称为变量筛选。选择时,一要尽可能地不漏掉重要的自变量;二要尽可能地减少自变量的个数,保持模型的精简。,31,三、分析步骤,2.具体步骤2.4 变量筛选 就回归方程而言,每个变量均有两种可能性,即被选择或被踢除。所以,所有可能的模型有2k个(k为自变量个数)。自变量个数较多时,计算量过大。此时,需要一定的变量筛选方法。,32,三、分析步骤,2.具体步骤2.4 变量筛选 常用的变量 筛选方法有以下8种:前进法 后退法 逐步回归法 最大R2增量法 最小R2增量法 R2选择法 修正R2选择法 Mallows Cp选择法,33,三、分析步骤,2.4.1 前进法(FORWARD)回归方程中变量从无到有依次选择一个自变量进入回归方程,并根据该变量在回归方程中的型离差平方和(SS2)计算F统计量及P值。当P小于sle(规定的选变量进入方程的临界水平)则该变量入选,否则不能入选。,34,三、分析步骤,2.4.1 前进法 当回归方程中变量少时某变量不符合入选标准,但随着回归方程中变量逐次增多时,该变量就可能符合入选标准;这样直到没有变量可入选为止。具体而言,是从仅含常数项(即截距项)的最简单模型开始,逐步在模型中添加自变量。,35,三、分析步骤,2.4.1 前进法 局限性:sle取值小时,可能没有一个变量能入选;sle取值大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得无统计学意义的变量。,36,三、分析步骤,2.4.2 后退法(BACKWARD)从模型中包含全部自变量开始,计算留在回归方程中的各个自变量所产生的F统计量和P值,当P值小于sls(规定的从方程中踢除变量的临界水准)则将此变量保留在方程中。,37,三、分析步骤,2.4.2 后退法 否则,从最大的P值所对应的自变量开始逐一踢除,直到回归方程中没有变量可以被踢除时为止。,38,三、分析步骤,2.4.2 后退法 局限性:sls大时,任何一个自变量都不能被踢除;sls小时,开始被踢除的自变量后来在新条件下即使变得对因变量有较大的贡献了,也不能再次被选入回归方程并参与检验。,39,三、分析步骤,2.4.3 逐步回归法(STEPWISE)此法是前进法和后退法的结合。回归方程中的变量从无到有像前进法那样,根据F统计量和P值大小按sle水平决定该自变量是否入选。,40,三、分析步骤,2.4.3 逐步回归法(STEPWISE)当回归方程选入自变量后,又像后退法那样,根据F统计量和P值按sls水平踢除无统计学意义的各自变量,依次类推。这样直到没有自变量可入选,也没有自变量可被踢除或入选的自变量就是刚被剔除的自变量时,则停止逐步筛选过程。,41,三、分析步骤,2.4.3 逐步回归法,42,三、分析步骤,2.4.3 逐步回归法 逐步回归法比前进法和后退法都能更好地选出变量构造模型,但它也有局限性:其一,当有m个变量入选后,选第m1个变量时,对它来说,前m个变量不一定是最佳组合;其二,选入或踢除自变量仅以F值和P值作标准,完全没考虑其它标准。,43,三、分析步骤,2.4.4 SAS应用 在SAS编程法中,通过在model语句中增加适当的选择项,可以有9种筛选变量的方法,语法格式为:selection=关键词。可用关键词分别为:NONE(全模型法)STEPWISE(逐步回归法)BACKWARD(后退法)FORWARD(前进法),44,三、分析步骤,2.4.4 SAS应用 9种筛选变量方法的关键词分别为:MAXR(基于最大R2增量法)MINR(基于最小R2增量法)RSQUARE(基于R2数值大小的选择变量法)ADJRSQ(基于校正R2数值大小的选择变量法)CP(基于Mallows Cp数值大小的选择变量法),45,三、分析步骤,2.4.4 SAS应用 用前6种方法筛选变量后,一般都会给出回归方程中参数的估计值。用后3种方法筛选变量后,一般只给出各种自变量组合模型的某统计量值(如R2等)。,46,三、分析步骤,2.4.4 SAS应用 后3种筛选变量的方法可统称为求“最优回归子集”的方法。此时,欲得到回归参数的估计值,需给定变量的组合,按不筛选变量法直接拟合多重线性回归方程。,47,三、分析步骤,2.4.5 变量筛选方法的选择 究竟哪一种筛选变量的方法最好?这个问题没有绝对的定论。一般来说,逐步回归法和最优回归子集法较好。对于一个给定的资料,可试用多种变量筛选的方法,结合以下几条判断原则,从中选择最佳者。,48,三、分析步骤,2.4.5 变量筛选方法的选择 其一,拟合的回归方程在整体上有统计学意义;其二,回归方程中各回归参数的估计值的假设检验结果都有统计学意义;其三,回归方程中各回归参数的估计值的正负号与其后的变量在专业上的含义相吻合;,49,三、分析步骤,2.4.5 变量筛选方法的选择 其四,根据回归方程计算出因变量的所有预测值在专业上都有意义。其五,若有多个较好的多重线性回归方程时,残差平方和较小且多重线性回归方程中所含的自变量的个数又较少者为最佳。,50,三、分析步骤,2.5 模型拟合效果评价2.5.1 决定系数(R2)即复(全)相关系数的平方,其值等于因变量观测值与预测值之间简单相关系数的平方。计算公式为:,51,三、分析步骤,2.5 模型拟合效果评价2.5.1 决定系数(R2)R2取值介于0到1之间,其含义为自变量能够解释因变量y变异的百分比。R2越接近于1,说明线性回归对实际数据的拟合程度越好。,52,三、分析步骤,2.5 模型拟合效果评价2.5.2 校正决定系数(Rc2)随着模型中自变量个数的增加,决定系数R2将不断增大,这不符合回归模型中自变量个数尽可能少的原则。,53,三、分析步骤,2.5 模型拟合效果评价2.5.2 校正决定系数(Rc2)故在评价两个包含不同个数自变量的回归模型的拟合效果时,不能简单地用决定系数作为评价标准。此时,必须考虑回归模型中自变量个数的影响。,54,三、分析步骤,2.5 模型拟合效果评价2.5.2 校正决定系数(Rc2)构造校正决定系数,其公式为:其中,n为样本含量,p为模型中自变量个数。决定系数相同时,自变量个数越多,Rc2越小。,55,三、分析步骤,2.5 模型拟合效果评价2.5.3 AIC信息准则 该准则由日本学者赤池于1973年提出,广泛应用于时间序列分析中自回归阶数的确定,多重回归、广义线性回归中自变量的筛选以及非线性回归模型的比较和选优。该统计量取值越小,反映模型拟合效果越好。,56,三、分析步骤,2.6 共线性诊断 多重线性回归分析中,可能会出现以下问题:回归方程的检验有统计学意义,而各偏回归系数的检验均无统计学意义。偏回归系数的估计值大小或其符号与实际情况和专业知识相违背,难以解释。,57,三、分析步骤,2.6 共线性诊断 多重线性回归分析中,可能会出现以下问题:(3)某个(些)与因变量关系密切的自变量,因为参数标准误的估计值较大,相应t值就会变得较小,造成其偏回归系数无统计学意义。,58,三、分析步骤,2.6 共线性诊断 导致这些问题的原因可能有:(1)研究设计不够合理;(2)资料收集存在问题;(3)自变量间近似线性;(4)数据中存在异常点;(5)样本少而自变量多。,59,三、分析步骤,2.6 共线性诊断 何谓多重共线性?自变量间的近似线性关系,即是多重共线性。由于数据自身的特征,回归模型中的自变量之间或多或少地存在一些相关性,这违反了自变量间相互独立的假设条件,称为多重共线性。,60,三、分析步骤,2.6 共线性诊断 多重共线性的分类:(1)严重的多重共线性 此时,自变量之间存在着较高甚至完全的线性相关关系,虽然最小二乘法仍可应用,但由于观测误差的稳定性变差,所得的估计值可能面目全非。这类情况较为少见。,61,三、分析步骤,2.6 共线性诊断 多重共线性的分类:(2)某种程度的多重共线性 此时,最小二乘法仍可获得参数的无偏估计值,但参数的方差估计值将变得很大,导致估计精度下降,且无法判断自变量对因变量的影响程度。,62,三、分析步骤,2.6 共线性诊断2.6.1 条件数 设X为n个研究对象在k个自变量上的取值数据矩阵,则可求出其交叉乘积矩阵XX的k个特征根,记为li(i=1、2、k),且有l1l2 lk。,63,三、分析步骤,2.6 共线性诊断2.6.1 条件数 最大特征根与其余每个特征根比值的平方根,称为条件指数(conditional number),公式为:,64,三、分析步骤,2.6 共线性诊断2.6.1 条件数 而最大条件指数,简称为条件数,其值为最大特征根与最小特征根之比值的平方根。即:,65,三、分析步骤,2.6 共线性诊断2.6.1 条件数 条件数越大,说明设计矩阵X具有越强的共线性。经验上,若030,则认为自变量间存在严重的多重共线性。,66,三、分析步骤,2.6 共线性诊断2.6.2 方差分量 SAS软件在给出条件数的同时,还会给出每个主成分变量分得的方差,即方差分量,SAS输出结果时的标志是“Var Prop”。,67,三、分析步骤,2.6 共线性诊断2.6.2 方差分量 若条件数(即最大条件指数)大于10,且所在行同时有两个以上的变量方差分量超过0.5,就意味着这些变量间存在一定程度的相关。,68,三、分析步骤,2.6 共线性诊断2.6.3 共线性的解决方法(1)变量筛选 采用自变量筛选的方法一般可选出对因变量有统计学影响且相互之间独立或相关性较低的一组自变量。,69,三、分析步骤,2.6 共线性诊断2.6.3 共线性的解决方法(2)有偏估计 自变量间存在多重共线性且专业上认为需要保留在模型中时,不宜使用最小二乘法估计模型。此时,可采用有偏估计。此类方法包括岭回归分析、主成分回归分析等。,70,三、分析步骤,2.6 共线性诊断2.6.3 共线性的解决方法(3)增大样本含量 通过增加样本含量,减少估计量的方差,提高估计精度,可在一定程度上克服多重共线性。,71,三、分析步骤,2.7 异常点诊断 2.7.1 异常点 对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,称为异常点。异常点的诊断,可采用学生化残差统计量、Cooks D统计量。,72,三、分析步骤,2.7 异常点诊断2.7.2 学生化残差统计量 Studentized residual,计算公式为:该统计量的绝对值大于2时,所对应的观测点可能是异常点。,73,三、分析步骤,2.7 异常点诊断2.7.3 Cooks D统计量 库克距离统计量。一般认为,Cooks D0.5时,可认为此观测点对回归模型的拟合有强影响,即可认为是异常点。,74,三、分析步骤,2.7 异常点诊断 2.7.4 异常点的处置 认真核对原始数据。若属抄写或输入等人为错误,应予以纠正;若非人为错误,可删除异常点,重新拟合回归模型。如有可能,最好在此实验点上补做实验,进一步确定此可疑异常点是否属实。,75,三、分析步骤,2.8 自变量作用大小评价 由于自变量量纲不同,不能直接根据原始数据计算得来的偏回归系数来评价各自变量对因变量的影响大小。也不能依据P 值来判断自变量对因变量的影响大小。因为P 值的大小,不表示自变量的影响强弱,仅表示认为它有影响的可能性有多大。,76,三、分析步骤,2.8 自变量作用大小评价 先对原始数据进行标准化变换,然后再计算偏回归系数,此时的偏回归系数称为标准化偏回归系数。标准化偏回归系数值越大,说明该自变量对因变量的影响越大。,77,三、分析步骤,例1 为推算少年儿童心脏面积,重庆医科大学对33名8岁正常男童进行观测,获得身高(x1,cm)、体重(x2,cm)、心脏横径(x3,cm)、心脏纵径(x4,cm)、心脏宽径(x5,cm)、胸腔横径(x6,cm)及心脏面积(y,cm2)的值,结果如表2。,78,三、分析步骤,表2 33名8岁正常男童的观测数据,79,三、分析步骤,SAS程序如下,排除标准,残差分析,纳入标准,逐步回归法,80,三、分析步骤,SAS结果 逐步回归过程摘要,81,三、分析步骤,SAS结果 模型参数估计及回归系数假设检验结果,82,三、分析步骤,SAS结果 残差分析结果,83,三、分析步骤,SAS程序如下,25号观测权重为0,84,三、分析步骤,SAS结果 模型参数估计及回归系数假设检验结果,85,三、分析步骤,SAS程序如下,共线性诊断,标准化系数,校正截距项的共线性诊断,86,三、分析步骤,SAS结果 模型参数估计及回归系数假设检验结果,87,三、分析步骤,SAS结果 模型拟合效果,88,三、分析步骤,SAS结果 未校正截距项的共线性诊断结果(截距项无意义),89,三、分析步骤,SAS结果 校正截距项的共线性诊断结果(截距项有意义),90,三、分析步骤,结论:结合以上结果,可知:自变量X3、X4、X5对因变量的影响有统计学意义。所得模型为:Y=-58.86+2.32X3+6.01X4+4.64X5 根据标准化偏回归系数的大小可知:X4(0.54)对因变量的影响最大,X5(0.30)次之,X3(0.20)最小。,91,三、分析步骤,结论:即心脏横径、心脏纵径和心脏宽径对心脏面积的影响有影响,最终模型的决定系数为0.96,说明由这三者估计心脏面积有较大的实用价值。,92,四、几点补充,4.1 哑变量 多重线性回归分析中,自变量为多值名义变量时,需对其进行哑变量变换。每个哑变量都是一个二值变量,所需哑变量的数目为多值名义变量的类别数减1。如“血型”是一个多值名义变量,有A、B、AB、O四种,若以O型血为基准,需引入3个(4-1=3)哑变量来描述。,93,四、几点补充,4.1 哑变量 令:,94,四、几点补充,4.1 哑变量 则可得到下面的对应关系:表3 用3个哑变量描述血型变量,95,四、几点补充,4.2 常见应用错误4.2.1 建立模型时,不筛选自变量 在建立多重线性回归模型时,不考虑各自变量对因变量的影响是否有统计学意义,不采用任何变量筛选方法,直接将所有变量都保存在模型中。,96,四、几点补充,4.2 常见应用错误4.2.2 以单因素分析方法取代多因素分析方法 先以各自变量分别与因变量做简单相关分析或简单回归分析。然后对简单相关系数或简单回归系数进行假设检验,P0.05的自变量予以保留,其他予以踢除。最后,将保留下来的自变量与因变量一起进行多重线性回归分析。,97,总结,何时使用多重线性回归分析?如何进行自变量筛选?如何进行共线性诊断?如何进行异常点检测?如何评价自变量的影响大小?常见的应用错误有哪些?,谢谢!,