SPSS第六讲线性回归分析.ppt
第六讲 线性回归分析,一、线性回归分析的基本原理二、线性回归分析操作步骤与说明三、一元线性回归分析四、多元线性回归分析 五、多元线性回归分析中共线性的含义及其后果六、判断高度共线性的指标方法七、高度共线性的解决思路八、多元线性回归方法,一、线性回归分析的基本原理,(一)相关与回归的关系(二)回归分析的含义与类型(三)消减误差比例思想与判定系数(四)回归分析的逻辑,(一)相关与回归的关系,1、相关与回归的关系(1)函数关系(2)统计相关:线性相关;非线性相关(3)因果关系,相 关 类 型,图1,图2,图3,图4,图5,图6,讨论:,统计上相关与实际相关?相关关系统计相关因果关系统计因果关系相关是回归的基础,(二)回归分析的含义与类型,(1)含义:自变量每改变一个单位,因变量的均值变化情况。(2)回归模型设定:统计上的“因果”关系,确定了自变量与因变量(假设)。(3)类型:根据自变量的多少,可分为一元回归分析、多元回归分析;根据关系类型,可分为线性回归、非线性回归;本课程讲解一元线性回归、多元线性回归。,一元线性回归方程求解,Y=aX+b最小二乘法求a、b,最小二乘法图示,二元线性回归方程,Y=a1X1+a2X2+b,自变量X1与Y的散点图,X1,Y,Y,X2,自变量X2与Y的散点图,(三)“消减误差比例”思想用“已知”来估计“未知”、减少犯错概率,1、要预测或理解社会现象Y变化的情况难免会有误差。2、如果知道X与Y有关系,根据X的值来预测Y的值,可以减少若干误差。3、X与Y的关系愈强,所能减少的预测误差就会愈多。4、所削减的误差的多少,可以反映X与Y相关的强弱程度。5、消减误差比例:表示用一个现象(如变量X)来解释另一个现象(如变量Y)时能够消减的总误差的比例,即减少的误差与原来的全部误差之比。,消减误差比例表达式:,在知道X与Y的关系模式的情况下,所消解掉的的误差=E1-E2,消减误差比例(PRE的取值及其意义),1、PRE数值的取值范围是o,1,2、PRE=1,或E2o,即以X预测Y不会产生任何误差,则反映X与Y是完全相关,3、PREo,或E2E1,即以X预测Y所产生的误差相等于不以X来预测y所产的误差,反映X与Y是不相关。,4、PRE数值越接近1,就表示以X预测Y可以减少的误差越多,反映二者的相关程度越高;PRE值越接近0,反映二者的相关程度越低。,如何判定线性拟合(fitness),1、散点图2、线性拟合优度指标:判定系数R2(01),调整的R2系数:,如果增加自变量,不管增加后的自变量是否与因变量有关系,都会使判定系数(R2)增大,如果自变量的数目(K)接近样本的个案数(n),R2将会必然接近于1.0,解决这一问题的方法是使用“校正的”R2。(Wonnacott,R.M.&T.H.Wonnacott,1979),(四)多元线性回归分析的逻辑,一元线性回归方程检验,Total Sum of Squares Residual Sum of Squares Regression Sum of Squares R2 SSR/TSS,二元线性回归方程检验,Total Sum of Squares Residual Sum of Squares Regression Sum of Squares R2 SSR/TSS,三元线性回归方程检验,Total Sum of Squares Residual Sum of Squares Regression Sum of Squares R2 SSR/TSS,二、线性回归分析操作步骤与说明,三、一元线性回归分析,研究问题:个体的受教育水平受到父亲的受教育水平的影响有多大?数据:1991 U.S.General Survey.sav,散点图,回归分析操作步骤:,输出结果解释(共四个表格),1、说明表:,2、判定系数(R2)表:,R2 的含义:自变量所能解释的离差在总离差中所占的百分比,取值越大说明线性拟合得越好。最通俗的解释就是R2 越大说明所选取的自变量对因变量的解释能力越大,影响越大。,3、回归系数显著检验表:,回归系数不为0的显著性检验(F检验),在一元回归分析中与回归分析表中的t检验是一致的(F值的平发根即为t值)。如果有多个自变量,检验的是全部自变量的联合作用不为0,至少有一个自变量对因变量的影响不为0。,4、回归方程表:,线性回归方程:Y=0.668X+1.910“X”的实际值每增加1个单位,“Y”实际值增加0.668个单位,可进行实际预测具体值。标准化线性回归方程:Y=0.463X“X”的标准值每增加1个单位,“Y”的标准值相应地增加0.463个单位。(与非标准化方程等价,标准化后去掉了单位的影响、去掉常数,没法进行实际预测具体值仅反应的是自变量对因变量的影响程度,好处是在多个自变量的情况下,可进行影响程度比较。),四、多元线性回归分析(二元),研究问题:个体的受教育水平受到父亲的受教育水平和母亲的受教育水平的净影响分别有多大?数据:1991 U.S.General Survey.sav,1、回归说明表:,2、判定系数(R2)表:,3、回归系数显著检验表:,4、回归方程表:,四、多元线性回归分析(三元),研究问题与研究假设:个体的受教育水平受到父亲的受教育水平、母亲的受教育水平以及配偶的受教育程度的影响。数据:1991 U.S.General Survey.sav,1、回归说明表:,2、判定系数(R2)表:,3、回归方程显著检验表:,4、回归方程表:,四、多元线性回归分析(四元),研究问题:中国农村社区公共物品供给水平的影响因素:人均耕地数量、社会资本存量、村庄治理水平、集体资产数量。SPSS数据:2007年“村庄社区公共品供给水平数据库.sav”(数据来自2007年“山东大学与Washington University”国际合作项目。),1、回归说明表,2、判定系数(R2)表:,3、回归方程显著检验表:,4、回归方程表:,五、多元共线性的含义及其后果,1、完全共线性及其后果在多元线性回归分析中,如果其中有一个自变量与其他自变量之间的关系存在完全线性相关关系。运用最小二乘法来求一套回归系数将导致无解,或者说无法求出唯一的截距和一套回归系数,2、不完全共线性与高度共线性及其后果,在社会科学研究中,大量的情况是回归方程中的自变量相关,但不完全共线。多元共线性不是有无问题,事实上,它一定存在,只是程度高度不同而已,程度的高低决定了问题的大小,如果很低就不必考虑它,如果较高,其后果就很严重。,当存在严重的多重共线性时,运用最小二乘法来求解方程系数,尽管在数学上仍然是最佳无偏估计,但会导致回归系数估值的标准误增大,影响显著性检验(显著性检验的t值变得很小)和回归系数的置信区间。,严重共线性“症候”:,(1)整个回归方程的方差分析检验结果为显著,但各个自变量的偏回归系数的统计学检验结果却全部为非显著。(2)专业上认为应该有统计学意义的自变量检验结果却无统计学意义。(3)自变量的偏回归系数取值大小甚至符合明显与实际情况相违背,难以解释。(4)增加或者删除一个自变量或一个(极少数)观测个案,自变量的偏回归系数发生较大变化。,六、判断高度共线性的指标方法,1、容忍度(Tolerence)2、方差膨胀因子(Variance Inflation Factor,VIF)3、其他指数,七、高度共线性的解决思路,获取新信息将两个或多个强相关的自变量合并删除掉方程中引起共线性的自变量,八、多元线性回归方法,1、强制回归法(Enter),Enter回归法又被称为强制回归法,即强制把所选择的自变量全部进入回归方程,是SPSS的默认方法。我们以上例子所采取的方法都是这种方法。该种方法不管自变量有没有显著性,都全部进入回归方程,不进行筛选。,2、向后回归法(Backward),向后回归法是先进行强制回归,并建立模型1;然后对模型1中无统计学意义的自变量进行考察,原则是删除模型1无统计学意义自变量中p值最大的那一个,建立模型2;然后对模型2中无统计学意义的自变量进行考察,删除模型2无统计学意义自变量中p值最大的那一个,建立摸型3;依次进行,原则同上,只到建立的模型中自变量全部有统计学意义为止。,Backward,3、向前回归法(Forward),首先分别对每一个自变量与因变量进行简单线性回归,把简单线性回归模型中不具有统计学意义的自变量直接删除,只考察其中有统计学意义的简单线性回归模型(k个自变量,建立k个简单回归模型,其中k1个自变量有统计学意义,把kk1个不具有统计学意义的自变量删除),在这些保留的有统计学意义的k1个简单回归模型中,只输出其中自变量p值最小的回归模型,记做模型1(其他p值相对较大的回归模型都不会输出出来,但是计算机逐一计算过了);第二步在剩余下k11个自变量中,一个一个地引入到模型1中,建立k11个回归模型,把k11个自变量中那个p值最小且有统计学意义的自变量建立的模型输出出来,记做模型2;依次进行,原则同上,直至余下的自变量中没有一个进入前一个回归模型中具有统计学意义为止。,注 意:,后一个自变量进入前一个模型后,前一个自变量是否还具有统计学意义则不管不问,依据的标准只是后来进入的自变量必需是p值相对最小且有统计学意义的那一个。当按照原则引入下一个自变量后,管不管该模型中前面已经引入的自变量还具有统计学意义是前进法与逐步回归法区别的标志。前进法对前面已被选择的自变量在引入下一个自变量后建立的新回归模型中是否还显著、有统计学意义则不管不问,不负责。,Forward,4、逐步回归法(Stepwise),逐步回归法是将后退法与前进法结合而成的较为“负责任”的方法。逐步回归法的第一步与前进法一样:首先分别对每一个自变量与因变量进行简单线性回归,把简单线性回归模型中不具有统计学意义的自变量直接删除,只考察其中有统计学意义的简单线性回归模型(k个自变量,建立k个简单回归模型,其中k1个自变量有统计学意义,把kk1个不具有统计学意义的自变量删除),在这些保留的有统计学意义的k1个简单回归模型中,只输出其中自变量p值最小的回归模型,记做模型1;,第二步在剩余下k11个自变量中,一个一个地引入到模型1中,建立k11个回归模型,把k11个自变量中那个p值最小且有统计学意义的自变量建立的模型输出出来,记做模型2,此时在模型2中考察模型1里选出的自变量是否还具有统计学意义,如果没有,则运算到此终止,最终只输出模型1;,如果还有统计学意义,则把在第二步中没有统计学意义的自变量删除,把在第二步还有统计学意义的自变量逐一进入模型2中,把其中p值最小且有统计学意义的自变量建立的模型输出出来,记做模型3,此时在模型3中考察模型2里的自变量是否还具有统计学意义,如果没有,则运算到此终止,最终只输出模型1、模型2;如果还有统计学意义,按照上述原则,继续进行下去,直至模型外的自变量均无统计学意义而同时模型内的自变量都具有统计学意义为止,输出前面每步中的模型。,Stepwise,5、强制删除法(Remove),强制删除法是全部删除所选自变量,输出全部进入方程模型和全部删除后只有一个常量的模型。,Remove,