现代统计分析方法与应用ppt课件 第六章 违背基本假设的回归分析.ppt
2022/12/9,中国人民大学六西格玛质量管理研究中心,1,第6章 违背基本假设的回归分析,6.1 关于异方差性问题6.2 关于自相关性问题 6.3 关于多重共线性问题6.4 异常值与强影响值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,2,第6章 违背基本假设的回归分析,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,3,6.1 关于异方差性问题,一、异方差产生的原因由于实际问题是错综复杂的,因而在建立具体问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同方差。通过下面的几个例子,我们可以了解产生异方差性的背景和原因。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,4,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,5,6.1 关于异方差性问题,利用平均数作为样本数据,也容易出现异方差性。因为正态分布的普遍性,许多经济变量之间的关系遵从正态分布。引起异方差的原因很多,但样本数据为截面数据时容易出现异方差性。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,6,6.1 关于异方差性问题,二、异方差性带来的问题 当一个回归问题存在异方差性时,如果仍用普通最小二乘法估计未知参数,将引起严重后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,7,6.1 关于异方差性问题,当存在异方差时,普通最小二乘估计存在以下问题:(1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,8,6.1 关于异方差性问题,三、异方差性的检验关于异方差性的检验,统计学家们进行了大量的研究,提出的诊断方法已有十多种,但没有一个公认的最优方法。本书介绍残差图分析法与等级相关系数检验法二种常用方法。(一)残差图分析法,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,9,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,10,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,11,6.1 关于异方差性问题,(二)等级相关系数法等级相关系数检验法又称斯皮尔曼(Spearman)检验(见参考文献5),是一种应用较广泛的方法。这种检验方法在样本容量大或小时都可应用。进行等级相关系数检验通常有三个步骤。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,12,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,13,6.1 关于异方差性问题,例6.3 设某地区一些企业的广告投入与销售收入的横截面样本数据(单位:万元)如表6.1所示。 (1)用普通最小二乘法建立销售收入y与广告投入x的回归方程,并画出残差散点图;(2)诊断该问题是否存在异方差;,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,14,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,15,6.1 关于异方差性问题,从残差图看出,误差项具有明显的异方差性,误差随着x的增加而增加。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,16,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,17,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,18,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,19,6.1 关于异方差性问题,对一般情况,等级相关系数可以如实反映呈单调趋势变动的变量间的相关性,而简单相关系数只能反映呈直线趋势变动的变量间的相关性。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,20,6.1 关于异方差性问题,四、加权最小二乘估计 当我们所研究的问题存在异方差性时,线性回归模型的基本假定就被违反了。此时,就不能用普通最小二乘法进行参数估计,必须寻求适当的补救方法,对原来的模型进行变换,使变换后的模型满足同方差性假设,然后进行模型参数的估计,就可得到较为理想的回归模型。消除异方差性的方法通常有加权最小二乘法,Box-Cox变换法,方差稳定化变换法(参见参考文献6)。下面结合例6.3介绍加权最小二乘法。加权最小二乘法(Weighted Least Square,简记为WLS)是一种最常用的消除异方差性的方法。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,21,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,22,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,23,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,24,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,25,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,26,6.1 关于异方差性问题,五、寻找最优权函数利用SPSS软件可以确定(6.6)式幂指数m的最优取值。对例6.3的数据,依次点选Statistics-Regression-Weight Estimation进入估计权函数对话框,默认的幂指数m的取值为m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0,这一默认值可以更改。先将因变量y与自变量x选入各自的变量框,再把x选入Weight变量框,幂指数(Power)取默认值,计算结果如下(格式略有变动):,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,27,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,28,6.1 关于异方差性问题,对异方差问题的处理至今没有什么更好的方法,一些方法的处理效果往往不甚明显,所以此例能有所改进也就不错了。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,29,6.1 关于异方差性问题,六、 多元加权最小二乘(1)多元加权最小二乘法,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,30,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,31,6.1 关于异方差性问题,(2)权函数的确定方法,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,32,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,33,6.1 关于异方差性问题,仿照例6.3,用Weight Estimate估计幂指数m,得m的最优值为m=1.5,部分输出结果为,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,34,6.1 关于异方差性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,35,6.2 关于自相关性问题,这里的自相关现象不是指两个或两个以上的变量之间的相关关系,而指的是一个变量前后期数值之间存在的相关关系。本节主要讨论自相关现象产生的背景和原因,自相关现象对回归分析带来的影响,诊断自相关是否存在的方法,以及如何克服自相关现象带来的影响。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,36,6.2 关于自相关性问题,一、 自相关的背景及其原因在实际问题的研究中,经常遇到的时间序列出现正的序列相关的情形。产生序列自相关的背景及其原因通常有以下几个方面。 1.遗漏关键变量时会产生序列的自相关性。2.经济变量的滞后性会给序列带来自相关性。3.采用错误的回归函数形式也可能引起自相关性。 4.蛛网现象(Cobweb phenomenon)可能带来序列的自相关性。5.因对数据加工整理而导致误差项之间产生自相关性。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,37,6.2 关于自相关性问题,二、自相关性带来的问题当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下序列相关性会带来下列问题。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,38,6.2 关于自相关性问题,1.参数的估计值不再具有最小方差线性无偏性。2.均方误差MSE可能严重低估误差项的方差。3.容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。,5.如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,39,6.2 关于自相关性问题,三、自相关性的诊断由于随机扰动项存在序列相关时给普通最小二乘法的应用带来了非常严重的后果,因此,如何诊断随机扰动项是否存在序列相关就成为一个极其重要的问题。(一) 图示检验法,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,40,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,41,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,42,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,43,6.2 关于自相关性问题,(二)自相关系数法,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,44,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,45,6.2 关于自相关性问题,(三)D.W检验D.W检验是J.Durbin和G.S.Watson于1951年提出的一种适用于小样本量的一种检验方法。D.W检验验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。这种检验方法是建立计量经济学模型中最常用的方法,一般的计算机软件都可自动产生出D.W值。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,46,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,47,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,48,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,49,6.2 关于自相关性问题,上述判别准则可用图6.4表示,可看到D.W=2的左右,有一个较大的无自相关区域,所以,通常当D.W的值在2左右时,则无须查表,即可放心地认为模型不存在序列的自相关性。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,50,6.2 关于自相关性问题,D.W检验的缺点和局限性。 1.D.W检验有一个不能确定的区域,一旦D.W值落在这个区域,就无法判断。这时,只有增大样本容量或选取其他方法。 2.D.W统计量的上、下界表要求n15,这是因为样本如果再小,利用残差就很难对自相关的存在性作出比较正确的诊断。 3.D.W检验不适应随机项具有高阶序列相关的检验。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,51,6.2 关于自相关性问题,四、自相关问题的处理方法当一个回归模型存在序列相关性时,首先要查明序列相关产生的原因。如果是回归模型选用不当,则应改用更适当的回归模型;如果是缺少重要的自变量,则应增加自变量;如果以上两种方法不能消除序列相关性,则需采用差分法、自回归法、移动平均法,或者这些方法的综合运用等方法处理.本书在此介绍两种简单的方法,迭代法和差分法。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,52,6.2 关于自相关性问题,(一)迭代法 以一元线性回归模型为例,设一元线性回归模型的误差项存在一阶自相关,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,53,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,54,6.2 关于自相关性问题,模型(6.24)式有独立随机误差项,它已满足线性回归模型的基本假设,用普通最小二乘法估计的参数估计量具有通常的优良性。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,55,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,56,6.2 关于自相关性问题,(二)差分法差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。一阶差分法通常适用于原模型存在较高程度的一阶自相关的情况。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,57,6.2 关于自相关性问题,对(6.26)式这样不带有常数项的回归方程仍用最小二乘法,但它与前边的带有常数项的情形稍有不同,它是回归直线过原点的回归方程。根据第4章习题过原点的回归的最小二乘估计得:,一阶差分法的应用条件是自相关系数=1,在实际应用中,接近1时我们就采用差分法而不用迭代法,这有两个原因。第一,迭代法需要用样本估计自相关系数,对的估计误差会影响迭代法的使用效率;第二,差分法比迭代法简单,人们在建立时序数据的回归模型时,更习惯于用差分法 。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,58,6.2 关于自相关性问题,(三)实例分析,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,59,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,60,6.2 关于自相关性问题,1.用迭代法消除自相关。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,61,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,62,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,63,6.2 关于自相关性问题,2.用一阶差分法消除自相关。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,64,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,65,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,66,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,67,6.2 关于自相关性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,68,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,69,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,70,6.3 关于多重共线性问题,一、多重共线性产生的背景解释变量之间完全不相关的情形是非常少见的,尤其是研究某个经济问题时,涉及的自变量较多,我们很难找到一组自变量,它们之间互不相关,而且它们又都对因变量有显著影响。这样的一组自变量甚至是找不到的。客观地说,某一经济现象,涉及到多个影响因素时,这多个影响因素之间大都有一定的相关性。当它们之间的相关性较弱时,我们一般就认为符合多元线性回归模型设计矩阵的要求;当这一组变量间有较强的相关性时,我们就认为是一种违背多元线性回归模型基本假设的情形。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,71,6.3 关于多重共线性问题,当我们所研究的经济问题涉及到时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,使得它们之间就容易出现共线性。例如,我国近年来的经济增长态势很好,经济增长对各种经济现象都产生影响,使得多种经济指标相互密切关联。如果我们要研究我国居民消费状况,影响居民消费的因素很多,一般有职工平均工资、农民平均收入、银行利率、全国零售物价指数、国债利率、货币发行量、储蓄额、前期消费额等,这些因素显然既对居民消费产生重要影响,它们之间又有着很强的相关性。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,72,6.3 关于多重共线性问题,对于许多利用截面数据建立回归方程的问题常常也存在自变量高度相关的情形。例如,我们以企业的截面数据为样本估计生产函数,由于投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与企业的生产规模有关,所以它们之间存在较强的相关性。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,73,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,74,6.3 关于多重共线性问题,在研究社会、经济问题时,因为问题本身的复杂性,涉及的因素很多,但在建立回归模型时,往往由于研究者认识水平的局限性,很难在众多因素中找到一组互不相关又对因变量y有显著影响的变量,不可避免地出现所选自变量相关的情形。当自变量之间有较强相关性时,会给回归模型的参数估计带来什么样的后果?二、多重共线性对回归模型的影响,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,75,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,76,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,77,6.3 关于多重共线性问题,当自变量间的相关性从小到大增加时,估计量的方差会增大得更快。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,78,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,79,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,80,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,81,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,82,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,83,6.3 关于多重共线性问题,以上的分析表明,如果利用模型去作经济结构分析,要尽可能避免多重共线性;如果是利用模型去作经济预测,只要保证自变量的相关类型在未来时期中保持继续不变,即未来时期自变量间仍具有当初建模时数据的联系特征,即使回归模型中包含有严重多重共线性的变量也可以得到较好的预测结果;如果不能保证自变量的相关类型在未来时期中保持继续不变,那么多重共线性就会对回归预测产生严重的影响。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,84,6.3 关于多重共线性问题,三、 多重共线性的诊断一般情况下,当回归方程的解释变量之间存在着很强的线性关系,回归方程的检验高度显著时,有些与因变量y的简单相关系数绝对值很高的自变量,其回归系数不能通过显著性检验,甚至出现有的回归系数所带符号与实际经济意义不符,这时就认为变量间存在着多重共线性。近年来,关于关于多重共线性问题及多重共线性严重程度的度量是统计学家们讨论的热点,已经提出了许多可行的判断方法,下面我们只介绍两种主要方法:方差扩大因子法 ;特征根判定法,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,85,6.3 关于多重共线性问题,(1)方差扩大因子法,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,86,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,87,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,88,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,89,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,90,6.3 关于多重共线性问题,以下用SPSS软件诊断例5.3中国民航客运量一例中的多重共线性问题。在线性回归对话框的Statitics选项框中点选Collinearity diagnostic共线性诊断选项,然后做回归。输出以下结果:,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,91,6.3 关于多重共线性问题,一般情况下,当一个回归方程存在严重的多重共线性时,有若干个自变量所对应的方差扩大因子大于10,这个回归方程多重共线性的存在就是方差扩大因子超过10的这几个变量引起的,说明这几个自变量间有一定的多重共线性的关系存在。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,92,6.3 关于多重共线性问题,(2)特征根判定法1、特征根分析,2、条件数,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,93,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,94,6.3 关于多重共线性问题,对例5.3中国民航客运量的例子,用SPSS软件计算出特征根与条件数如下:,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,95,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,96,6.3 关于多重共线性问题,(3)直观判定法 上述方法是为了诊断共线性是否存在的专门方法,相对这几种方法,还有一些在建模过程中顺便直观判断的非正规方法。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,97,6.3 关于多重共线性问题,1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化,我们就认为回归方程存在严重的多重共线性。2.从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验时,可初步判断存在着严重的多重共线性。3.有些自变量的回归系数所带正负号与定性分析结果违背时,我们认为存在多重共线性问题。4.自变量的相关矩阵中,自变量间的相关系数较大时,我们认为可能会出现多重共线性问题。5.一些重要的自变量的回归系数的标准误差较大时,我们认为可能存在多重共线性。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,98,6.3 关于多重共线性问题,四、消除多重共线性的方法 当通过某种检验,发现解释变量中存在严重的多重共线性时,我们就要设法消除这种共线性。消除多重共线性的方法很多,常用的有下面几种。 (1)剔除一些不重要的解释变量 通常在经济问题的建模中,由于我们认识水平的局限,容易考虑过多的自变量。当涉及自变量较多时,大多数回归方程都受到多重共线性的影响。这时,最常用的办法是首先用第五章的方法做自变量的选元,舍去一些自变量。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,99,6.3 关于多重共线性问题,当回归方程中的全部自变量都通过显著性检验后,回归方程中仍然存在严重的多重共线性,有几个变量的方差扩大因子大于10,我们可把方差扩大因子最大者所对应的自变量首先剔除,再重新建立回归方程,如果仍然存在严重的多重共线性,则再继续剔除方差扩大因子最大者所对应的自变量,直到回归方程中不再存在严重的多重共线性为止。有时,根据所研究的问题的需要,当回归方程中仍然存在严重的多重共线性时,也可以首先剔除方差扩大因子最大者所对应的自变量,依次剔除,直到消除了多重共线性为止,然后再做自变量的选元。或者根据所研究问题的经济意义,决定保留或剔除某自变量。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,100,6.3 关于多重共线性问题,在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子VIF的多重共线性检验与自变量的经济含义结合起来考虑,以引进或剔除变量。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,101,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,102,6.3 关于多重共线性问题,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,103,6.3 关于多重共线性问题,(2)增大样本容量建立一个实际经济问题的回归模型,如果所收集的样本数据太少,也容易产生多重共线性。增大样本容量也是消除多重共线性的一个途径 。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,104,6.3 关于多重共线性问题,在实践中,当我们所选的变量个数接近样本容量n时,自变量间就容易产生共线性。所以我们在运用回归分析研究经济问题时,要尽可能使样本容量n远大于自变量个数p。增大样本容量的方法在有些经济问题中是不现实的,因为在经济问题中,许多自变量是不受控制的,或由于种种原因不可能再得到一些新的样本数据。在有些情况下,虽然可以增大一些样本数据,但自变量个数较多时,我们往往难以确定增加什么样的数据,才能克服多重共线性。有时,增加了样本数据,但可能新数据距离原来样本数据的平均值较大,会产生一些新的问题,使模型拟合变差,没有收到增加样本数据期望的效果。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,105,6.3 关于多重共线性问题,(3)回归系数的有偏估计消除多重共线性对回归模型的影响是近40年来统计学家们关注的热点课题之一,除以上方法被人们应用外,统计学家还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如岭回归法,主成分法,偏最小二乘法等,这些方法已有不少应用效果很好的经济例子,而且在计算机如此发达的今天,具体计算也不难实现。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,106,6.4 异常值与强影响值,在回归分析的应用中,数据时常包含着一些异常的或极端的观察值,这些观察值与其他数据远远分开,可能引起较大的残差,极大地影响回归拟合的效果。在一元回归的情况下,用散点图或残差图就可以方便地识别出异常值,而在多元回归的情况下,用简单画图法识别异常值就很困难,需要更有效的方法。异常值分为两种情况,一种是关于因变量y异常,另一种是关于自变量x异常。以下分别讨论着两种情况。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,107,6.4 异常值与强影响值,一、关于因变量y的异常值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,108,6.4 异常值与强影响值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,109,6.4 异常值与强影响值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,110,6.4 异常值与强影响值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,111,6.4 异常值与强影响值,二、关于自变量x的异常值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,112,6.4 异常值与强影响值,强影响点并不一定是y值的异常值点,因而强影响点并不总会对回归方程造成不良影响。但是强影响点是y的异常值点的可能性要远大于普通的样本点,这是由于以下两个原因:第一,在实际问题中,因变量与自变量的线性关系只是在一定的范围内成立,强影响点远离样本中心,因变量与自变量之间已不再是线性函数关系,强影响点的y值远离线性回归方程,自然成为异常值;第二,即使强影响点并不是y的异常值,但是强影响点远离样本中心,能够把回归方程拉向自己,使回归方程产生偏移。对强影响点应该有足够的重视。由于强影响点并不总是y的异常值点,因而不能单纯根据杠杆值的大小判断强影响点是否异常。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,113,6.4 异常值与强影响值,为此,我们引入库克距离,用来判断强影响点是否为y的异常值点。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,114,6.4 异常值与强影响值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,115,6.4 异常值与强影响值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,116,6.4 异常值与强影响值,三、异常值实例分析,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,117,6.4 异常值与强影响值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,118,6.4 异常值与强影响值,诊断出异常值后,进一步要判断引起异常值的原因。引起异常值的原因有以下几条:,对引起异常值的不同原因,需要采取不同的处理方法。 对本例的数据,通过核实认为不存在登记误差和测量误差。,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,119,6.4 异常值与强影响值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,120,6.4 异常值与强影响值,目录 上页 下页 返回 结束,2022/12/9,中国人民大学六西格玛质量管理研究中心,121,6.4 异常值与强影响值,目录 上页 下页 返回 结束,The end!Thanks!,2022/12/9,中国人民大学六西格玛质量管理研究中心,122,