第五章计量经济学检验ppt课件.ppt
第五章 计量经济学检验 违背基本假设的情况,一方面,建立一个计量经济学模型要经过四重检验,其中经济意义检验、统计检验、预测检验已讲,这一章主要讲计量经济学检验的范畴。另一方面,前面讨论了最小二乘估计的优良性质,但都是基于经典假设。如果这些假设不满足,会出现什么问题呢?这一章对其进行分析。,本章内容,多重共线性(Multicollinearity)异方差性(Heteroscedasticity)自相关(Autocorrelation),多重共线性的概念多重共线性的后果多重共线性的检验克服多重共线性的方法,第一节 多重共线性( Multi-Collinearity ),一、多重共线性的概念,1、多重共线性,对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假设之一是解释变量是互相独立的。,如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。,如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中: ci不全为0,即某一个解释变量可以用其它解释变量的线性组合表示,则称为解释变量间存在完全共线性。,如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全为0,vi为随机误差项,则称为一般共线性(近似共线性)或交互相关(intercorrelated)。,在矩阵表示的线性回归模型 Y=XB+N中,完全共线性指:秩(X)k+1,即矩阵,例:有人在建立某地区粮食产量回归模型时,以粮食产量为因变量y,以化肥用量为x1,水浇地面积为x2,农业投入资金为x3等作为自变量。从表面上看到x1,x2,x3都是影响粮食产量的重要因素,可是建立的回归方程效果很差,原因何在呢?,注意: 完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。,2、实际经济问题中的多重共线性现象,经济变量的共同变化趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,滞后变量的引入 在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。,一般经验 对于采用时间序列数据作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线性。 以截面数据作样本时,问题不那么严重,但多重共线性仍然是存在的。,二、多重共线性的后果,1、完全共线性下参数估计量不存在,如果存在完全共线性,则(XX) -1不存在,无法得到参数的估计量。,2、近似共线性下普通最小二乘法参数估计量非有效,在一般共线性(或称近似共线性)下,虽然可以得到OLS法参数估计量,但是由参数估计量方差的表达式为,由于此时|XX|0,从而使参数估计值的方差增大,OLS参数估计量非有效。,三、多重共线性的检验,由于实际样本数据永远不会是正交的,则多重共线性总是在一定程度上存在的。但是,什么时候多重共线性成为严重的问题呢?也就是受到变量之间交互关系影响促使估计量方差扩散到什么程度时,才能够引起我们的关注呢? 检验多重共线性的方法主要有:经验判断法、相关系数判断法、条件数判断法、方差膨胀因子判断法、逐步回归判断法等。,1经验判别法(最常用的方法) 在OLS法下,模型的R2与F值较大,但各参数估计值的t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。 此方法简便易行,因而是实践中最常用的方法,缺点是无法确诊。,2.使用相关矩阵检验 统计软件一般提供各解释变量两两之间的相关系数矩阵,如发现某些相关系数高(绝对值高于0.8),则表明多重共线性存在。但即使解释变量两两之间的相关系数都低,也不能排除存在多重共线性的可能性。 此方法更多被用于只存在两个解释变量的情况。,3.VIF检验,VIF是方差膨胀因子的英文 (Variance Inflation Factors) 缩写, 这是一种比较正规的检验方法。该方法通过检查指定的解释变量能够被回归方程中其它全部解释变量所解释的程度来检测多重共线性。方程中每个解释变量有一个VIF值,高VIF值表明多重共线性增大了系数估计值的方差,从而产生一个减小了的t值。,其中,方差膨胀因子定义为: VIF检验的具体步骤如下:,设原方程为:Y = 0 + 1X1 + 2X2 + + kXk + u 我们需要计算K个不同的VIF,每个Xi一个。为指定Xi计算VIF涉及以下三步: (1) Xi 对原方程中其它全部解释变量进行OLS回归,例如,若i =1,则回归下面的方程: X1 = 1 + 2X2 + 3X3 + + kXk +v (2) 计算的方差膨胀因子(VIF): 其中Ri2是第一步辅助回归的决定系数。,(3) 分析多重共线性的程度 VIF越高, 多重共线性的影响越严重。由于没有VIF临界值表,我们只能使用经验法则:有人建议用VIF10作为存在严重多重共线性的标准, 特别在解释变量多的情形应当如此。,4.逐步回归法,以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替,而不作为独立的解释变量。 如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入的变量不是一个独立解释变量,它可以用其它变量的线性组合代替,也就是说它与其它变量之间存在共线性关系。,四、克服多重共线性的方法,1、第一类方法:排除引起共线性的变量,找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。 注意:剩余解释变量参数的经济含义和数值都发生了变化。,2、第二类方法:差分法,对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变换为差分模型 Yi=1 X1i+2 X2i+k Xki+ i可以有效地消除存在于原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。,例如:在中国消费模型中的2个变量:,进一步分析: Y与C(-1)之间的判定系数为0.9845, Y与C(-1)之间的判定系数为0.7456。 一般认为:两个变量之间的判定系数大于0.8时,二者之间存在线性关系。 所以,原模型经检验地被认为具有多重共线性,而差分模型则可认为不具有多重共线性。,3、第三类方法:减小参数估计量的方差,多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。 例如:增加样本容量,可使参数估计量的方差减小。,再如:对系数施加约束。 前面已讲过,约束性条件虽然通常使得残差平方和增加,但可以使得参数的方差减少。 如在CobbDouglas生产函数中加进规模效益不变的约束,可缓和资本和劳动的高度相关而引起的多重共线性问题的影响。,再如:岭回归法(Ridge Regression),70年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差,受到人们的重视。 具体方法是:引入矩阵对角矩阵,使参数估计量为,4第四类方法:主成分法 该方法的原理:使用原来解释变量的主成分变量进行回归。 对全部解释变量运用主成分分析以得到主成分,每个主成分是全部解释变量的线性组合,如 其系数1,2,k的计算涉及到矩阵的特征根、计算迭代过程和取值标准可参阅多元统计书籍,这里不做介绍。,需要了解的是,主成分的特点是,各主成分之间互不相关,并且,用很少几个主成分就可以解释全部X变量的绝大部分方差,因而在出现多重共线性时,可以用主成分替代原有解释变量进行回归计算,然后再将所得到的系数还原成原模型中的参数估计值。,一、异方差性的概念二、异方差性的后果三、异方差性的检验四、异方差性的估计五、案例,第二节 异方差性(Heteroskedasticity),说明 回顾我们应用OLS法所需假设条件,其中大部分是有关扰动项的统计假设,它们是:(1)E(ut)=0, t=1,2,n. 扰动项均值为0(2)Cov(ui,uj) = E(uiuj) =0, ij. 扰动项相互独立(3)Var(ut) = E(ut) = 2 , t=1,2,n. 常数方差(4)ut N(0,2). 正态性,对于(1),我们可论证其合理性。而第(4)条,也没有多大问题。大样本即可假定扰动项服从正态分布。而对于(2),(3)两条,则无法论证其合理性。实际问题中,这两条不成立的情况比比皆是。下面即将讨论它们不成立的情况,即异方差性和自相关的情形。,一、异方差的概念,1、异方差的概念,即对于不同的样本点,随机误差项的方差不再是常数,则认为出现了异方差性。,什么情况下可能发生异方差性问题? 解释变量取值变动幅度大时,常数方差的假设往往难以成立。异方差性主要发生在横截面数据的情况,时间序列问题中一般不会发生,除非时间跨度过大。,2、异方差的类型,同方差性假定的意义是指每个i围绕其零平均值的变差,并不随解释变量X的变化而变化,不论解释变量观测值是大还是小,每个i的方差保持相同,即 i2 =常数 在异方差的情况下, i2已不是常数,它随X的变化而变化,即 i2 =f(Xi),异方差一般可归结为三种类型:,(1)单调递增型: i2随X的增大而增大;(2)单调递减型: i2随X的增大而减小;(3)复 杂 型: i2与X的变化呈复杂形式。,3、实际经济问题中的异方差性,在该模型中, i的同方差假定往往不符合实际情况。对高收入家庭来说,储蓄的差异较大;低收入家庭的储蓄则更有规律性(如为某一特定目的而储蓄),差异较小。 因此,i的方差往往随Xi的增加而增加,呈单调递增型变化。,例如:在截面资料下研究居民家庭的储蓄行为 Yi=0+1Xi+i Yi和Xi分别为第i个家庭的储蓄额和可支配收入。,例:Yi = +Xi+ ui 其中:Y=指定规模和组成的家庭每月消费支出 X=这样的家庭的每月可支配收入 设X的N个观测值取自一个家庭可支配收入的横截面样本。某些家庭接近于勉强维持生存的水平,另一些家庭则有很高的收入。不难设想,低收入家庭的消费支出不大可能离开他们的均值E(Y)过远,太高无法支持,太低则消费将处于维持生存的水平之下。因此,低收入家庭消费支出额的波动应当较小,因而扰动项具有较小的方差。而高收入家庭则没有这种限制,其扰动项可能有大得多的方差。 这就意味着异方差性。,二、异方差性的后果,1、参数估计量非有效,普通最小二乘法参数估计量仍然具有无偏性,但不具有有效性。因为在有效性证明中利用了 E(NN)=2I 而且,在大样本情况下,参数估计量仍然不具有渐近有效性。,以一元线性回归模型为例进行说明:,(1)仍存在无偏性:证明过程与方差无关,(2)不具备最小方差性,2、变量的显著性检验失去意义,在该统计量中包含有随机误差项共同的方差,并且有t统计量服从自由度为(n-k-1)的t分布。如果出现了异方差性,t检验就失去意义。其它检验也类似。,3、模型的预测失效,一方面,由于上述后果,使得模型不具有良好的统计性质; 另一方面,在预测值的置信区间中也包含有随机误差项共同的方差2。 所以,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。,三、异方差性的检验,1、检验方法的共同思路,由于异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方差。那么: 检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。各种检验方法就是在这一思路下发展起来的。 问题在于用什么来表示随机误差项的方差,一般的处理方法:,2、图示检验法(用的较多,最简单),(1)用X-Y的散点图进行判断 看是否存在明显的散点扩大、缩小或复杂型趋势(即不在一个固定的带型域中),看是否形成一斜率为零的直线,3、解析法,(1)戈德菲尔德-匡特(Goldfeld-Quandt)检验(几乎不用) G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况。,G-Q检验的思想: 先将样本一分为二,对子样和子样分别作回归,然后利用两个子样的残差之比构造统计量进行异方差检验。 由于该统计量服从F分布,因此假如存在递增的异方差,则F远大于1;反之就会等于1(同方差)、或小于1(递减方差)。,G-Q检验的步骤:,将n对样本观察值(Xi,Yi)按某一解释变量Xi (可能是因为它引起的异方差性)观察值的大小排队;将序列中间的c=n/4个观察值除去,并将剩下的观察值划分为较小与较大的相同的两个子样本,每个子样样本容量均为(n-c)/2;,(2)戈里瑟(Gleiser)检验与帕克(Park)检验,戈里瑟检验与帕克检验的思想(与图示法完全相同),如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。例如:,注意: 由于f(Xj)的具体形式未知,因此需要进行各种形式的试验。,(3)怀特(White)检验(eviews软件采用),四、异方差性的估计加权最小二乘法(WLS)Weighted Least Squares,1、加权最小二乘法的基本思想,加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。,2、一个例子例如,如果在检验过程中已经知道:,3、一般情况,对于模型 Y=XB+N (2.4.8),这就是原模型(2.4.8)的加权最小二乘估计量,它是无偏、有效的。 这里权矩阵为D-1,它来自于矩阵W 。,如果方差已知的话,估计过程就变得很简单。但通常情况下,方差未知,从而还需要构造权重矩阵。,4、求得权矩阵W的一种实用方法,从前面的推导过程看,它来自于原模型(2.4.8)残差项N的方差-协方差矩阵,因此仍然可对原模型(2.4.8)首先采用OLS法,得到随机误差项的近似估计量,以此构成权矩阵的估计量,即,5、加权最小二乘法具体步骤,Eviews操作,演示加权最小二乘法的eviews操作。工作文件名为加权最小二乘法。例子来自高铁梅eviews应用与实例例子中,被解释变量cum表示人均家庭交通与通讯支出,解释变量为可支配收入in。,6、注意,在实际建模过程中,尤其是截面数据作样本时,人们通常并不对原模型进行异方差性检验,而是直接选择加权最小二乘法,尤其是采用截面数据作样本时。 如果确实存在异方差,则被有效地消除了; 如果不存在异方差性,则加权最小二乘法等价于普通最小二乘法。,加权最小二乘法分两步进行: 第一步:先对原模型进行回归,求出残差。 第二步:建立一些序列,其值等于残差绝对值的倒数。以该序列为权重进行加权最小二乘回归。,在应用软件中,给出了权矩阵的多种选择。 其中,加权最小二乘法需要自己输入权矩阵,这在已知异方差的形式时经常采用(权重的形式可以多样,可能是某个解释变量的倒数,或者平方的倒数,如果事前确实知道异方差的形式时)。,如果对异方差形式一无所知时,eviews提供了两种更一般的异方差解决方法: White权矩阵(假设残差没有序列相关)、Newey-West权矩阵(假设残差可以存在序列相关)。 这意味着,即使不需要实际指明异方差的类型,也可以基于普通最小二乘估计结果进行合理推断。,其中,后两种方式可与第一种方式(自己输入权重)结合起来使用。,五、案例1某地区居民储蓄模型,某地区31年来居民收入与储蓄额数据表,1、普通最小二乘估计,2、异方差检验(1)图示检验, G-Q检验,求两个子样本(n1=n2=12)回归方程的残差平方和RSS1与RSS2;,计算F统计量,F=RSS2/RSS1=769899.2/162899.2=4.726,查表 在5%的显著性水平下,第1和第2自由度均为(31-7)/2-2=10的F分布临界值为 F0.05(10,10)=2.97由于 F=4.72 F0.05(10,10)= 2.97因此,否定两组子样方差相同的假设,从而该总体随机项存在递增异方差性。, Park检验,显然,lnXi前的参数表现为统计上显著的,表明原数据存在异方差性。,3、异方差模型的估计,与OLS估计结果相比较,拟合效果更差 。为什么?关于异方差形式的假定,与OLS估计结果相比较,拟合效果更好 。,五、案例2居民消费二元模型(以前的例子),1、OLS估计结果,2、WLS估计结果,3、比较,各项统计检验指标全面改善R2 : 0.9997390.999999F: 28682980736e2: 43861329437 t: 6.4 22.0 4.225.2 134.1 22.9D.W.: 1.451.81,