计量经济学第八章完整ppt课件.ppt
第八章 特殊解释变量(1),一、随机解释变量问题二、实际经济问题中的随机解释变量问题 三、随机解释变量的后果四、工具变量法五、案例,基本假设:解释变量X1,X2,Xk是确定性变量。 如果存在一个或多个随机变量作为解释变量,则称原模型出现随机解释变量问题。 假设X2为随机解释变量。对于随机解释变量问题,分三种不同情况:,一、随机解释变量问题,对于模型,1. 随机解释变量与随机误差项独立(Independence),2. 随机解释变量与随机误差项同期无关(contemporaneously uncorrelated),但异期相关。,3. 随机解释变量与随机误差项同期相关(contemporaneously correlated)。,二、实际经济问题中的随机解释变量问题,在实际经济问题中,经济变量往往都具有随机性。 但是在单方程计量经济学模型中,凡是外生变量都被认为是确定性的。 于是随机解释变量问题主要表现于:用滞后被解释变量作为模型的解释变量的情况。,例如:,(1)耐用品存量调整模型: 耐用品的存量Qt由前一个时期的存量Qt-1和当期收入It共同决定: Qt=0+1It+2Qt-1+t t=1,T,这是一个滞后被解释变量作为解释变量的模型。 但是,如果模型不存在随机误差项的序列相关性,那么随机解释变量Qt-1只与t-1相关,与t不相关,属于上述的第2种情况。,(2)合理预期的消费函数模型,合理预期理论认为消费Ct是由对收入的预期Yte所决定的:,预期收入Yte与实际收入Y间存如下关系的假设,容易推出,Ct-1是一随机解释变量,且与 (t-t-1)高度相关(Why?)。属于上述第3种情况。,计量经济学模型一旦出现随机解释变量,且与随机扰动项相关的话,如果仍采用OLS法估计模型参数,不同性质的随机解释变量会产生不同的后果。 下面以一元线性回归模型为例进行说明,三、随机解释变量的后果,随机解释变量与随机误差项相关图,(a)正相关,(b)负相关,拟合的样本回归线可能低估截距项,而高估斜率项。,拟合的样本回归线高估截距项,而低估斜率项。,对一元线性回归模型:,OLS估计量为,1、如果X与相互独立,得到的参数估计量仍然是无偏、一致估计量。,已经得到证明,随机解释变量X与随机项的关系不同,参数OLS估计量的统计性质也会不同。,2、如果X与同期不相关,异期相关,得到的参数估计量有偏、但却是一致的。,kt的分母中包含不同期的X;由异期相关性知:kt与t相关,因此,,但是,3、如果X与同期相关,得到的参数估计量有偏、且非一致。,注意: 如果模型中带有滞后被解释变量作为解释变量,则当该滞后被解释变量与随机误差项同期相关时,OLS估计量是有偏的、且是非一致的。 即使同期无关,其OLS估计量也是有偏的,因为此时肯定出现异期相关。,2的证明中已得到,模型中出现随机解释变量且与随机误差项相关时,OLS估计量是有偏的。 如果随机解释变量与随机误差项异期相关,则可以通过增大样本容量的办法来得到一致的估计量; 但如果是同期相关,即使增大样本容量也无济于事。这时,最常用的估计方法是工具变量法(Instrument variables)。,四、工具变量法,1、工具变量的选取,工具变量:在模型估计过程中被作为工具使用,以替代模型中与随机误差项相关的随机解释变量。 选择为工具变量的变量必须满足以下条件:,(1)与所替代的随机解释变量高度相关; (2)与随机误差项不相关; (3)与模型中其它解释变量不相关,以避免出现多重共线性。,2、工具变量的应用,以一元回归模型的离差形式为例说明如下:,用OLS估计模型,相当于用xi去乘模型两边、对i求和、再略去xii项后得到正规方程:,(*),解得,然而,如果Xi与i相关,即使在大样本下,也不存在 (xii)/n0 ,则,在大样本下也不成立,OLS估计量不具有一致性。,由于Cov(Xi,i)=E(Xii)=0,意味着大样本下 (xii)/n0,表明大样本下,成立,即OLS估计量具有一致性。,如果选择Z为X的工具变量,那么在上述估计过程可改为:,利用E(zii)=0,在大样本下可得到:,这种求模型参数估计量的方法称为工具变量法(instrumental variable method),相应的估计量称为工具变量法估计量(instrumental variable (IV) estimator)。,对于矩阵形式: Y=X+ ,采用工具变量法(假设X2与随机项相关,用工具变量Z替代)得到的正规方程组为:,参数估计量为:,其中,称为工具变量矩阵,3、工具变量法估计量是一致估计量,一元回归中,工具变量法估计量为,如果工具变量Z选取恰当,即有,两边取概率极限得:,因此:,1、在小样本下,工具变量法估计量仍是有偏的。,注意:,2、工具变量并没有替代模型中的解释变量,只是在估计过程中作为“工具”被使用。,上述工具变量法估计过程可等价地分解成下面的两步OLS回归: 第一步,用OLS法进行X关于工具变量Z的回归:,容易验证仍有:,因此,工具变量法仍是Y对X的回归,而不是对Z的回归。,3、如果模型中有两个以上的随机解释变量与随机误差项相关,就必须找到两个以上的工具变量。但是,一旦工具变量选定,它们在估计过程被使用的次序不影响估计结果(Why?)。,4、OLS可以看作工具变量法的一种特殊情况。,5、如果1个随机解释变量可以找到多个互相独立的工具变量,人们希望充分利用这些工具变量的信息,就形成了广义矩方法(Generalized Method of Moments, GMM)。 在GMM中,矩条件大于待估参数的数量,于是如何求解成为它的核心问题。 工具变量法是GMM的一个特例。,6、要找到与随机扰动项不相关而又与随机解释变量相关的工具变量并不是一件很容易的事 可以用Xt-1作为原解释变量Xt的工具变量。,五、案例中国居民人均消费函数,例4.4.1 在例2.5.1的中国居民人均消费函数的估计中,采用OLS估计了下面的模型:,由于:居民人均消费支出(CONSP)与人均国内生产总值(GDPP)相互影响,因此, 容易判断GDPP与同期相关(往往是正相关),OLS估计量有偏并且是非一致的(低估截距项而高估计斜率项 )。,OLS估计结果:,(13.51) (53.47) R2=0.9927 F=2859.23 DW=0.5503 SSR=23240.7,如果用GDPPt-1为工具变量,可得如下工具变量法估计结果:,(14.84) (56.04) R2 =0.9937 F=3140.58 DW=0.6691 SSR=18366.5,GMM是近20年计量经济学理论方法发展的重要方向之一。IV是GMM的一个特例。,如果1个随机解释变量可以找到多个互相独立的工具变量,人们希望充分利用这些工具变量的信息,就形成了广义矩方法(GMM)。在GMM中,矩条件大于待估参数的数量,于是如何求解成为它的核心问题。,8.3 滞后变量模型,一、滞后变量模型 二、分布滞后模型的参数估计 三、自回归模型的参数估计四、格兰杰因果关系检验,在经济运行过程中,广泛存在时间滞后效应。某些经济变量不仅受到同期各种因素的影响,而且也受到过去某些时期的各种因素甚至自身的过去值的影响。,通常把这种过去时期的,具有滞后作用的变量叫做滞后变量(Lagged Variable),含有滞后变量的模型称为滞后变量模型。 滞后变量模型考虑了时间因素的作用,使静态分析的问题有可能成为动态分析。含有滞后解释变量的模型,又称动态模型(Dynamical Model)。,一、滞后变量模型,1、滞后效应与与产生滞后效应的原因,因变量受到自身或另一解释变量的前几期值影响的现象称为滞后效应。 表示前几期值的变量称为滞后变量。 如:消费函数 通常认为,本期的消费除了受本期的收入影响之外,还受前1期,或前2期收入的影响: Ct=0+1Yt+2Yt-1+3Yt-2+tYt-1,Yt-2为滞后变量。,产生滞后效应的原因,1、心理因素:人们的心理定势,行为方式滞后于经济形势的变化,如中彩票的人不可能很快改变其生活方式。 2、技术原因:如当年的产出在某种程度上依赖于过去若干期内投资形成的固定资产。 3、制度原因:如定期存款到期才能提取,造成了它对社会购买力的影响具有滞后性。,2、滞后变量模型,以滞后变量作为解释变量,就得到滞后变量模型。它的一般形式为:,q,s:滞后时间间隔,自回归分布滞后模型(autoregressive distributed lag model, ADL):既含有Y对自身滞后变量的回归,还包括着X分布在不同时期的滞后变量 有限自回归分布滞后模型:滞后期长度有限 无限自回归分布滞后模型:滞后期无限,,(1)分布滞后模型(distributed-lag model),分布滞后模型:模型中没有滞后被解释变量,仅有解释变量X的当期值及其若干期的滞后值:,0:短期(short-run)或即期乘数(impact multiplier),表示本期X变化一单位对Y平均值的影响程度。 i (i=1,2,s):动态乘数或延迟系数,表示各滞后期X的变动对Y平均值影响的大小。,如果各期的X值保持不变,则X与Y间的长期或均衡关系即为,称为长期(long-run)或均衡乘数(total distributed-lag multiplier),表示X变动一个单位,由于滞后效应而形成的对Y平均值总影响的大小。,2、自回归模型(autoregressive model),而,称为一阶自回归模型(first-order autoregressive model)。,自回归模型:模型中的解释变量仅包含X的当期值与被解释变量Y的一个或多个滞后值,二、分布滞后模型的参数估计,无限期的分布滞后模型,由于样本观测值的有限性,使得无法直接对其进行估计。 有限期的分布滞后模型,OLS会遇到如下问题: 1、没有先验准则确定滞后期长度; 2、如果滞后期较长,将缺乏足够的自由度进行估计和检验; 3、同名变量滞后值之间可能存在高度线性相关,即模型存在高度的多重共线性。,1、分布滞后模型估计的困难,2、分布滞后模型的修正估计方法,人们提出了一系列的修正估计方法,但并不很完善。 各种方法的基本思想大致相同:都是通过对各滞后变量加权,组成线性合成变量而有目的地减少滞后变量的数目,以缓解多重共线性,保证自由度。 (1)经验加权法 根据实际问题的特点、实际经验给各滞后变量指定权数,滞后变量按权数线性组合,构成新的变量。权数据的类型有:,递减型:,即认为权数是递减的,X的近期值对Y的影响较远期值大。 如消费函数中,收入的近期值对消费的影响作用显然大于远期值的影响。 例如:滞后期为 3的一组权数可取值如下: 1/2, 1/4, 1/6, 1/8则新的线性组合变量为:,即认为权数是相等的,X的逐期滞后值对值Y的影响相同。 如滞后期为3,指定相等权数为1/4,则新的线性组合变量为:,矩型:,权数先递增后递减呈倒“V”型。 例如:在一个较长建设周期的投资中,历年投资X为产出Y的影响,往往在周期期中投资对本期产出贡献最大。 如滞后期为4,权数可取为 1/6, 1/4, 1/2, 1/3, 1/5则新变量为,倒V型,例5.2.1 对一个分布滞后模型:,给定递减权数:1/2, 1/4, 1/6, 1/8,令,原模型变为:,该模型可用OLS法估计。假如参数估计结果为,=0.5,=0.8,则原模型的估计结果为:,经验权数法的优点是:简单易行 缺点是:设置权数的随意性较大,通常的做法是: 多选几组权数,分别估计出几个模型,然后根据常用的统计检验(方检验,检验,t检验,-检验),从中选择最佳估计式。,(2)阿尔蒙(lmon)多项式法,主要思想:针对有限滞后期模型,通过阿尔蒙变换,定义新变量,以减少解释变量个数,然后用OLS法估计参数。 主要步骤为: 第一步,阿尔蒙变换 对于分布滞后模型,假定其回归系数i可用一个关于滞后期i的适当阶数的多项式来表示,即:,i=0,1,s,其中,ms-1。阿尔蒙变换要求先验地确定适当阶数k,例如取k=2,得,(*),将(*)代入分布滞后模型,得,定义新变量,将原模型转换为:,第二步,模型的OLS估计,对变换后的模型进行OLS估计,得,再计算出:,求出滞后分布模型参数的估计值:,由于m+1s,可以认为原模型存在的自由度不足和多重共线性问题已得到改善。,需注意的是,在实际估计中,阿尔蒙多项式的阶数m一般取2或3,不超过4,否则达不到减少变量个数的目的。,例5.2.2 表5.2.1给出了中国电力基本建设投资X与发电量Y的相关资料,拟建立一多项式分布滞后模型来考察两者的关系。,由于无法预见知电力行业基本建设投资对发电量影响的时滞期,需取不同的滞后期试算。,(13.62)(1.86) (0.15) (-0.67),求得的分布滞后模型参数估计值为,经过试算发现,在2阶阿尔蒙多项式变换下,滞后期数取到第6期,估计结果的经济意义比较合理。2阶阿尔蒙多项式估计结果如下:,为了比较,下面给出直接对滞后6期的模型进行OLS估计的结果:,最后得到分布滞后模型估计式为:,(3)科伊克(Koyck)方法,科伊克方法是将无限分布滞后模型转换为自回归模型,然后进行估计。 对于无限分布滞后模型:,科伊克变换假设i随滞后期i按几何级数衰减:,其中,01,称为分布滞后衰减率,1-称为调整速率(Speed of adjustment)。,科伊克变换的具体做法:,将科伊克假定i=0i代入无限分布滞后模型,得,滞后一期并乘以 ,得,(*),将(*)减去(*)得科伊克变换模型:,(*),整理得科伊克模型的一般形式:,科伊克模型的特点:,(1)以一个滞后因变量Yt-1代替了大量的滞后解释变量Xt-i,最大限度地节省了自由度,解决了滞后期长度s难以确定的问题;(2)由于滞后一期的因变量Yt-1与Xt的线性相关程度可以肯定小于X的各期滞后值之间的相关程度,从而缓解了多重共线性。但科伊克变换也同时产生了两个新问题:(1)模型存在随机项和vt的一阶自相关性;(2)滞后被解释变量Yt-1与随机项vt不独立。这些新问题需要进一步解决。,三、自回归模型的参数估计,一个无限期分布滞后模型可以通过科伊克变换转化为自回归模型。事实上,许多滞后变量模型都可以转化为自回归模型,自回归模型是经济生活中更常见的模型。以适应预期模型以及局部调整模型为例进行说明。,1、自回归模型的构造,(1)自适应预期(Adaptive expectation)模型,在某些实际问题中,因变量Yt并不取决于解释变量的当前实际值Xt,而取决于Xt的“预期水平”或“长期均衡水平”Xte。 例如,家庭本期消费水平,取决于本期收入的预期值; 市场上某种商品供求量,决定于本期该商品价格的均衡值。 因此,自适应预期模型最初表现形式是,由于预期变量是不可实际观测的,往往作如下自适应预期假定:,其中:r为预期系数(coefficient of expectation), 0r 1。 该式的经济含义为:“经济行为者将根据过去的经验修改他们的预期”,即本期预期值的形成是一个逐步调整过程,本期预期值的增量是本期实际值与前一期预期值之差的一部分,其比例为r 。 这个假定还可写成:,将,代入,得,(*),将(*)式滞后一期并乘以(1-r),得,(*),以(*)减去(*),整理得,其中,可见自适应预期模型转化为自回归模型。,(2)局部调整(Partial Adjustment)模型,局部调整模型主要是用来研究物资储备问题的。例如,企业为了保证生产和销售,必须保持一定的原材料储备。对应于一定的产量或销售量Xt,存在着预期的最佳库存Yte。局部调整模型的最初形式为,(9.3.7),Yte不可观测。由于生产条件的波动,生产管理方面的原因,库存储备Yt的实际变化量只是预期变化的一部分。,或:,(*),其中,为调整系数,0 1 将(*)式代入,得,可见,局部调整模型转化为自回归模型,储备按预定水平逐步进行调整,故有如下局部调整假设:,2、自回归模型的参数估计,考伊克模型:,对于自回归模型,估计时的主要问题:滞后被解释变量的存在可能导致它与随机扰动项相关,以及随机扰动项出现序列相关性。,自适应预期模型:,显然存在:,局部调整模型:,存在:滞后被解释变量Yt-1与随机扰动项t的异期相关性。,因此,对自回归模型的估计主要需视滞后被解释变量与随机扰动项的不同关系进行估计。 以一阶自回归模型为例说明:,(1) 工具变量法,若Yt-1与t同期相关,则OLS估计是有偏的,并且不是一致估计。 因此,对上述模型,通常采用工具变量法,即寻找一个新的经济变量Zt,用来代替Yt-1。 参数估计量具有一致性。,对于一阶自回归模型,在实际估计中,一般用X的若干滞后的线性组合作为Yt-1的工具变量:,由于原模型已假设随机扰动项t与解释变量X及其滞后项不存在相关性,因此上述工具变量与t不再线性相关。 一个更简单的情形是直接用Xt-1作为Yt-1的工具变量。,(2)普通最小二乘法,若滞后被解释变量Yt-1与随机扰动项t同期无关(如局部调整模型),可直接使用OLS法进行估计,得到一致估计量。,上述工具变量法只解决了解释变量与t相关对参数估计所造成的影响,但没有解决t的自相关问题。事实上,对于自回归模型, t项的自相关问题始终存在,对于此问题,至今没有完全有效的解决方法。唯一可做的,就是尽可能地建立“正确”的模型,以使序列相关性的程度减轻。,注意:,例5.2.3 建立中国长期货币流通量需求模型,经验表明:中国改革开放以来,对货币需求量(Y)的影响因素,主要有资金运用中的贷款额(X)以及反映价格变化的居民消费者价格指数(P)。,长期货币流通量模型可设定为,由于长期货币流通需求量不可观测,作局部调整:,(*),(*),将(*)式代入(*)得短期货币流通量需求模型:,对局部调整模型,运用OLS法估计结果如下,(-2.93)(2.86) (3.10) (2.87),最后得到长期货币流通需求模型的估计式:,注意:,尽管D.W.=1.733,但不能据此判断自回归模型不存在自相关(Why?)。 但 LM=0.7855, =5%下,临界值2(1)=3.84, 判断:模型已不存在一阶自相关。,如果直接对下式作OLS回归,(-4.81) (58.79) (5.05),得,可见该模型随机扰动项具有序列相关性,,四、格兰杰因果关系检验,自回归分布滞后模型旨在揭示:某变量的变化受其自身及其他变量过去行为的影响。然而,许多经济变量有着相互的影响关系,GDP,消费,问题:当两个变量在时间上有先导滞后关系时,能否从统计上考察这种关系是单向的还是双向的?即:主要是一个变量过去的行为在影响另一个变量的当前行为呢?还是双方的过去行为在相互影响着对方的当前行为?,格兰杰因果关系检验(Granger test of causality),对两变量Y与X,格兰杰因果关系检验要求估计:,(*),(*),可能存在有四种检验结果:(1)X对Y有单向影响,表现为(*)式X各滞后项前的参数整体为零,而Y各滞后项前的参数整体不为零;(2)Y对X有单向影响,表现为(*)式Y各滞后项前的参数整体为零,而X各滞后项前的参数整体不为零;,(3)Y与X间存在双向影响,表现为Y与X各滞后项前的参数整体不为零;,(4)Y与X间不存在影响,表现为Y与X各滞后项前的参数整体为零。,格兰杰检验是通过受约束的F检验完成的。如:,针对,中X滞后项前的参数整体为零的假设(X不是Y的格兰杰原因),分别做包含与不包含X滞后项的回归,记前者与后者的残差平方和分别为RSSU、RSSR;再计算F统计量:,k为无约束回归模型的待估参数的个数。,如果: FF(m,n-k) ,则拒绝原假设,认为X是Y的格兰杰原因。,注意: 格兰杰因果关系检验对于滞后期长度的选择有时很敏感。不同的滞后期可能会得到完全不同的检验结果。 因此,一般而言,常进行不同滞后期长度的检验,以检验模型中随机误差项不存在序列相关的滞后期长度来选取滞后期。,例5.2.4 检验19782000年间中国当年价GDP与居民消费CONS的因果关系。,取两阶滞后,Eviews给出的估计结果为:,判断:=5%,临界值F0.05(2,17)=3.59拒绝“GDP不是CONS的格兰杰原因”的假设,不拒绝“CONS不是GDP的格兰杰原因”的假设。 因此,从2阶滞后的情况看,GDP的增长是居民消费增长的原因,而不是相反。 但在2阶滞后时,检验的模型存在1阶自相关性。,随着滞后阶数的增加,拒绝“GDP是居民消费CONS的原因”的概率变大,而拒绝“居民消费CONS是GDP的原因”的概率变小。 如果同时考虑检验模型的序列相关性以及赤池信息准则,发现:滞后4阶或5阶的检验模型不具有1阶自相关性,而且也拥有较小的AIC值,这时判断结果是:GDP与CONS有双向的格兰杰因果关系,即相互影响。,分析:,8.4 模型设定偏误问题,一、模型设定偏误的类型 二、模型设定偏误的后果 三、模型设定偏误的检验,一、模型设定偏误的类型,模型设定偏误主要有两大类:(1)关于解释变量选取的偏误,主要包括漏选相关变量和多选无关变量,(2)关于模型函数形式选取的偏误。,1、相关变量的遗漏 (omitting relevant variables),例如,如果“正确”的模型为,而我们将模型设定为,即设定模型时漏掉了一个相关的解释变量。这类错误称为遗漏相关变量。,动态设定偏误(dynamic mis-specification):遗漏相关变量表现为对Y或X滞后项的遗漏 。,2、无关变量的误选 (including irrevelant variables),例如,如果 Y=0+1X1+2X2+仍为“真”,但我们将模型设定为 Y=0+ 1X1+ 2X2+ 3X3 +,即设定模型时,多选了一个无关解释变量。,3、错误的函数形式 (wrong functional form),例如,如果“真实”的回归函数为,但却将模型设定为,二、模型设定偏误的后果,当模型设定出现偏误时,模型估计结果也会与“实际”有偏差。这种偏差的性质与程度与模型设定偏误的类型密切相关。,1、遗漏相关变量偏误,采用遗漏相关变量的模型进行估计而带来的偏误称为遗漏相关变量偏误(omitting relevant variable bias)。,设正确的模型为 Y=0+1X1+2X2+却对 Y=0+ 1X1+v进行回归,得,将正确模型 Y=0+1X1+2X2+ 的离差形式,代入,得,(1)如果漏掉的X2与X1相关,则上式中的第二项在小样本下求期望与大样本下求概率极限都不会为零,从而使得OLS估计量在小样本下有偏,在大样本下非一致。,(2)如果X2与X1不相关,则1的估计满足无偏性与一致性;但这时0的估计却是有偏的。,由 Y=0+ 1X1+v 得,由 Y=0+1X1+2X2+ 得,如果X2与X1相关,显然有,如果X2与X1不相关,也有,Why?,2、包含无关变量偏误,采用包含无关解释变量的模型进行估计带来的偏误,称为包含无关变量偏误(including irrelevant variable bias)。,设 Y=0+ 1X1+v (*) 为正确模型,但却估计了 Y=0+1X1+2X2+ (*),如果2=0,则(*)与(*)相同,因此,可将(*)式视为以2=0为约束的(*)式的特殊形式。,由于所有的经典假设都满足,因此对 Y=0+1X1+2X2+ (*)式进行OLS估计,可得到无偏且一致的估计量。,但是,OLS估计量却不具有最小方差性。,Y=0+ 1X1+v 中X1的方差:,Y=0+1X1+2X2+ 中X1的方差:,当X1与X2完全线性无关时:,否则:,注意:,3、错误函数形式的偏误,当选取了错误函数形式并对其进行估计时,带来的偏误称错误函数形式偏误(wrong functional form bias)。 容易判断,这种偏误是全方位的。,例如,如果“真实”的回归函数为,却估计线性式,显然,两者的参数具有完全不同的经济含义,且估计结果一般也是不相同的。,三、模型设定偏误的检验,1、检验是否含有无关变量,可用t 检验与F检验完成。 检验的基本思想:如果模型中误选了无关变量,则其系数的真值应为零。因此,只须对无关变量系数的显著性进行检验。 t检验:检验某1个变量是否应包括在模型中; F检验:检验若干个变量是否应同时包括在模型中,2、检验是否有相关变量的遗漏或函数形式设定偏误,(1)残差图示法,残差序列变化图,(a)趋势变化 :模型设定时可能遗漏了一随着时间的推移而持续上升的变量,(b)循环变化:模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量,模型函数形式设定偏误时残差序列呈现正负交替变化,图示:一元回归模型中,真实模型呈幂函数形式,但却选取了线性函数进行回归。,(2)一般性设定偏误检验,但更准确更常用的判定方法是拉姆齐(Ramsey)于1969年提出的所谓RESET 检验(regression error specification test)。 基本思想: 如果事先知道遗漏了哪个变量,只需将此变量引入模型,估计并检验其参数是否显著不为零即可; 问题是不知道遗漏了哪个变量,需寻找一个替代变量Z,来进行上述检验。 RESET检验中,采用所设定模型中被解释变量Y的估计值的若干次幂来充当该“替代”变量。,例如,先估计 Y=0+ 1X1+v 得,再根据第三章第五节介绍的增加解释变量的F检验来判断是否增加这些“替代”变量。 若仅增加一个“替代”变量,也可通过t检验来判断。,例如,在一元回归中,假设真实的函数形式是非线性的,用泰勒定理将其近似地表示为多项式:,RESET检验也可用来检验函数形式设定偏误的问题。,因此,如果设定了线性模型,就意味着遗漏了相关变量X12、 X13 ,等等。 因此,在一元回归中,可通过检验(*)式中的各高次幂参数的显著性来判断是否将非线性模型误设成了线性模型。,(*),对多元回归,非线性函数可能是关于若干个或全部解释变量的非线性,这时可按遗漏变量的程序进行检验。,例如,估计 Y=0+1X1+2X2+但却怀疑真实的函数形式是非线性的。,这时,只需以估计出的的若干次幂为“替代”变量,进行类似于如下模型的估计,再判断各“替代”变量的参数是否显著地不为零即可。,例5.3.1:在4.3商品进口的例中,估计了中国商品进口M与GDP的关系,并发现具有强烈的一阶自相关性。 然而,由于仅用GDP来解释商品进口的变化,明显地遗漏了诸如商品进口价格、汇率等其他影响因素。因此,序列相关性的主要原因可能就是建模时遗漏了重要的相关变量造成的。 下面进行RESET检验。,用原回归模型估计出商品进口序列,R2=0.9484,(-0.085) (8.274) (-6.457) (6.692) R2=0.9842,在=5%下,查得临界值F0.05(2, 20)=3.49判断:拒绝原模型与引入新变量的模型可决系数无显著差异的假设,表明原模型确实存在遗漏相关变量的设定偏误。,*(3)同期相关性的豪斯蔓(Hausman)检验,由于在遗漏相关变量的情况下,往往导致解释变量与随机扰动项出现同期相关性,从而使得OLS估计量有偏且非一致。 因此,对模型遗漏相关变量的检验可以用模型是否出现解释变量与随机扰动项同期相关性的检验来替代。这就是豪斯蔓检验(1978)的主要思想。,当解释变量与随机扰动项同期相关时,通过工具变量法可得到参数的一致估计量。 而当解释变量与随机扰动项同期无关时, OLS估计量就可得到参数的一致估计量。,因此,只须检验IV估计量与OLS估计量是否有显著差异来检验解释变量与随机扰动项是否同期无关。,对一元线性回归模型 Y=0+1X+,所检验的假设是 H0:X与无同期相关。,设一元样本回归模型为,以Z为工具变量,则IV估计量为:,(*),(*)式表明,IV估计量与OLS估计量无差异当且仅当ziei=0,即工具变量与OLS估计的残差项无关。,检验时,求Y关于X与Z的OLS回归式:,在实际检验中,豪斯蔓检验主要针对多元回归进行,而且也不是直接对工具变量回归,而是对以各工具变量为自变量、分别以各解释变量为因变量进行回归。,如对二元回归模型,通过增加解释变量的F检验,检验联合假设: H0:1=2=0 。 拒绝原假设,就意味着(*)式中的解释变量与随机扰动项相关。,(*),(4)线性模型与双对数线性模型的选择,无法通过判定系数的大小来辅助决策,因为在两类模型中被解释变量是不同的。 为了在两类模型中比较,可用Box-Cox变换:,第一步,计算Y的样本几何均值。,第二步,用得到的样本几何均值去除原被解释变量Y,得到被解释变量的新序列Y*。,第三步,用Y*替代Y,分别估计双对数线性模型与线性模型。并通过比较它们的残差平方和是否有显著差异来进行判断。,其中,RSS1与RSS2分别为对应的较大的残差平方和与较小的残差平方和,n为样本容量。,可以证明:该统计量在两个回归的残差平方和无差异的假设下服从自由度为1 的2分布。 因此,拒绝原假设时,就应选择RSS2的模型。,Zarembka(1968)提出的检验统计量为:,例5.3.2 在4.3中国商品进口的例中, 采用线性模型: R2=0.948; 采用双对数线性模型: R2=0.973, 但不能就此简单地判断双对数线性模型优于线性模型。下面进行Box-Cox变换。,计算原商品进口样本的几何平均值为:,计算出新的商品进口序列:,以Mt*替代Mt,分别进行双对数线性模型与线性模型的回归,得:,RSS1=0.5044,RSS2=1.5536,于是,,在=5%下,查得临界值20.05(1)=3.841判断:拒绝原假设,表明双对数线性模型确实“优于”线性模型。,8.5 从传统建模理论到约化建模理论,一、传统建模理论与数据开采问题 二、“从一般到简单”约化建模型理论 三、非嵌套假设检验 四、约化模型的准则,亨德瑞的约化建模理论,吸收了向量自回归建模法与协整理论的部分内容,提出了“从一般到简单”的建模思想,在现代计量经济建模理论方面有着较大影响。,20世纪70年代中叶以来,计量经济学建模方法与建模理论得到了迅速发展。出现了利莫尔(Leamer)的贝叶斯建模方法,西姆斯(Sims)的向量自回归建模型法、亨德瑞(Hendry)的约化建模理论以及第10章将要学习的协整建模理论。这些现代建模理论是在对传统建模理论的不断质疑与修正中发展起来的,,一、传统建模理论与数据开采问题,传统计量经济学的主导建模理论是“结构模型方法论”: 以先验给定的经济理论为建立模型的出发点, 以模型参数的估计为重心, 以参数估计值与其理论预期值相一致为判断标准, 是一个“从简单到复杂”的建模过程(simple-to-general approach):,对不同变量及其数据的偿试与筛选过程.,这种传统的建模方法却有着某些固有的缺陷。其中备受质疑的是这种建模过程的所谓“数据开采”(Data minimg)问题。,数据开采:对不同变量及其数据的偿试与筛选,这一过程对最终选择的变量的t检验产生较大影响 当在众多备选变量中选择变量进入模型时,其中t检验的真实的显著性水平已不再是事先给出的名义显著性水平。 显著性水平意味着将一个无关变量作为相关变量选入模型而犯错误的概率。,罗维尔(Lovell)给出了一个从c个备选变量中选取k个变量进入模型时,真实显著性水平*与名义显著性水平的关系: *=1-(1- )c/k,如: 给定=5%,如果有2个相互独立且与被解释变量无关的备选变量,误选一个进入模型的概率就成了 1-(1-0.05)2=0.0975,传统建模方法的另一问题是它的“随意性”。 其结果是:对同一研究对象,使用同一数据,但不同的建模者往往得出不同的最终模型。,二、“从一般到简单”约化建模型理论,该理论认为:在模型的最初设定上,就设立一个“一般”的模型,它包括了所有先验经济理论与假设中所应包括的全部变量,各种可能的“简单”模型都被“嵌套”(nested)在这个“一般”的模型之中。然后在模型的估计过程中逐渐剔除不显著的变量,最后得到一个较“简单”的最终模型。 这就是所谓的“从一般到简单”(general-to-specific)的建模理论。,(1)约化建模理论提出了一个对不同先验假设的更为系统的检验程序; (2) 初始模型就是一个包括所有可能变量的“一般”模型,也就避免了过度的“数据开采”问题; (3)由于初始模型的“一般”性,所有研究者的“起点”都有是相同的,因此,在相同的约化程序下,最后得到的最终模型也应该是相同的。,特点:,“从一般到简单”的建模理论例,例3.5.1曾建立了一个中国城镇居民食品消费模型: Q=f(X,P1,P0)然而,有理由认为X、P1、P0的变化可能会经过一段时期才会对Q起作用,因为消费者固有的消费习惯是不易改变的。于是,可建立如下更“一般”的模型:,在估计该模型之前,并不知道食品消费需求是怎样决定的,但可以考察几种可能的情况:,也可以认为,(2)由于食品是必需品,P1的变化并不对Q产生影响,但仍受P0与X变动的影响,然而后者的影响却有着一期的滞后:,如,(1)对食品的消费需求是一个“静态”行为,只有当期的因素发生作用:,可以看出,(*)、(*)都是原一般模型的特例,即都可通过对原一般模型施加约束得到。,(*),(*),如果一个模型可通过对“一般”模型施加约束得到,则称该模型“嵌套”在一般模型之中。,约束:1=1=2=0,约束:1=2=2= 2=0,约束:1+1+1=0,一般地,一个“一般模型”具有如下两个重要特性:,第一,与所考察问题相关的不同的先验理论与假设都“嵌套”在该一般模型中; 第二,能较好地拟合数据,并能满足模型设定偏误的各种检验。 该两条性质是相互关联的。例如,如果某一重要理论被忽略,则相关的变量也就被排除在该“一般”模型之外,从而使得该模型不能通过模型设定偏误的多种检验。 一个“一般”的模型是能够进行诸如遗漏相关变量、多选无关变量以及误设函数形式的多种设定偏误检验的。,从一般到简单的约化建模过程,一旦建立了一个“一般”模型,就可对其进行约化(simplification research),寻找可能的简单模型。 这往往是通过检验“嵌套”于其中的各种简单模型进行的。主要包括(1)各种“约束”检验与(2)设定偏误检验,等。 一般模型的约化过程,是一个自上而下(top-down)逐级化简的建模过程。只有当观测数据不支持约束条件时,才退回到上一级,检验其他可能的约束,或者得到最终模型。,“从一般到简单”的建模程序面临的主要问题在于无法在两个没有嵌套关系的模型间进行选择。,这时,可能通过通常的拟合优度检验、池赤信息准则来帮助决策,更主要的检验是非嵌套假设检验。,三、非嵌套假设检验,假设要检验下面两个非嵌套模型: H0: Y=0+ 1X+ 2Z+ H1: Y=0+ 1X+2W+,上述两模型之间没有嵌套关系,无法进行约束检验。 同时,H0与H1不是对立假设,拒绝假设H0未必意味着接受假设H1。因此,通常的假设检验程序无法直接使用。,于是,可针对一般模型(*)分别检验H0与H1 。,(*),为此,一种称为包容性F检验(encompassing F tests)被提了出来。这种检验是人为地构造一个“一般”模型:,包容性F检验主要存在以下问题:(1)人为构造的一般模型没有实际的经济意义,尤其在H0与H1分别反映两种对立的经济理论的情况下更是如此;(2)有可能出现同时接受或拒绝H0与H1的现象;(3)当Z与W高度相关时,往往导致既不能拒绝H0 ,也不能拒绝H1 ,因为在一般模型中去掉任何一个变量,都不会使拟合优度下降很多。,另一个解决办法是建立如下的一般模型:,如果=0,则为模型H0, 如果=1,则为模型H1。 因此,可通过检验施加的约束=0是否为真来判断H0是否为正选模型。 问题是由该模型无法直接估计出的值。戴维森(Davidson)和麦金农(Mackinnon)建议通过下面步骤估计:,第一步,对模型H1进行OLS估计,得到:,第二步,用估计的代替“一般模型”中的0+ 1X+2W,并进行OLS估计:,戴维森和麦金农证明:在大样本