第五章经典线性回归模型(II)(高级计量经济学 清华大学 潘文清)ppt课件.ppt
第五章 经典线性回归模型(II),Classical Linear Regression Model (II),5.1 回归模型的解释与比较Interpreting and Comparing Regression Models,一、解释线性模型 interpreting the linear model,对模型 Yi=0+1X1i+kXki+i如何解释j为“当其他变量保持不变,Xj变化一个单位时Y的平均变化”?,本质上: j=E(Y|X)/Xj即测度的是“边际效应”(marginal effect),1、边际效应,因此,当一个工资模型为 Y=0+1age+2age2+3education+4gender+时,只能测度“年龄”变化的边际效应:,E(Y|X)/age=1+22age,解释:“当其他变量不变时,年龄变动1个单位时工资的平均变化量”,2、弹性: 经济学中时常关心对弹性的测度。这时模型常写为: lnYi=0+1lnX1i+klnXki+I,在E(i|lnX1i,lnX2i,lnXki)=0的假设下,弹性为,E(Y|X)/E(Y|X)/Xj/XjE(lnY|lnXj)/lnXj=k,即弹性并非常数,而是随着Xj的变化而变化。,当原始模型为 Yi=0+1X1i+kXki+i时,弹性为: E(Y|X)/E(Y|X)/Xj/Xj =jXj/(0+1X1+kXk),3、相对变化,如果模型为 lnYi=0+1X1i+kXki+i则: j=E(lnY|X)/Xj,解释为:Xj变化1个单位时Y的相对变化量。,二、选择解释变量 Select the Set of Regressors,Question: 如何不遗漏相关变量,同时也不选择无关变量?,假设有如下两模型: Y=X11+X22+1 (5.1.1) Y=X11+2 (5.1.2)其中,(X1)nk1=(1,X1,Xk1), (X2)n(k-k1)=(Xk1+1,Xk) 1=(0,1,k1), 2=(k1+1,k),显然,(5.1.2)为(5.1.1)的受约束模型。约束条件为:H0: 2=0,1、部分回归(partial regression),Question: 如何解释j为“当其他变量保持不变,Xj变化一个单位时Y的平均变化”?,Y,X1,X2,在X1与X2影响Y的同时,可能存在着X1与X2间的相互影响。如何测度?,将X2中的每一元素Xj (j=k1+1, , k)对X1回归: Xj=X1(X1X1)-1X1Xj+Xj-X1(X1X1)-1X1Xj或 X2=X1(X1X1)-1X1X2+X2-X1(X1X1)-1X1X2 X2=X1Q1+(I-P1)X2 =explained part + residuals其中,Q1=(X1X1)-1X1X2,对 X2=X1Q1+(I-P1)X2 =X1Q1+M1X2 =explained part + residualsM1X2就是排除了X1的其他因素对X2的“净”影响。X2对X1的回归称为辅助回归(auxiliary regression),Question: 如何测度X1对Y的“净”影响?,部分回归(Partial regression),Step 1: 排除X2的影响。将Y对X2回归,得“残差”M2Y=(I-X2(X2X2)-1X2Y将X1对X2回归,得“残差”M2X1=(I-X2(X2X2)-1X2X1,M2Y为排除了X2的净Y,M2X1为排除了X2的净X1,将 M2Y对M2X1回归,得X1对Y的“净”影响: M2Y=M2X1b*+e*这里,b*=(M2X1)(M2X1)-1(M2X1)M2Y=X1-1M2Y e*=M2Y-M2X1b*,Step 2: 估计X1对Y的“净”影响。,Proof: b为原无约束回归模型的OLS解,则有 XXb=XY,或 X1X1b1+X1X2b2=X1Y (*) X2X1b1+X2X2b2=X2Y (*)由(*)得 b2=(X2X2)-1X2Y-(X2X2)-1X2X1b1代入(*)且整理得: X1M2X1b1=X1M2Y b1=(X1M2X1)-1X1M2Y=X1-1M2Y=b*其中,M2=I-X2(X2X2)-1X2又 M2Y=M2X1b1+M2X2b2+M2e1而 M2X2=0, M2e1=e1-X2(X2X2)-1X2e1=e1则 M2Y=M2X1b1+e1 或 e1=M2Y-M2X1b1=e*,记受约束模型(5.1.2)的OLS解为br=(X1X1)-1X1Y,于是 br=(X1X1)-1X1Y= (X1X1)-1X1X1b1+X2b2+e1 =b1+ (X1X1)-1X1X2b2+ (X1X1)-1X1e1 =b1+ (X1X1)-1X1X2b2=b1+Q1b2其中,Q1= (X1X1)-1X1X2,则 Y=X1b1+X2b2+e1 且 X1e1=0, X2e1=0,因此,当b2=0或X1与X2正交时,都有br=b1,Question: 受约束模型与无约束模型在X1前的参数估计量相等吗?,将无约束模型代入受约束模型(5.1.2)的OLS解br=(X1X1)-1X1Y ,可得,br=(X1X1)-1X1(X11+X22+1) =1+(X1X1)-1X1X22+ (X1X1)-1X11,于是: E(br|X1)=1+Q12+ (X1X1)-1X1E(1|X1) =1+Q12,因此,只有当2=0或X1与X2正交时,才有E(br|X1)=1,2、遗漏相关变量(omitting variables),Question: What happen if we omit relevant variable?,方差:由于 br-E(br|X1)= (X1X1)-1X11 则: Var(br|X1)=Ebr-E(br|X1) br-E(br|X1) = (X1X1)-1X1E(11)X1(X1X1)-1 =2(X1X1)-1,换言之,如果X2是Y的相关解释变量,且与X1非正交,则略去X2的回归模型对参数的估计是有偏误的,称为省略变量偏误(omitted variable bias)。,Theorem: Var(br)Var(b1)。其中b1为无约束回归Y=X11+X22+1中对应于1的估计量。,Proof: 由受约束模型的参数估计量 br=b1+Q1b2得 b1=br-Q1b2,Var(b1)=Var(br)+Q1Var(b2)Q1-2Cov(br,b2)Q1 Q1Var(b2)Q1是半正定的,只需证明Cov(br,b2)=0,已知 br-E(br|X1)= (X1X1)-1X11又由 Y=X1b1+X2b2+e1 得 M1Y=M1X1b1+M1X2b2+M1e1=M1X2b2+e1 X2M1Y=X2M1X2b2+X2e1=X2M1X2b2这里用到了:M1X1=0, M1e1=e1, X2e1=0 于是 b2=(X2M1X2)-1X2M1Y,E(b2|X)=2+(X2M1X2)-1X2M1E(1|X)=2于是: b2-E(b2)=(X2M1X2)-1X2M11 Cov(b2,br)=Eb2-E(b2)br-E(br) =E(X2M1X2)-1X2M11(X1X1)-1X11 = (X2M1X2)-1X2M1E(1 1)X1(X1X1)-1 =2(X2M1X2)-1X2M1X1(X1X1)-1 =0,将 Y=X11+X22+1 代入b2得 b2=(X2M1X2)-1X2M1(X11+X22+1) =2+(X2M1X2)-1X2M11,遗漏相关变量问题:有偏,方差变小,导致t检验值变大,容易将本不该纳入模型的变量纳入模型。,3、多选无关变量(redundant variables),如果正确模型是受约束模型 Y=X11+2 (5.1.2)而我们却对无约束模型 Y=X11+X22+1 (5.1.1)进行回归,即模型中多选了无关变量X2。,b1是1的无偏估计。,或 b1=br-Q1b2无论是否有2=0, 始终有Var(b1)Var(br),设正确的受约束模型(5.1.2)的估计结果为br,则有 br= b1+ Q1b2,多选无关变量问题:无偏,但方差变大,即是无效的。变大的方差导致t检验值变小,容易拒绝本该纳入模型的变量。,5.2 多重共线性,一、多重共线性(multicollinearity) 多重共线性,或简称共线(collinearity),意即多元回归中解释变量间存在相关性。 多重共线性有完全共线性(perfect multicollinearity)与近似共线性(approximate multicollinearity)两种情况。 如果存在完全共线,则Rank(X)k+1,XX的逆不存在,OLS估计无法进行。,如果存在近似共线性,则不违背经典假设,OLS估计量仍是无偏一致的估计量,但方差往往较大。,1、估计量的方差,在离差形式的二元线性样本回归模型中: yi=b1x1i+b2x2i+e,一般地,在多元回归中,记 Y=X11+X22+,特别地,假设X2=(Xk1, Xkn),即为X中的最后一列,由于曾经得到 b2=2+(X2M1X2)-1X2M11因此 Var(b2)= (X2M1X2)-1X2M1E(11)M1X2(X2M1X2)-1 =2(X2M1X2)-1,这里,X2M1X2恰为如下辅助回归的残差平方和SSR X2=X1B+v,于是: Var(b2)=2/SSR,表明:第k个解释变量参数估计量的方差,由 模型随机扰动项的方差2 第k个解释变量的样本方差SXk2 第k个解释变量与其他解释变量的相关程度Rk2 样本容量n四个方面的因素决定。,四个因素共同影响着bj方差的大小。Rj2为Xj关于其他解释变量这一辅助回归的决定系数1/(1-Rj2)称为方差膨胀因子(variance inflation factor),2、多重共线性问题,“ The consequences of multicollinearity are that the sampling distribution of the coefficient estimators may have large variances that the coefficient estimates are unstable from sample to sample. Thus they may be too unreliable to be use” (Judge),估计量不准确,j的样本估计值可能会远离真值置信区间大,关于j的不同的假设都可能被接受,bj可能不会显著地异于“任何”假设t检验值变小,可能将重要的变量排除在模型之外使区间预测的“区间”变大,使预测失去意义。,由多重共线性引起的大方差将导致:,注意:,除非是完全共线性,多重共线性并不意味着任何基本假设的违背;因此,OLS估计量仍是最佳线性无偏估计量(BLUE)。 问题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。,3、何时需要多重共线性,多重共线性可能使单个的j不准确,却可使若干参数的组合更准确。 假设总体回归方程为 E(Y)=0+1X1+2X2,记 =1+2,则其样本估计量为 t=b1+b2于是: Var(t)=Var(b1)+Var(b2)+2Cov(b1,b2),在离差形式下,记,特别地,取,于是,因此 Var(b1)=Var(b2)=2/(1-r2) Cov(b1,b2) = -2r/(1-r2)Var(t)=22/(1-r2)-2r/(1-r2)=22(1-r)/(1-r2)=22/(1+r),如果r=0,无共线性:Var(b1)=Var(b2)=2 Var(t)=22,可见,较强的共线性使得1、2的估计量的方差较大,从而对它们各自的估计变得不准确性确; 但却使1、2的组合1+2的估计量的方差变小,因此使该组合的估计变得更准确。,如果r = 0.9,有强共线性: Var(b1)=Var(b2)=2/(1-0.92)=2/0.19=5.32 Var(t)=22 /(1+0.9)=22/1.9=1.052,5.3 广义最小二乘估计Generalized Least Squares Estimation,一、广义经典回归模型 Generalized Classical Regression Model,对经典回归模型,将假设5改为如下假设:,Assumption 6: |XN(0, 2V), where 0 2 is unknown and V=V(X) is a known nn finite and positive definite matrix: E(i|X)=0 Var(i|X)=2Vii(X) Cov(i, j|X)=2Vij(X),注意:,(1) 假设6意味着 Var(|X)=E(|X)=2V=2V(X) (2) 假设6允许存在条件异方差(conditional heteroskedasticity) (3) 允许V可以是非对角阵,即cov(i,j|X)可以不为零,上述假设下的回归模型称为广义经典回归模型(Generalized Classical Regression Model, GCRM),二、最小二乘估计 Least Squares Estimation,对多元线性回归模型 Y=X+仍可记其OLS估计为 b=(XX)-1XY这时,残差项为 e=MY=M 显然: E(b|X)=(XX)-1XX+E(|X)= Var(b|X)=(XX)-1XVar(Y|X)(XX)-1X =(XX)-1XVar(|X)(XX)-1X =2(XX)-1XV(XX)-1X,OLS估计b仍无偏,但其方差矩阵不再是一标量2与矩阵(XX)-1的乘积。,另外,E(e|X)=ME(|X)=0 Var(e)=MVar(|X)M=2MVM,于是 E(ee)=trVar(e)=2tr(MVM)=2tr(MMV)=2tr(MV),由于 MV=(I-P)V=V - X(XX)-1XV而 trX(XX)-1XV=tr(XX)-1XVX于是 tr(MV)=tr(V)-tr(XX)-1XVX,该式可方便地计算MV的迹。,显然,该期望不等于真值 Var(b)= 2(XX)-1XV(XX)-1X = 2(XX)-1(XVX)(XX)-1,表明: 传统的b的方差的OLS估计是有偏的,传统的标准差也不再是对估计精确程度的正确测度,从而传统的置信区间以及假设检验都已不再适用。,如何解决问题? 1.以传统的b为的估计量,但需寻找b的正确的方差矩阵; 2. 直接寻找的更好的估计量。,注意:,在CR模型Y=X+满足基本假设1、3、6条件下,其OLS估计b具有: 无偏性: E(b|X)= 方差: Var(b)=2(XX)-1XVX(XX)-1 2(XX)-1但在 min(XX) (n)的条件下,Var(b)0 表明b依均方收敛于,因此仍是一致估计量 b-|XN(0, 2(XX)-1XVX(XX)-1) Cov(b, e|X)=0,三、广义最小二乘估计 Generalized Least Squares (GLS) estimation,引理:对任何对称正定矩阵V,总有非奇异矩阵C,使得 V-1=CC,Theorem: 对GCR模型,在假设1、3、6下,的广义最小二乘(GLS)估计为 b*=(XV-1X)-1XV-1Y,roof: 对原模型 Y=X+由于V已知,总可以找到可逆矩阵C,使V-1=CC用C左乘原模型得 CY=CX+C,记为: Y*=X*+* (*) 其中,Y*=CY, X*=CX,*=C,由于 E(*|X)=E(C|X)=CE(|X)=0 Var(*|X)=Var(C|X)=CE(|X)C= 2CVC = 2C(CC)-1C= 2I因此,(*)式满足CR模型的基本假设,其OLS估计为 b*=(X*X*)-1X*Y*=(XCCX)-1XCCY =(XV-1X)-1XV-1Y,b*称为的广义最小二乘估计(Generalized Least Square (GLS) estimator),由于b*满足所有CR模型的基本假设,因此有:,注意:t检验与F检验以GLS估计量b*为基础; 如对 H0:R=r, F检验为 F=(r-Rb*)R(X*X*)-1R-1(r-Rb*)/(Js2)(2) 由于GLS估计b*是BLUE,故OLS估计b不是BLUE(3) 实践中,V往往并不已知,因此GLS实际实施有困难。,E(b*|X)= Var(b*|X)=2(X*X*)-1 Cov(b*,e*|X)=0, where e*=Y*-X*b* the GLS b* is BLUE E(s*2|X)=2, where s*2= e*e*/(n-k-1),四、可行的广义最小二乘法(Feasible GLS),注意: (1)这里bF*的有限样本分布不同于b*的有限样本分布,因为后者以V已知为前提。,为了看清这一点,回顾以前所学内容:,在CNR模型中: t=(bj-j)/sbj 与 z=(bj-j)/bj有着相同的渐近分布,即N (0,1)。,Replacing an unknown parameter by a consistent estimator may make the statistic feasible to calculate without affecting the asymptotic distribution.,为了得到可用于FGLS的V的一致估计,仍可使用Y对X的OLS回归的残差项e,因为V=Var(), 其中=Y-X,且e=Y-Xb。 但,如何使用该残差项,V的估计的质量能否保证FGLS与GLS具有相同的渐近分布,还取决于V的结构。,通常情况下,V含有n(n+1)/2个未知数,在只有n 个样本的情况下,对其估计几乎是不可能的,只有在V的某些特殊结构下,才能对其进行估计。,注意: 在第一种解决方案中,即“以传统的b为的估计量,寻找b的正确的方差矩阵”这一方案中。关键是寻找Var(b|X)的一致估计量。但这时传统的t检验与F检验是不能使用的,因为它们以Var(b|X)的正确设定为基础。 然而,如果寻找到了Var(b|X)的一致估计量,则可通过它得到修正的t检验与F检验。当然,这里使用的只能是渐近分布。,5.4 异方差与自相关性Heteroskedasticity and Autocorrelation,异方差与自相关是广义经典回归(GCR)模型的两种特殊情况。,一、异方差(Pure Heteroskedasticity),Y=X+ 其中: E(|X)=0, Var(|X)=E(|X)=V=diag12,n2,1、广义最小二乘法(GLS),对一个OLS估计: Y=Xb+e,b是的无偏且一致的估计,e可视为对的估计,,于是,原模型的一个FGLS估计为:,由于这时易知 C=diag1/|e1|, 1/|e2|,1/|en|该FGLS估计相当于用C左乘原模型,得加权模型: CY=CX+C,因此,该方法也称为加权最小二乘法(weighted least squares),2、普通最小二乘法(OLS),由于原模型的OLS估计是无偏的,只是非有效的,因此,也可采用第一种方法:仍取OLS估计量,但修正相应的方差。 我们知道,原模型OLS估计b的正确的方差距阵是,Var(b|X)=(XX)-1XV(XX)-1X = (XX)-1(Xdiagi2X)(XX)-1但V或者说i2并不知道,仍需估计。在只有n个样本的情况下要求n 个i2也是困难的。 White (1980)指出,问题的关键并非是求i2而是求 XVX=Xdiagi2X,于是,当仍用OLS估计原模型得到:b=(XX)-1XY,这也被称为异方差稳键推断(heteroskedasticity-robust inference),因此,我们仍可进行OLS估计,并用上述异方差一致标准误进行统计推断。这时无论是否存在异方差性,以其为基础的t检验与F检验都是渐近有效的。如F检验为:,两个关键性问题: (1) OLS估计b的标准误的传统估计值与正确估计值之间的差别是什么? (2) 正确的OLS标准误与GLS标准误之间的差别又是什么?,蒙特卡罗试验(Davidson and MacKinnon, 1993) :,Yi=1+Xi+ui uiN(0, Xi)Xi为0,1间的均匀分布,为一可取任何值的参数,20,000个样本下的试验结果如下: 参数估计的标准误 OLS截距 GLS OLS斜率 GLS False True 截距 False True 斜率0.5 0.164 0.134 0.110 0.285 0.277 0.2431.0 0.142 0.101 0.048 0.246 0.247 0.1732.0 0.116 0.074 0.0073 0.200 0.220 0.1093.0 0.100 0.064 0.0013 0.173 0.206 0.056,结论性说明: 对截距,不正确的OLS标准误大于正确值; 对斜率,除=0.3外,正确的OLS标准误与不正确的值差别很小; OLS的非有效性,可通过正确的标准误与GLS估计的标准误之间的对比显示出来。,3、异方差性检验 图示法 Park、 Gleiser检验 Goldfeld-Quandt检验 White检验,二、自相关(autoregressive Process),其中,ui是满足以下经典的OLS假定: E(u|X)=0, Var(u|X)=E(uu|X)=u2I,Y=X+,阶自相关往往可写成如下形式: i=1i-1+2i-2+ pi-p+ ui -1j1,对于上述(V)nn,显然有n(n+1)/2个未知数,在只有n个样本点的情况下,要对其估计是困难的。因此,还需对自相关做某种结构上的假定。,最常用的是假设随机扰动项呈现1阶自相关: i=i-1+ ui -11,1、广义最小二乘法(GLS),这时, CVC=u2I,用C左乘原矩阵得: CY=CX+C (*),于是 E(C|X)=CE(|X)=0 Var(C|X)=CE(|X)C= 2CVC=u2I因此,(*)式的OLS估计,或原式的GLS估计为 b*=(XCCX)-1XCCY=(XV-1X)-1XV-1Y,注意:,(*)式相当于下面的变换: Y*=CY, X*=CX,例如,由于i=i-1+ui,可用原模型的OLS估计的残差ei 代替i得ei=ei-1+ui,再对该式进行OLS估计,得,由于是i与i-1的自相关系数,即 =Cov(i,i-1)/Var(i),显然,在 ei为i的估计的情况下,残差的样本矩是相应总体矩的一致估计量。,2、一阶差分法,对 Yi=0+1X1i+kXki+i (i=1,n),在i=i-1+ui的情形下,可做如下1阶差分变换: Yi-Yi-1=0(1-)+1(X1i-X1i-1)+k(Xki-Xki-1)+ui (i=2,n),用OLS法可估计该式,但它只是GLS估计的一个近似,因此其有效性不及包含第1个观测值的GLS估计,该估计量被称为Cochrane-Orcutt估计量。,3、广义差分法,其中: Yi*=Yi-(1Yi-1+pYi-p) Xji*=Xji-(1Xji-1+pXji-p) (i=p+1,n; j=1,k),如果原模型的随机扰动项呈现高阶自相关: i=1i-1+2i-2+pi-p+ui,可用OLS法估计该式,得 Cochrane-Orcutt估计量,但它同样只是GLS估计的一个近似。当n时,其极限分布为GLS估计的分布。,4、估计自相关系数,在用差分法实际进行估计时,无论是1阶自相关,还是高阶自相关的情形,都需首先估计自相关系数。可以先用OLS法估计原模型,得残差项ei,1阶或高阶自相关系数可通过下面式子估计:,ei=ei-1+ui ei=1ei-1+2ei-2+pei-p+ui,当然,还有其他估计自相关系数的方法,如: Cochrane-Orcutt迭代法、Durbin两步法等。,5、OLS估计的性质,为简单,只考察无截距一元回归、1阶自相关的情形: Yi=Xi+i i=i-1+ui |1,易知其OLS估计为: b=(YiXi)/(Xi2)其正确的抽样方差为: Var(b)=(XX)-1XVX(XX)-1其中, X=(X1,X2,Xn),于是: XVX=u2/(1-2)i=1nXi2+2i=2nXiXi-1 + 2i=3nXiXi-2 + 2n-1X1Xn ,第1项是Var(b)的通常的表达式,但此处是不正确的。括号内有其他项涉及到的幂和X的样本自相关。如果X没有自相关,则Var(b)的通常表达式就是无偏的;但如果随机扰动项与X都有正的自相关,则通常的表达式可能严重低估了标准误。,OLS估计也可能导致重大的无效性。,对GLS估计b*: Var(b*)=u2(XV-1X)-1容易知道,故,因此,可由下式近似测度OLS与GLS有效性的比较,例如,如果2=0.5=r,则该比率为1/2,即OLS估计的抽样方差是GLS的两倍。,注意:这里Var(b)是用OLS估计的正确的方差测算的。,问题:如何估计OLS估计量的正确的方差?,当Var()=E()=V2I时,OLS估计仍是无偏的,但方差是有偏且不一致的。 当只存在异方差时, 由于OLS估计b的正确的方差为 Var(b|X)=(XX)-1XV(XX)-1X = (XX)-1(Xdiagi2X)(XX)-1,White给出了它的一个一致的估计:,其中,ei为OLS估计中的残差项。,那么,当存在序列相关时,能否找到一个类似的一致估计量呢?,当存在自相关时, OLS估计b的正确的方差为 Var(b|X)=(XX)-1XVX(XX)-1 = (XX)-1n(1/n)XVX(XX)-1,主要仍是寻找(1/n)XVX的一致估计量。 在存在p阶自相关的情况下,Newey与Wet(1987)提出了一个(1/n)XVX的一致估计量:,其中,ei为OLS估计的残差项,Xi=(1,X1i,Xki), wj为一可取不同值的参数。,显然,当wj=0时,上述估计量退化为:,但在有限样本中它导致一个非正定的方差估计量。,其中,Newey与West建议:wj=1-j/p,由(*)估计的标准误称为异方差-自相关-一致标准误(heteroskedasticity-and-autocorrelation-consistent (HAC) standard errors),或称为Newey-West standard errors。,6、自相关的检验 图示法 回归检验法 Durbin-Watson检验 Lagrange multiplier检验,5.5 工具变量法Instrumental Variable (IV) regression,Question: What will happen if E(i|Xi)=0 fails?,一、假设与引论(Assumptions and Introduction),Assumption 1 Linearity: Yi, Xi 为独立同分布(i.i.d)随机过程,且 Yi=Xi+i 或 Y=X+ 其中,Xi=(1,X1i, ,Xki),1、假设,Assumption 2 Nonsingularity KK矩阵 E(XiXi)=E(XX)=Qxx为非奇异有限矩阵。,Assumption 3 IV Conditions (i) E(Xii)=E(X)0 (ii) E(Zii)=E(Z)=0, 其中Zi为一l1随机向量,且lK (iii) ll矩阵 Qzz=E(ZZ)=E(ZiZi) 有限非奇异,且lK矩阵Qzx=E(XZ)=E(ZiXi)有限满秩,注意: lK意味着工具Zi的个数不少于变量Xi的个数。,E(Xii)=0称为解释变量与随机扰动项同期无关(contemporaneously uncorrelated)。或称Xi为外生的(exogenous),Case 1: Autocorrelation with a lagged Dependent Variable 假设模型 Yi=0+1Xi+2Yi-1+i有 i=i-1+vi ,2、几种同期相关/内生的情形,则 Yi = 0+1Xi+2Yi-1 +i-1+vi E(Yi-1i)=EYi-1(i-1+vi)=E(Yi-1i-1) 0,注意:如果i不存在自相关性,则E(Yi-1i-1) 0,而(Yi-1i)= 0,即只存在异期相关,而不存在同期相关。,Case 2: Measurement Error,假设模型 Yi=0+1Xi*+i,假设收集不到Xi*的精确观测值,收集到的Xi包含了测量误差vi: Xi = Xi*+vi,由于实际估计的是如下可观测变量的回归模型: Yi=0+1Xi+ui,于是: ui=Yi- 0-1Xi= 0+1Xi*+i- 0-1(Xi*+vi) = i - 1vi,E(Xiui)=E(Xi*+vi)ui=E(Xi*ui)+E(viui) =E(Xi*i)- 1E(Xi*vi)+E(ivi) -1E(vi2) =-1v20,Question: 如果X*可观测X*=X,而Y*不可观测,情况如何?如果X*与Y均不可观测,即Y=Y*,情况又如何?,Case 3. Simultaneous Equation Bias,设有如下简单的Keynsian模型 Ci=0+1Yi+i Yi=Ci+Ii其中,Yi、Ci、Ii分别表示国民收入、消费与投资。Ci、Yi也称为模型的内生变量(endogenous variables),Ii称为外生变量(exogenous variable)。,则: E(Yii)=E(Ci+Ii)i =E(Cii)+E(Iii)=E(Cii)0,事实上,E(Yii)=E(0+1Yi+i)i=1E(Yii)+E(i2) E(Yii)=2/(1-1)0,3、出现同期相关的后果,Question: What will happen if E(i|Xi)=0 fails?,于是:Plim(b1)= 1+ Cov(Xi,i)/Var(Xi)1,假设模型 Yi=0+1Xi+I出现Xi与i的同期相关性:Cov(Xi,i)=E(Xii)0,后果:OLS估计量不一致,(当然也是有偏的)。,对截距项,由于 1=E(Yi)-2E(Xi), b1=Y-b2X则 plim(b1-1)=plimY-E(Yi)-plimb2X-2E(Xi) = -plim(b2-2)E(Xi)0,进一步,如果E(Xi)0,则高估2,将导致低估1。,仍然是非一致的(也是有偏的)。一个参数估计的非一致性往往传递给其他参数。,例1:在上述存在测量误差的一元模型中:,Plim(b1)= 1+ E(Xii)/Var(Xi)=1 -1v2/Var(Xi*+vi) =11-v2/(x*2+v2),例2,在上述Keynesian模型中,首先,容易写出如下简化式(reduced form)模型: Yi=0/(1-1)+1/(1-1)Ii+1/(1-1)i Ci=0/(1-1)+1/(1-1)Ii+1/(1-1)i,于是: plimb1=1+Cov(Yi,i)/Var(Yi)而 Var(Yi)=Var1/(1-1)Ii+1/(1-1)i =1/(1-1)2(I2+2)因此: plimb1=1+(1-1)2/(I2+2),二、工具变量估计(The Instrumental Variable Estimator),对一般的线性回归模型 Y=X+其OLS估计量为: b=(XX)-1XY=+(XX)-1X,如果Plim(XX/n) =Qxx是一满秩有限矩阵 ,Plim(X/n)=E(X) 0,则 Plimb=+Qxx-1 E(X) ,因此,当随机扰动项与一个或多个解释变量同期相关时,OLS估计量非一致。,1、工具变量法(IV),如果能寻找一个工具变量矩阵(Z)nl,具有以下性质: (i)Z中的变量与X的变量相关,且Plim(ZX/n)=E(ZX)=Qzx是一满秩有限矩阵; (ii)Z中的变量与渐近无关,即Plim(Z/n)=E(Z)=0,用Z左乘原模型两边得 ZY=ZX+Z由于 Var(Z)=2(ZZ)2I则:bIV=bGLS=(XZ(ZZ)-1ZX)-1XZ(ZZ)-1ZY =(XPZX)-1XPZY其中,PZ=Z(ZZ)-1Z且 Var(bIV)=2(XPZX)-1,将 ZY=ZX+Z代入bIV的表达式,得 bIV=+(XZ(ZZ)-1ZX)-1XZ(ZZ)-1Z,下面证明bIV的一致性,故 PlimXZ(ZZ)-1ZX= E(XZ)E(ZZ)-1E(ZX) =QxzQzz-1Qzx 为非奇异有限矩阵,PlimXZ(ZZ)-1Z= E(XZ)E(ZZ)-1E(Z)=0故: PlimbIV=+ QxzQzz-1Qzx-10=,2、两阶段最小二乘法(2SLS),IV估计量可看作是两次运用最小二乘法的结果。,因此,可用2SLS求IV估计量。,3、IV估计的一个特例,注意: 1. 如果不存在随机解释变量问题, 则Z=X,bIV=bOLS 2. 假设中要求lK,即工具变量的个数不少于未知参数的个数。如果lK,则矩阵(XZ(ZZ)-1ZX)KK的逆不存在(因为秩(XZ)Kl =l,从而导致秩(XZ(ZZ)-1ZX)KK =l。),对IV估计:bIV=(XZ(ZZ)-1ZX)-1XZ(ZZ)-1ZY如果Z的列数等于X的列数,即l=K=k+1,则bIV可简化如下: bIV=(ZX)-1(ZZ)(XZ)-1XZ(ZZ)-1ZY =(ZX)-1ZY,4、工具的选择,理论上,Z中保留了X中所有被认为是外生的且与随机扰动项无关的变量,而那些内生的与随机扰动项相关的变量被工具(变量)所取代。 在上述Keynesian联立模型例中,可用外生变量Ii作为Yi的工具变量,1仍是1的工具变量,于是,而在单方程的估计中,工具变量的寻找较困难,这时,可用随机解释变量的滞后期变量作为工具变量。,5、IV/2SLS的渐近正态性,由于 bIV=+(XZ(ZZ)-1ZX)-1XZ(ZZ)-1Z如果 i i.i.d (0,2), 则 Var(Z)=2(ZZ)记 A=(XZ(ZZ)-1ZX)-1XZ(ZZ)-1则 Var(AZ)=2(AZZA)=(XZ(ZZ)-1ZX)-1,进一步,记 =QxzQzz-1Qzx-1,则有如下定理,注意:,在有限样本下, Var(bIV)=2(XPZX)-1 =2(XZ(ZZ)-1ZX)-1,