最大似然估计及三大检验资料.docx
第二章线性回归模型回顾与拓展(12-15学时)第四节三大检验(LR Wald LM) 一、极大似然估计法(ML)(一)极大似然原理假设对于给定样本-X,其联合概率分布存在,f (匕X;&)。将该联合概率 密度函数视为未知参数 &的函数,则f (Y, X; &)称为似然函数(Likelihood Function)o极大似然原理就是寻找未知参数&的估计&,使得似然函数达到最大, 或者说寻找使得样本Y, X 出现的概率最大&。(二)条件似然函数VS无条件似然函数f (Y, X;&)=f (YX ;0)f (X;q)若0与中没有关系,则最大化无条件似然函数f (Y,X;&)等价于分别最大化 条件似然函数f G|X ;0)和边际似然函数f (X冲),从而0的最大似然估计就是 最大化条件似然函数f G|X ;0)。(三)线性回归模型最大似然估计Y - X p + u, u T N(0,。2I)2b 2L(Y, X; p, b 2) = (2兀b 2)-; exp (Y _ X p)(Y _ X P)对数似然函数:2b 2于是dlapaiab 2l = LnL =亳 2s 直Lnb 2 (Y X p )(Y X p) 221(2 X Y + 2 X X p) = 0 2b 2+(Y X p ),(Y X p) = 0 2b 22b 4r x' .0 = (X X)-i X Y ML1b 2 =_ e'e、ML n(三)得分(Score )和信息矩阵(Information Matrix )所 ,一,-V = f (° ;匕X)称为得分;QU和1aiao仞得分向量;(Gradient)2aoka 2i 海瑟矩阵(Hessian Matrix) : H =aoao信息矩阵: 三*、带约束条件的最小二乘估计(拉格朗日估计)在计量经济分析中,通常是通过样本信息对未知参数进行估计。但有些时候 可能会遇到非样本信息一一对未知参数的约束限制(如生产函数中的规模报酬不 变等)。在这种情况下,我们就可以采用拉格朗日估计法。对于线性模型(1),若其参数P具有某种线性等式约束:H0 =0(6)其中H是m x k矩阵(m < k,rank(H) = m)。0可视为除分量0。以外的k x 1矩 阵。上式表明未知参数0 ,0 , 0之间的某些线性关系的信息。12, k现在的问题是寻求满足上式又使(Y - X 0 )(Y - X 0)达到最小的估计量& 。H为此,构造拉格朗日函数。(人是m x 1的向量)L = (Y- XP)(Y- XP) + X'HP(7)于是6L矛H=-2 X Y + 2 X X B + H 伏HH6L8尤H=0由(8)可得 P =P - 1(XX)-1 H欠H 2H(8)(9)(10)(10)式的&是OLS的估计量。两边再左乘H,并结合(9)式有0 = Hp = Hp -1H(XX)-1H'XH2H所以,人=2H(XX)-1 H'-iHpH代入(10)式,我们便得到估计量:E =8 - (XX )-1 H' H (XX)-1H '-1 H pp(11)H这就是拉格朗日估计,或称为带约束的最小二乘估计。它既利用了样本信息, 人.也利用了非样本信息。另外,P也是带约束的极大似然估计量(证明从略)。H四、广义最小二乘估计(GLS )1、数理过程在实际经济问题的分析过程中,常常遇到古典假定中2的不满足,即随机扰 动项存在异方差或自相关。比如利用截面数据进行分析时,随机因素的方差会随 着解释变量的增大而增大(即所谓的递增异方差一一如在研究消费收入的关系 时,随着收入的增加,随机因素的变化会增大)。而利用时间序列数据进行分析 时,由于经济变量的惯性作用,随机扰动项之间也会有联系,较为普遍的现象是扰动项的一阶自相关。(即ut = puti +Ef )我们当存在异方差或自相关的情况下,传统的OLS不再是有效估计,这时,应采用广义最小二乘法来解决这类问题。具体地,其中。=(12)时u存在异方差, t。=-1 P 21PP n - 1P1P n-2.P n-1P n-21时u存在一阶自相关。t存在(14)需要说明的是,无论是异方差还是自相关,矩阵。是正定矩阵。于是, 非奇异矩阵P,使得。=PP'或 P'O( P')-1 = I在模型 y = X p + u 两边同时左乘p -1,得p-1y = p-1 x p + p-1u(13)或写成y * = x *p + u*此时,Eu*u*' = EP-1uu'(P)-1 = P-10 2。(P)-1 =021即u *己无异方差和自相关。那么,对(13)式运用OLS可以得到p =( x *' X *)-1 x *y * =( x( p-1)p-1X )-1 x '( p-1)P-1y =( x '。-1X )-1 x '。-y这就是未知参数P的广义最小二乘估计量GLS。它同样具有良好的统计性质。即它是无偏的、一致的、渐近正态(EB = 8,VarB =b(X,。-1X)-1)的估计量。换 句话说,GLS估计量是广义模型中的最小方差线性无偏估计。这就是所谓的 Aitken定理,当Q = I时高斯一马尔科夫定理为其特例。2、WLS和广义差分法广义最小二乘法是处理异方差和自相关问题的一般良好估计方法。当Q已知时,比如异方差时,各个w. /搭之已知,此时,矩阵PY * = P-1Y =,X * = P-1X,u* = P-1u =这时由(13)式估计出来的B,其实同加权最小二乘估计(WLS)是相同 的。换句话说,加权最小二乘实际上是广义最小二乘的特例。再比如随机扰动项1P. P n-1有一阶自相关且P已知,此时。=_P1.P n2=PP',可以算得1- P 2."P ”-1P n-21 JU1 -P 2000 0P100 0P-1=0-P10 0. 、000-P L那么(13)式中的P1-Y*= P-1Y = 1 Y2 -pYiY -pYnn-1| 顼1-P2 X1 ,X*= P-1X =1 X 2 -P X1X -pXnn - 1此时估计(13)式得出的&,其实就是所谓的广义差分法。也就是说广义差 分法也是GLS的特例。所以,GLS是一个普遍适用的方法。3、Q未知时的GLS当然,上述情形只是Q已知的情况。而在现实应用时,Q往往是未知的。于是我们面临一个问题一一Q如何确定?回答当然是对Q中的未知量进行估计(比如自相关中的P,异方差中的W)。那么又该如何估计呢?在回答这个问题i之前,我们先考察一下GLS与最大似然估计的关系(可对照OLS与ML的关系)一般来说,当 叩N(0,b。)或Y N(Xp,6。)时,Y的对数似然函数为n 一 1-1八. 一八InL = - In2兀-In。2。- _ (Y X P )r(c 2。)-1 (Y X P)222或者考虑到。=PP',而P-1Y = Y*、P-1X = X*,又有(经过适当的运算)nn1lnL = -ln2兀一-lnb2 + InlPI-(Y* -X*P)(Y* -X*P)222b 2最大化上式,对P求导令其为0,可得到P的极大似然估计量(它其实就是GLS)。对。或P中的未知量求导令其为0,可得到。中未知量(比如p)的估 计。这是一种理论上可行的方法,但实际操作可能会遇到障碍,尤其是在有异方 差存在时。为此,我们介绍另一种方法一一可行广义最小二乘法FGLS4、可行广义最小二乘法(FGLS)异方差的具体形式是复杂多样的,但总的来说都是与解释变量有关的,随解 释变量的变化而变化。以下三种假设情况基本上涵盖了文献中讨论过的大多数情 形。(i)b2 =a +aZ + +a Zi 01 i1p ip(ii)b =a +aZ + +a Zi 01 i1p ip(iii) lnb2 =a +aZ + +a Z(或b2 = exp(a +aZ + +a Z )i 01 i1p ipi01 i1p ip我们称这些方程为扰动项方差的辅助方程。式中的Z是原模型中部分或全部的X或X的函数(比如Z=X,Z =X2,Z = XX等等)。可行广义最小二乘法的 1121312基本思想就是,先利用辅助函数求得参数估计值1,然后得出估计值b.从而得 到。及最终的GLS结果。FGLS的步骤如下:(1)Y对常数项和XX ,.,Xk回归,求得P的OLS估计值;(2)计算残差e = Y B B XE Xi i 01 1ik ki(3)选择上述方程的适当形式(3i)e2对常数项及Z,,Z回归,求得a的估计值。这是针对上述(i) i1P的情况。式中的Z为原来X的平方或交叉乘积。然后把这些a的估计值代回(i) 便得到b,的估计值b2。再使用GLS或WLS得出最终结果。需要指出的是,这种 方式并不能保证所有的b 2都为正,如果其中出现了 0或负数,那么我们就只能i使用原来的e:代替b2 了。(3ii)对应于上述方程(ii),让e,对常数项及彳,,Zp回归,求得a的OLS 估计值,代入(ii)得到b,然后使用GLS或WLS (此时选择权数为*,如b 为负,那么权数为*。(3iii)对应于方程(iii),让lne2对常数项及Z,,Z回归,求出a的 i1POLS估计值,再代回(iii)求得lnb 2或b2。然后利用GLS或WLS得出结果。这里值得一提的是,此时的b 2只会产生正值,不存在0或负的情况,这也是此种i方法很有吸引力的地方。以上便是可行广义最小二乘法的一般步骤。由此得到的FGLS估计量是一致 估计量。而且他们的方差和协方差也是一致的。同时渐近地(大样本场合)比 OLS估计更有效。五、矩估计及GMM简介事实上就参数估计方法来说,矩估计是最简便直观的方法。即用样本矩作为 总体矩的估计。矩估计广义矩估计综上所述,我们将传统的单一方程的估计方法总结如下:'OLS(普通最小二乘法,满足古典假定时的BLUE)估ML (极大的似然估计,另一种优良的估计法,结果与OLS相同)LM(拉格朗朗日乘数,或带约束最小二乘估计)'WLS(加权最小二乘,异方差存在且已知GLS(广义最小二乘,广义差分(存在自相关且p可估计量)FGLS(可行广义最小二乘,。未知,需要对其中参数进行估计)回归的其他形式(标准化,与量纲回归,过原点回归等);第三节 线性回归模型的检验方法及拓展有个对检验的总体说明作为统计推断的核心内容,除了估计未知参数以外,对参数的假设检验是实 证分析中的一个重要方面。对模型进行各种检验的目的是,改善模型的设定以确 保基本假设和估计方法比较适合于数据,同时也是有关理论有效性的验证。正态性JB检验、峰度、偏度检验一、假设检验的基本理论及准则假设检验的理论依据是“小概率事件原理”,它的一般步骤是:(1)建立两 个相对的假设(零假设和备择假设)(2)在零假设条件下,寻求用于检验的统计 量及其分布(3)得出拒绝或接受零假设的判别规则。另一方面,对于任何的检 验过程,都有可能犯错误,即所谓的第一类错误(拒真)和第二类错误(采伪) 而犯这两类错误的概率(分别记为a和p)是一种此消彼长的情况,于是如何控 制这两个概率,使他们尽可能的小以满足要求,就成了寻找优良的检验方法的关 键。下面先就假设检验的有关基本理论做一简要介绍。参数显著性检验的具体步骤是:已知总体的分布F3,0),其中0是未知参数。 总体真实分布完全由未知参数0的取值所决定。对0提出某种假设 H0:0 =0。(气:0。0°或0>00,0 <0。等),从总体中抽取一个容量为n的样本,确定 一个统计量及其分布,决定一个拒绝域W,使得p(W)=a,或者对样本观测数00据X,P(X G W)<a。a即是显著性水平,也是犯第一类错误的概率。00既然犯两类错误的概率不能同时被控制,所以通常的做法是限制犯第一类错 误的概率,使犯第二类错误的概率尽可能的小,即在P (X G W)<a0 G0的条件下,使得PCX G W),0 G0-00达到最大。其中P(X G W)表示总体分布为F(x,0 )时,事件X G W的概率,00为 零假设集合(。0只含一个点时成为简单原假设,否则称为复杂原假设)。0-00 则表示备择假设集合,为了方便描述,我们定义p(o)=%(X e W)称(0)为该检验的势函数。当0 e00时,(0)是犯第一类错误的概率;而当 Oe0-0o时,1-(0)是犯第二类错误的概率。于是一个好的检验方程是:maxp(0),0 e0 -0 八 0s.t p(0) <a,0 e00为了理论上的深入研究和表达方便,我们常用函数来表示检验法。定义函数1, x eW 甲(x) = 八0, x W W它是拒绝域W的示性函数,仅取0、1两个值。反之如果一个函数中©(x)只取0 或1,则W = x I© (X) = 1可作为一个拒绝域。也就是说,W和©之间建立了一种 对立关系,给出一个©就等价于给出了一个检验法,(我们称©为检验函数)。那 么,对于检验法©的势函数为p(0)=铲(X) = W (x)dF(x, 0)于是,一个好的检验法又可写为maxp (0),0 e0 -0's.t E( x)<a ,0 e000我们称满足上式的检验法为最优势检验(MPT)(如果是对于复杂原假设和备择假设,则称为一致最优势检验(UMPT)。奈曼一皮尔逊基本引理给出于© ( X)是MPT的充要条件。定理设X1,., Xn是来自总体分布密度为p (x,0 )的样本,0为未知参数,对于 简单假设检验问题H0:0=0。,H1:0=01,检验函数©是显著性水平为a的最优 势检验MPT的充要条件是,存在常数K > 0,使得侦方满足:E 甲(X) =a001,当p(x,01) > Kp(x,00)甲 X) =10,当p(x,0 ) < Kp(x,0 )v10这就是著名的奈曼一皮尔逊基本引理,需要指出的是,上述定理中的检验函数Nx)通常也称为似然比检验函数,若记p(x,01) p(x,0 ) 0称为似然比统计量。如果人(x)较大,意味着p(x,0 1)较大,所以在H0为真时观测 到样本点x的可能性比H1为真时观察到样本点x的可能性小,因而应拒绝原假 设H0 ;反之,如果人(x)较小则应接受H0。此外,利用人(x),上述定理中的Nx) 可写为甲(x)=1,人(x) > K0,人(x)< K这说明对于简单假设检验问题,似然比检验是最优的,反之最优势检验法也一定 是似然比检验法。而大量的文献都已证明了传统假设检验中的Z检验,t检验,X 2 检验,F检验都是最优势检验。于是,我们可以放心地回到这部份的主题一一计量经济模型的检验方法。二、一般线性框架下的假设检验多元回归模型丫 = p +p X +P X + u的统计检验通常包括以下三种情 011k k况:(1)单个系数的显著性检验;(2)若十个回归系数的联合检验;(3)回归系 数线性组合的检验。例如:考虑下面这些典型假设的例子。10、H0: p . = 0。即回归元X对Y没有影响,这是最常见的参数显著性检验。20、H : p = p 。p是某一具体值。例如p表示价格弹性,我们也许希 0 . 0. 0.望它是-1。30、H0:料+ 02=1。这里的P表示生产函数中资本和劳动的弹性,此时检 验是否规模报酬不变。40、H : P =P或p -p = 0。即检验X和X的系数是否相同。 023232350、H0: p广。2=.p广0。即检验全部回归元都对Y没有影响。60、H0: p广0。 这里的含义是把p向量分为两个子向量pp,分别 含有匕和七个元素。检验H0: p= 0就是检验某一些回归元X( X的一部分) 对Y没有影响。诸如以上的情形都可归于一般的线性框架:Rp = r(注意:这里p = (p ,p )')其中R是由已知常数构成的qxk矩阵(q < k),r是各元素为常数(一般是0或 1)的qx1矩阵。于是,对于上述情形,具体的我们有:(i)R (010),r = 0.(q 1)(ii)R = (0 1 0),r = p .(q 1)(iii)R = (1,1,0 0), r 1.(q 1)(iv)R (0,1,-1,0),r 0.(q 1)(v) R = I ,r = 0.(q = k)、(0 0 )(vi) R = 0 I ,r = 0.(q = k'k2所以,上述问题的统一假设是:H 0: Rp- r = 0. .人.一人 .、为了检验这个假设,应先估计出P,计算Rp-r,若其值较“小”,(接近于0),一 、.、 . .A则不应否定原假设;而如果其值较大,那么应对H提出怀疑。为此我们先考察Rp 0的分布。,A-一、,、一 一.对于OLS的P,我们知道P N(P,6(XX)-1)。(汪意:这里的X是所有解 释变量观测值组成的nxk矩阵不含全是1的第一列)而E (Rp) = RPVar(Rp) = ER(P - P)(P - P),R' = RVarpR'=sR(XX)-1R所以,Rp N(Rp,Q2R(XX)-iR')于是,在H : Rp-r = 0成立的条件下, 0Rp - r N(0,Q2R(XX)-iR')那么,由有关的数理统计知识可知:(Rp- r )'Q2 R( X X )-i R'-i( Rp- r) / 2(q)(1)此外,我们还可以证明p一 X2(n-k -1)(残差平万和的分布)。Q 2因此,由上述两式,得到在H 0下的检验统计量:F= (RPr坏")1R'1(耶r) q F(q,n k 1)e'e (n k 1)(2)(注意:e'e(n k 1) =,2)于是,检验的程序是,如果算出的F值大于某个事先选定的临界值,则拒绝H0。具体描述如下:、# 人 -一、此时Rp为p。R(XX)-1R为c。即(XX)-1王对角线上的第i个兀素(注:.II(XX)-1是一 K阶对称方阵)。因此:P 2 p 2F 二 F (1n k 1)b 2cVrp.ide取平方根t -鸟 t(n k 1),这就是传统的关于回归参数显著性的t检验法。 sepi20、H0: p. = p°B p类似10,这里t 心 t (n k 1)sepi此时也可以计算,比如p.的95%置信区间,而不用检验关于p,的具体假设,这个置信区间是p±tSep。i 0.025 i30、H0: p + p2 1Rp给出了两个估计系数的和8+8,而此时R(XX)-1 R' c + 2c + c (注:12111222(XX)-1 (c ),R=(1,1,0)。那么 .成(、') 1 b2(c+ 2c + c)-1= Varp+ 2Cov(p,p ) + Varp-1=Var(p+p)-1111222112212于是检验统计量为:B +6 -1I.t 12- 口 t (n k 1)Var (料+叩或者,也可以计算p+p的95%置信区间(p +&) 土 t -12120.025/40、H0: P2 二匚类似30,可推得此时的检验统计量为t 一 ,2 ,3口 t (n k 1)Var(B -B ) 、235。、H : p =。= . p = 0此时R =匕,r=0, q=k,那么44 <F 二史竺虹二ESSk口(k, n - k -1)e'e (n - k -1) RSS n - k -1这就是我们熟悉的关于回归方程显著性的F检验。60、H0: p = 0这里对应于p=?i 。把X分块为X =(X X ),可以证明(过程略)叮1此匕日寸 F = (e1e1-ee) k2 口 F(k ,n-k -1)(3)e'e (n - k -1)2其中竹是Y对X,做线性回归的残差平方和。e'e是Y对所有X回归的rss。通过上述示例,我们看到一般线性框架下的假设检验,它涵盖了传统计量经 济分析中的统计检验方法。有了它,我们可以方便地实现许多实证问题中线性意 义下的统计检验。其重要性是显而易见的。三、一般线性假设检验的另一种形式上面第60情况出现的统计量就是这里所说的另一种形式。显然50是60的特 殊情况,而事实上我们还将看到其它的情况也可归于60。另外,这里还有一个问 题,即类似于第30种情况的检验与上一章所讲的带约束的最小二乘估计的关系是 什么?也就是说,对未知参数有约束限制的模型进行回归后的结果,与对没有约 束限制的模型回归后的参数检验的结果是否一致?下面的具体分析就回答了这 一问题。事实上,无论50还是60都可以认为用了两种不同回归的结果。第一种回归 可看作有约束的回归,或者说H中的约束条件实际上是估计方程施加的。即50中 0有约束回归是将X ,X,,X从回归式中省略掉,或等价地说,令p , p,,p为 12K12 k零;在60中,有约束的回归只用了前面一部分变量X( K +1 -K2个)。而50、60 两种情况的第二种回归是无约束回归,它们都用了所有的变量X。由于无约束模 型的残差平方和RSS是de,有约束模型的残差平方和RSS记为e*e*,因此对某 些P,的显著性检验也就是问,对应的Xj加入模型后,残差平方和RSS是否显著 减少。具体到第3。种情形,考虑离差形式的回归方程 j = p x +p x + e1122对其施加约束P+P =1,代入回归方程 j = p x + (1-p )x + e121112或(j - x ) = p (x - x ) + e由变量(j - x2)对(气-x2)的回归便可得到p的受约束估计值,而这个回归的 RSS就是有约束的RSS,即e*e*。实际上这就是我们前面讲到的带约束条件的最小二乘估计。.-一一一- A.一般地,在约束条件R&* = r下,求使RSS达到最小的&*,构造拉格朗日函数L = (Y - Xp )(Y - Xp ) +归(R。- r),运用前面所讲的方法可得到(过程略)q q q'、p =p-(X X )-1 R'R( X X )-1 R-i(Rp- r)(4)*其中p是无约束的OLS估计量,而受约束回归的残差为e = Y-Xp = Y-Xp-X(p -p) = e-X(p -p)*将其转置,再与其自身相乘,有e'e =e,e + (p -p)XX(p -p)*一人人一再把(4)式的p -p代入并化简可得 *e'e e'e = (Rp - r)'R(X X )-i R'-i(Rp r)(5). . 人.这与(2)式中除q外的分子完全相同,也就得到了检验假设H : Rp = r的统计 0量的另一种形式为 F = M*_竺1_£ 口 F(q,n 一k -1)(6)e'e (n - k -1)这也恰好说明前面所述的6种检验的情形都可以用上述方式进行,即拟合一个受约束的回归,用受约束模型的残差平方和与无约束模型的残差平方和之差e'e - e,e的大小(或记为RSS -RSS)来推断原假设是否成立。这也就是说一* *RU般的线性假设情形都是60的特例,或者(6)式的F统计量是普遍适应于一般线性假设的一种重要检验方法。即F=(RSS. - RSS ) q RSSR (n - k-1) U F (q, n - k -1)其中RSSr和RSSu分别是受约束模型和无约束模型的残差平方和,q是约束条件个数。同时,这也就回答了本段开始的问题,即,对于未知参数有约束限制的模 型进行回归后的结果,与对没有约束限制的模型回归后的参数检验的结果应该是 一致的。四、似然比检验(LR)如本节开头所述,在统计推断中,古典检验方法是建立在似然比的基础之上 的。由此可见似然比检验的重要性(当然它的实用性也会在应用中显现出来)。 一般而言,似然比被定义为原假设下似然函数的最大值与无约束条件下似然函数 的最大值的比率。上一节我们得到了线性回归模型参数的极大似然估计量(上一 节(4)式和(5)式)人.p = (X X )-1 X YML1U4b2 =(Y - X p )f(Y - X p )ML nMLML它们在无约束条件下,使似然函数最大化。把它们代入似然函数可得无约束 的最大似然值(推导过程略)L(仅 6 2)=常数( e'e)-n2(7)(式中的常数与模型中的任何参数无关,e'e是残差平方和)另一方面,如果在约束条件RP = r下使似然函数最大化,令日和或2表示所 导致的估计值,那么L( fP Q 2)便是约束条件下的最大似然值,有约束的最大值当 然不会超过无约束的最大值,但如果约束条件“有效”,有约束的最大值应当“逼 近”无约束的最大值,这正是似然比检验的基本思路。似然比定义为拦 L(§,g)L(我,62)显然,0 <x< 1。如果原假设为真,我们会认为人的值接近1。或者说,如果 人太小,我们则应该拒绝原假设。似然比检验的建立就是要使得当X< k时,拒 绝原假设。即P(0 <x< kH 0) =a(a为显著性水平)。在某些情况下,拒绝域x房可以转化为含有我们熟知的t统计量或F统计量的形式。不过,普遍适用 的是大样本检验。可以证明,对大样本来说,统计量LR = 2ln X = 2lnL(B,62)-lnL(。,b2) *2(q)(8)具体地,如果LR很大,则应拒绝原假设,或者说似然比检验的拒绝域为LR Z 2 (q),其中* 2 (q)为卡方分布的1-a下侧分位数。1-ai-a前面已得到无约束的最大似然值L(B,62),为了保证LR的计算,我们还需 要得出约束条件下的最大似然值L(JQ2)。为此,最大化ln L-W(R(-r)(式中的R是q x1的拉格朗日乘数向量,ln L就是无约束的 对数似然函数),可得约束条件下的。由于参数的极大似然估计量与最小二乘 估计量实际上是相同的,那么此处得到的(J就与上一小节所得到(即(4)式相*同。与前面一样,此时的残差为r-xJ = r-x( =e,而62的带约束的极大似*然估计为s 2=w,因此,(类似于(7)式)L(。,cT2)=常数e,e)-n2(9)(式中常数与(7)式相同)将(7)式和(9)式代入(8)式,就得到了似 然比检验统计量的另一种形式,LR = n(ln e e ln e'e)(10)* *由此可见,计算!R统计需要拟合无约束模型和有约束模型。而事实上,前面 讲的各种检验(t检验,F检验,(6)式)都可以根据似然比原理推导出来。这 就再次说明似然比检验是统计检验的理论基础。五、沃尔德检验(Wald)- 、, . . . . . 一 . .在前面一般线性框架的假设检验的讨论中,由OLS估计量0服从正态分布推. . -、A 、. .出了( 1)式。这里如果我们考虑MLE 0的渐近正态性,也能得到前面的(1) 式,即(部-r)gR(XX)-1 幻-1(R0 - r) *2(q)(11)这里q是R中约束条件个数,用6的一致估计量0?2 = ee«代替式中的6, 渐近分布成立,或者说大样本情形的沃尔德统计量为* 2(q)(12)(R0 - r)R(XX)-iR,-1 (R0 - r)a AO 2类似于前面的(6)式,上式的分子也可写为(e:e*-e'e),于是Wald检验的统计量具有另一种形式,W =侬*&)* 2(q)(13)e'e与LR检验的情况一样,W呈大样本卡方分布。如果W的值大于卡方分布的a上侧分位数*2,则拒绝原假设。而前面的(6)式也可归为Wald检验类。 aWald检验的一般公式:W = (c(0) Var (c(0) j-1 (c(0) *2(q)六*、拉格朗日乘数检验(LM) ,一 - A上述的LR检验,Wald检验都涉及到了对数似然函数lnL。Wald检验是由0 渐近服从均值为0,方差协方差阵为I-1(0 )的正态分布,而导出在H0下, R0 - r N(0,RI-i(0)R')。其中 I-1(0)=02(XX)-1。从而得出 Wald 统计量的分布。一般地,如果&是0的极大似然估计量,由其大样本性或渐近性知,q - 一 一 。 N(0,1-1(0),其中I(9)称为信息矩阵,它的定义如下:I (0 ) = Ed ln L d In L d0)(d0)d 2ln L d0d0rP6( XX)-10在线性模型的极大似然估计中,易知I-1( P ) =2b 460kn J即上述Wald 检验的 I-1(P) = 6(XX)-i。拉格朗日乘数检验同样依赖于对数似然函数及信息矩阵。记S(0) = 4,50称为lnL在0处的得分。无约束估计量0"的得分S(0)= 0,而受约束的估计量0的得分S(0)在约束条件有效的情况下,应接近于0。可以证明,得分向量S(0 )的 均值为零,方差一协方差矩阵为信息矩阵I(0),于是S,(0)I-1(0)S(0)服从分布x 2,所以大样本时,在H0:0=0。下,有LM = S '(们 I-1(。) S (们 X 2(q)(14)此时,我们只需计算受约束的估计量0的得分(注意:Wald计算的是无约束的估计量)即由S (0)=5 In L1 , IX u郎a 25 In L,n u u+_ 5a 2 _L 2a 22a 4 _|用e = / X和公=e- e . n代替上式的u和a 2,以及Rp = r,可得*(1S (S =x e二 *k 0 j再通过适当的运算和变换可得(过程略)(15)ne X (X' X)-1X' eLM= *e' e* *具体的W检验可分两步完成。第一步,计算受约束的估计量例,从而得到 残差向量4,第二步,让4对所有的变量X回归,这个回归的可决系数是R2, 恩格尔(Engle 1982)证明了对于大样本来说,LM = nR2 x 2(q)(16)当nR2 >x* (卡方分布的a上侧分位数)时,则拒绝原假设。LM检验方法实际上是从一个较简单的模型开始,检验是否可以增加新变 量,第一步就是对简单模型(变量较少)回归,得到残差e。如果“真实”模型变 *量很多,则这些变量加入模型应对e*有影响。所以第二步e*对所有变量回归而得 到的R2的大小就将直接决定是否应该增加新变量,即约束RS = r是否成立。如 果R2很大(nR2 >xa),则说明新增变量对e*有显著影响,即真实模型应含较多 变量,或者说对参数的约束(比如某些S,.为0)不成立。如果R2较小(nR2 <12 ), 则说明新增变量对e没有显著影响,真实模型就应是变量较少的简单模型,即约*束条件成立。这也是通常所说的“从简单到一般”的模型设定方法。七、LR,Wald,LM的简单比较三种检验方法都由极大似然估计而来。都用到了对数似然函数,LR检验只 适用于线性约束的检验;Wald检验和LM检验既适用于线性约束也适用于非线 性约束的检验。LR检验需要计算带约束和无约束的对数似然函数值;Wald检 验只需要估计无约束的模型;而LM检验只需要估计约束模型(所以当施加约束 条件后模型形式变得简单时LM检验更方便适用)。下面简要推导一下这三个检验统计量之间的著名不等式,即W > LR > LM首先,(10)式可写为 LR = nln(1+ )ee1将其按级数ln(1+z) = z z2 + 展开,便可得到LR < W。2其次证明(15)式可写为LM = n(e*e* e'e)(17)e e* *-.一-一-人 .事实上,对于回归模型Y = Xp + e的残差可表为人.e = Y X p = Y X (X X)-1X Y = I X (X X)-1X 'Y = MY其中M = I X(XX)-1 X'是一对称等幕矩阵,它具有性质MX = 0,Me = e。而.人.人对于满足约束条件RP* =尸的受约束估计量p *同样有e*= Y Xp *,从而Me = MY= e因为MX = 0),于是有*e'e = e: M Me = e; M(M' = M, M 2 = M)=e; I X (X X)-1X 'e*=e' e e' X (X X)-1X 'e* *即e*X(XX)-1 Xe* = e*e* e'e,这就得到了 LM的另一种表达式,即(17)式。再次,LR还可写为LR