第三章回归模型的估计概论(高级计量经济学 清华大学 潘文清)ppt课件.ppt
第三章 回归模型的估计: 概论,Regression Model Estimation: General Approaches,第二章指出,当联合概率分布p(X,Y)已知时,在MSE最小化准则下,E(Y|X)是Y的最佳代表,被称为是Y关于X的回归函数(regression function),也可称为总体回归函数(population regression function)。,而当上述总体回归函数呈现线性形式 E(Y|X)=X0时,则称回归模型 Y=X+u关于E(Y|X)正确设定,这时“真实”参数0等于最佳线性最小二乘解*: 0=*=E(XX)-1E(XY)且 E(u|X)=0 E(Xu)=0,问题是:我们往往不知道总体的p(X,Y)。因此,只能通过样本来估计总体的相关信息。,根据样本估计总体构成了回归分析的主体内容。,3.1 参数估计:概论Parameter Estimation: General Approaches,设(Y1,Y2,Yn)是从未知总体Yf(Y)中随机抽取的一个样本,并由此估计总体的特征,如参数。 我们可以寻找一个关于的估计量(estimator)T,它是关于所抽样本Y的函数:T=h(Y) 对于某一样本(Y1,Y2,Yn),则有一个估计值(estimate): t=h(Y1,Y2,Yn),一、衡量参数估计量优劣的准则 Criteria for an Estimator,1、有限样本准则 记T为所选取的统计量,则T与参数的差异可用均方误(mean square error, MSE)刻画: E(T-)2 由于T关于的均方误有如下分解式 E(T- )2=Var(T)+E(T)- 2记E(T)- =E(T)- 为T关于的偏差(bias)。,Var(T)刻画了统计量的真正的离散程度,如果它较小,表明不太受数据随机波动的影响;如果(T)-较小,表明的分布密切围拢着。,对无偏估计量, MSE=Variance,因此,在实践中还希望从无偏估计量中选择方差最小的。于是,有如下最小方差无偏准则(minimum variance unbiasedness criterion),定义: T is a minimum variance unbiased estimator, or MVUE, of iff (a) E(T- )=0 for all , and (b) V(T)V(T*) for all T* such that E(T*- )=0,定义: T is an unbiased estimator of iff E(T- )=0, for all .,最小方差无偏估计量也称为无偏有效估计量(Unbiased and efficient estimator),2、无限样本准则(Asymptotic Criteria),有限样本往往需要知道估计量的精确分布,而这是建立在对总体分布已知的情况下的。 如果总体分布未知,则需要依赖无限样本准则:,注意: (1)一致性的充分条件是:lim E(Tn)=, 且 lim Var(Tn)=0 (2)同一参数可能会有多个一致估计量。如从对称分布的总体中抽样,则样本均值与样本中位数都是总体期望=E(Y)的一致估计量。,在实践中,为了区分同一参数不同的一致估计量,需要从退化极限分布(degenerate limiting distribution)转向渐近分布(asymtotic distribution),尤其是,一致估计量具有以参数真实值为中心的渐近正态分布(asymptotic normal distribution)。 因此,有如下最佳渐近正态估计量准则:,注意: (1)大样本BAN准则是小样本MVUE准则的渐近版本(version);,(2)在计量经济学中,除了精确分布已知的情况,最佳渐近正态性,或称为渐近有效性(asymptotic efficiency),是最常选择的准则。,(3)渐近有效估计量的直观表述为,二、类比估计法(The Analogy Principle),总体参数是关于总体某特征的描述,估计该参数,可使用相对应的描述样本特征的统计量。,(1)估计总体矩,使用相应的样本矩,(2)估计总体矩的函数,使用相应的样本矩的函数 对线性回归模型: Y=0+1X+u,1、基本原理,上述方法都是通过样本矩估计总体矩,因此,也称为矩估计法(moment methods, MM)。,(3)类比法还有: 用样本中位数估计总体中位数; 用样本最大值估计总体最大值; 用样本均值函数mY|X估计总体期望函数Y|X,等,Questions: Are analog estimator sensible from a statistical point of view? How reliable are they? What shall we do when an analog estimator is unreliable?,2、总体均值的估计,对E(Y)=,Var(Y)=2的某总体随机抽样,由类比法(矩法)知:,记T=iciYi,ci为不全为0的常数。 E(T)=E(ciYi)=ciE(Yi)=ci Var(T)=ci2Var(Yi)=2ci2,于是,任何无截距项,系数和为1的Yi的线性组合都是的无偏估计量。,要寻找最佳估计量,则需在约束ci=1下求解 min ci2,记 Q=ci2-(ci -1)则 Q/ci=2ci - (i=1,2,n) Q/= - (ci -1)由极值求解条件得: ci=/2, ci =1 于是 ci = n/2 =2/n, ci=1/n,Theorem. 从任何总体中进行简单随机抽样,样本均值是总体期望的最小方差线性无偏估计量(minimum variance linear unbiased estimator,MVLUE)。,样本均值是样本的1阶原点矩,它是总体期望,即总体1阶原点矩的无偏估计量。,事实上,对总体的任何阶原点矩(raw moment) =s=E(Ys)简单随机抽样中,对应的样本原点矩 Ms=(1/n)iYis是总体原点矩的无偏估计量。,3、总体方差的估计,对=2=E(Y- Y)2= 2 (Y未知),类比法得,则E(S*2)=2,S*2为总体方差2的无偏估计。,尽管S2是2的有偏估计,但却是2的一致估计量。,4、总体协方差的估计,对=XY=Cov(X,Y)=E(X-X)(Y- Y),类比法得,为了讨论该统计量的性质,需考察二元联合分布:,记(X,Y)的联合pdf为f(x,y),则有如下1阶、2阶矩 E(X)=X, E(Y)=Y Var(X)=X2, Var(Y)=Y2, Cov(X,Y)=XY,且可记出如下原点矩与中心矩: E(XrYs)=rs, E(X*rY*s)=rs其中, X*=X-X, Y*=Y-Y,V的总体期望与方差如下: E(V)=E(X*Y*)=Cov(X,Y)=XY=11 Var(V)=E(V2)-E2(V)=E(X*2Y*2)-E2(X*Y*)=22-112,同时有如下结论:,下面考察SXY的统计性质:,容易证明: 无限样本下,样本协方差SXY是总体协方差XY的一致估计量。,5、一元线性回归方程参数的估计,对一元线性回归模型Y=0+1X+u,在假设E(u|X)=0的条件下,E(Y|X)= 0+1X,从而 1=XY/X2, 0=Y-1X,可以证明:b1 ,b0分别是1 ,0的无偏估计量。,Proof:,求b1的条件期望(给定X=(X1,X2,Xn): E(b1|X)=EWiYi|X=E(WiYi|X)=WiE(Yi|X) =Wi(0+1Xi)=0Wi+1WiXi=1 E(b1)=E(E(b1|X)=E(1)=1同理: E(b0|X)=E(Y|X)-E(b1|X)X=(0+1X)-1X=0 E(b0)=E(E(b0|X)=E(0)=0,注意:,(a)通常情况,如果T1、T2分别是1、 2的无偏估计量,=1/2,则T=T1/T2并不是的无偏估计量,因为 E(T)=E(T1/T2)E(T1)/E(T2)=1/2= (b) 由于大样本下,样本矩是总体矩的一致估计量,而任何样本矩的连续函数是对应总体矩函数的一致估计,即有,因此,,三、极大似然估计 Maximum likelihood Estimation,极大似然估计是在假设随机变量Y的分布形态已知,而分布的若干参数未知的情形下,根据样本信息估计这些未知参数的一种估计方法。 基本思想:在总体分布形态已知的情况下,随机抽取的样本可能来自不同参数决定的不同的总体,而最可能来自哪个总体呢?它们所来自的总体应使其分布尽可能地拟合样本数据。,1、基本原理,对离散分布,分布特征由pmf (probability mass function) f(Y; )=P(Y)刻画,因此,极大似然估计,就是在所抽样本Y=(Y1,Y2,Yn)下,寻找适当的,以使P(Y)=f(Y;)最大。,对连续分布,分布特征由pdf (probability density function) f(Y; )刻画。依照pmf的特征,极大似然估计,就是在所抽样本Y=(Y1,Y2,Yn)下,寻找适当的,以使f(Y;)最大。,2、极大似然估计,对具有pdf或pmf为f(Y;)的随机变量Y(其参数未知),随机抽取一容量为n的样本Y=(Y1,Y2,Yn)其联合分布为: gn(Y1,Y2,Yn;)=if(Yi;)可将其视为给定Y=(Y1,Y2,Yn)时关于的函数,称其为关于的似然函数(likelihood function),简记为() : L()= gn(Y1,Y2,Yn;)=if(Yi;),对离散型分布,似然函数L()就是实际观测结果的概率。极大似然估计就是估计参数,以使这一概率最大; 对连续型分布,同样也是通过求解L()的最大化问题,来寻找的极大似然估计值的。,例: 假设有一正态随机样本YiN(,2), i=1,2,n,其中未知参数=(,2)。,该似然函数与其对数函数在相同的=(,2)处达到最大。因此可求对数函数的极大值: lnL(,2)=-(n/2)ln(2)-(n/2)ln(2)-(1/22)(Yi-)2,极值的一阶偏导条件: ln(L)/=(1/2)(Yi-)=0 ln(L)/2=-(n/22)+(1/24)(Yi-)2=0,可见,总体均值的极大似然估计就是样本均值,总体方差的极大似然估计就是样本方差。,3、极大似然估计的统计性质,由数理统计学知识: (n-1)s*2/22(n-1)因此, Var(n-1)s*2/2=2(n-1) Var(S*2)=24/(n-1),3.2 估计总体关系Estimating a Population Relation,一、问题的引入(Introduction),现在我们系统地讨论第二章所引出的问题:利用样本信息估计Y与X的总体关系。 如果线性模型是正确设定的,即Y与X间的关系为,Y=E(Y|X)+U=0+1X+U,则有 1=XY/X2, 0=Y - 1X且 E(Y|X)=0+1X为minE(U2)的解, E(U)=0, E(UX)=0,由类比法,在一个容量为n的随机样本下,可以写出样本线性回归模型: Yi=b0+b1Xi+i i=1,2,n,且有 b1=SXY/SX2 , b0=Y-b1X 上述b1,b0是mini2/n的解, 且 i/n=0, Xii/n=0,按此,我们可以通过样本信息估计总体的条件期望函数(conditional expectation function, CEF) E(Y|X).,以下我们假设总体CEF的函数形式已知,即E(Y|X)=h(X;),只有参数未知。,二、估计线性条件期望函数 Estimating a linear CEF,假设总体的CEF是线性的:E(Y|X)=0+1X,则有最佳最小二乘解(minE(Y- (0+1X)2) 1=XY/X2, 0=Y - 1X,且b1、b0分别是1、0的无偏且一致的估计量。,Theorem. 从总体回归函数为E(Y|X)=0+1X的总体中简单随机抽样,则样本回归函数的系数b0、b1分别是0、1的无偏且一致的估计量。,b1、b0的方差,对多元线性回归模型: Y=0+1X1+2X2+kXk+U最佳线性最小二乘解是通过求解如下极值问题得到 min E(U2)=min EY-(0+1X1+kXk)2,一阶极值条件为: E(U2)/0= -2E(U)=0 E(U2)/j= -2E(XjU)=0 (j=1,2,k)或: E(U)=0, E(XjU)=0 (j=1,2,k),解为: =E(XX)-1E(XY)其中, X=(1,X1,X2,Xk), =(0,1,k),由类比法,在随机抽取的容量为n 的一个样本下,对应的多元样本线性回归模型: Yi=b0+b1X1i+b2X2i+bkXki+ei (i=1,2,n)最佳线性最小二乘解是通过求解如下极值问题得到 min ei2 =min Yi-(b0+b1X1i+bkXki)2,一阶极值条件为: ei2/b0= -2ei=0 ei2/bj= -2Xjei=0 (j=1,2,k)或: ei=0, Xjei=0 (j=1,2,k),解为: b=(XX)-1(XY)其中,三、估计非线性期望函数 Estimating a nonlinear CEF,在MSE最小化准则下,Y的最佳代表为CEF: E(Y|X),Question: 当已知CEF为非线性时,如何通过样本估计该CEF的未知参数呢?,ANS: 仍然可以使用类比法:,而h(X;)恰为下面极小化问题的解: min E(U2)=min E(Y-h(X;)2,设E(Y|X)=h(X;)是非线性的,总有 Y=h(X;)+U,例: 假设 h(X;)=E(Y|X)=exp(0+1X) 则在一容量为n的样本下,相应的样本回归模型为 Yi=exp(b0+b1Xi)+ei相应的极值问题问题为:选择适当的b0、b1以求解 min ei2=min (Yi-exp(b0+b1Xi),非线性最小二乘估计是有偏的,但却是一致的估计量。,此方法也称为非线性最小二乘法(nonlinear least squares, NLLS),解为非线性最小二乘估计(estimator),一阶极值条件为: ei(h/b0)=0, ei(h/b1)=0或 eihi=0, eihiXi=0 其中: hi=exp(b0+b1Xi) (i=1,2,n),解非线性方程组,可求解参数的估计b0、b1。,四、估计二元响应模型 Estimating a Binary Response Model,二元响应模型(binary response model)指被解释变量Y只取二个值,如0, 1。,易知: E(Y|X)=1P(Y=1|X)+0P(Y=0|X)=P(Y=1|X)即在二元响应模型中,CEF是在X取某值的条件下,Y取1时的条件概率。可视其为X的函数: E(Y|X)=P(Y=1|X)=G(X;),显然G(X;)的值应属于0,1。因此,可取G()为某一概率分布函数,其自变量应是X与的某种组合。,设X与的组合为线性关系:0+1X则: E(Y|X)=F(0+1X)设定 Y=F(0+1X)+U则F(0+1X)是下面极值问题的解: min E(U2)=min E(Y-F(0+1X)2,Question: 如何通过样本寻找参数的估计量?,在一容量为n的随机抽取的样本下,记样本模型为 Yi=F(b0+b1Xi)+ei,(1)由于F(b0+b1Xi)是非线性的,可按非线性方法求解(类比法): min ei2=min(Yi-F(b0+b1Xi)2,一阶极值条件为: ei(F/b0)=0, ei(F/b1)=0或 eifi=0, eifiXi=0 其中: fi是标准正态分布的pdf: Fi/(b0+b1Xi)=fi,解非线性方程组,可求解参数的NLLS估计量b0、b1,(2) ML估计,由于 P(Y=1|X)=F(0+1X) 则 P(Y=0|X)=1-F(0+1X),在容量为n的一个随机样本下,有如下似然函数 L()=P(Y1, Y2, ,Yn;)=iP(Yi=1)iP(Yi=0) = iF(b0+b1Xi)Yi(1-F(b0+b1Xi)1-Yi,对数似然函数为lnL=YilnFi+(1-Yi)ln(1-Fi),求解非线性方程组,可得参数的ML估计量b0、b1。,最大化一阶条件: L/b0=Yi(fi/Fi)-(1-Yi)(fi/(1-Fi) =wi(Yi-Fi)=wiei=0 L/b1=wiXi(Yi-Fi)=wiXiei=0或 wiei=0, wiXiei=0 其中,wi=fi/Fi(1-Fi),无论是NLLS估计量,还是ML估计量,都是有偏的但却是一致的。,