硕士面板数据讲义0907.doc
面板数据模型与应用1面板数据定义panel data的中译:面板数据、桌面数据、平行数据、纵列数据、时间序列截面数据、混合数据(pool data)、固定调查对象数据。面板数据定义(1)面板数据定义为相同截面上的个体在不同时点的重复观测数据。(2)称为纵向(longitudinal)变量序列(个体)的多次测量。面板数据从横截面(cross section)看,是由若干个体(entity, unit, individual)在某一时点构成的截面观测值,从纵剖面(longitudinal section)看每个个体都是一个时间序列。图1 N=7,T=50的面板数据示意图面板数据用双下标变量表示。例如yi t, i = 1, 2, , N; t = 1, 2, , Ti对应面板数据中不同个体。N表示面板数据中含有N个个体。t对应面板数据中不同时点。T表示时间序列的最大长度。若固定t不变,yi ., ( i = 1, 2, , N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, , T)是纵剖面上的一个时间序列(个体)。面板数据模型是利用面板数据构建的模型。面板数据系一组个体在一段时间内的观测值形成的数据集,这里“个体”可以是个人、家庭、企业、行业、地区或国家(Baltagi,2008)。1966年,Balestra & Nerlove发表了第一篇利用面板数据模型研究天然气需求估计的论文,此后,面板数据模型这一新的计量分析方法在理论和应用上得到迅速发展,已形成现代计量经济学的一个相对独立的分支。面板数据模型由于同时使用了截面数据(cross-sectional data)和时间序列数据(time series data),因而可以控制个体的异质性,识别、测量单纯使用这两种数据无法估计的效应;并且具有包含更多的信息、更大的变异和自由度、变量间的共线性也更弱的特性,可得到更精确的参数估计(Hsiao,2003、2008)。面板数据涉及个体(N)和时间(T)两个维度,有微观面板(micro panels)和宏观面板(macro panels)之分。微观面板源于截面数据的计量分析,是针对个体的调查数据,其特点是个体数N较大(通常是几百或几千个),而时期数T较小(最少为2年,最长不超过20年),主要应用于劳动经济学以及需求分析、成本分析和生产函数分析等。宏观面板一般具有适度规模的个体N(从7到100或200不等,如G7,OECD、欧盟、发达国家或发展中国家),时期数T一般在20至60之间,甚至更大。这类数据可以刻画一些制度或政策的外生变化,常用于识别政策效应研究中的关注参数。宏观和微观面板要求使用不同的计量建模方法。微观面板通常研究T固定而N较大时(简称“大N小T”)的渐近性质,而宏观面板则是同时考虑T和N都较大时(简称“大N大T”)的渐近性质,此时可以分为对角极限、序贯极限和联合极限三种情形来讨论。对于宏观面板,当T较大时需要考虑数据的非平稳(如单位根和协整)与结构变化等特征;微观面板由于时间短,一般不需要处理非平稳问题。在处理宏观面板时,还必须考虑个体之间的相关性,即截面相关,而在微观面板中,如果个体是随机抽样产生,则个体之间不大可能存在相关性,不需要考虑此类问题(Baltagi,2008)。假设有N个个体T期的观测值和,;是在、和一组固定参数的条件下,概率分布产生的随机结果,其中是不可观测的影响因素。(如何理解?)面板数据建模的目的是利用全部的样本信息来对进行推断。假定感兴趣的影响因素是,通常的做法是通过在时间和个体上的变化,即来反映不可观测的异质性;因此,给定,的条件密度为。此时如果不对进行任何约束,该模型就只有描述性作用,不能进行任何的统计推断(如何理解 ?)。常用的施加在上的约束条件是将分解为,其中不随时间和个体变动,称为结构参数(structural parameters),称为冗余参数(incidental parameters),迄今,面板数据的文献主要集中在控制了后如何对进行推断。进一步,如果不对施加约束也不能对做出推断,因为将会耗尽所有的样本信息。一般的处理思路是:假定可观测变量的影响不随时间和个体变化,由描述;冗余参数代表了以外随个体和时间变化的异质性影响,这种影响可以分解为个体效应、时间效应以及随个体和时间变化的效应。个体效应和时间效应可以设定为随机变量,也可以设定为固定的参数,分别形成了随机效应(random effects)模型和固定效应(fixed effects)模型。如何理解估计、推断、检验、设定等方面的问题?经典的面板数据模型可以分为静态模型和动态模型。静态面板数据模型设定的一般形式为: (1)其中,与不相关。若和为固定的常数,模型(1)称为固定效应模型;为了避免dummy陷阱,设定,通常采用组内(within-group)(Within VS Between)方法来估计,并通过F检验或Wald检验考察固定效应是否存在(为什么要检验?检验什么?如何检验?)。若和为随机变量,模型(1)称为随机效应模型。此时除了假定与不相关,还需进一步假定和与不相关。对于随机效应模型,可以采用FGLS的方法来估计。上述两种效应的设定各有特点。固定效应模型允许个体效应(时间效应)与解释变量相关,但待估参数个数随着样本容量的增大而增大,即存在冗余参数问题,且模型中不能包含非时变的变量。(会出现什么问题?)随机效应模型中,待估参数个数不随样本容量的变化而变化,当随机的个体效应(时间效应)与不相关时能够得到更有效的估计量,模型中可以包括不随时间变化的变量;其缺点在于若随机的个体效应(时间效应)与相关时,FGLS估计量是不一致的。通过Hausman检验,即原假设下两个一致统计量是否有显著差异可以判断采用何种设定更合适。(操作细节?)很多经济关系具有动态性,可以通过在模型中加入被解释变量的滞后作为解释变量来刻画: (2)其中,个体效应可以是固定或随机的;若为随机的,则假定与不相关。式(2)称为动态面板数据模型,其在时间上的记忆性来自两个方面:一是作为解释变量所引起的自相关;二是由个体效应所引起的自相关。无论将设定为固定效应还是随机效应,即使是,模型(2)也会产生内生性问题,对应的估计量均是不一致的。为什么?为了解决这一问题,早期的研究采取方法有:一是对模型(2)进行一阶差分,然后进行IV估计或GMM估计(Anderson&Hsiao,1981)。Arellano&Bond(1991)扩展了一般的GMM估计,建议使用变量水平值的所有滞后项作为差分变量的工具变量以提高估计的有效性,这一方法称为差分GMM估计;差分GMM估计的一个缺点是差分会导致模型扰动项出现序列相关。为此,Arellano&Bover(1995)建议通过正交离差(orthogonal deviation)的变换来消除个体效应的影响。差分GMM估计的另一个缺陷是估计量在有限样本下存在较大的偏差,当自回归系数接近1时尤为严重;Blundell和Bond(1998)的研究表明,差分GMM估计的这一不良表现源于使用变量水平值的滞后项作为差分变量的工具变量所导致的弱工具变量问题(Staiger&Stock,1997),因而提出系统GMM估计的方法,建议在进行差分GMM估计的同时使用另一组矩条件来估计参数,即使用变量差分值的滞后项作为水平变量的工具变量。Blundell&Bond(1998)的推导与模拟表明,系统GMM估计能有效克服弱工具变量的问题,极大地改进了估计量的有限样本表现,在降低偏差的同时提高了估计的精度。早期的面板数据模型均假定截面之间是相互独立的。但是,忽略个体之间的截面相关将会影响估计量的有效性甚至导致估计量的不一致(Pesaran,2006)。近年来,面板数据模型的一个重要发展方向是考虑截面相关的面板数据模型的估计与推断。与时序数据中度量序列相关不同,截面相关并没有一个直接的度量方式。因此,为了刻画模型的截面相关,必须对模型施加很强的假定。常用的两种度量截面相关的方法是空间的方法(spatial approach)和因子的方法(factor approach)。空间的方法是通过空间加权矩阵建立起个体之间的相依性,往往用于刻画由于经济活动的相互依赖、相互影响而呈现的相关,如源于地理位置相近,文化、历史的相似,或由于存在贸易往来、劳动力流动、产业结构关联等。由空间方法刻画的截面相关反映不同个体之间存在一般的相关性,即截面相关阵的特征根有界,是一种截面弱相关。理论上空间加权矩阵可以出现在模型中的任何位置(因变量、自变量和扰动项),因自变量的空间相关不会产生新的估计问题,所以相关研究集中在因变量和扰动项的空间相关,对应的模型分别称为空间滞后模型和空间误差模型。这两类模型一般采用工具变量估计(广义矩估计)或极大似然估计。因子的方法描述的是由凌驾于整个区域市场的经济波动或行政力量冲击造成的结果,表现为一种共同冲击,即不同个体之间的相关性是由某个共同的因子引起,因此截面相关阵存在O(n)阶的发散特征根,属于截面强相关。因子模型的一般形式为:(3)其中,是维的随机因子,是维的非随机因子载荷系数。代表异质的冲击,与相互独立,且在截面之间相互独立。Bai(2009)对式(3)所刻画的因子模型的估计和推断做了详细的讨论。Pesaran&Tosetti(2011)考虑了如下更一般的模型来同时刻画截面强相关与截面弱相关:(4)其中,是的可观测的共同效应(common effects),是的个体特质的解释变量,是的不可观测的共同因子,用于刻画截面强相关,假定存在空间相关,用于刻画截面弱相关。Pesaran&Tosetti(2011)指出,对于该模型,可以采用Pesaran(2006)提出的CCEP方法来得到参数的一致估计。除了上述讨论的几类面板数据模型外,文献中还有很多其它类型的面板数据模型,如微观计量模型中的离散因变量模型(包括静态和动态)、受限因变量模型(包括截断和归并)在面板数据下的扩展,以及非线性面板数据模型(阈值面板数据模型、平滑转移的面板数据模型等)、多方程面板数据模型等等(Hsiao,2003;Baltagi,2008)。这些模型也是未来面板数据模型理论和应用研究的重要发展方向。 下面以例子来加以说明如何理解上述描述:例1:1996-2002年中国东北、华北、华东15个省级地区的居民家庭固定价格的人均消费(CP)和人均收入(IP)数据见5panel02.wf1。数据是7年的,每一年都有15个数据,共105组(个)观测值。人均消费和收入两个面板数据都是平衡(balance)面板数据,各有15个时间序列数据。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。 图2 15个省级地区的人均消费序列(纵剖面) 图3 15个省级地区的人均收入序列(5panel02)图4 7个时点人均消费横截面数据(含15个地区) 图5 7个时点人均收入横截面数据(含15个地区)(每条连线数据表示同一年度15个地区的消费值) (每条连线数据表示同一年度15个地区的收入值)用CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。图6 人均消费对收入的面板数据散点图(15个时间序列叠加)图7 人均消费对收入的面板数据散点图(7个截面叠加) 图8 北京和内蒙古1996-2002年消费对收入散点图 图9 1996和2002年15个地区的消费对收入散点图2面板数据模型分类用面板数据建立的模型通常有3种,即混合回归模型、固定效应回归模型和随机效应回归模型。2.1 混合回归模型(Pooled model)。如果一个面板数据模型定义为, yit = a + Xit 'b +eit, i = 1, 2, , N; t = 1, 2, , T (1)其中yit为被回归变量(标量),a表示截距项,Xit为k ´1阶回归变量列向量(包括k个回归量),b为k ´1阶回归系数列向量,eit为误差项(标量)。则称此模型为混合回归模型。混合回归模型的特点是无论对任何个体和截面,回归系数a和b都相同。如果模型是正确设定的,解释变量与误差项不相关,即Cov(Xit,eit) = 0。那么无论是N®¥,还是T®¥,模型参数的混合最小二乘估计量(Pooled OLS)都是一致估计量。2.2 固定效应回归模型(fixed effects regression model)。固定效应模型分为3种类型,即个体固定效应回归模型、时点固定效应回归模型和个体时点双固定效应回归模型。下面分别介绍。2.2.1个体固定效应回归模型(entity fixed effects regression model)如果一个面板数据模型定义为, yit = ai + Xit 'b +eit, i = 1, 2, , N; t = 1, 2, , T (2)其中ai是随机变量,表示对于i个个体有i个不同的截距项,且其变化与Xit有关系;yit为被回归变量(标量),eit为误差项(标量),Xit为k ´1阶回归变量列向量(包括k个回归量),b为k ´1阶回归系数列向量,对于不同个体回归系数相同,则称此模型为个体固定效应回归模型。ai作为随机变量描述不同个体建立的模型间的差异。因为ai是不可观测的,且与可观测的解释变量Xit的变化相联系,所以称(2)式为个体固定效应回归模型。个体固定效应回归模型也可以表示为 yit = a1 + a2 D2 + +aN DN + Xit 'b +eit, t = 1, 2, , T (3)其中Di =设定个体固定效应回归模型的原因如下。假定有面板数据模型 yit = b0 + b1 xit +b2 zi +eit, i = 1, 2, , N; t = 1, 2, , T (4)其中b0为常数,不随时间、截面变化;zi表示随个体变化,但不随时间变化的难以观测的变量。上述模型可以被解释为含有N个截距,即每个个体都对应一个不同截距的模型。令ai = b0 +b2 zi,于是(4)式变为 yit = ai + b1 xit +eit, i = 1, 2, , N; t = 1, 2, , T (5)这正是个体固定效应回归模型形式。对于每个个体回归函数的斜率相同(都是b1),截距ai却因个体不同而变化。可见个体固定效应回归模型中的截距项ai中包括了那些随个体变化,但不随时间变化的难以观测的变量的影响。ai是一个随机变量。以案例1为例,省家庭平均人口数就是这样的一个变量。对于短期面板来说,这是一个基本不随时间变化的量,但是对于不同的省份,这个变量的值是不同的。以案例1为例(file:panel02)得到的个体固定效应模型估计结果如下:注意:个体固定效应模型的EViwes输出结果中没有公共截距项。图10 个体固定效应回归模型的估计结果2.2.2 时点固定效应回归模型(time fixed effects regression model)如果一个面板数据模型定义为, yit = gt + Xit 'b +eit, i = 1, 2, , N (6)其中gt是模型截距项,随机变量,表示对于T个截面有T个不同的截距项,且其变化与Xit有关系;yit为被回归变量(标量),eit为误差项(标量),满足通常假定条件。Xit为k ´1阶回归变量列向量(包括k个回归变量),b为k ´1阶回归系数列向量,则称此模型为时点固定效应回归模型。时点固定效应回归模型也可以加入虚拟变量表示为 yit = g1 + g2 W2 + +g T WT + Xit 'b +eit, i = 1, 2, , N; t = 1, 2, , T (7)其中Wt =设定时点固定效应回归模型的原因。假定有面板数据模型 yit = b0 + b1 xit +b2 zt +eit, i = 1, 2, , N; t = 1, 2, , T (8)其中b0为常数,不随时间、截面变化;zt表示随不同截面(时点)变化,但不随个体变化的难以观测的变量。上述模型可以被解释为含有T个截距,即每个截面都对应一个不同截距的模型。令gt = b0 +b2 zt,于是(8)式变为 yit = gt + b1 xit +eit, i = 1, 2, , N; t = 1, 2, , T (9)这正是时点固定效应回归模型形式。对于每个截面,回归函数的斜率相同(都是b1),gt却因截面(时点)不同而异。可见时点固定效应回归模型中的截距项gt包括了那些随不同截面(时点)变化,但不随个体变化的难以观测的变量的影响。gt是一个随机变量。以案例1为例,“全国零售物价指数”就是这样的一个变量。对于不同时点,这是一个变化的量,但是对于不同省份(个体),这是一个不变化的量。图112.2.3 个体时点双固定效应回归模型(time and entity fixed effects regression model)如果一个面板数据模型定义为, yit = ai +gt + Xit 'b +eit, i = 1, 2, , N; t = 1, 2, , T (11)其中yit为被回归变量(标量);ai是随机变量,表示对于N个个体有N个不同的截距项,且其变化与Xit有关系;gt是随机变量,表示对于T个截面(时点)有T个不同的截距项,且其变化与Xit有关系;Xit为k ´1阶回归变量列向量(包括k个回归量);b为k ´1阶回归系数列向量;eit为误差项(标量)满足通常假定(eit êXit, ai, gt) = 0;则称此模型为个体时点固定效应回归模型。个体时点固定效应回归模型还可以表示为, yit = a1+a2 D2 +aN DN +g2 W2 +g T WT + Xit 'b +eit, t = 1, 2, , (12)其中 Di = (13)Wt = (14)如果模型形式是正确设定的,并且满足模型通常的假定条件,对模型(12)进行混合OLS估计,全部参数估计量都是不一致的。正如个体固定效应回归模型可以得到一致的、甚至有效的估计量一样,一些计算方法也可以使个体时点双固定效应回归模型得到更有效的参数估计量。以例1为例得到的截面、时点固定效应模型估计结果如下:图12回归系数为0.67,这与个体固定效应回归模型给出的估计结果0.70基本一致。在上述三种固定效应回归模型中,个体固定效应回归模型最为常用。2.3 随机效应模型对于面板数据模型 yit = ai + Xit'b +eit, i = 1, 2, , N; t = 1, 2, , T (15)如果ai为随机变量,其分布与Xit无关;yit为被回归变量(标量),eit为误差项(标量),Xit为k ´1阶回归变量列向量(包括k个回归量),b为k ´1阶回归系数列向量,对于不同个体回归系数相同,这种模型称为个体随机效应回归模型(随机截距模型、随机分量模型)。其假定条件是ai iid(a, sa2), eit iid(0, se2)都被假定为独立同分布,但并未限定何种分布。 同理也可定义时点随机效应回归模型和个体时点随机效应回归模型,但个体随机效应回归模型最为常用。个体随机效应模型又称为等相关模型(Equicorrelated model)。原因如下。随机效应模型可以看作是混合模型的特例。对于个体随机效应回归模型yit = ai + Xit 'b +eit,可以把ai并入误差项eit。模型改写为yit = Xit 'b + (ai +eit) = Xit 'b + uit (16)其中uit = (ai +eit)。如果有ai(a, sa2),eit (0, se2)成立,那么,Cov(uit,uis) = Cov(ai +eit)( ai +eis) = (17)因为对于t ¹ s,有r(uit,uis) = = (18)相关系数r(uit,uis)与 (t s) 即相隔期数长短无关。所以个体随机效应模型也称作等相关模型,或者可交换误差模型(exchangeable model)。对于个体随机效应模型,E(ai êXit) = a,则有,E(yit êxit) = a + Xit'b,对yit可以识别。所以随机效应模型参数的混合OLS估计量具有一致性,但不具有有效性。注意:“固定效应模型”这个术语用得并不十分恰当,容易产生误解。其实固定效应模型应该称之为“相关效应模型”,而随机效应模型应该称之为“非相关效应模型”。因为固定效应模型和随机效应模型中的ai都是随机变量。3面板数据模型估计方法面板数据模型中b的估计量既不同于截面数据估计量,也不同于时间序列估计量,其性质随设定固定效应模型是否正确而变化。3.1 混合最小二乘(Pooled OLS)估计混合OLS估计方法是在时间上和截面上把NT个观测值混合在一起,然后用OLS法估计模型参数。给定混合模型 yit = a + Xit 'b +eit, i = 1, 2, , N; t = 1, 2, , T (19)如果模型是正确设定的,且解释变量与误差项不相关,即Cov(Xit,eit) = 0。那么无论是N®¥,还是T®¥,模型参数的混合最小二乘估计量都具有一致性。对混合模型通常采用的是混合最小二乘(Pooled OLS)估计法。然而,在误差项服从独立同分布条件下由OLS法得到的方差协方差矩阵,在这里通常不会成立。因为对于每个个体i及其误差项来说通常是序列相关的。NT个相关观测值要比NT个相互独立的观测值包含的信息少。从而导致误差项的标准差常常被低估,估计量的精度被虚假夸大。如果模型存在个体固定效应,即ai与Xit相关,那么对模型应用混合OLS估计方法,估计量不再具有一致性。解释如下:假定模型实为个体固定效应模型yit = ai + Xit 'b +eit,但却当作混合模型来估计参数,则模型可写为yit = a + Xit 'b + (ai -a +eit) = a + Xit 'b + uit (20)其中uit = (ai -a +eit)。因为ai与Xit相关,也即uit与Xit相关,所以个体固定效应模型的参数若采用混合OLS估计,估计量不具有一致性。3.2平均(between)OLS估计 平均OLS估计法的步骤是首先对面板数据中的每个个体求平均数,共得到N个平均数(估计值)。然后利用yit和Xit的N组观测值估计参数。以个体固定效应回归模型yit = ai + Xit 'b +eit (21)为例,首先对面板中的每个个体求平均数,从而建立模型= ai +'b +, i = 1, 2, , N (22)其中=,=,=,i = 1, 2, , N。变换上式得= a +'b +(a i - a +), i = 1, 2, , N (23)上式称作平均模型。对上式应用OLS估计,则参数估计量称作平均OLS估计量。此条件下的样本容量为N,(T=1)。 如果与(a i - a +)相互独立,a和b的平均OLS估计量是一致估计量。平均OLS估计法适用于短期面板的混合模型和个体随机效应模型。对于个体固定效应模型来说,由于ai和Xit相关,也即ai和相关,所以,回归参数的平均OLS估计量是非一致估计量。3.3 离差(within)OLS估计 对于短期面板数据,离差OLS估计法的原理是先把面板数据中每个个体的观测值变换为对其平均数的离差观测值,然后利用离差数据估计模型参数。具体步骤是,对于个体固定效应回归模型yit = ai + Xit'b +eit (24)中的每个个体计算平均数,可得到如下模型,= ai +'b +其中、的定义见(22)式。上两式相减,消去了ai,得yit -= (Xit -)'b + (eit -)此模型称作离差数据模型。对上式应用OLS估计,所得b的估计量称作离差OLS估计量。对于个体固定效应回归模型,b的离差OLS估计量是一致估计量。如果eit还满足独立同分布条件,b的离差OLS估计量不但具有一致性而且还具有有效性。如果对固定效应ai感兴趣,也可按下式估计。=-' (27)个体固定效应回归模型的估计通常采用的就是离差(within)OLS估计法。在短期面板条件下,即便ai的分布、以及ai和Xit的关系都已知到,ai的估计量仍不具有一致性。当个体数N不大时,可采用OLS虚拟变量估计法估计ai和b。离差OLS估计法的主要缺点是不能估计非时变回归变量构成的面板数据模型。比如Xit = Xi(非时变变量),那么有= Xi,计算离差时有Xi -= 0。3.4 一阶差分(first difference)OLS估计 在短期面板条件下,一阶差分OLS估计就是对个体固定效应模型中的回归量与被回归量的差分变量构成的模型的参数进行OLS估计。具体步骤是,对个体固定效应回归模型yit = ai + Xit 'b +eit取其滞后一期关系式yit-1 = ai + Xit-1'b +eit-1上两式相减,得一阶差分模型(ai被消去)yit -yit-1 = (Xit - Xit -1) 'b + (eit -eit-1) , i = 1, 2, , N; t = 1, 2, , T对上式应用OLS估计得到的b的估计量称作一阶差分OLS估计量。尽管ai不能被估计,b的估计量是一致估计量。 在T>2,eit独立同分布条件下得到的b的一阶差分OLS估计量不如离差OLS估计量有效。3.5 随机效应(random effects)估计法(可行GLS(feasible GLS)估计法)有个体固定效应模型yit = ai + Xit 'b +eiai,eit服从独立同分布。对其作如下变换yit -= (1-)m + (Xit -)'b + vit (29)其中vit = (1-)ai + (eit -)渐近服从独立同分布,l = 1-,应用OLS估计,则所得估计量称为随机效应估计量或可行GLS估计量。当= 0时,(29)式等同于混合OLS估计;当=1时,(29)式等同于离差OLS估计。 对于随机效应模型,可行GLS估计量不但是一致估计量,而且是有效估计量,但对于个体固定效应模型,可行GLS估计量不是一致估计量。面板数据模型估计量的稳健统计推断。在实际的经济面板数据中,N个个体之间相互独立的假定通常是成立的,但是每个个体本身却常常是序列自相关的,且存在异方差。为了得到正确的统计推断,需要克服这两个因素。对于第i个个体,当N®¥,Xi×的方差协方差矩阵仍然是T´T有限阶的,所以可以用以前的方法克服异方差。采用GMM方法还可以得到更有效的估计量。EViwes中对随机效应回归模型的估计采用的就是可行(feasible )GLS估计法。4面板数据模型设定检验方法4.1 F检验先介绍原理。F统计量定义为 其中SSEr 表示施加约束条件后估计模型的残差平方和,SSEu 表示未施加约束条件的估计模型的残差平方和,m表示约束条件个数,T 表示样本容量,k表示未加约束的模型中被估参数的个数。在原假设“约束条件真实”条件下,F统计量渐近服从自由度为( m , T k )的F分布。以检验个体固定效应回归模型为例,介绍F检验的应用。建立假设H0:ai =a。模型中不同个体的截距相同(真实模型为混合回归模型)。H1:模型中不同个体的截距项ai不同(真实模型为个体固定效应回归模型)。F统计量定义为:F= (31)其中SSEr表示约束模型,即混合估计模型的残差平方和,SSEu表示非约束模型,即个体固定效应回归模型的残差平方和。非约束模型比约束模型多了N-1个被估参数。以案例1为例,已知SSEr= 4824588,SSEu= 2270386,F= = 8.1 (32)F0.05(6, 87) = 1.8因为F= 8.1 > F0.05(14, 89) = 1.8,推翻原假设,比较上述两种模型,建立个体固定效应回归模型更合理。4.2 Hausman检验对同一参数的两个估计量差异的显著性检验称作Hausman检验,简称H检验。H检验由Hausman1978年提出,是在Durbin(1914)和Wu(1973)基础上发展起来的。所以H检验也称作Wu-Hausman检验,和Durbin-Wu-Hausman检验。先介绍Hausman检验原理例如在检验单一方程中某个回归变量(解释变量)的内生性问题时得到相应回归参数的两个估计量,一个是OLS估计量、一个是2SLS估计量。其中2SLS估计量用来克服回归变量可能存在的内生性。如果模型的解释变量中不存在内生性变量,那么OLS估计量和2SLS估计量都具有一致性,都有相同的概率极限分布。如果模型的解释变量中存在内生性变量,那么回归参数的OLS估计量是不一致的而2SLS估计量仍具有一致性,两个估计量将有不同的概率极限分布。更一般地,假定得到q个回归系数的两组估计量和,则H检验的零假设和被择假设是:H0: plim(-) = 0H1: plim(-) ¹ 0假定两个估计量的差作为统计量也具有一致性,在H0成立条件下, (-) N(0, VH)其中VH是(-)的极限分布方差矩阵。则H检验统计量定义为H = (-)' (N-1)-1 (-) ® c2(q) (33)其中(N-1)是(-)的估计的方差协方差矩阵。在H0成立条件下,H统计量渐近服从c2(q)分布。其中q表示零假设中约束条件个数。H检验原理很简单,但实际中VH的一致估计量并不容易。一般来说,N-1= Var(-) = Var()+Var()-2Cov(,) (34)Var(),Var()在一般软件计算中都能给出。但Cov(,)不能给出。致使H统计量(33)在实际中无法使用。实际中也常进行如下检验。H0:模型中所有解释变量都是外生的。H1:其中某些解释变量都是内生的。在原假设成立条件下, H = (-)' (-)-1 (-)c2(k) (36)其中和分别是对Var()和Var()的估计。与(34)式比较,这个结果只要求计算Var()和Var(),H统计量(36)具有实用性。当q表示一个标量时,H统计量(36)退化为, H = c2(1)其中和分别表示和的样本方差值。H检验用途很广。可用来做模型丢失变量的检验、变量内生性检验、模型形式设定检验、模型嵌套检验、建模顺序检验等。下面详细介绍面板数据中利用H统计量进行模型形式设定的检验。假定面板模型的误差项满足通常的假定条件,如果真实的模型是随机效应回归模型,那么b的离差OLS估计量和随机GLS法估计量都具有一致性。如果真实的模型是个体固定效应回归模型,则参数b的离差OLS法估计量是一致估计量,但随机GLS估计量是非一致估计量。可以通过H统计量检验(-)的非零显著性,检验面板数据模型中是否存在个体固定效应。原假设与备择假设是H0: 个体效应与回归变量无关(个体随机效应回归模型)H1: 个体效应与回归变量相关(个体固定效应回归模型)例:=0.7747,s() = 0.00868(计算结果对应图15);=0.7246,s() = 0.0106(计算结果取自EViwes个体固定效应估计结果) H = = = 68.4因为H =68.4 > c20.05 (1) = 3.8,所以模型存在个体固定效应。应该建立个体固定效应回归模型。5面板数据建模案例分析 图13 混合估计散点图 图14 平均估计散点图以案例1为例,图13是混合估计对应数据的散点图。回归结果如下CP = 129.63 + 0.76 IP(2.0) (79.7)图14是平均值数据散点图。先对数据按个体求平均数和。然后用15组平均值数据回归,= -40.88+0.79(-0.3) (41.1) 图15 离差估计散点图 图16 差分估计散点图图15是离差数据散点图。先计算CP、IP分别对、的离差数据,然后用离差数据计算OLS回归。CPM = 0.77 IPM (90)图16是一阶差分数据散点图。先对CP、IP各个体作一阶差分,然后用一阶差分数据回归。DCP = 0.71 DIP(24)案例2(file:5panel01a)美国公路交通事故死亡人数与啤酒税的关系研究见Stock J H and M W Watson, Introduction to Econometrics, Addison Wesley, 2003第8章。美国每年有4万高速公路交通事故,约1/3涉及酒后驾车。这个比率在饮酒高峰期会上升。早晨13点25%的司机饮酒。饮酒司机出交通事故数是不饮酒司机的13倍。现有19821988年48个州共336组美国公路交通事故死亡人数(number)与啤酒税(beertax)的数据。