硕士面板数据讲义0907.doc
《硕士面板数据讲义0907.doc》由会员分享,可在线阅读,更多相关《硕士面板数据讲义0907.doc(75页珍藏版)》请在三一办公上搜索。
1、面板数据模型与应用1面板数据定义panel data的中译:面板数据、桌面数据、平行数据、纵列数据、时间序列截面数据、混合数据(pool data)、固定调查对象数据。面板数据定义(1)面板数据定义为相同截面上的个体在不同时点的重复观测数据。(2)称为纵向(longitudinal)变量序列(个体)的多次测量。面板数据从横截面(cross section)看,是由若干个体(entity, unit, individual)在某一时点构成的截面观测值,从纵剖面(longitudinal section)看每个个体都是一个时间序列。图1 N=7,T=50的面板数据示意图面板数据用双下标变量表示。例
2、如yi t, i = 1, 2, , N; t = 1, 2, , Ti对应面板数据中不同个体。N表示面板数据中含有N个个体。t对应面板数据中不同时点。T表示时间序列的最大长度。若固定t不变,yi ., ( i = 1, 2, , N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, , T)是纵剖面上的一个时间序列(个体)。面板数据模型是利用面板数据构建的模型。面板数据系一组个体在一段时间内的观测值形成的数据集,这里“个体”可以是个人、家庭、企业、行业、地区或国家(Baltagi,2008)。1966年,Balestra & Nerlove发表了第一篇利用面板数据模型
3、研究天然气需求估计的论文,此后,面板数据模型这一新的计量分析方法在理论和应用上得到迅速发展,已形成现代计量经济学的一个相对独立的分支。面板数据模型由于同时使用了截面数据(cross-sectional data)和时间序列数据(time series data),因而可以控制个体的异质性,识别、测量单纯使用这两种数据无法估计的效应;并且具有包含更多的信息、更大的变异和自由度、变量间的共线性也更弱的特性,可得到更精确的参数估计(Hsiao,2003、2008)。面板数据涉及个体(N)和时间(T)两个维度,有微观面板(micro panels)和宏观面板(macro panels)之分。微观面板源
4、于截面数据的计量分析,是针对个体的调查数据,其特点是个体数N较大(通常是几百或几千个),而时期数T较小(最少为2年,最长不超过20年),主要应用于劳动经济学以及需求分析、成本分析和生产函数分析等。宏观面板一般具有适度规模的个体N(从7到100或200不等,如G7,OECD、欧盟、发达国家或发展中国家),时期数T一般在20至60之间,甚至更大。这类数据可以刻画一些制度或政策的外生变化,常用于识别政策效应研究中的关注参数。宏观和微观面板要求使用不同的计量建模方法。微观面板通常研究T固定而N较大时(简称“大N小T”)的渐近性质,而宏观面板则是同时考虑T和N都较大时(简称“大N大T”)的渐近性质,此时
5、可以分为对角极限、序贯极限和联合极限三种情形来讨论。对于宏观面板,当T较大时需要考虑数据的非平稳(如单位根和协整)与结构变化等特征;微观面板由于时间短,一般不需要处理非平稳问题。在处理宏观面板时,还必须考虑个体之间的相关性,即截面相关,而在微观面板中,如果个体是随机抽样产生,则个体之间不大可能存在相关性,不需要考虑此类问题(Baltagi,2008)。假设有N个个体T期的观测值和,;是在、和一组固定参数的条件下,概率分布产生的随机结果,其中是不可观测的影响因素。(如何理解?)面板数据建模的目的是利用全部的样本信息来对进行推断。假定感兴趣的影响因素是,通常的做法是通过在时间和个体上的变化,即来反
6、映不可观测的异质性;因此,给定,的条件密度为。此时如果不对进行任何约束,该模型就只有描述性作用,不能进行任何的统计推断(如何理解 ?)。常用的施加在上的约束条件是将分解为,其中不随时间和个体变动,称为结构参数(structural parameters),称为冗余参数(incidental parameters),迄今,面板数据的文献主要集中在控制了后如何对进行推断。进一步,如果不对施加约束也不能对做出推断,因为将会耗尽所有的样本信息。一般的处理思路是:假定可观测变量的影响不随时间和个体变化,由描述;冗余参数代表了以外随个体和时间变化的异质性影响,这种影响可以分解为个体效应、时间效应以及随个体
7、和时间变化的效应。个体效应和时间效应可以设定为随机变量,也可以设定为固定的参数,分别形成了随机效应(random effects)模型和固定效应(fixed effects)模型。如何理解估计、推断、检验、设定等方面的问题?经典的面板数据模型可以分为静态模型和动态模型。静态面板数据模型设定的一般形式为: (1)其中,与不相关。若和为固定的常数,模型(1)称为固定效应模型;为了避免dummy陷阱,设定,通常采用组内(within-group)(Within VS Between)方法来估计,并通过F检验或Wald检验考察固定效应是否存在(为什么要检验?检验什么?如何检验?)。若和为随机变量,模型
8、(1)称为随机效应模型。此时除了假定与不相关,还需进一步假定和与不相关。对于随机效应模型,可以采用FGLS的方法来估计。上述两种效应的设定各有特点。固定效应模型允许个体效应(时间效应)与解释变量相关,但待估参数个数随着样本容量的增大而增大,即存在冗余参数问题,且模型中不能包含非时变的变量。(会出现什么问题?)随机效应模型中,待估参数个数不随样本容量的变化而变化,当随机的个体效应(时间效应)与不相关时能够得到更有效的估计量,模型中可以包括不随时间变化的变量;其缺点在于若随机的个体效应(时间效应)与相关时,FGLS估计量是不一致的。通过Hausman检验,即原假设下两个一致统计量是否有显著差异可以
9、判断采用何种设定更合适。(操作细节?)很多经济关系具有动态性,可以通过在模型中加入被解释变量的滞后作为解释变量来刻画: (2)其中,个体效应可以是固定或随机的;若为随机的,则假定与不相关。式(2)称为动态面板数据模型,其在时间上的记忆性来自两个方面:一是作为解释变量所引起的自相关;二是由个体效应所引起的自相关。无论将设定为固定效应还是随机效应,即使是,模型(2)也会产生内生性问题,对应的估计量均是不一致的。为什么?为了解决这一问题,早期的研究采取方法有:一是对模型(2)进行一阶差分,然后进行IV估计或GMM估计(Anderson&Hsiao,1981)。Arellano&Bond(1991)扩
10、展了一般的GMM估计,建议使用变量水平值的所有滞后项作为差分变量的工具变量以提高估计的有效性,这一方法称为差分GMM估计;差分GMM估计的一个缺点是差分会导致模型扰动项出现序列相关。为此,Arellano&Bover(1995)建议通过正交离差(orthogonal deviation)的变换来消除个体效应的影响。差分GMM估计的另一个缺陷是估计量在有限样本下存在较大的偏差,当自回归系数接近1时尤为严重;Blundell和Bond(1998)的研究表明,差分GMM估计的这一不良表现源于使用变量水平值的滞后项作为差分变量的工具变量所导致的弱工具变量问题(Staiger&Stock,1997),因
11、而提出系统GMM估计的方法,建议在进行差分GMM估计的同时使用另一组矩条件来估计参数,即使用变量差分值的滞后项作为水平变量的工具变量。Blundell&Bond(1998)的推导与模拟表明,系统GMM估计能有效克服弱工具变量的问题,极大地改进了估计量的有限样本表现,在降低偏差的同时提高了估计的精度。早期的面板数据模型均假定截面之间是相互独立的。但是,忽略个体之间的截面相关将会影响估计量的有效性甚至导致估计量的不一致(Pesaran,2006)。近年来,面板数据模型的一个重要发展方向是考虑截面相关的面板数据模型的估计与推断。与时序数据中度量序列相关不同,截面相关并没有一个直接的度量方式。因此,为
12、了刻画模型的截面相关,必须对模型施加很强的假定。常用的两种度量截面相关的方法是空间的方法(spatial approach)和因子的方法(factor approach)。空间的方法是通过空间加权矩阵建立起个体之间的相依性,往往用于刻画由于经济活动的相互依赖、相互影响而呈现的相关,如源于地理位置相近,文化、历史的相似,或由于存在贸易往来、劳动力流动、产业结构关联等。由空间方法刻画的截面相关反映不同个体之间存在一般的相关性,即截面相关阵的特征根有界,是一种截面弱相关。理论上空间加权矩阵可以出现在模型中的任何位置(因变量、自变量和扰动项),因自变量的空间相关不会产生新的估计问题,所以相关研究集中在
13、因变量和扰动项的空间相关,对应的模型分别称为空间滞后模型和空间误差模型。这两类模型一般采用工具变量估计(广义矩估计)或极大似然估计。因子的方法描述的是由凌驾于整个区域市场的经济波动或行政力量冲击造成的结果,表现为一种共同冲击,即不同个体之间的相关性是由某个共同的因子引起,因此截面相关阵存在O(n)阶的发散特征根,属于截面强相关。因子模型的一般形式为:(3)其中,是维的随机因子,是维的非随机因子载荷系数。代表异质的冲击,与相互独立,且在截面之间相互独立。Bai(2009)对式(3)所刻画的因子模型的估计和推断做了详细的讨论。Pesaran&Tosetti(2011)考虑了如下更一般的模型来同时刻
14、画截面强相关与截面弱相关:(4)其中,是的可观测的共同效应(common effects),是的个体特质的解释变量,是的不可观测的共同因子,用于刻画截面强相关,假定存在空间相关,用于刻画截面弱相关。Pesaran&Tosetti(2011)指出,对于该模型,可以采用Pesaran(2006)提出的CCEP方法来得到参数的一致估计。除了上述讨论的几类面板数据模型外,文献中还有很多其它类型的面板数据模型,如微观计量模型中的离散因变量模型(包括静态和动态)、受限因变量模型(包括截断和归并)在面板数据下的扩展,以及非线性面板数据模型(阈值面板数据模型、平滑转移的面板数据模型等)、多方程面板数据模型等等
15、(Hsiao,2003;Baltagi,2008)。这些模型也是未来面板数据模型理论和应用研究的重要发展方向。 下面以例子来加以说明如何理解上述描述:例1:1996-2002年中国东北、华北、华东15个省级地区的居民家庭固定价格的人均消费(CP)和人均收入(IP)数据见5panel02.wf1。数据是7年的,每一年都有15个数据,共105组(个)观测值。人均消费和收入两个面板数据都是平衡(balance)面板数据,各有15个时间序列数据。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺
16、序是按地区名的汉语拼音字母顺序排序的。 图2 15个省级地区的人均消费序列(纵剖面) 图3 15个省级地区的人均收入序列(5panel02)图4 7个时点人均消费横截面数据(含15个地区) 图5 7个时点人均收入横截面数据(含15个地区)(每条连线数据表示同一年度15个地区的消费值) (每条连线数据表示同一年度15个地区的收入值)用CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省
17、、天津市、浙江省。图6 人均消费对收入的面板数据散点图(15个时间序列叠加)图7 人均消费对收入的面板数据散点图(7个截面叠加) 图8 北京和内蒙古1996-2002年消费对收入散点图 图9 1996和2002年15个地区的消费对收入散点图2面板数据模型分类用面板数据建立的模型通常有3种,即混合回归模型、固定效应回归模型和随机效应回归模型。2.1 混合回归模型(Pooled model)。如果一个面板数据模型定义为, yit = a + Xit b +eit, i = 1, 2, , N; t = 1, 2, , T (1)其中yit为被回归变量(标量),a表示截距项,Xit为k 1阶回归变量
18、列向量(包括k个回归量),b为k 1阶回归系数列向量,eit为误差项(标量)。则称此模型为混合回归模型。混合回归模型的特点是无论对任何个体和截面,回归系数a和b都相同。如果模型是正确设定的,解释变量与误差项不相关,即Cov(Xit,eit) = 0。那么无论是N,还是T,模型参数的混合最小二乘估计量(Pooled OLS)都是一致估计量。2.2 固定效应回归模型(fixed effects regression model)。固定效应模型分为3种类型,即个体固定效应回归模型、时点固定效应回归模型和个体时点双固定效应回归模型。下面分别介绍。2.2.1个体固定效应回归模型(entity fixed
19、 effects regression model)如果一个面板数据模型定义为, yit = ai + Xit b +eit, i = 1, 2, , N; t = 1, 2, , T (2)其中ai是随机变量,表示对于i个个体有i个不同的截距项,且其变化与Xit有关系;yit为被回归变量(标量),eit为误差项(标量),Xit为k 1阶回归变量列向量(包括k个回归量),b为k 1阶回归系数列向量,对于不同个体回归系数相同,则称此模型为个体固定效应回归模型。ai作为随机变量描述不同个体建立的模型间的差异。因为ai是不可观测的,且与可观测的解释变量Xit的变化相联系,所以称(2)式为个体固定效应
20、回归模型。个体固定效应回归模型也可以表示为 yit = a1 + a2 D2 + +aN DN + Xit b +eit, t = 1, 2, , T (3)其中Di =设定个体固定效应回归模型的原因如下。假定有面板数据模型 yit = b0 + b1 xit +b2 zi +eit, i = 1, 2, , N; t = 1, 2, , T (4)其中b0为常数,不随时间、截面变化;zi表示随个体变化,但不随时间变化的难以观测的变量。上述模型可以被解释为含有N个截距,即每个个体都对应一个不同截距的模型。令ai = b0 +b2 zi,于是(4)式变为 yit = ai + b1 xit +e
21、it, i = 1, 2, , N; t = 1, 2, , T (5)这正是个体固定效应回归模型形式。对于每个个体回归函数的斜率相同(都是b1),截距ai却因个体不同而变化。可见个体固定效应回归模型中的截距项ai中包括了那些随个体变化,但不随时间变化的难以观测的变量的影响。ai是一个随机变量。以案例1为例,省家庭平均人口数就是这样的一个变量。对于短期面板来说,这是一个基本不随时间变化的量,但是对于不同的省份,这个变量的值是不同的。以案例1为例(file:panel02)得到的个体固定效应模型估计结果如下:注意:个体固定效应模型的EViwes输出结果中没有公共截距项。图10 个体固定效应回归模
22、型的估计结果2.2.2 时点固定效应回归模型(time fixed effects regression model)如果一个面板数据模型定义为, yit = gt + Xit b +eit, i = 1, 2, , N (6)其中gt是模型截距项,随机变量,表示对于T个截面有T个不同的截距项,且其变化与Xit有关系;yit为被回归变量(标量),eit为误差项(标量),满足通常假定条件。Xit为k 1阶回归变量列向量(包括k个回归变量),b为k 1阶回归系数列向量,则称此模型为时点固定效应回归模型。时点固定效应回归模型也可以加入虚拟变量表示为 yit = g1 + g2 W2 + +g T W
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硕士 面板 数据 讲义 0907
链接地址:https://www.31ppt.com/p-3433326.html