第7章 面板数据模型ppt课件.ppt
面板数据模型的分析,第一节 面板数据模型简介第二节 固定效应模型及其估计方法第三节 随机效应模型及其估计方法第四节 模型设定的检验第五节 面板数据模型应用实例,第一节 面板数据模型简介,一、面板数据和模型概述 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。简单地讲,面板数据因同时含有时间序列数据和截面数据,所以其统计性质既带有时间序列的性质,又包含一定的横截面特点。因而,以往采用的计量模型和估计方法就需要有所调整。,面板数据通常分为两类:由个体调查数据得到的面板数据通常被称为微观面板(micro panels)。微观面板数据的特点是个体数N 较大(通常是几百或几千个),而时期数T 较短(最少是2 年,最长不超过10 年或20 年)。由一段时期内不同国家的数据得到的面板数据通常被称为宏观面板(macro panels)。这类数据一般具有适度规模的个体N(从7 到100 或200 不等,如七国集团,OECD,欧盟,发达国家或发展中国家),时期数T 一般在20 年到60 年之间。对于宏观面板,当时间序列较长时需要考虑数据的非平稳问题,如单位根、结构突变以及协整等;而微观面板不需要处理非平稳问题,特别是每个家庭或个体的时期数T 较短时。,面板数据的优点,()可以控制个体异质性 可以克服未观测到的异质性(unobserved heterogeneity)这种遗漏变量问题。这个异质性是指在面板数据样本期间内取值恒定的某些遗漏变量。(2)面板数据模型容易避免多重共线性问题面板数据具有更多的信息;面板数据具有更大的变异;面板数据的变量间更弱的共线性;面板数据模型具有更大的自由度以及更高的效率。(3)与纯横截面数据或时间序列数据相比,面板数据模型允许构建并检验更复杂的行为模型。,二、一般面板数据模型介绍,用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。混合(pool)估计模型。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。,几点说明,未观测到的异质性可能不会随着样本的变化而变化,也可能随着样本的变化而发生随机的变化。不同截距的数据生成过程就是这未观测到的差别不随样本而变化的数据生成过程。误差成份(error components)数据生成过程就是这未观测到的差别随样本而随机变化的数据生成过程。在不同截距的数据生成过程中,各自不同的截距都是参数。误差成份模型有两种情况,一是随机的个体效应与解释变量无关,一种是随机的个体效应与解释变量相关。所谓双因素效应模型,就是在模型中既考虑了不可观测非时变的(个体)异质效应,又考虑了不可观测时变(个体)同质效应的模型。类似地,双因素效应模型也有固定效应和随机效应之分,如果设定个体效应i 和时间效应t 是确定的,就是双因素固定效应模型;如果设定个体效应i 和时间效应t 是随机的,就是双因素随机效应模型。在实际应用时,模型的正确设定必须进行相关的统计检验。,第二节 固定效应模型及其估计方法,第三节 随机效应模型及其估计方法,一致估计量要求:当样本量趋近无穷大时,估计量同时趋近真实值。在面板数据模型中这就要求N和T分别趋向无穷大,这有时有问题,如例1中,N是固定的,华东六省一市是不能改变的,因此当样本的N和T都比较小时,可以直接采用固定效应模型。,第四节 模型设定的检验,一、协方差分析检验二、固定效应和随机效应的检验三、面板单位根和协整检验,模型(1)常用的有如下三种情形: 情形1: (不变系数模型) 情形2: (变截距模型) 情形3: (变参数模型) 对于情形1,在横截面上无个体影响、无结构变化,则普通最小二乘法估计给出了 和 的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。 对于情形2,称为变截距模型,在横截面上个体影响不同,个体影响表现为模型中被忽略的反映个体差异的变量的影响,又分为固定影响和随机影响两种情况。 对于情形3,称为变系数模型,除了存在个体影响外,在横截面上还存在变化的经济结构,因而结构参数在不同横截面上是不同的。,一 协方差分析检验(可混合性检验),经常使用的检验是协方差分析检验,主要检验如下两个假设: H1: H2: 可见如果接受假设 H2 则可以认为样本数据符合情形1,即模型为不变参数模型,无需进行进一步的检验。 如果拒绝假设H2,则需检验假设H1。如果接受H1,则认为样本数据符合情形2,即模型为变截距模型,反之拒绝H1 ,则认为样本数据符合情形3,即模型为变参数模型。,下面介绍假设检验的 F 统计量的计算方法。首先计算情形3(变参数模型)的残差平方和,记为 S1 ;情形2(变截距模型)的残差平方和记为 S2 ;情形1(不变参数模型)的残差平方和记为 S3 。计算 F2 统计量 (10.2.7) 在假设 H2 下检验统计量 F2 服从相应自由度下的F分布。若计算所得到的统计量 F2 的值不小于给定置信度下的相应临界值,则拒绝假设 H2,继续检验假设 H1。反之,接受 H2则认为样本数据符合模型情形1 ,即不变参数模型。,在假设H1下检验统计量F1也服从相应自由度下的F分布,即 (10.2.8) 若计算所得到的统计量F1的值不小于给定置信度下的相应临界值,则拒绝假设H1。 如果接受H1,则认为样本数据符合情形2,即模型为变截距模型,反之拒绝H1 ,则认为样本数据符合情形3,即模型为变参数模型。,二 Hausman检验,Hausman(1978)等学者认为应该总是把个体影响处理为随机的,即随机影响模型优于固定影响模型,其主要原因为:固定影响模型将个体影响设定为跨截面变化的常数使得分析过于简单,并且从实践的角度看,在估计固定影响模型时将损失较多的自由度,特别是对“宽而短”的面板数据。但相对于固定影响模型,随机影响模型也存在明显的不足:在随机影响模型中是假设随机变化的个体影响与模型中的解释变量不相关,而在实际建模过程中这一假设很有可能由于模型中省略了一些变量而不满足,从而导致估计结果出现不一致性。,几点说明,原假设成立时,则随机效应比固定效应更有效。如果正确的模型是第一个或第二个误差成份数据生成过程,那么Hausman检验能很好地将二者区别开来。但存在一种可能,解释变量中存在测量误差,这时固定效应和随机效应估计量都是不一致的,但二者导致的偏误有所不同。通常固定效应估计量的测量误差偏误会更大。这时要谨慎对待检验结果。此时工具变量估计量是更好的选择。在不存在一个好的工具变量情况下,使用随机效应估计量好于固定效应估计量。,小结,面板数据是我们有机会避免一种特殊的遗漏变量偏误,如果对同一个个体,被遗漏变量在不同时期保持不变,面板数据集的时间维度就可以控制这种未观测到的异质性。个体误差成份与解释变量不相关的误差成份DGP的有效估计量,就是成为随机效应估计量的一个可行GLS估计量。它在对观测赋予权重时很好地解释了个人干扰之间的相关性。如果个体误差成份与解释变量相关,那么随机效应就不是一致估计量,此时固定效应再次成为有效的估计量。到底是设定一个不同截距的DGP还是设定一个误差成份的DGP,主要取决于抽样背景。,建立一个研究10家企业投资需求状况的Panel Data模型: t =1 , 2 , , 20其中:企业标识数字从1 10,分别对应通用汽车(GM)、克莱斯勒(CH)、通用电气(GE)、西屋(WE)和美国钢铁(US)等。被解释变量It 分别是10家企业的总投资。解释变量为Mt 分别是10家企业前一年企业市场价值(反映企业的预期利润);Kt 分别是10家企业前一年末工厂存货及设备价值(反映企业必要重置投资期望值)。,应用实例,Stata例子,webuse grunfeld xtset company year xtdes xtline invest混合回归:reg invest mvalue kstock固定效应:xtreg invest mvalue kstock ,fe随机效应:xtreg invest mvalue kstock ,re,xtreg invest mvalue kstock ,fe est store fixed xtreg invest mvalue kstock ,re est store random hausman fixed random本题接受原假设,即应该用随机效应。,双向固定效应模型,固定效应模型: Yit=ai+XitB+it双向固定效应模型:Yit=ai+ft+XitB+it实际上添加了t-1个时间虚拟变量。主要反应随着时间变化的一些特征。 tab year,gen(yr) edit drop yr1 xtreg invest mvalue kstock yr*,fe 大部分时间虚拟变量显著,说明随着时间的变动,invest有不断变动的趋势。,