第六章面板数据模型ppt课件.pptx
第六章 面板数据模型,引例. 数据的分类与特点,常见的数据类型包括: 1. 截面数据 (同一时间不同个体构成的数据) 特点: 具有独立性和异质性2. 时间序列数据(同一个体不同时间观测构成的数据) 特点: 具有同质性和相关性3. 面板数据(不同个体在不同时间的观测构成的数据) 特点: 具有异质性和相关性,例如:1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费和人均收入(不变价格)数据见下表。数据是7年的,每一年都有15个数据,共105组观测值。,1996-2002年中国15个省级地区的居民家庭人均消费数据(不变价格),1996-2002年中国15个省级地区的居民家庭人均收入数据(不变价格),图1 面板数据示意图,人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。用CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。,图2 15个省市人均消费序列(纵剖面),图3 15个省市人均收入序列,图4 15个省市人均消费散点图 (每条连线表示同一年度15个地区的消费值),图5 15个省市人均收入散点图(7个横截面叠加) (每条连线表示同一年度15个地区的收入值),15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。,图6 用15个时间序列表示的人均消费对收入的面板数据,图7 用7个截面表示的人均消费对收入的面板数据(7个截面叠加),图8给出北京和内蒙古1996-2002年消费对收入散点图。图9给出15个省级地区1996和2002年的消费对收入散点图。,图8 北京和内蒙古1996-2002年消费对收入时序图,图9 1996和2002年地区消费对收入散点图,本章讨论以下问题一. 面板数据模型的建立 基本概念 面板数据模型的类型 面板模型系数的经济意义及预测二. 面板数据模型的估计 混合模型的估计 固定效应模型的估计 随机效应模型的估计三. 面板数据模型的选择,一. 面板数据模型的建立 1. 基本概念,面板数据(panel data)也称也称平行数据,或时间序列截面数据(time series and cross section data)或混合数据(pool data),是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看是一个时间序列。 面板数据用双下标变量表示。例如 N表示面板数据中含有N个个体。T表示时间序列的最大长度。,2. 面板数据模型的类型设 为被解释变量在横截面i和时间t上的数值, 为第k个解释变量在横截面i和时间t上的数值, 为横截面i和时间t上的随机误差项; 代表第i截面上的不可观测的个体影响因素;解释变量数为k=l,2,K;截面数为i=1,2,N;时间长度为t=1,2,T。其中,N表示个体截面成员的个数,T表示每个截面成员的观测时期总数,K表示解释变量的个数。则单方程面板数据模型一般形式可写成:,在面板回归模型的一般形式中,由于个体因素无法观测,不能直接进行估计,因此我们考虑一下三种情况:,混合模型(pool model),这种情形意味着模型在横截面上无个体影响、无结构变化,可将模型简单地视为是横截面数据堆积的模型。这种模型与一般的回归模型无本质区别,只要随机扰动项服从经典基本假设条件,就可以采用OLS法进行估计(共有K+1个参数需要估计),该模型也被称为联合回归模型(pooled regression model)。,(2) 随机效应模型(random effects model) 如果个体效应存在,但我们假设其与解释变量不相关,即 ,那么我们可以建立以下随机效应模型: 其中: 代表个体效应,并且,(3) 固定效应模型(fixed effects model) 如果个体效应存在,且其与某个解释变量 相关,即那么我们可以建立以下固定效应模型: 其中: 代表个体效应,并且,3. 面板模型系数的经济意义对于面板模型的一般形式:混合模型 对于混合模型 ,因此 回归系数代表无个体效应下,解释变量X对被解释变量Y的条件期望的边际效应。,(2) 随机效应模型 对于随机效应模型 ,因此 回归系数代表对于任何个体,解释变量X对被解释变量Y的条件期望的边际效应。,(3) 固定效应模型 对于固定效应模型 ,因此 如不考虑个体效应,我们无法获得解释变量X对被解释变量Y的条件期望的边际效应。我们只能获得:即给定某个个体的前提下,解释变量X对被解释变量Y的条件期望的边际效应。,对于固定效应模型:由于 ,那么当 ,解释变量被归入个体效应 ,因此回归系数将无法识别。也就是说: 对于固定效应模型,不随时间发生变化的解释变量(例如个体属性)的系数是无法识别的。,4. 面板数据模型的预测对于给定的解释变量 ,在对模型参数进行估计的基础上我们需要对被解释变量的条件期望进行估计,也就是(1)混合模型:,(2)随机效应模型:,(2)固定效应模型:注意:固定效应模型是不能进行个体外样本外预测的,二. 面板数据模型的估计1. 混合普通最小二乘估计(Pool OLS)Pool OLS是针对于混合模型的估计方法:对于混合模型直接使用OLS进行估计只要满足 ,则POLS获得一致的估计对于RE模型,POLS一致但非有效(扰动项存在自相关);对于FE模型,POLS非一致。 ,因此,2. 组间估计(Between Estimator)在短面板(T很小)中,有时可以只考虑组间(个体)差异的信息来估计参数。对每个个体的时间序列取平均:其中:对以上方程进行最小二乘估计称为组间估计。组间估计将损失组内差异的信息,因此是非有效的。同样的,对于固定效应模型模型,Between Estimator是非一致的。,3. 组内估计(Within Estimator)相对于组间估计只考虑组间信息,我们也可以只考虑组内(时间)差异的信息来估计参数。对每个个体的时间序列取平均:两方程项减得到:对以上方程进行最小二乘估计称为组内估计。组间估计将损失组间差异的信息,因此是非有效的。但对于固定效应模型,Within Estimator由于消掉了个体效应,因此是一致的。进一步的:,4. 一阶差分估计(First Difference Estimator)为了消除模型中的个体效应使得固定效应模型获得一致的估计,类似于组内估计的思想,我们可以考虑对模型进行一阶差分:进行一阶差分:对以上差分方程进行最小二乘估计称为一阶差分估计。一阶差分估计将损失一定信息,因此是非有效的。但对于固定效应模型,一阶差分估计由于消掉了个体效应,因此是一致的。进一步的:注意:组内估计和一阶差分估计都无法识别不随时间变化的解释变量的系数。,5. 最小二乘虚拟变量估计(LSDV Estimator)对于固定效应模型,由于个体效应与解释变量相关,因此无法放入扰动项中,我们可以考虑引入虚拟变量将其视为N个参数进行估计。设置N个虚拟变量:模型变为:对以上方程进行最小二乘估计称为LSDV估计。LSDV估计引入N个虚拟变量将损失大量的自由度,因此对估计解释变量的系数是非有效的。但对于固定效应模型是一致估计。,6. 随机效应广义最小二乘估计(RE-GLS Estimator)对于随机效应模型,虽然POLS是一致估计,但是由于扰动项存在自相关,因此非有效,因此我们试图寻找有效的估计:假设则我们希望通过广义差分将以上模型的自相关消除令 ,反解出,RE-GLS估计的步骤:(1)获得 的估计:因此我们只需获得 和 即可。分别对RE模型进行Between和Within估计分别获得其扰动项的方差估计 和分别找出Between和Within估计扰动项的方差:Between估计:Within估计:,反解以下方程组,即可得到 和通过 得到 带入广义差分方程最终获得 。由于广义差分的扰动项无自相关,因此RE-GLS对于RE模型需要有效性。,面板数据模型估计方法的总结,三. 面板数据模型的选择对于不同的面板数据模型,我们将采用不同的估计方法对其进行估计,那么如何选择合适的模型呢,我们一般用以下两种检验方法选择合适的模型1. F检验 (Pool模型 vs 固定效应模型)我们通过F检验来检验个体效应的显著性我们可以将Pool模型看作固定效益模型的约束模型: (Pool模型) (固定效应模型)拒绝原假设:FE模型,不拒绝原假设:Pool模型,1. 豪斯曼(Hausman)检验 (RE模型 vs FE模型)RE模型和FE模型具有相同的形式: 将其变成 X与u不相关 (RE模型) X与u相关 (FE模型)我们使用Hausman test检验X的内生性当原假设成立时,GLS为有效估计此时拒绝原假设:FE模型,不拒绝原假设:RE模型,综合以上两个检验:F检验不拒绝原假设 Pool模型F检验+豪斯曼检验拒绝原假设 固定效应模型F检验拒绝+豪斯曼检验不拒绝 随机效应模型,利用1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费和人均收入数据(见引例),试研究这些地区的居民家庭消费行为。(1)建立合成数据库(pool)对象;(2)定义序列名并输入数据;(3)建立适当的面板数据回归模型。(1)建立合成数据库(pool)对象 建立类型为Dated的workfile, 在此基础上,选择Objects/New Object/Pool,并在如下图所示的编辑窗口中输入截面成员的识别称:AH、BJ、FJ、HB等 。,四. 案例分析,(2)定义序列名并输入数据在Pool数据框中选择Sheet, 输入要一定的变量名称,如变量名称随不同截面而发生变化在变量名称后面加”?”;如变量对不同截面都相同,则直接输入变量名称。,再将数据输入到Eviews当中。,(3) Pool对象的模型估计单击Pool工具栏的Estimate选项或在Pool对象的菜单中选择Proc/Estimate打开如下图所示的“Pool对象方程估计”对话框。在该对话框中有如下几项设置:,(i) 因变量Dependent Variable在因变量对话框中输入Pool变量或Pool变量表达式。(ii) 解释变量在指定解释变量时,需要在三个编辑框中分别输入相应的解释变量。 Common coefficients:此栏中输入的变量对所有截面成员有相同的系数,而各变量的系数则不同,并用原有的变量表示输出结果。 Cross-section specific coefficients:此栏中输入的变量对Pool中每个截面成员的系数不同。EViews会对每个截面成员估计不同的系数,并以截面成员识别名和一般序列名复合的形式输出结果。 Period specific coefficients:此栏中输入的变量在各观测时期的系数不同。EViews会对各观测时期估计不同的系数,并以时期识别名和一般序列名复合的形式输出结果。,(iii) 估计形式设定在估计方式“Estimation method”部分,我们可以对估计形式进行设定。通过固定或随机影响(Fixed and Random Effects)的设定,可以对各截面单位或各时期的影响进行描述。EViews默认的是没有影响,即相应的各选项的初始给定状态为“None”,我们可以根据设定的需要在下拉菜单中选择相应的固定“Fixed”或随机“Random”影响状态。但是,目前还不能用截面成员特定系数,AR项或者加权进行随机影响模型估计。需要指出的是,在选择固定或随机影响时,EViews在估计时会自动在相同系数变量一栏中加入一常数项,从而确保所有影响之和为零。即Eviews给出的是不含总体均值的个体影响,其反映的是各截面个体对总体平均状态的偏离。,对于Pool模型(cross-section=none):,对于固定效应模型(cross-section=fixed):,对于随机效应模型(cross-section=Random):,(iv) 模型检验 F检验(Pool vs FE)在固定效应模型的输出结果中选择:ViewFixed/Random effects testing-Redundant Fixed Effects,(iv) 模型检验 豪斯曼检验(RE vs FE)在随机效应模型的输出结果中选择:ViewFixed/Random effects testing-Correlated Random Effects - Hausman Test,