模型中的特殊解释变量虚拟变量经济.ppt
第8章 模型中的特殊解释变量,8.3 虚拟变量模型,8.3 虚拟变量(重点掌握),许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等。但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响;战争、自然灾害对GDP的影响;季节对某些产品(如冷饮)销售的影响等等。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。,这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables),记为D。例如,反映文程度的虚拟变量可取为:1,本科学历 D=0,非本科学历,注意:(1)当定性变量含有m个类别时,模型不能引入m个虚拟变量。最多只能引入m-1个虚拟变量,否则当模型中存在截距项时就会产生完全多重共线性,无法估计回归参数。,(2)把虚拟变量取值为0所对应的类别称作基础类别。(3)当定性变量含有m个类别时,不能把虚拟变量的值设成如下形式。,这种赋值法在一般情形下与虚拟变量赋值是完全不同的两回事。(4)回归模型可以只用虚拟变量作解释变量,也可以用定量变量和虚拟变量一起做解释变量。,(第3版教材第189页),1.用虚拟变量测量截距变动设有模型,yt=0+1 xt+2D+ut,其中yt,xt为定量变量;D为定性变量。当D=0 或1时,上述模型可表达为,,D=1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。,D=1,D=0,0,0+2,例8.3 随机调查美国旧金山地区20个家庭的储蓄情况,拟建立年储蓄额Yi(千美元)对年收入Xi(千美元)的回归模型。通过对样本点的分析发现,居于上部的6个点(用小圆圈表示)都是代表自己有房子的家庭;居于下部的14个点(用小三角表示)都是租房住的家庭。而这两类家庭所对应的观测点各自都表现出明显的线性关系。于是给模型加入一个定性变量“住房状况”,用D表示。定义如下:,(第3版教材第189页),例8.3 建立回归模型Yi=0+1 Xi+2 Di+ut 得估计结果如下,=-0.3204+0.0675 Xt+0.8273 D i(-5.2)(16.9)(11.0)R2=0.99,DW=2.27由于回归系数0.8273显著地不为零,说明对住房状况不同的两类家庭来说,回归函数截距项确实明显不同。当模型不引入虚拟变量“住房状况”时,得回归方程如下,=-0.5667+0.0963 Xi(-3.5)(11.6)R2=0.88,DW=1.85比较回归方程,前者的确定系数为0.99,后者的确定系数仅为0.88。说明该回归模型中引入虚拟变量非常必要。,(第3版教材第190页),“季节”是在研究经济问题中常常遇到的定性因素。比如,酒,肉的销量在冬季要超过其它季节,而饮料的销量又以夏季为最大。当建立这类问题的计量模型时,就要考虑把“季节”因素引入模型。由于一年有四个季节,所以这是一个含有四个类别的定性变量。应该向模型引入三个虚拟变量。例8.4 市场用煤销售量模型。由于受取暖用煤的影响,每年第四季度的销售量大大高于其它季度。鉴于是季节数据可设三个季节变量如下:,(第2版第224页)(第3版第192页),以时间 t 为解释变量(1982年1季度取t=1)的煤销售量(Yi)模型估计结果如下:=2431.20+49.00 t+1388.09 D1+201.84 D2+85.00 D3(26.04)(10.81)(13.43)(1.96)(0.83)R2=0.95,DW=1.2,F=100.4,T=28,t0.05(28-5)=2.07由于D2,D3的系数没有显著性,说明第二、三季度可以归并入基础类别第一季度。于是只考虑加入一个虚拟变量D1,把季节因素分为第四季度和第一、二、三季度两类。从上式中剔除虚拟变量D2,D3,得煤销售量(Yi)模型如下:=2515.86+49.73 t+1290.91 D1(32.03(10.63)(14.79)R2=0.94,DW=1.4,F=184.9,T=28,t0.05(25)=2.06这里第一、二、三季度为基础类别。,例8.4,(第2版第224页)(第3版第192页),2.测量斜率变动以上介绍了用虚拟变量测量回归函数的截距变化。实际上,也可以用虚拟变量考察回归函数的斜率是否发生变化。方法是在模型中加入定量变量与虚拟变量的乘积项。设模型如下,Yi=0+1 Xi+2 Di+3(Xi Di)+ui 按2,3 是否为零,回归函数可有如下四种形式。E(Yi)=0+1 Xi,(当 2=3=0)E(Yi)=(0+2)+(1+3)Xi,(当 2 0,3 0)E(Yi)=0+(1+3)Xi,(当 2=0,3 0)E(Yi)=(0+2)+1 Xi,(当 2 0,3=0)截距、斜率同时发生变化的两种情形见图。,3.分段线性回归(不讲),例8.5 中国进出口贸易总额序列(19501984年)如图。试检验改革开放前后该时间序列的斜率是否发生变化。定义虚拟变量D如下,以时间time为解释变量,进出口贸易总额用trade表示,估计结果如下,=0.2818+0.0746 time-35.8809D+1.2559 time D(1.35)(6.2)(-8.4)(9.6)上式说明,改革开放前后相比无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了近17倍。,(第2版第226页)(第3版第194页),补充案例:香港季节GDP数据(千亿港元)的拟合(file:dummy6),19901997年香港季度GDP呈线性增长。1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,19982002年底GDP总量几乎没有增长(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下,,得估计结果如下:=1.1573+0.0668t+0.0775D2+0.2098D3+0.2349D4+1.8338DT-0.0654DTt(50.8)(64.6)(3.7)(9.9)(11.0)(19.9)(-28.0)R2=0.99,DW=0.9,s.e.=0.05,F=1198.4,T=52,t0.05(52-7)=2.01对于1990:1 1997:4=1.1573+0.0668 t+0.0775 D2+0.2098 D3+0.2349 D4对于1998:12002:4=2.9911+0.0014 t+0.0775 D2+0.2098 D3+0.2349 D4,例3:香港季节GDP数据(千亿港元)的拟合(file:dummy6),如果不采用虚拟变量拟合效果将很差。=1.6952+0.0377 t(20.6)(13.9)R2=0.80,DW=0.3,T=52,t0.05(52-2)=2.01,补充案例:香港季节GDP数据的拟合,8.4 时间变量,以时间变量t作解释变量。估计与检验方法与定量解释变量Xt相同。Yt=+t+0 Xt+ut Yt=+t+ut,如时间变量t在生产函数模型中代表技术进步。Lnyt=0+t+1 Lnxt 1+2 Lnxt 2+ut,第8章结束.,