计量虚拟变量模型.ppt
第九章 虚拟变量模型,一、虚拟变量的基本含义二、虚拟变量的设置原则三、虚拟变量的引入,一、虚拟变量的基本含义,许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等。但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。,这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables),记为D。,例如,反映文化程度的虚拟变量可取为:,反映性别的虚拟变量可取为:,(1)将定性因素(或属性因素)对应变量的影响数量化,当虚拟变量值取“1”时,表明质的影响发生作用,即代表某种属性的因素存在或某种定性因素发生作用;取“0”时,(2)引入虚拟变量后,相当于把不同属性类型的样本合并,即相当于扩大样本容量,从而提高模型精度。,(3)分离异常因素的影响。,虚拟变量的作用:,例如,一个以性别为虚拟变量考察企业职工薪金的模型:,其中:Yi为企业职工的薪金(千元),Xi为工龄,表明:当性别变量为常数时,工龄每增加一年,平均年薪增加1370元,当工龄保持不变时,男性的平均年薪比女性多1330元,性别对薪金的影响是显著的。,女性平均年薪:,男性平均年薪:,二、虚拟变量的设置原则,例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:,虚拟变量的个数须按以下原则确定:,(1)若定性因素有m个相互排斥的类型或属性,只能引入(m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”,产生完全共线性。(当无截距项时,应引入m个虚拟变量),则冷饮销售量的模型为:,在上述模型中,若再引入第四个虚拟变量,则冷饮销售模型变量为:,其矩阵形式为:,如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:,显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷阱”,应避免。,二、虚拟变量的设置原则,虚拟变量的个数须按以下原则确定:,(1)若定性因素有m个相互排斥的类型或属性,只能引入(m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”,产生完全共线性。(当无截距项时,应引入m个虚拟变量),(2)一般情况,虚拟变量取“0”值代表比较的基准。,(3)虚拟变量在单一方程中,可以作为解释变量,也可以作为应变量。,例如,引入政府经济政策的变动对应变量的影响:,三、虚拟变量的引入,虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。,企业男职工的平均薪金为:,上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:,1、加法方式,几何意义:,假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。2称为截距差异系数。,0,2,又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。,教育水平考虑三个层次:高中以下,高中,大学及其以上,模型可设定如下:,这时需要引入两个虚拟变量:,在E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:,高中以下:,高中:,大学及其以上:,假定32,其几何意义:,在E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:,高中以下:,高中:,大学及其以上:,假定32,其几何意义:,表明:受教育水平对平均保健支出没有影响。,还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。,如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:,本科及以上学历本科以下学历,职工薪金的回归模型可设计为:,女职工本科以下学历的平均薪金:,女职工本科以上学历的平均薪金:,于是,不同性别、不同学历职工的平均薪金分别为:,男职工本科以下学历的平均薪金:,男职工本科以上学历的平均薪金:,2、乘法方式,加法方式引入虚拟变量,考察:截距的不同,许多情况下:往往是斜率就有变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来测度。,例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。,这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。假定E(i)=0,上述模型所表示的函数可化为:,正常年份:,反常年份:,如,设,消费模型可建立如下:,此处,2称为斜率差异系数。,当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。,例:考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。表中给出了中国19792001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。,以Y为储蓄,X为收入,可令:,1990年前:Yi=1+2Xi+1i i=1,2,n1 1990年后:Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:(1)1=1,且2=2,即两个回归相同,称为重合回归(Coincident Regressions);(2)11,但2=2,即两个回归的差异仅在其截距,称为平行回归(Parallel Regressions);(3)1=1,但22,即两个回归的差异仅在其斜率,称为汇合回归(Concurrent Regressions);(4)11,且22,即两个回归完全不同,称为相异回归(Dissimilar Regressions)。,这一问题也可通过以加法形式和乘法形式引入虚拟变量来解决。,将n1与n2次观察值合并,并用以估计以下回归:,Di为引入的虚拟变量:,于是有:,可分别表示1990年后期与前期的储蓄函数。,在统计检验中,如果4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。,具体的回归结果为:,(-6.11)(22.89)(4.33)(-2.55),由3与4的t检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,储蓄函数分别为:,1990年前:,1990年后:,=0.9836,1990年前后的储蓄-收入行为是不同的(平均储蓄倾向不同)。,3、临界指标的虚拟变量的引入,在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。例如,进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:,则进口消费品的回归模型可建立如下:,OLS法得到该模型的回归方程为,则两时期进口消费品函数分别为:,当tt*=1979年,,当tt*=1979年,,例,为激励销售人员,按其销售额计励,销售额在目标水平之上或以下,计提奖励方法不同,为研究大城市一些定性变量对电影业票价的影响,某研究者得到2003年某地的下述估计的回归模型,王文博P210,X1为平均每场放映空位率,X2为平均影片租金分摊到每张影票的价格,Y为晚场票价,(1)评论这些估计结果(2)怎样说明引入变量X1的合理性?(3)怎样对D4的系数取负值作出解释。,(1),(2),(3),(4),Y消費支出X收入,若性别因素不仅影响消费支出的平均水平,也影响消费支出对收入的变化率,若考虑14年级的不同情况,应再引入3个虚拟变量,总体回归方程,样本回归方程,李子奈P174,