【教学课件】第八章虚拟变量回归.ppt
经典线性回归模型默认回归系数为常数,没有考虑不同类别观测值对应的回归系数可能是有差别的,即没有把相关的定性影响因素引入到模型中来。例如,研究居民的消费行为时,构建如下模型:其中,Y为消费支出;X为收入。该模型默认城镇居民和农村居民的消费行为是无差异的,但如果城乡居民的消费行为存在差异,则对上述模型直接采用OLS估计,结果将是不精确的。为了有效的将定性影响因素反映到回归模型中,就需要采用虚拟变量方法。,第八章 虚拟变量回归,第一节 虚拟变量第二节 虚拟解释变量的回归第三节 虚拟被解释变量的回归第四节 案例,第一节 虚拟变量,一、虚拟变量(Dummy Variables)定义定义:就是用一个取值为0和1的变量来表示定性变量中的一个属性类别,1表示出现该属性,0表示没有出现该属性。虚拟变量也叫设计变量(Design Variables,Hosmer&Lemeshow,1989)、代理变量(Proxy Variables,Kennedy,1981)等。作用:回归分析中,虚拟变量方法可有效的衡量诸如性别、战争、地震、政治动乱、经济政策变化及季节等定性变量对因变量的影响。,二、虚拟变量设置规则如果研究的定性变量包含M个类别,将构建个M-1个虚拟变量,省略的那个类别可视为参照组。如在消费模型中,考虑区域因素(东部,中部,西部)影响,可构建2个虚拟变量:,注:如果针对包含M个类别的定性因素构造M个虚拟变量,则会陷入虚拟变量陷阱(Dummy Variable Trap),即由于而带来了完全的多重共线性。在没有截距项的模型中,对于包含M个类别的定性因素,构建M个虚拟变量虽不会产生虚拟变量陷阱,但此时检验截距的差值将变的更困难,而且没有截距项时怎样计算 也没有一个一致同意的方法,所以该方法很少人使用(Jeffrey M.Wooldridge,2000)。,第二节 虚拟解释变量模型,采用虚拟变量可有效的衡量不同观测类别对应回归参数的差异性,其中以加法方式引入虚拟变量可以反映不同类别对应截距的不同,以乘法方式引入虚拟变量可以反映不同类别对应斜率的不同。,一、加法模型以加法方式引入虚拟变量,即将虚拟变量当作自变量直接引入模型。研究居民的消费行为时,考虑居民来源(城镇、农村)这个因素,则需构建虚拟变量:加法模型:,如果该模型设定正确,则有,此时有:可见,截距虚拟变量D的系数 反映了城乡居民之间自发性消费水平的差异。,二、乘法模型以乘法方式引入虚拟变量,即将虚拟变量与解释变量乘积项当作自变量直接引入模型。在消费模型中以乘法方式引入虚拟变量,即引入虚拟变量和自变量的交互乘积项DX:如果该模型设定正确,此时有:可见,城镇居民的边际消费倾向为,农村居民的边际消费倾向为。,如果不同属性类别对应的截距项和斜率项都是有差异的,可在回归模型中同时引入虚拟变量的加法方式和乘法方式,结果如下:对于城镇居民和农村居民这两个类别,有总体回归函数如下:可见,和 分别表示城镇居民与农村居民的消费函数在截距和斜率上的差异。,注:对于包含多个类别(M个)的属性变量,构建M-1个虚拟变量,如在消费模型中,考虑区域因素(东部,中部,西部)影响,可构建2个虚拟变量:若考虑不同区域居民对应回归模型截距的不同,可构建模型如下:,则有:如果模型中包含不止一个定性变量,利用虚拟变量还可以研究定性变量对因变量的交互影响。如在消费模型中,同时考虑性别(男,女)和来源(城镇,农村)两个因素,构建虚拟变量如下:,可以加法方式引进两个虚拟变量的交互乘积项,构建模型如下:则有:可见,反映性别的影响,反映了居民来源影响,而 反映了性别和来源的交互影响。,对于定序尺度的定性变量,如果所分等级不多,也可根据虚拟变量个数比分类数少一的原则引进虚拟变量。例如,考虑教育背景(大学以下,大学,大学以上)因素对居民消费的影响,可构建2个虚拟变量:如果定序变量所分等级过多,则很难对每个水平都包括进来一个虚拟变量。此时,可将定序变量分为几个类别,再构建虚拟变量(Jeffrey M.Wooldridge,2000)。,虚拟变量不仅可以代表质的因素,还可以代表数量因素。在经济关系中常有这样的现象:当自变量X的值达到某一水平X*之前,与因变量Y存在某种线性关系;当自变量X的值达到某一水平X*之后,与因变量Y的关系就会发生变化。这就是所谓的分段线性回归(Piecewise Linear Regression)。此时,可设定虚拟变量:,构建包含门槛水平 X*的分段线性回归模型:于是有两个不同阶段的回归函数:显然,虚拟变量方法可有效的实现分段回归,其中两阶段的截距分别为 和,斜率分别为 和。实际应用中,如果分为K个阶段时,则需构建K-1个虚拟变量。,采用虚拟变量方法衡量不同属性类别对应回归参数的差异性,相对于将各属性类别的样本各自做回归,至少可以体现以下几个优点:个别的回归能容易推导出来;增加了自由度,参数估计的相对精度也有所改进;可采用各种假设检验,如采用t统计量检验单个虚拟变量D或交互乘积项D1D2、DX的显著性;采用F检验对多个虚拟变量的显著性做联合检验。使用t统计量检验虚拟变量的显著性时,在OLS的操作和统计理论方面都没有任何改变。,采用F检验对多个虚拟变量显著性做联合检验时,需构建F统计量:其中,RSSR表示不含虚拟变量回归模型的残差平方和;RSSU表示含有虚拟变量回归模型的残差平方和;j表示约束条件的个数;k表示包含虚拟变量回归模型中参数的个数。,第三节 虚拟被解释变量,研究是否购买商品房、是否参加财产保险、是否选择上大学、选择公交车还是自驾车、银行客户是否会违约、大学生是否就业等问题时,研究的对象只有两种状态,可构造虚拟变量来衡量虚拟被解释变量线形概率模型Probit 模型(本章不讲)Logit 模型,一、线形概率模型,D是虚拟变量,如果扰动项E(u)=0,则有:即:可见,以虚拟变量作为被解释变量的模型的条件期望实际上等于D取1的条件概率。,线形概率模型的估计OLS例:研究妇女工作问题其中,D=1,表示拥有或正在寻找工作 D=0,表示其它 M=1,表示已婚 M=0,表示未婚 S,表示受教育年限,系数的含义:解释变量增加一个单位,Di=1的概率增加几个单位。对于结婚的妇女,成为劳动力的概率下降0.38教育年限每增加1年,成为劳动力的概率增加9个百分点。,线形概率模型存在的问题:1、调整后的R2不能精确衡量拟合程度。D只取0和1,D的估计值多数在0,1之间变动,故R2一般很小。处理办法:采用替代指标。如解释正确的样本比率。2、D的估计值可能不在0,1之间。处理办法:采用probit、logit模型。或令:,3、残差u的非正态性4、残差u出现了异方差可见:处理办法:加权最小二乘法。但不能保证,二、logit模型,1、基本概念可见,P属于0,1模型可变形为:其中,称为”机会比率的对数”,Logit 模型的估计估计的困难:被解释变量 未知处理办法1:采用极大似然法()估计参数,对参数求导并令等于0:由于对参数来说是非线性的,求解十分困难,一般是通过迭代计算完成。最大似然估计具有一致性、有效性和正态性,但保持这些性质一般要求样本规模很大,n500,例:研究心肌梗塞和HDL(高密度脂蛋白)和FIB(纤维蛋白原)的关系,收集53个样本Eviews 估计结果中:LR statistics 相当于线形回归中的F统计量Mcfadden R squared 相当于线形回归中的R方,处理办法:当样本比较大时,用给定时计算的频率作为的估计,进而计算出的估计值。例如,X水平下有N 个样本,其中D=1有n个,则,对 作回归,同样会产生异方差。因为当N足够大时,处理办法:加权最小二乘法。权数为:,