离散选择模型举例12.2.doc
一二元离散选择模型1二元响应模型(Binary response model)我们往往关心响应概率,其中x表示各种影响因素(各种解释变量,包括虚拟变量)。根据不同的函数形式可以分为下面三类模型:线性概率模型(Linear probability model,LPM)、对数单位模型(logit)、概率单位模型(probit):三种模型估计的系数大约有以下的关系:2偏效应(1)如果解释变量是一个连续型变量,那么他对p(x)=p(y=1|x)的偏效应可以通过求下面的偏导数得出来:,偏效应的符号和该解释变量对应的系数的符号一致;两个解释变量偏效应之比等于它们各自的估计系数之比。(2)如果解释变量是一个离散性变量,则从变化到+1时对概率的影响大小为:上面的其他解释变量的取值往往取其平均值。3估计方法与约束检验极大似然估计;三种常见的大样本检验:拉格朗日乘数检验、wald检验、似然比检验。4Stata程序语法(以Probit为例)probit depvar indepvars weight if exp in range , level(#) nocoef noconstant robust cluster(varname) score(newvar) asis offset(varname) maximize_options predict type newvarname if exp in range , statistic rules asif nooffset where statistic is p predicted probability of a positive outcome; the default xb linear prediction stdp standard error of the prediction二具体的例子1数据:美国1988年的CPS数据2模型:估计成为工会成员的可能性,模型形式如下:参加工会的概率=F(潜在经验potexp、经验的平方项potexp2、受教育年限grade、婚否married、工会化程度high);解释变量:Potexp=年龄-受教育年限-5;grade=完成的受教育年限;married:1表示婚,0未婚;high:1表示高度工会化的行业,否则为0。3估计的结果3.1 probit union potexp potexp2 grade married highunionCoef.Std. Err.zP>z95% Conf.Intervalpotexp.0835091.01560875.350.000.0529166.1141016potexp2-.0015308.0003179-4.820.000-.0021538-.0009078grade-.042078.0189089-2.230.026-.0791388-.0050171married.0622516.11258360.550.580-.1584083.2829115high.5612953.0996625.630.000.3659613.7566292_cons-1.468412.2958112-4.960.000-2.048192-.88863323.2 dprobit union potexp potexp2 grade married high给出了,如果要求偏效应还需要对其乘以估计的系数beta;union dF/dx Std. Err. z P>z x-bar 95%C.I. potexp .0226964 .0041529 5.35 0.000 18.884 .014557.030836potexp2 -.000416 .000085 -4.82 0.000 519.882 -.000583-.00025grade -.0114361 .0051379 -2.23 0.026 13.014 -.021506-.001366married* .0167881 .0301137 0.55 0.580 .641 -.042234.07581high* .1470987 .02470055.63 0.000 .568 .098687.195511obs. P .216pred. P .1904762 (at x-bar)(*) dF/dxis for discrete change of dummy variable from 0 to 1,对离散变量。此外,如果想针对某些解释变量的特定取值进行计算,可以用下面的语句:matrix myx=(8,64,10,1,1)dprobit,at(myx)uniondF/dxStd. Err.zP>zx 95%C.I. potexp.0261573.00443085.350.0008.017473.034841potexp2-.0004795.0000978-4.820.00064-.000671-.000288grade-.0131799.0065759-2.230.02610-.026068-.000291married*.0190706.03458370.550.5801-.048712.086853high*.1389514.02660335.630.0001.08681.191093obs. P .216pred. P .1904762(at x-bar)pred. P .2433575(at x)3.3 logit (1)logistic union potexp potexp2 grade married high, coef (给出回归系数)等价于 logit union potexp potexp2 grade married highunionCoef.Std. Err.zP>z95% Conf.Intervalpotexp.1474021.0280975.250.000.0923329.2024712potexp2-.0026869.0005654-4.750.000-.0037951-.0015787grade-.0703209.032142-2.190.029-.1333181-.0073236married.115463.1967790.590.557-.2702167.5011427high.9801411.1800495.440.000.62725151.333031_cons-2.581436.5186859-4.980.000-3.598041-1.56483(2)给出发生比率(odds ratio)logistic union potexp potexp2 grade married high等价于 logit union potexp potexp2 grade married high,orunionOdds RatioStd. Err.zP>z95% Conf.Intervalpotexp1.15882.03255945.250.0001.096731.224425potexp2.9973167.0005639-4.750.000.9962121.9984225grade.9320947.0299594-2.190.029.8751866.9927031married1.122393.22086330.590.557.76321411.650606high2.664832.47980055.440.0001.8724573.79252如果存在异方差,可采用稳健估计,在上面命令后面加上robust。其他命令:1 有序模型ologit,oprobit2 多重选择模型mlogit,rrr给出发生比率;多重probit模型设计复杂计算,目前尚无对应的命令。3 工具变量如果在probit模型中有内生变量,就要采用工具变量方法予以克服,ivprob命令给出了结果。4 面板数据的离散选择模型xtlogit,xtprobit,xttobitsas 相关过程:logistic,logit,probit;多重logit模型:proc catmod 三托宾模型(Tobit)和赫克曼修正模型(Heckit)一. tobit 模型(censored model截取回归模型)实际上tobit模型是probit模型的推广,(tobit意即Tobin的probit);在严格为正值的时候大致连续,但是有相当部分取值为0。模型:隐变量满足经典的线性假定,服从具有线性条件均值的正态同方差分布。由于正态分布,所以y在严格正值上连续分布。2估计和检验极大似然估计,检验同上面的三种检验。3偏效应我们估计出的系数,是隐变量(效用)的偏效应,而我们关心的是对y(工作时间)的偏效应。这表明对于那些具有正值的观测值作OLS,由于忽略了逆米尔斯比率(inverse mills ratio)可能导致估计结果的非一致性。从上面推导可以得出:因此,当y服从一个tobit模型时,难以直接得出偏效应。(1)如果xj是一个连续变量,可以通过微分求出偏效应:首先,大括号中为一个调整因子,可以通过代入的估计值,而且必须带入解释变量的有意义的值,一般用均值。偏效应Tobit模型估计的结果并不能直接给出偏效应,但是估计系数的符号和偏效应的符号是一致的,而且统计显著性也一致。如果要求具体的偏效应大小,需要将估计的参数值和解释变量的相应取值代入进行计算而得。Stata 程序语法tobit depvar indepvar weightif exp in range,l1(#) u1(#)level(#) offset(varname) maximize_optionspredict type newvarname if exp in range,statistics nooffsetl1表示左截断,那些小于l1的y值被截断;那些大于u1的y值被右截断。Tobit命令默认为他们分别为因变量的最小和最大值。其中statistics:xb 拟合值pr(a,b) Pr(a<yj<b)e(a,b) E(yj|a< yj<b)ystar(a,b) ,其中如果如果否则。stdp standard error of the predictionstdf standard error of the forecast其他相关命令cnreg,intreg举例:wooldridge(p524)已婚妇女的年度劳动供给数据:753个已婚妇女的工作小时数据,其中有428个妇女当年在家庭以外工作挣工资,另外325个妇女的工作小时为0。对于那些工作的妇女,工作小时范围介于12小时到4950小时。因此,年工作小时数适合于Tobit模型。解释变量:kidslt6(年龄小于6岁的幼年子女数),kidsge6(介于6到18岁的子女数),nwifeinc(家庭的非工资收入),exper(实际工作经验),expersq(工作经验的平方项),educ(受教育年限)。估计结果hoursCoef.Std. Err.tP>t95% Conf.Intervalnwifeinc-8.815554.470889-1.970.049-17.59257-0.0385257educ80.7085321.640413.73038.22519123.1919exper131.93117.330087.61097.90948165.9525expersq-1.87070.53915-3.470.001-2.929127-0.8122632age-54.57217.440187-7.330-69.17827-39.96588kidslt6-896.038112.1955-7.990-1116.294-675.7811kidsge6-16.0338.74414-0.410.679-92.090560.03055_cons968.154447.62822.160.03189.393151846.915 _se | 1124.914 41.77934 (Ancillary parameter)Obs. summary:325left-censored observations at hours<=0427uncensored observations1right-censored observation at hours>=4950Obs. summary:325left-censored observations at hours<=0427uncensored observations1right-censored observation at hours>=4950其他回归模型1 泊松回归模型poisson(又称为计数回归,count regression)主要针对的因变量是计数变量,可以取非负整数值0,1,2,,例如某人在某年被捕的次数、一个企业在某年申请的专利个数、妇女生育子女人数等等。对这些变量采用普通的线性模型往往不能给出很好的拟合。模型:,取对数后是线性的;以X为条件,Y=h的概率是:,利用极大似然估计估计出参数值,然后带入上式就可以求出每一个条件概率值,无论泊松分布假定成立与否,仍然可以得到参数的一致和渐进正态的估计量。Stata中的语句是:Poisson;2 截取正态回归模型(censored Normal regression model)模型:,不观测yi,只有在yi小于ci时才观测到它,上式还包括了ui独立于ci的假定。右端截取或从上截取的一个例子是顶端编码(top coding)。当一个变量超过顶端编码时,我们只知道他达到了某个临界值,对高于这个临界值的回答,我们只知道他和临界值至少一样大。例如调查家庭财富时,我们可以观测到那些财富不足50万美元的受访者的实际财富,但不能观测到那些财富高于50万美元的受访者的实际财富。此时,截取值ci对所有个体i都一样。Stata程序:cnreg3 持续期模型(duration model)持续期间是一个度量某事件发生之前持续时间的度量。例如一个下岗工人再度失业前的失业时间;一个从监狱释放的罪犯下次被捕前持续的天数。Stata程序streg。4 断尾回归(truncated regression)与截取模型类似,有一点不同:断尾模型中,不能观测到总体某一段的所有信息包括解释变量和被解释变量;截取模型只是观测不到被解释变量。Stata程序:trunreg附录:sas过程(1)截取模型包括tobit模型:proc lifereg;(2)持续期间模型:cox比例风险模型;proc phreg5开关模型(switch model)上面分析的选择模型有这样的特点:有关的观测之要么观测得到,要么观测不到。这里兼具可观测两种的情形,在这种条件下的选择模型称为开关模型(switch model)。 模型形式:,引入虚拟变量,表示两种体制。或写作:仍然利用极大似然估计方法估计(分两种情况:一种d已知;另一种d未知。)二赫克曼两步修正模型理性的经济人往往从效用极大化出发而做出有意识的决策,比如选择不同的教育水平、接受培训、参加工作、移民、进入不同所有制的企业等等。由于研究所用的样本中只包括这些已经做出了决策的个体而不包括那些没有作出这些选择的个体,因此样本就不是随机的,基于这样的样本作出的任何结论只能代表这部分作出相应决策的个体行为,而不是整个总体的行为,这就是样本的选择性误差(Sample selection bias)(Heckman,1979)。模型在总体回归方程中加入行为选择方程(selection equation):,其中直接采用回归方程估计是有偏的;而heckman模型提供了一致和渐进有效的估计。如果观测到y,则s=1,否则s=0;样本选择校正步骤:(1) 利用所有的观测值,估计一个si对zi的probit模型,并得到估计值,并计算逆米尔斯比率。从lamda的显著性可以判断样本选择性偏误的严重程度。(2) 利用选择样本,即si=1的观测,作如下的回归Yi对xi,则得到的参数估计是一致的,并近似服从正态分布。注意:x应该是z的一个严格子集。Stata程序:heckman语法:(1)基本语法heckman depvar varlist, select(varlist_s) twostep或 heckman depvar varlist, select(depvar_s=varlist_s) twosteppredict type newvarname if exp in range,statistics nooffset,其中statistics是:xb 拟合值(默认项)ycond E(yj|yj observed)yexpected E(yj*),观测不到的yj取零。nshazard or mills nonselection hazard (又称为米尔斯比率)psel xbsel 选择方程的线性估计stdpsel 选择方程线性估计值的标准差pr(a,b) e(a,b) E(yj|a< yj<b)ystar(a,b) E(yj*), yj*=maxa,min(yj,b)stdp standard error of the predictiona=. means负无穷;b=. 正无穷(2)两步一致估计heckman depvar varlist if exp in range, twostep select(depvar_s = varlist_s ,noconstant) nshazard(newvarname) mills(newvarname) noconstant first level(#) rhosigma| rhotrunc | rholimited | rhoforce select 确定哪些进入选择方程的变量,two采用heckman(1979)两步有效估计方法。robust给出文件的标准差;nshazard或mills给出逆米尔斯指标;first给出选择方程的probit估计结果。rhosigma| rhotrunc | rholimited | rhoforce 给出哪些相关系数落在-1,1之外的情形的处理,默认选项为rhosigma。举例:已婚妇女的劳动力市场参与对已婚妇女的数据进行样本的选择性纠正。工资方程的因变量log(wage),解释变量为educ,exper,expersq。为了检验和纠正(因为观测不到哪些为工作妇女的工资而导致了)样本选择性偏误,就需要估计一个劳动力市场参与的probit模型。选择方程除了上述的受教育水平、工作经验外,还包括:其他家庭收入、年龄、幼年子女个数、年龄较大的子女个数(暗含的假定是这些变量不影响工资而影响选择是否进入劳动力市场)。纠正办法是利用Heckman(1979)的两步修正模型。首先利用一个概率单位模型(Probit model),估算出个体选择进入劳动力市场的概率,利用估算结果计算逆Mills比率得到变量;然后将其代入到工资方程中,来纠正样本的选择性偏差,矫正后会降低人力资本的收益率(尤其是女性的)(Harmon,1998)。估计的结果:(1)两步估计(还可以处理哪些相关系数落在-1,1之外情形)heckman lwage educ exper expersq,select(educ exper expersq nwifeinc age kidslt6 kidsge6) two估计结果如下:Coef.Std. Err.zP>z95% Conf.Intervallwageeduc.1090655.0155237.030.000.0786411.13949exper.0438873.01626112.700.007.0120163.0757584expersq-.0008591.0004389-1.960.050-.00171941.15e-06_cons-.5781032.3050062-1.900.058-1.175904.019698selecteduc.1309047.02525425.180.000.0814074.180402exper.1233476.01871646.590.000.0866641.1600311expersq-.0018871.0006-3.150.002-.003063-.0007111nwifeinc-.0120237.0048398-2.480.013-.0215096-.0025378age-.0528527.0084772-6.230.000-.0694678-.0362376kidslt6-.8683285.1185223-7.330.000-1.100628-.636029kidsge6.036005.04347680.830.408-.049208.1212179_cons.2700768.5085930.530.595-.72674731.266901millslambda.0322619.13362460.240.809-.2296376.2941613rho0.04861sigma.66362875lambda.03226186.1336246通过观测的显著性得知样本选择性偏误不是很明显,所以我们可以比较放心地使用回归方程。(2)极大似然估计要求知道y和s的联合分布,更为复杂,如果采用前面的程序检验发现样本选择问题不大,就没有必要继续;否则采用两步估计值或是极大似然估计同时估计回归和选择方程。heckman lwage educ exper expersq,select(educ exper expersq nwifeinc age kidslt6 kidsge6)Coef.Std. Err.zP>z95% Conf.Intervallwageeduc.1083502.01486077.290.000.0792238.1374767exper.0428369.01487852.880.004.0136755.0719983expersq-.0008374.0004175-2.010.045-.0016556-.0000192_cons-.5526973.2603784-2.120.034-1.06303-.0423651selecteduc.1313415.02538235.170.000.0815931.1810899exper.1232818.01872426.580.000.0865831.1599806expersq-.0018863.0006004-3.140.002-.003063-.0007095nwifeinc-.0121321.0048767-2.490.013-.0216903-.002574age-.0528287.0084792-6.230.000-.0694476-.0362098kidslt6-.8673988.1186509-7.310.000-1.09995-.6348472kidsge6.0358723.04347530.830.409-.0493377.1210824_cons.2664491.50895780.520.601-.73108981.263988/athrho.026614.1471820.180.857-.2618573.3150854/lnsigma-.4103809.0342291-11.990.000-.4774687-.3432931rho.0266078.1470778-.2560319.3050564sigma.6633975.0227075.6203517.7094303lambda.0176515.0976057-.1736521.2089552LR test of indep. eqns. (rho = 0): chi2(1) = 0.03 Prob > chi2 = 0.8577从的显著性可以发现,不显著,说明样本选择性偏误不是很大,而且我们不能拒绝,接下来我们看直接回归的结果:lwageCoef.Std. Err.tP>t95% Conf.Intervaleduc.1074896.01414657.600.000.0796837.1352956exper.0415665.01317523.150.002.0156697.0674633expersq-.0008112.0003932-2.060.040-.0015841-.0000382_cons-.5220406.1986321-2.630.009-.9124667-.1316144差别很小,除了教育回报率的估计相差大约0.1个百分点。其他命令:1 Heckprob:maximum likelihood probit estimation with selection;2 Hetprob:maximum likelihood heteroskedastic probit estimation.