《标准与检验》PPT课件.ppt
第七章 模型选择:标准与检验,上海立信会计学院,本章的主要内容如下:1.“好的”或者“正确”的模型具有的性质2.在实践中容易犯哪几种设定误差?3.各种设定误差的后果是什么?4.如何诊断设定误差?5.如果已经犯了设定误差,可以采取哪些补救措施重新回到“正确的”模型。,一、“好的”模型具有的性质,著名经济计量学家哈维()列出了模型判断的一些标准,主要包括如下内容:1.简约性(parsimony)2.可识别性(identifiability)3.拟合优度(goodness fit)4.理论一致性(theoretical consistency)5.预测能力(predictive power),二、设定误差的类型,设定误差的类型很多,本节主要介绍一些实践中经常遇到的设定误差。1.遗漏相关变量 2.包括不必要变量 3.采用了错误的函数形式 4.度量误差 注意:本章通过双变量模型和三变量模型介绍模型设定误差的基本性质。,(一)遗漏相关变量:“过低拟合模型”,假设实际的模型如下:而估计的模型如下:两个模型中,与 都是随机误差项。以上例子中,遗漏相关变量可能导致的后果如下:.如果遗漏变量与模型中的变量相关,则和是有偏的。也就是说,其均值或期望值与真实值不一致。用符号表示为:根据推导,下式成立:.和也是不一致的,即无论样本容量有多大,偏差也不会消失。.如果 和 不相关,则为零,即是无偏的,同时也是一致的。,4.根据两变量模型得到的误差方差是真实误差方差 的有偏估计量。5.此外,通常估计的 的方差()是真实估计量方差的有偏估计量。即使 等于零,这一方差仍然是有偏的。6.通常的置信区间和假设检验过程不再可靠。置信区间将会变宽,因此可能会“更频繁地”接受零假设:系数的真实值为零。(二)包括不相关变量:“过度拟合”模型假定正确的模型如下:而错误设定的“过度拟合”的模型如下:,过度拟合模型通常会导致如下后果:1.过度拟合模型的估计两是无偏的(也是一致的)。即:2.从过度拟合方程得到的 的估计量是正确的。3.建立在t检验和F检验基础上的标准的置信区间和假设检验仍然是有效的。4.从过度拟合模型中估计的a是无效的其方差比真实模型中估计的b的方差大。因此,建立在a的标准误上的置信区间比建立在b的标准误上的置信区间宽,尽管前者的假设检验是有效的。总之,从过度拟合模型中得到的OLS估计量是线性无偏估计量,但不是最优先性无偏估计量。比较“过度拟合”和“过低拟合”所导致的后果,可以得到这样一个结论:包括不相关变量比遗漏相关变量要好。但不能简单地认为,增加变量就可以了,因为增加不必要的变量会损失估计量的有效性,也可能导致多重共线性问题,还会损失自由度。,(三)不正确的函数形式 假设有如下两个模型:首先应该知道的是,如果选了错误的函数形式,则估计的系数可能是真实系数的有偏估计量。问题是:如何根据一个样本在这两个模型间进行选择呢?假如有如下例子:下表给出了1968-1987年美国进口货物的支出(Y)和个人可支配收入(X)的数据。,美国进口货物的支出与个人可支配收入数据表 1968年-1987年,利用这些数据分别拟合以上两个模型得到:,线性模型的拟合结果,对数线性回归模型的拟合结果,从以上这两个例子的回归结果可知:所有的回归系数都是统计显著的,而且两个模型的判定系数 都很高。我们无法根据这些因素来判别两个模型的优劣。当然,这些因素都不是区别这两类模型拟合数据优劣的主要标准,因为,在实际应用中有一种专门判别这两类模型拟合数据优劣性的方法。(本章后面的内容会涉及到这个问题)(四)度量误差1.应变量中度量误差对回归结果的影响(1)OLS估计量是无偏的(2)OLS估计量的方差也是无偏的(3)估计量的估计方差比没有度量误差时的大,因为应变量中的误差加入到了误差项中。,2.解释变量的度量误差对回归结果的影响(1)OLS估计量是有偏的(2)OLS估计量也是不一致的。解决方法:如果解释变量中存在度量误差,建议使用工具变量或替代变量。三、设定误差的诊断本部分的内容包括:1.诊断非相关变量2.对遗漏变量和不正确函数形式的检验3.在线性和对数线性模型之间选择:MWD检验4.回归误差设定检验:RESET,(一)诊断非相关变量的存在假定有如下模型:下面有两种情况需要确定:1.如果经济理论表明所有这3个X变量都对Y有影响,那么就应该把它们都纳入模型,即使实证检验发现一个或多个解释变量的系数是统计不显著的。这种情况下不会产生非相关变量的问题。2.如果有时候为了避免遗漏变量偏差,模型纳入了一些控制变量,而且控制变量是统计非显著的,则从模型中删除这些控制变量并不会显著改变点估计值或假设检验的结果。假定我们无法确定上述模型中的X4是否应该属于模型,那么就要对上述模型进行OLS估计,并检验b4的显著性。如果不能拒绝零假设,那么X4就可能属于该模型。但,如果同时不能确定X3和X4是否应该属于模型,则需要检验假设,例如:85个国家的生命预期。回归结果如下:,生命预期模型回归结果,当把获得保健的平方加入到模型中后,获得保健与获得保健的平方项都不再是统计显著的。为了验证获得保健的平方和获得保健两项是否是多余的。采用了F检验,结果表明获得保健和获得保健平方不是多余变量。去掉获得保健平方项后,重新回归结果表明获得保健对生命预期有明显影响。(二)对遗漏变量和不正确函数形式的检验 假如理论表明解释变量和应变量之间是反向关系,那么,在众多可以表示反向关系的模型中究竟采用哪一个?比方说如下的表示反向关系的模型。,我们无法明确回答这个问题。实践中通常按照如下步骤进行判断:首先根据理论或调查以及以前的实践经验,建立一个自认为抓住了问题本质的模型。然后对这个模型进行实证检验,才能知道所选模型是否恰当。通常用于判断模型是否恰当的一些指标有:1.判定系数和校正后的()。2.估计的值。3.与先验预期相比,估计系数的符号。得到回归结果后,根据以上几个准则进行判断,如果不理想,那么就要考虑模型是否恰当,并寻求补救措施。常用的探求“病因”的方法主要有:(1)残差图;(2)MWD检验;(3)RESET检验()残差检验以1968-1987年美国进口货物的支出(Y)和个人可支配收入(X)的关系为例。,假如我们错误地去掉了时间趋势项而估计了如下模型:回归结果如下:如果包含趋势项的模型是正确的模型,但却使用了没有趋势项的模型,则隐含地认为以上模型的误差项为:根据没有时间趋势项的模型画出的残差图如下:,有时间趋势项和没有时间趋势项模型的残差图,注:S1是没有时间趋势项模型的残差图,S2是有时间趋势项模型的残差图,2.在线性和对数线性模型之间选择:MWD检验依然以美国进口货物的支出为例,如下两个待估模型:MWD检验的步骤如下:(1)设定如下假设。H0:线性模型:Y是X的线性函数 H1:对数线性模型:lnY是X或lnX的线性函数(2)估计线性模型,得到Y的估计值(3)估计线性对数模型,得到lnY的估计值(4)求(5)做Y对X和 的回归,如果根据t检验 的系数是统计显著的,则拒绝H0(6)求(7)做lnY对X或lnX和 的回归,如果 的系数是统计显著的,则拒绝H1,3.回归误差设定检验:RESET 为了检验出遗漏的变量或不正确的函数形式,拉姆齐建立了模型设定检验的一般方法。仍以进口支出一例为例。仅做进口支出(Y)对个人可支配收入(X)的回归,结果如下:将残差对 作图,得到下图。从残差图中可以看到,残差的值随着Y值呈现某种变动样式。这说明在上面的双变量模型中,如果把估计的Y值,以某种形式的解释变量纳入模型,则会提高。如果增加的是统计显著的,则表明原始模型是错误设定的。这就是RESET的核心思想。RESET的检验步骤如下:(1)根据模型估计出Y值。(2)把的高次幂,等纳入模型以获取残差和之间的系统关系。由于上图表明残差和估计的Y值之间可能存在曲线关系,因而考虑如下模型:,残差对估计值的散点图,(3)令从以上模型中得到的为,从前一个方程得到的为,然后利用如下检验判别从以上方程中增加的是否是统计显著的。(4)如果在所选的显著水平下计算的值是统计显著的,则认为原始模型是错误设定的。,