第七章自变量选择与逐步回归课件.ppt
2023/3/18,中国人民大学六西格玛质量管理研究中心,1,第7章 自变量选择与逐步回归,7.1 自变量选择对估计和预测的影响 7.2 所有子集回归7.3 逐步回归 7.4 实例与评注,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,2,第7章 自变量选择与逐步回归,在建立一个实际问题的回归模型时,首先碰到的问题便是如何确定回归自变量,一般情况,大都是根据所研究问题的目的,结合实际问题理论罗列出对因变量可能有影响的一些因素作为自变量。如果遗漏了某些重要的变量,回归方程的效果肯定不会好;如果担心遗漏了重要的变量,而考虑过多的自变量,在这些变量中,某些自变量对问题的研究可能并不重要,有些自变量数据的质量可能很差,有些变量可能和其他变量有很大程度的重叠。如果回归模型把这样一些变量都选进来,不仅计算量增大好多,而且得到的回归方程稳定性也很差,直接影响到回归方程的应用。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,3,第7章 自变量选择与逐步回归,从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,4,7.1 自变量选择对估计和预测的影响,一、全模型和选模型,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,5,7.1 自变量选择对估计和预测的影响,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,6,7.1 自变量选择对估计和预测的影响,自变量的选择我们可以看成是对一个实际问题是用(7.1)式全模型还是用(7.2)式选模型去描述。如果应该用(7.1)式全模型去描述实际问题,而我们误选了(7.2)式选模型,这就说明我们在建模时丢掉了一些有用的变量;如果应该选用(7.2)式选模型,而我们误选了模型(7.1)式,这就说明我们把一些不必要的自变量引进了模型。模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,7,7.1 自变量选择对估计和预测的影响,二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况考虑,第一种情况是全模型(7.1)式正确而误用了选模型(7.2)式;第二种情况是选模型(7.2)式正确而误用了全模型(7.1)式。以下分别考虑这两种情况对回归的影响。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,8,7.1 自变量选择对估计和预测的影响,(一)全模型正确而误用选模型的情况,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,9,7.1 自变量选择对估计和预测的影响,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,10,7.1 自变量选择对估计和预测的影响,性质1和性质2表明,当全模型(9.1)式正确时,而我们舍去了m-p个自变量,用剩下的p个自变量去建立选模型(9.2)式,参数估计值是全模型相应参数的有偏估计,用其作预测,预测值也是有偏的。这是误用选模型产生的弊端。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,11,7.1 自变量选择对估计和预测的影响,性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测偏差的方差下降了。这说明尽管全模型正确,误用选模型是有弊也有利的。性质5说明即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,我们丢掉这些变量之后,用选模型去预测,可以提高预测的精度。由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,12,7.1 自变量选择对估计和预测的影响,(二)选模型正确而误用全模型的情况,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,13,7.1 自变量选择对估计和预测的影响,一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本指导思想是“少而精”。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,14,7.1 自变量选择对估计和预测的影响,哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选模型估计的保留变量的回归系数的方差,要比由全模型所估计的相应变量的回归系数的方差小。而且,对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计量是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。自变量的选择有重要的实际意义。在建立实际问题的回归模型时,我们应尽可能剔除那些可有可无的自变量。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,15,7.2 所有子集回归,一、所有子集的数目,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,16,7.2 所有子集回归,二、关于自变量选择的几个准则,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,17,7.2 所有子集回归,在第五章,曾从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的。还曾用复相关系数R来衡量回归拟合的好坏。但是当自变量子集在扩大时,残差平方和随之减少,而复判定系数随之增大。如果按残差平方和越小越好的原则来选择自变量子集,或者为提高复相关系数,不论什么变量只要多取就行,则毫无疑问选的变量越多越好。这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差积累,参数数目的增加,将使估计值的误差增大。如此构造的回归模型稳定性差,使得为增大复相关系数R而付出了模型参数估计稳定性差的代价。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,18,7.2 所有子集回归,残差平方和、复相关系数或样本决定系数都不能作为选择变量的准则。下面从不同的角度给出几个常用的准则。准则1 自由度调整复相关系数达到最大。准则2 赤池信息量AIC达到最小。,上面我们从不同角度介绍了三个准则,自变量选择的准则还有一些,就不一一列举了。下面用一个例子,对所有回归子集计算上述3个准则,综合比较一下“最优”回归子集的选择。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,19,7.2 所有子集回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,20,7.2 所有子集回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,21,7.2 所有子集回归,因为这个实际问题所涉及的自变量本来就较少,只有3个,所以从几个准则看到全模型是“最优”的。这种情况在自变量只有少数几个时是常见的,但当涉及的自变量数目较多时,很少见到全模型是最优的。我们讲的最优是相对而言,在实际问题的选模中,应综合考虑,或根据实际问题的研究目的从不同最优角度来考虑。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,22,7.2 所有子集回归,如有时希望模型各项衡量准则较优,得到的模型又能给出合理的经济解释;有时只从拟合角度考虑;有时只从预测角度考虑,并不计较回归方程能否有个合理解释;有时要求模型的各个衡量准则较优,而模型最好简单些,涉及变量少些;有时还看回归模型参数估计的标准误差大小等。因此,上述一些准则只给了我们选择模型的一些参考,最终的选择既应依上述几个准则作基本参考根据,又要考虑实际问题的性质和需要。三、用SAS软件寻找最优子集,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,23,7.2 所有子集回归,利用sas软件得部分结果,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,24,7.2 所有子集回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,25,7.2 所有子集回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,26,7.2 所有子集回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,27,7.3 逐步回归,一、问题的提出及逐步回归的思想当可供选择的自变量不太多时,用前边j讲过的方法可以求出一切可能的回归方程,然后用几个选元准则去挑出“最好”的方程,但是当自变量的个数较多时,要求出所有可能的回归方程是非常困难的。为此,人们提出了一些较为简便、实用、快速的选择“最优”方程的方法。1、前进法前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,28,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,29,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,30,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,31,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,32,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,33,7.3 逐步回归,2、后退法后退法与前进法相反,首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除。在第4章的回归系数的显著性检验中,用的就是这种思想,把回归系数检验的F值最小者对应的自变量剔除。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,34,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,35,7.3 逐步回归,前进法和后退法显然都有明显的不足。前进法可能存在这样的问题,即不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的,但当引入其他自变量后它变得并不显著了,但是也没有机会将其剔除,即一旦引入,就是“终身”的。这种只考虑引入,而没有考虑剔除的做法显然是不全面的。而且,我们在许多例子中会发现可能最先引入的某个自变量,当其他自变量相继引入后,它会变得对因变量y很不显著。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,36,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,37,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,38,7.3 逐步回归,后退法的明显不足是,一开始把全部自变量引入回归方程,这样计算量很大。如果有些自变量不太重要,一开始就不引入,就可减少一些计算量。再就是一旦某个自变量被剔除,“一棍子就把它打死了”,它再也没有机会重新进入回归方程。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,39,7.3 逐步回归,然而在实际中很难碰到自变量间真正无关的情况,尤其是经济问题中,所研究的绝大部分问题,自变量间都有一定的相关性。这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的影响也会发生变化。这是因为自变量间的不同组合,由于它们相关的原因,对因变量y 的影响可能大不一样。如果几个自变量的联合效应对y有重要作用,但是单个自变量对y的作用都不显著,那么前进法就不能引入这几个自变量,而后退法却可以保留这几个自变量,这是后退法的一个优点。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,40,7.3 逐步回归,从前进法和后退法的思想及方法,以及我们看到它们的不足,人们比较自然地想构造一种方法,吸收前进法和后退法的优点,克服它们的不足,把两者结合起来,这就有了逐步回归的思想。二、逐步回归法逐步回归的基本思想是“有进有出”。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,41,7.3 逐步回归,逐步回归的计算实施过程可以利用SPSS软件在计算机上自动完成,我们要求关心应用的读者一定要通过前边的叙述掌握逐步回归方法的思想,这样才能用对用好逐步回归。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,42,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,43,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,44,7.3 逐步回归,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,45,7.3 逐步回归,从逐步回归模型的结果来看,x8教育事业费支出对地区生产总值的提高有正的促进作用,加大教育事业费的支出可以极大的促进地区经济的发展;x13城市维护费支出对地区生产总值的提高也有正的促进作用,提高城市形象和加大基础设施建设才能吸引更多投资,进而促进地区经济的发展;,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,46,7.3 逐步回归,x10卫生经费支出对地区生产总值的提高起了负的作用,卫生经费支出的绩效难以衡量,其所提供的商品或劳务,不可能以任何形式进入市场交换,也就不能创造直接的经济收益,而且卫生经费支出是为国家创造或改善生产条件、增进社会福利,满足人民卫生需要,更多的是体现了一种社会公平,最主要的是我国人均卫生经费远远低于世界平均水平,在近几年赶超世界平均水平过程中出现大量缺口,当前形势就是卫生经费支出大于卫生条件的提高所带来的经济收益;x2企业挖潜改造资金对地区生产总值的提高也起了负的作用,企业的改造所带来的经济效益不会短期内有较明显的效果,具有一定的延迟性,当年的表现就是支出大于收入。有时为了方便回归方程的实际解释可在逐步回归的几个子方程中选择某个作为最终方程。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,47,7.3 逐步回归,逐步回归的选元过程是逐步回归方法的有进有出的思想。这种有进有出的结果说明自变量之间具有相关性,如果自变量之间是完全不相关的,那么引入的自变量就不会再被剔除,而剔除的自变量也就不会再被引入,这时逐步回归方法与前进法的结果是相同的。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,48,7.4 实例与评注,一、逐步回归实例分析例7.5 为了研究香港股市的变化规律,此例以恒生指数为例,建立回归方程,分析影响股票价格趋势变动的因素。这里研究的股票价格指数,并非某一种股票的价格,它是综合反映股票市场上所有上市股票价格整体水平变化的指标。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,49,7.4 实例与评注,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,50,7.4 实例与评注,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,51,7.4 实例与评注,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,52,7.4 实例与评注,香港作为国际金融中心之一,它的证券市场是高度向国际开放的。事实上,1987年以前,香港证券市场上的股份所有权有50%以上掌握在外国经营机构手中,因此,从理论上讲作为反映港币汇率水平的主要指标港汇指数应该与股票价格有高度相关,但事实并非如此。原因何在?,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,53,7.4 实例与评注,观察19741988年的港汇指数值,可以看出除1981年、1982年出现大起大落外,港汇指数的波动一直处于比较平稳的状态,说明港币一直比较坚挺。(至于1981年、1982年我们应把它视为特殊年份,1981年提出香港回归问题,1982年英首相访华,正是这一连串的政治事件造成了港币汇率的大幅变动。)由于汇率波动不大,自然对股价不会产生很大的影响。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,54,7.4 实例与评注,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,55,7.4 实例与评注,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,56,7.4 实例与评注,如果进一步作回归诊断,可以发现该回归模型满足正态性假设,无异方差、无序列相关等。因此,运用该回归方程可以对恒生指数的变动成因作一些分析。影响恒生指数的主要因素为成交额、人均生产总值和房地产买卖金额。成交额作为反映市场因素的主要指标对股票价格有着重要的影响。香港股市上,成交额每增长100万港元,恒生指数上涨0.355个百分点。人均生产总值是反映经济状况的主要指标,它代表了经济环境对股票价格的影响,香港人均生产总值每上升100港元,恒生指数上涨1.286个百分点。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,57,7.4 实例与评注,另外,房地产买卖金额每增加100万港元,恒生指数上涨0.442个百分点,这是香港股市区别于其他股票市场的一大特色。香港的证券市场反映了香港的财政与贸易活动,但证券市场的大部分资金却投入了房地产部门,因为不动产是香港投资商致富的主要源泉。因此,房地产事业相应地对股票市场产生了重大影响,它的影响程度甚至强于其他所有因素。所以说,这是香港股市的一大特色。二、评注从本章7.1讨论的自变量选择对参数估计和预测的影响来看,自变量的选择是回归分析建模中的一个非常重要的基本问题。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,58,7.4 实例与评注,在对一个实际经济问题建立回归模型时,首先根据经济理论和采集样本数据的条件限制,来定性地确定一些对所研究经济现象有重要影响的因素,这些因素就是所谓的自变量。由于我们认识水平的局限,从事物的表面很难分清哪些自变量对因变量有重要影响,哪些自变量间存在着严重的相关性。而且通常可能会认为研究某个经济现象的回归问题,考虑的越细越周到肯定会好,这样自然就会罗列出很多自变量。通过自变量选择对参数估计和预测的影响分析,我们得到的重要结论是,回归方程并非自变量越多越好,当一些对因变量影响不大的自变量进入回归方程后,反而会使参数估计的稳定性变差,预测误差的方差增大。因此,回归模型中应该保留对因变量影响最显著的变量,即变量的个数和质量要求是“少而精”。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,59,7.4 实例与评注,由于变量之间的相关性,自变量间不同的组合对因变量y的影响是不一样的,那么到底哪些自变量子集对应的回归方程是“最优”的方程,这就要根据我们介绍的几个衡量准则在所有自变量子集中去挑选。挑选“最优”的回归方程就是选择“最优”自变量子集。这里的最优打着引号实际上是指一个相对好的回归方程,没有绝对的最优。我们所选的最优回归方程也是根据研究问题的性质和目的,用不同的准则来衡量的结果。同一个回归子集在不同的准则衡量下结果可能是不一样的。选择哪一个回归子集,用哪一个衡量准则要根据我们研究问题的目的。回归模型常用的三个方面是:结构分析、预测、控制。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,60,7.4 实例与评注,如果我们想通过回归模型去研究经济变量之间的相互联系,即作结构分析,则在选元时可考虑适当放宽选元标准,给回归方程中保留较多的自变量,但这时需注意回归系数的正负号,看它们是否符合经济意义。如果我们希望回归方程简单明了,易于理解,则应采用较严的选元标准。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,61,7.4 实例与评注,在所研究的问题涉及的自变量较多时,即使针对某一给定的用途,根据某种准则也往往会发现自变量子集有几组几乎同样“好”,这时就要附加其他信息。整个选择过程应该是注重实效,并要进行大量的主观判断。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,62,7.4 实例与评注,有学者认为统计学是研究、分析数据的艺术,实际是说我们不应过于依赖什么准则,不应单纯地机械搬用,在应用时还应注意运用的技巧,综合各方面信息,选择“最优”回归模型。还需说明的是,由所选择的自变量子集并不能完全决定要使用的模型,还必须作其他的判定,如自变量是否是线性的,是否要用变换的形式或者是否要用二次项,以及模型是否应该包含交互作用项。对p个自变量的线性回归问题中如何选择出某种准则意义下的“最优”回归方程,这方面的计算方法是十分重要的。从20世纪60至70年代统计学家们十分关注这些问题。20世纪60年代提出的一些算法,基本上只能处理含10至12个自变量的回归问题。,目录 上页 下页 返回 结束,2023/3/18,中国人民大学六西格玛质量管理研究中心,63,7.4 实例与评注,而Furnial和Wilson提出的算法较完美地解决了节省计算量、存储量以及减少计算误差的问题,它可以计算含30多个自变量的所有可能的子集回归,而所需的计算时间与逐步回归大体相当(参见参考文献10)。Furnial和Wilson的方法尽管设计很巧妙,但对自变量多于30的大型回归问题,计算量仍然是很大的。逐步回归目前被认为是研究多个自变量建模较为理想的方法,运用该方法已有许多较为完美的例子,因而今天逐步回归的应用已非常普遍。许多统计软件都有逐步回归的子菜单可供选择。,目录 上页 下页 返回 结束,The end!Thanks!,2023/3/18,中国人民大学六西格玛质量管理研究中心,64,