自变量的选择与逐步回归课件.ppt
《自变量的选择与逐步回归课件.ppt》由会员分享,可在线阅读,更多相关《自变量的选择与逐步回归课件.ppt(60页珍藏版)》请在三一办公上搜索。
1、第5章 自变量的选择与逐步回归,5.1 自变量选择对估计和预测的影响5.2 所有子集回归5.3 逐步回归5.4 本章小结与评注,第5章 自变量选择与逐步回归,从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。,5.1 自变量选择对估计和预测的影响,一、全模型和选模型,设研究某一实际问题涉及到对因变量有影响的因素共有m个,回归模型为:y=0+1x1+2x2+mxm+(
2、5.1)称为全回归模型。如果我们从所有可供选择的m个变量中挑选出p个,记为x1,x2,,xp,构成的回归模型为:y=0p+1px1+2px2+ppxp+p(5.2)称模型(5.2)式为选模型。,5.1 自变量选择对估计和预测的影响,一、全模型和选模型,模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。为了方便,我们把模型(5.1)式的参数估计向量 和2的估计记为:,把模型(5.2)式的参数估计向量记为,5.1 自变量选择对估计和预测的影响,二、自变量选择对预测的影响,关于自变量选择对预测的影响可以分成两种情况:第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而误用
3、了全模型式。,5.1 自变量选择对估计和预测的影响,(一)全模型正确而误用选模型的情况,5.1 自变量选择对估计和预测的影响,(一)全模型正确而误用选模型的情况,5.1 自变量选择对估计和预测的影响,(一)全模型正确而误用选模型的情况,5.1 自变量选择对估计和预测的影响,(一)全模型正确而误用选模型的情况,5.1 自变量选择对估计和预测的影响,(一)全模型正确而误用选模型的情况,5.1 自变量选择对估计和预测的影响,(二)选模型正确而误用全模型的情况,5.1 自变量选择对估计和预测的影响,(二)选模型正确而误用全模型的情况,5.1 自变量选择对估计和预测的影响,(二)选模型正确而误用全模型的
4、情况,上述结论告诉我们,一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本指导思想是“少而精”。哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选模型估计的保留变量的回归系数的方差,要比由全模型所估计的相应变量的回归系数的方差小。而且,对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计量是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。,5.2 所有子集回归,一、所有子集的数目,有m个可供选择的
5、变量x1,x2,,xm,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有2m-1个。从另一个角度看,5.2 所有子集回归,二、关于自变量选择的几个准则,从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的。还曾用复相关系数R来衡量回归拟合的好坏。然而这两种方法都有明显的不足,这是因为:,5.2 所有子集回归,准则1 自由度调整复相关系数达到最大,5.2 所有子集回归,准则1 自由度调整复相关系数达到最大,从另外一个角度考虑回归的拟合效果,回归误差项方差2的无偏估计为:,此无偏估计式中也加入了惩罚因子n-p-1,5.2 所有子集回归
6、,准则1 自由度调整复相关系数达到最大,5.2 所有子集回归,准则2 赤池信息量AIC达到最小,AIC准则是日本统计学家赤池(Akaike)1974年根据极大似然估计原理提出的一种较为一般的模型选择准则,人们称它为Akaike信息量准则(Akaike Information Criterion,简记为AIC)。AIC准则既可用来作回归方程自变量的选择,又可用于时间序列分析中自回归模型的定阶上。由于该方法的广泛应用,使得赤池乃至日本统计学家在世界的声誉大增。,5.2 所有子集回归,准则2 赤池信息量AIC达到最小,设回归模型的似然函数为L(,x),的维数为p,x为样本,在回归分析中样本为y=(y
7、1,y2,yn),则AIC定义为:,5.2 所有子集回归,准则2 赤池信息量AIC达到最小,假定回归模型的随机误差项遵从正态分布,即,N(0,2),对数似然函数为,5.2 所有子集回归,准则2 赤池信息量AIC达到最小,带入公式,中,这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为,AIC=nln(SSE)+2p,对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型,5.2 所有子集回归,准则4 Cp统计量达到最小,1964年马勒斯(Mallows)从预测的角度提出一个可以用来选择自变量的统计量Cp统计量。根据性质5,即使全模型正确,但仍
8、有可能选模型有更小的预测误差。Cp正是根据这一原理提出来的。,5.2 所有子集回归,准则4 Cp统计量达到最小,考虑在n个样本点上,用选模型(5.2)式作回报预测时,预测值与期望值的相对偏差平方和为:,5.2 所有子集回归,准则4 Cp统计量达到最小,可以证明,Jp的期望值是,略去无关的常数2,据此构造出Cp统计量为,5.2 所有子集回归,准则4 Cp统计量达到最小,5.2 所有子集回归,例5.1 y表示某种消费品的销售额,x1表示居民可支配收入,x2表示该类消费品的价格指数,x3表示其他消费品平均价格指数。表5.1给出了某地区18年某种消费品销售情况资料,试建立该地区该消费品销售额预测方程。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自变量 选择 逐步回归 课件
链接地址:https://www.31ppt.com/p-4086578.html