专题二古典线性回归模型的扩展.ppt
《专题二古典线性回归模型的扩展.ppt》由会员分享,可在线阅读,更多相关《专题二古典线性回归模型的扩展.ppt(99页珍藏版)》请在三一办公上搜索。
1、高级计量经济学,专题二 古典线性模型的扩展,黄炳艺 厦门大学管理学院会计系,专题二 古典线性模型的扩展,第一章 多重共线性,3,第一节 多重共线性的概述,一、多重共线性的概念对于模型 Yi=0+1X1i+2X2i+kXki+i(i=1,2,n)其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中:ci不全为0,则称为解释变量间存在完全多重共线性(perfect multicollinearity)。如果存在 c1X1i+c2X2i+ckXki+
2、vi=0=0 i=1,2,n 其中ci不全为0,vi为随机误差项,则称为不完全多重共线性 或称近似共线性(approximate multicollinearity),4,在矩阵表示的线性回归模型 Y=X+中,完全共线性指:秩(X)k+1,即,中,至少有一列向量可由其他列向量(不包括第一列)线性表 如:X2=X1,则X2对Y的作用可由X1代替。,5,二、多重共线性的来源:1、解释变量受同一因素的影响,如经济发展、政治事件、时间趋势等2、经济变量之间的内在联系3、解释变量中含有当期和滞后变量。在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然
3、,两期收入间有较强的线性相关性。,6,一、完全多重共线性 以两个解释变量的回归模型为例,假定回归模型为:,如果采用OLS估计,则有:,根据最小平方和原则,并求解正规方程组,可得到:,第二节 多重共线性的影响,7,如果X2与X3存在完全共线性,即,则:,8,因此,存在完全共线性时,不能利用OLS估计参数,参数的方差变为无限大。,9,二、不完全多重共线性 假定X2,X3 间存在不完全多重共线性,以离差形式表示为:。其中vi为随机项。则:,10,11,多重共线性的影响:,(1)参数估计值的方差增大,估计量的精度大大降低。影响预测结果(准确度和置信区间)。(2)参数估计值的标准差增大,使的 t 检验值
4、变小,增大了接受H0,舍弃对因变量有显著影响的变量。(3)尽管t 检验不显著,但是R2仍可能非常高。(4)OLS估计量对观测值的轻微变化相当敏感。,显然,当解释变量X2、X3 之间的相关系数 r23 的绝对值越大,共线性程度就越高,参数估计值的方差就越大,越不准确,且随着相关系数的增大,方差以更大的幅度增加。,12,多重共线性检验的任务是:(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。1根据回归结果判别 判别是否存在多重共线性的最简单方法是分析回归结果。如果发现:系数估计值的符号不对;某些重要的解释变量t值低,而R2不低;当一不太重要的解释变量被删除后
5、,回归结果显著变化。则可能存在多重共线性。其中上述第二种现象是多重共线性存在的典型迹象。方法简便易行,因而是实践中最常用的方法,缺点是无法确诊。,第三节 多重共线性的检验,13,2使用相关矩阵检验 统计软件一般提供各解释变量两两之间的相关系数矩阵,如发现某些相关系数高(绝对值高于0.8或0.90),则表明多重共线性存在。但即使解释变量两两之间的相关系数都低,也不能排除存在多重共线性的可能性。3通过条件指数检验 条件(病态)数(Condition number)和条件(病态)指数(Condition index)分别是XX矩阵的最大和最小特征根之比的及其平方根,条件指数高,表明存在多重共线性。至
6、于什么程度算高,也没有一个绝对的标准。通常认为大于10即存在多重共线性,大于30表明存在严重多重共线性。,14,4、F检验 可以采用辅助回归的方法,分别以k-1个解释变量中的第i个对其他变量进行回归,可得到k-2个回归方程的判定系数:R22,R32,Rk2。假定这些判定系数中Rj2最大且接近1,则变量Xj 与其他解释变量中的一个或多个有较高相关程度,因此回归方程出现高度多重共线性。可以进行F检验确定其显著性:,选择显著水平,计算F 统计量的值,与F分布表中的临界值进行比较,若F检验值小于临界值,则多重共线性不显著,反之,则多重共线性显著。,15,5.使用VIF检验 VIF是方差膨胀因子的英文(
7、Variance Inflation Factors)缩写,这是一种比较正规的检验方法。该方法通过检查指定的解释变量能够被回归方程中其它全部解释变量所解释的程度来检测多重共线性。方程中每个解释变量有一个VIF,该VIF是关于多重共线性使相应的系数估计值的方差增大了多少的一个估计值。高VIF表明多重共线性增大了系数估计值的方差,从而产生一个减小了的t值。,16,VIF检验的具体步骤如下:设原方程为:Y=1+2X2+3X3+kXk+u 我们需要计算K个不同的VIF,每个Xi一个。为指定Xi计算VIF涉及以下三步:(1)Xi 对原方程中其它全部解释变量进行OLS回归,例如,若i=2,则回归下面的方程
8、:X2=1+2X3+k-1Xk+v(2)计算方差膨胀因子(VIF):其中Ri2是第一步辅助回归的决定系数。,17,(3)分析多重共线性的程度 VIF越高,多重共线性的影响越严重。由于没有VIF临界值表,我们只能使用经验法则:若,则存在严重多重共线性。6、容忍度(Tolerance)与VIF等价的指标,其定义为:显然,;当 与其他解释变量高度相关时,。因此,一般当 时,认为存在较严重的多重共线性。,18,第四节 多重共线性的处理,如果发现变量之间存在高度得多重共线性,就必须消除这种多重共线性的影响,保证模型的正确性和估计的有效性。有以下几种解决方法。一、样本的处理1、增加样本容量 如果多重共线性
9、是由样本引起,增加样本容量可以减少多重共线性的程度。以二元线性回归方程为例,根据第二节的结果,参数估计值的方差为:,当样本容量增大时,增大,方差将减小,可以提高参数估计的精度。,19,2、横截面数据与时间序列数据并用 如果时间序列数据中,解释变量间存在高度相关,可以先使用横截面数据估计出存在高度相关解释变量中的一个或多个,然后再在时间序列数据中剔除这些变量,在消除多重共线性影响下估计因变量与剩余变量间的回归式。,例如,为了估计汽车需求的价格弹性和收入弹性,得到销售量、平均价格、消费者收入的时间序列数据。设定回归式:,新的回归式中消除了多重共线性的影响。,由于在时间序列数据中价格Pt、收入It
10、一般都具有高度共线的趋势。因此,直接估计上面的回归式将存在问题。由于在同一时点上,价格与收入的相关程度不高,可以先利用截面数据估计出收入弹性,再利用这一估计结果修改原回归式,变为:,20,二、模型的处理,如果作为解释变量的某些经济变量间出现高度相关,而进行回归分析的目的是为了预测,不是研究单个经济变量对因变量的影响时,可以根据实际问题,改变模型模型的形式。,如果时间序列数据中,解释变量间存在高度相关,那么这些变量的差分之间不一定相关。因此利用差分进行回归能降低多重共线性的程度。,21,三、解释变量的处理,1、除去不重要的变量 把回归模型中引起多重共线性,而对因变量的影响不大的变量删除。(但是变
11、量的剔除可能导致模型的设定偏误)2、解释变量加工 3、主成分回归:可将共线性变量组合在一起形成一个综合指数(变量),用它来代表这组变量。构造综合指数的最常用方法是主成分法。,22,主成分的特点是,各主成分之间互不相关,并且,用很少几个主成分就可以解释全部X变量的绝大部分方差,因而在出现多重共线性时,可以用主成分替代原有解释变量进行回归计算,然后再将所得到的系数还原成原模型中的参数估计值。4、逐步回归法 以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化(或其他标准)决定新引入的变量是否独立。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度
12、变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。,23,筛选变量方法:1、向前回归法(Forward):该法将先比较选择其中最好的一个自变量纳入回归方程,然后再选择另一个最好的加人回归方程,直至所有符合标准的变量全部进入回归模型。2、向后回归法(Backward):该法将所有变量一次纳入回归方程,然后根据标准删除一个最不显著变量,再做一次回归判断其余变量的取舍,直至保留变量都达到要求。3、逐步回归(Stepwise):结合向前回归法和向后回归法。,24,引入自变量的显著性水平1剔除自变量的显著性水平2,对不在方程中的自变量能否引入?,引入自变量,对已在方程中的自变量能否剔除?,剔
13、除自变量,筛选结束,能,否,能,否,逐步回归的基本步骤,25,四、案例中国粮食生产函数,根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1)、粮食播种面积(X2)、成灾面积(X3)、农业机械总动力(X4)、农业劳动力(X5)已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=0+1 X1+2 X2+3 X3+4 X4+4 X5+,26,27,28,29,30,31,32,专题二 古典线性模型的扩展,第二章 异方差,34,一.异方差性Yi=0+1 X1i+2X2i+k Xki+i i=1,2,3,nY1=0+1 X11+2X21+k Xk1+1Y2=0+1 X12+2X2
14、2+k Xk2+2Y3=0+1 X13+2X23+k Xk3+3Yn=0+1 X1n+2X2n+k Xkn+n同方差性 D(i)=E(i2)=2 for i=1,2,3,n对于不同的样本点,随机误差项的离散程度相同,第一节 异方差性及其产生原因,35,随机误差项的分布曲线,PRF:Yi=0+1 Xi+i E(Yi)=0+1 Xi,i=Yi-E(Yi)=Yi(0+1 Xi)Xi 为设定值,i和Yi 分布相同 D(Yi)=D(i),Xi,Yi(i)的分布曲线形状相同 D(i)=2,36,Yi,Xi,X1 X2 X3,E(Yi)=0+1 Xi,Xi,Yi(i)围绕PRF均匀散布,37,X D(i)=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 专题 古典 线性 回归 模型 扩展
链接地址:https://www.31ppt.com/p-2268347.html