多元线性回归模型蓝色.ppt
《多元线性回归模型蓝色.ppt》由会员分享,可在线阅读,更多相关《多元线性回归模型蓝色.ppt(219页珍藏版)》请在三一办公上搜索。
1、在本章将把一元线性回归模型推广到多元线性回归模型,即在模型中将包含二个以上的解释变量。多元线性回归模型是实践中广泛应用的模型。我们从简单的双解释变量多元线性回归模型入手,然后再将其推广到三个及三个以上解释变量的多元线性回归模型。,第五章 多元线性回归模型,第一节 多元回归模型的定义,一、多元回归模型的意义,在一元线性回归模型中,我们假定影响被解释变量的因素只有一个,即解释变量X,这种情形在经济计量分析中往往是不适宜的。因为在经济系统中,影响被解释变量的重要变量往往不只一个。,例如在收入消费模型中,除了收入影响消费外,还有其它因素明显地影响消费,很明显财富就是影响消费的重要变量。在劳动力市场上,
2、影响工资的变量不仅仅是工作年限,受教育程度也是影响工资的一个重要变量。因此,在回归分析模型中,就需要引进更多的解释变量。,多元回归分析与一元回归分析相比有如下优点,1多元回归分析可以研究多影响因素对被解释变量的影响。,2在模型中增加一些有助于解释Y 的因素,的变动就能更好地予以解释。因此,多元回归分析有助于更好地预测。,3多元回归模型更具有一般性。一元回归模型中,只能有一个解释变量,其函数形式不一定恰当。而多元回归模型具有较大的灵活性,有利于对总体回归模型做出正确的判断。,多元回归模型是经济学和其它社会科学进行计量分析时使用最为广泛的一个工具。,含有两个解释变量的多元回归模型是最简单的多元回归
3、模型。模型形式为,二、含有两个解释变量的多元回归模型,(5.1),其中,Yi 是被解释变量,X2i 和X3i 是解释变量,ui是随机干扰项,i 指第i 项观测。,式(5.1)中的 是截距项。表面上看,代表X2和X3均取0时的Y的均值,但这仅仅是一种机械的解释,实际上 是指所有未包含到模型中来的变量对Y 的平均影响。,系数 和 为偏回归系数,表示在保持X3不变的条件下,X2每变化一个单位时,Y的均值的变化。类似地,表示在保持X2不变的条件下,X3每变化一个单位时,Y的均值的变化。,例如在汽车需求分析中,可设定模型为,(5.2),其中,Yt 汽车需求量,Pt 汽车价格,It 居民收入。t 代表第t
4、 次观测。式(5.2)中,汽车需求量主要受到价格和收入这两个变量的影响。,又如在劳动力市场中,工资水平模型为,(5.3),其中,Wi工资,Ei 受教育水平,EPi 工作经验。式(5.3)表示工资水平主要受受教育水平和工作经验两个变量的影响。,在含有两个解释变量的多元回归模型中,经典线性回归模型的假定条件如下。,假定1:ui 零均值假定,E(ui|X2i,X3i)0对每个i,(5.4),假定2:ui 无序列相关假定,Cov(ui,uj)0ij,(5.5),假定3:ui 同方差假定,(5.6),假定4:ui 与每一个解释变量无关,(5.7),假定5:无设定偏误,假定6:解释变量X之间无完全的共线性
5、,(5.8),无共线性的含义是,不存在一组不全为零的数 和 使得,如果这一关系式存在,则该X2 和X3 是共线的或线性关系。,三、含有多个解释变量的模型,多个解释变量的多元回归模型是一元回归模型和二元回归模型的推广。含被解释变量Y 和k-1个解释变量X2,X3,Xk 的多元总体回归模型表示如下:,i1,2,(5.9),式(5.9)中,为截距,,为偏斜率系数,u 为随机干扰项,i 为第i 次观测。,式(5.9)的均值表达式为,i1,2,(5.10),把式(5.10)表示为增量形式则为,(5.11),X2的系数 的意义为:在所有其它变量X3i,X4i,Xki 保持不变的条件下,X2改变一个单位而导
6、致Yi 的均值的变化量。,即在保持X3,X4,Xk 不变的条件下,有:,(5.12),其它斜率系数的意义与此类似。,例如,在汽车需求分析中,要研究竞争性市场中某一品牌汽车的需求。据需求理论,影响汽车需求的因素除了价格和收入外,还有与之竞争的其它品牌汽车的价格。因此,该品牌汽车的需求模型为,(5.13),式(5.13)中,Yt 某品牌汽车需求量,Pt 该品牌汽车价格,It 居民收入,竞争性品牌汽车的价格.代表当居民收入It 与竞争性品牌汽车价格不变时,该品牌汽车价格降低1元,需求量增加的数量。,第二节 最小二乘估计,一、最小二乘估计量,对于二个解释变量的回归模型,其样本回归函数为,(5.14),
7、式中,分别为 的估计值。,根据最小二乘准则,应选择使残差平方和最小的。在给定Y,X1和X2的n个观测值时,同时选择 使下式取最小值。,(5.15),在含有多个解释变量的一般情形中,我们得到样本回归函数,(5.16),我们的目的就是得到式(5.16)中的估计值,使残差平方和最小。,最小的估计值。据微积分知识,我们知道这个最小化问题就是使用多元微积分求解。其原理与一元线性回归方程的最小二乘法相同。得到含 这k 个未知变量的k个线性方程。,就是使,(5.18),该方程组称为正规方程组,求解该方程组,可得到 的值。即使是较小的方程组,手工计算也是很繁重的工作。借助经济计量分析软件,对较大的n 和 k,
8、也能很快求解这些 方 程。本书推荐的EViews软件就提供了这一计算程序。,如果使用普通最小二乘法而得到了式(5.16)的样本回归函数,我们就称其为:将Y 对X1,X2,Xk 进行了回归。,【例5.1】工资回归模型,利用横截面数据估计参数得到如下包含三个解释变量的模型。,Ln(Y)=0.284+0.092X2+0.0041X3+0.022X4,(5.19),式中,Y工资,X2受教育年限,X3工龄,X4现任职务的任期。,在式(5.19)中,系数0.092表示在保持X3和X4固定不变的情况下,劳动者多受一年教育,Ln(Y)增加0.092,即工资增加9.2%。也就是说,如果有两个劳动者具有同样的工龄
9、和现职任期,在受教育水平相差一年时,X2的系数表示了预计工资的差别。,二、判定系数R2及调整的判定系数,(一)判定系数R2,在一元回归模型中,判定系数R2是回归方程拟合优度的一个度量;它给出了在被解释变量Y的总变差中由(一个)解释变量X解释了的比例或百分比。,将其推广到多元回归模型中,判定系数依然为解释平方和ESS与总平方和TSS的比值,即:,(5.20),判定系数R2的一个重要性质是:在回归模型中增加一个解释变量后,它不会减少,而且通常会增大。即R2是回归模型中解释变量个数的非减函数。,(二)调整的判定系数,在式(5.20)中,TSS 就是,与模型中的X 变量的个数无关。但RSS 即 却与模
10、型中出现的解释变量个数相关。随着X 变量个数的增加,会减小,至少不会增大;因此,判定系数R2将会增大。所以,使用R2来判断具有相同被解释变量Y 和不同个数解释变量X的回归模型的优劣时就很不适当。,此时,R2不能用于比较两个回归方程的拟合优度。,为了消除解释变量个数对判定系数R2的影响,需使用调整后的判定系数:,(5.21),式中,k 为包括截距项在内的模型中的参数个 数。在二元回归模型中k3,在一元回归模型中 k2。,所谓调整,就是指 的计算式中的 和 都用它们的自由度(nk)和(n1)去除。,调整的判定系数 和 R2 的关系为,(5.22),由式(5.22)可以看出:(1)对于k 1,R2。
11、这意味着,随着X 变量的个数增 加,比R2增加得慢些。(2)虽然R2非负,但 可以是负的。在应用中,如果遇到出现负的情形,就令 0。,在回归分析中,我们的目的并不是为了得到一个高的,而是要得到真实总体回归系数的可靠估计并做出有关的统计推断。在实证分析中,经常碰到有着较高的,但某些回归系数在统计上不显著的回归模型,这样的模型是没有应用价值的。,(三)回归分析中 的应用,所以,我们应更加关心解释变量对被解释变量的理论关系和统计显著性。如果在其它条件相同的条件下,得到一个较高,当然很好;如果 偏低,也不能说明模型不好。在经典线性回归模型中,并不要求 一定是较高的。,【例5.2】大学平均成绩的决定因素
12、,根据某大学141名学生的样本,以大学平均成绩Y 为被解释变量,高中平均成绩X1和大学能力测验分数X2为解释变量,用普通最小二乘法得到样本回归模型为,式(5.23)中,R20.176,n141。,(5.23),截距项1.29没有实际意义。因为,没有人在高中时的成绩为0、测验成绩也为0时进入大学。R20.176意味着,高中平均成绩X1和大学能力测验分数X2一起解释这个学生样本中大学平均成绩Y 的方差的17.6%。这个比例虽然不高,但不能判定模型不好。因为影响一个学生大学表现的因素还有很多,包括家庭背景、个性、高中教育的质量和对大学专业的喜恶等。,三、最小二乘估计量的期望值和方差,(一)偏回归系数
13、 的期望值,在多元回归模型满足经典假定的条件下,普通最小二乘估计量是总体参数的无偏估计。即:,j1,2,k,(5.24),对这一结果有直接影响的假定为E(ui)0,随机扰动项的期望值为0和Cov(Xi,ui)0,X 非随机并与扰动项u 不相关。,在多元回归分析中,如果回归模型的函数形式设定有误或遗漏了与包含在模型中的变量相关的重要解释变量,都会导致经典假定E(ui)0不成立,即E(ui)0。如此,则使得最小二乘估计量 不是总体参数的无偏估计,即。,虽然在多元回归分析中,模型的函数形式更多,包含的变量数也较多,相对于一元回归分析,出现函数形式设定偏误和遗漏重要解释变量的可能性较小。但是,在一项应
14、用研究中,由于理论的含糊性或数据的局限性,总有一些重要解释变量不能包含到回归模型中。如此,则会破坏普通最小二乘估计的无偏性。,无偏性不是针对某一特定样本而言的,而是指将普通最小二乘法用于各种可能的随机样本时,这种方法得到的结果是无偏的。,关于Cov(Xi,ui)0假定不能满足,从而破坏无偏性,我们将在后面章节讨论它。,就是说将普通最小二乘法用于不同的样本,将会得到许多不同的估计值,i 表示第i 个样本,j 表示第j 个参数。这些不同的估计值的均值等于总体参数。但对于一个具体的估计值就谈不上无偏性。,因为一个估计值是从一个特定的样本得到的一 个固 定 数,它也许等于总体参数,也许不等于总体参数,
15、我们无法判定。虽然我们总是希望得到最接近总体真实性的估计值,但最小二乘法并不能保证这一点。,(二)的方差和标准误,的期望值度量了 的集中趋势。而 的方差则度量了 围绕其期望值的集中程度,也就是度量了 的估计精度。,在满足经典假定的条件下,偏斜率系数估计量的方差为,式中,为Xj 的总样本变异;j 2,3,k;为将Xj 对所有其它解释变量(包括一个截距项)进行回归所得到的判定系数R2。,(5.25),具有非常重要的指导意义。方差越大,则意味着估计量越不精确。,的方差取决于如下三个因素:。脚标 j 表示第j 个解释变量。,与 成正比;越大,的方差Var()越大。,回归模型的干扰项u是对回归结果的干扰
16、,干扰 越大,使得估计任何一个解释变量对Y 的局部影响就越困难。由于 是总体的一个特征,所以它与样本容量无关。,与Xj 的总样本变异SSTj 成反比;总样本变异SSTj 越大,的方差越小。,因此,若其它条件不变,就估计 而言,我们希望Xj 的样本方差越大越好。这一点在一元回归模型中,我们已经看到了。只要扩大样本容量,就能增大SSTj,同时也就缩小了 的方差,也就是提高了估计精度。,与解释变量之间的线性关联程度 正 相 关;越大,的方差 越大。,在一元回归模型中,只有一个解释变量,不存在这一问题。这里的 与Y 无关,它只涉及到原模型中的解释变量X2,X3,Xk,其中Xj 作为被解释变量,其它解释
17、变量作为解释变量。,在二元回归模型:中,的方差为,(5.26),是X2对X3(含截距)进行一元回归所得到的R2。,由于R2度量了拟合优度,所以当 接近于1时,则表明在这个样本中,X3解释了X2的大部分变动,就是说X2与X3高度相关。随着 的逐渐增加,会越来 越大。因此,X2与X3之间的线性关系越密切,斜率系数的普通最小二乘估计量的方差就越大。,对于一般情况,是Xj 总变异中由模型中包括的其它解释变量解释的部分。也就是Xj 与其它解释变量之间的线性关联程度,关联程度越高,方差就越大;关联程度越小,方差就越小。,最理想的情形是 0,但这种情形是难以碰到的。在所有其它条件都不变的 情况下,就估计 来
18、说,Xj 与其它解释变量之间关联程度越低越好。,其中,X3与X4高度相关,则 和 都很大。,另外,在多元回归模型中,某些解释变量之间的高度相关不影响模型中其它参数的估计方差。例如,有一个三个解释变量的模型:,(5.27),但X3与X4之间的相关程度对 没有直接影响。如果X2与X3,X4无关,则无论X3与X4如何相关,都有 和。如果我们所关心的是参数,我们可以不管X3与X4之间的相关程度。,将 开方,则得 的标准误:,(5.28),(三)的估计量,由于干扰项ui 不可观测,因此必须据样本结果估计。的无偏估计量为,(5.29),式(5.29)中 为 的估计量,n 为样本容量,k 为多元回归模型中的
19、参数个数。,可以证明,式(5.29)给出的 的估计量 是 的无偏估计量。即,(5.30),正的平方根被称为回归标准误。该估计值在 EViews 回归分析软件包的输出中直接给出,表示为SER。(.E.of regression),四、最小二乘估计量的性质,在多元回归模型中,最小二乘估计量同样具有一元回归中的优良性质。高斯马尔可夫定理对此给予了精辟的阐述。,高斯马尔可夫定理:在多元线性回归模型的经典假定下,普通最小二乘估计量 分别是 的最佳线性无偏估计量。就是说,普通最小二乘估计量,是所有线性无偏估计量中方差最小的。,我们已经知道是 的 无偏估计量,即 这表明了估计量 的集中趋势。,线性一词的含义
20、是指 是被解释变量的线性函数。,(5.31),式(5.31)中,每个Wij 都是所有自变量样本值的一个函数。可以证明,式(5.31)是成立的。,最佳一词含义就是指最小方差。给定两个估计量,无疑是方差小的估计量优于方差大的估计量。是经典假定下 的最小二乘估计量,对于任一线性无偏估计量,都有。就是说,在一群线性无偏估计量中,普通最小二乘估计量的方差最小。,高斯马尔可夫定理的意义在于,当经典假定成立时,我们不需要再去寻找其它无偏估计量,没有一个会优于普通最小二乘估计量。也就是说,如果存在一个好的线性无偏估计量,这个估计量的方差最多与普通最小二乘估计量的方差一样小,不会小于普通最小二乘估计量的方差。,
21、高斯马尔可夫定理证明了在多元线性回归分析中,使用普通最小二乘法进行参数估计的合理性。但是,这一定理是依赖于经典假定条件的,如果经典假定中的条件不成立,这个定理也就不再成立。普通最小二乘估计量也就不再是最佳线性无偏估计量了。,第三节 多元线性回归模型的检验,一、偏回归系数的显著性检验t 检验,回归分析的目的不仅仅是得到 的估计值,而同时要对总体回归函数中的每个 的假设进行检验。,总体回归模型为,(5.32),如果式(5.32)满足经典假定,则是经典线性 回归模型。我们知道,是总体参数,是未知数,总体信息未知时,是不可测的。但是,我们可以对 的值做出假设,通过统计推断来检验我们的假设。,可以证明,
22、在ui 服从正态分布及经典假定条件下,,(5.33),服从自由度为nk的t 分布。k为总体回归模型的参数个数,为总体回归参数,为 的普通最小二乘估计量,为 的标准误。,在经济计量分析中,我们最关心的是解释变量Xj 是否与被解释变量Y 线性相关。因此,我们的主要目的在于检验原假设,(5.34),式(5.34)中,j 对应k1个解释变量中的任意一个。是第 j 个变量的偏回归系数,度量了在所有其它解释变量不变的条件下,Xj 对Y的影响;即Xj 变化一个单位,对Y的期望值的影响。,如式(5.34)成立,即,则意味着Xj 对Y的期望值没有任何影响。例如,工资模型中:,(5.35),其中,Wi工资,Ei受
23、教育水平,EPi工作经验。,原假设 意味着在受教育程度相同的条件下,工作经验对工资没有影响。这个假设价值很大,如果它是正确的,那么就是说个人在任现职之前的工作经验不会影响他的工资水平。如果,则意味着以前的工作经验对现在的工资水平有促进作用。,在经济计量分析中,备择假设通常设定为,(5.36),式(5.36)表示 Xj 对 Y 有显著影响,可正可负。,与一元回归分析相同,对 进行检验使用如下的 t 统计量。,(5.37),给定 和标准误,该t 统计量就很容易获得。回归分析软件都直接报告t 统计量及其标准误。,在式(5.37)中,所以 与 的符号相同。在 给定的条件下,与 成正比。,我们要检验的是
24、原假设,因为 不可测,我们只能用 的无偏估计量 来进行统计推断。在实际分析中,点估计值 不可能正好为0,的样本值与0相差越远,拒绝原假设 的可能性越大。,由于在估计 中存在抽样误差,所以 的大小就必须由其抽样误差来衡量,即由 的标准误 来衡量。因此,度量了被估计的 与0相差多大。的值充分远离0将导致拒绝原假设,拒绝的标准决定于所选择的显著性水平。,我们所进行的假设检验是关于总体参数的,我们不是在检验一个来自特定样本的估计值。因此,将一个原假设表达成“H0:0”,或者在样本中的参数估计值是0.205时说“H0:0.2050”,都是毫无意义的,我们要检验的是未知总体参数 是否为0。,多元回归中的t
25、 检验决策规则与一元回归相同。,【例5.3】工资回归模型,例5.1中的工资回归模型如下,Ln(Y)0.2840+0.0920X2+0.0041X3+0.0220X4,(0.1040)(0.0070)(0.0017)(0.0030),R20.3160n526,(5.38),式(5.38)中,Y工资,X2受教育年限,X3 工龄,X4现任职务的任期。,查t 分布表可知,5%显著性水平下的临界值t0.025(522)1.960。模型中参数的t统计量均大于临界值t0.025(522)1.960,每一个估计的偏回归系数都是统计上显著的,即显著地异于0。也就是说,我们拒绝每个原假设。,这就意味着模型中的三个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 模型 蓝色

链接地址:https://www.31ppt.com/p-5697503.html