书签分享收藏举报版权申诉 / 134

立即下载加入VIP免费专享

当前位置：首页 > 生活休闲 > 在线阅读 > 简单线性回归模型教室.ppt

简单线性回归模型教室.ppt

上传人：小飞机

文档编号：6596782

上传时间：2023-11-16

格式：PPT

页数：134

大小：2.72MB

《简单线性回归模型教室.ppt》由会员分享，可在线阅读，更多相关《简单线性回归模型教室.ppt（134页珍藏版）》请在三一办公上搜索。

1、1,第二章简单线性回归模型,计量经济学,引子:中国旅游业总收入将超过3000亿美元吗？,未来我国旅游需求将快速增长，根据中国政府所制定的远景目标，到2020年，中国入境旅游人数将达到2.1亿人次；国际旅游外汇收入580亿美元，国内旅游收入2500亿美元。到2020年，中国旅游业总收入将超过3000亿美元，相当于国内生产总值的8%至11%。（来源：2008年中国旅行社发展研究咨询报告）什么决定性因素能使中国旅游业总收入超过3000亿美元?旅游业的发展与这种决定性因素的数量关系究竟是什么？怎样具体测定旅游业发展与这种决定性因素的数量关系?,2,研究经济变量之间数量关系的方法,为了不使问题复杂

2、化,我们先在某些标准的(古典的)假定条件下，用最简单的模型，对最简单的变量间的数量关系加以讨论。,显然，对旅游起决定性影响作用的是“中国居民的收入水平”以及“入境旅游人数”等因素。“旅游业总收入”（Y）与“居民平均收入”（X1）或者“入境旅游人数”（X2）有怎样的数量关系呢？能否用某种线性或非线性关系式 Y=f(X)去表现这种数量关系?具体该怎样去表现和计量呢?,4,第一节回归分析与回归函数一、相关分析与回归分析（对统计学的回顾）1、经济变量之间的相互关系性质上可能有三种情况:确定性的函数关系 Y=f(X)可用数学方法计算不确定的统计关系相关关系 Y=f（X，u）(u为随机变量)可用统

3、计方法分析没有关系不用分析,相关关系的描述最直观的描述方式坐标图（散布图、散点图）,5,函数关系,相关关系(线性),没有关系,相关关系(非线性),2、相关关系,6,6,相关关系的类型,从涉及的变量数量看简单相关多重相关（复相关）从变量相关关系的表现形式看线性相关散布图接近一条直线非线性相关散布图接近一条曲线从变量相关关系变化的方向看正相关变量同方向变化，同增同减负相关变量反方向变化，一增一减从变量相关的程度看完全相关、不相关、不完全相关,7,3、相关程度的度量相关系数,如果和总体的全部数据都已知，和的方差和协方差也已知，则 X和Y的总体线性相关系数：其中：-X 的方

4、差-Y的方差-X和Y的协方差特点：总体相关系数反映总体两个变量X和Y的线性相关程度。对于特定的总体来说，和的数值是既定的，总体相关系数是客观存在的特定数值。总体的两个变量和的全部数值通常不可能直接观测，所以总体相关系数一般是未知的。,8,如果只知道 X 和 Y 的样本观测值，则X和Y的样本相关系数为：其中：和分别是变量X和Y的样本观测值，和分别是变量 X 和Y 样本值的平均值注意:是随抽样而变动的随机变量。,X和Y的样本线性相关系数：,相关系数较为简单,也可以在一定程度上测定变量间的数量关系,但是对于具体研究变量间的数量规律性还有局限性。,相关系数r的取值范围：-1,1 X 和 Y

5、都是相互对称的随机变量，线性相关系数只反映变量间的线性相关程度，不能说明非线性相关关系。样本相关系数是总体相关系数的样本估计值。由于抽样波动，样本相关系数是随抽样而变动的随机变量，其统计显著性还有待检验。,9,对相关系数的正确理解和使用,10,4、回归分析,回归的古典意义：高尔顿遗传学的回归概念(父母身高与子女身高的关系)子女的身高有向人类平均身高回归的趋势回归的现代意义：一个被解释变量对若干个解释变量依存关系的研究。回归的目的（实质）：由解释变量去估计被解释变量的平均值。相关分析和回归分析,被解释变量Y的条件分布和条件概率：当解释变量X取某固定值时（条件），Y 的值不确定，Y的不同取值会形

6、成一定的分布，这是 Y 的条件分布。X取某固定值时，Y 取不同值的概率称为条件概率。变量 Y 的条件期望：对于二元离散型随机变量（X，Y），在X取某一个定值Xi的条件下，求Y的数学期望，称此期望为：给定X=Xi时Y的条件期望，记作且,明确几个概念（为深刻理解“回归”）,12,被解释变量 Y 的条件期望：对于解释变量X 的每一个取值，根据Y的条件分布和条件概率确定其期望或均值，称为 Y 的条件期望或条件均值，用表示。注意:Y的条件期望是随X的变动而变动的。,Y,X,明确几个概念（为深刻理解“回归”）,13,回归线：对于每一个X的取值，都有Y的条件期望与之对应，代表Y的条件期望的点的轨迹形

7、成的直线或曲线称为回归线。回归函数：被解释变量Y的条件期望随解释变量X的变化而有规律的变化，如果把Y的条件期望表现为 X 的某种函数，这个函数称为回归函数。回归函数分为：总体回归函数和样本回归函数,Y,X,回归线,14,举例:假如已知由100个家庭构成的总体的数据(单位:元),二、总体回归函数（PRF）,15,消费支出的条件期望与收入关系的图形,对于本例的总体，家庭消费支出的条件期望与家庭收入基本是线性关系,可以把家庭消费支出的条件均值表示为家庭收入的线性函数：,16,1.总体回归函数的概念前提：假如已知所研究的经济现象的总体的被解释变量Y和解释变量X的每个观测值（通常这是不可能的），那

8、么，可以计算出总体被解释变量Y的条件期望，并将其表现为解释变量X的某种函数这个函数称为总体回归函数（PRF）本质：总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关系的规律,也就是要努力去寻求总体回归函数。,17,条件期望表现形式例如Y的条件期望是解释变量X的线性函数，可表示为：个别值表现形式（随机设定形式）对于一定的，Y的个别值并不一定等于条件期望，而是分布在的周围，若令各个与条件期望的偏差为，显然是个随机变量。则有,2.总体回归函数的表现形式,PRF,作为总体运行的客观规律，总体回归函数是客观存在的，但

9、在实际的经济研究中总体回归函数通常是未知的，只能根据经济理论和实践经验去设定。计量经济学研究中“计量”的根本目的就是要寻求总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数的具体形式。总体回归函数中 Y 与 X 的关系可以是线性的，也可以是非线性的。,18,3.如何理解总体回归函数,19,计量经济学中,线性回归模型的“线性”有两种解释：就变量而言是线性的 Y的条件期望（均值）是X的线性函数就参数而言是线性的 Y的条件期望（均值）是参数的线性函数例如：对变量、参数均为“线性”对参数“线性”，对变量”非线性”对变量“线性”，对参数”非线性”注意：在计量经济学中，线性回归模型主要指就参数

10、而言是“线性”的，因为只要对参数而言是线性的，都可以用类似的方法去估计参数，都可以归于线性回归。,“线性”的判断,概念：在总体回归函数中，各个的值与其条件期望的偏差有很重要的意义。若只有的影响，与不应有偏差。若偏差存在，说明还有其他影响因素。实际代表了排除在模型以外的所有因素对 Y 的影响。性质：是期望为 0，有一定分布的随机变量。重要性：随机扰动项的性质决定着计量经济分析结果的性质和计量经济方法的选择。,20,三、随机扰动项,是未知影响因素的代表（理论的模糊性）是无法取得数据的已知影响因素的代表（数据欠缺）是众多细小影响因素的综合代表（非系统性影响）模型可能存在设定误差（变量、

11、函数形式的设定）模型中变量可能存在观测误差（变量数据不符合实际）变量可能有内在随机性（人类经济行为的内在随机性）,21,引入随机扰动项ui 的原因,样本回归线：对于X的一定值Xi，取得Y的样本观测值，可计算样本条件均值。Y的样本观测值的条件均值的轨迹，称为样本回归线。样本回归函数：如果把被解释变量Y的样本条件均值表示为解释变量X的某种函数，这个函数称为样本回归函数（SRF）,22,X,Y,SRF,四、样本回归函数（SRF）,23,样本回归函数如果为线性函数，可表示为其中：是与相对应的 Y 的样本条件均值和分别是样本回归函数的参数个别值（实际值）形式：被解释变量Y的实际观测值不完全

12、等于样本条件均值，二者之差用表示，称为剩余项或残差项：则或,样本回归函数的函数形式,条件均值形式：,样本回归线随抽样波动而变化:每次抽样都能获得一个样本，就可以拟合一条样本回归线，（SRF不唯一)样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。样本回归线只是样本条件均值的轨迹，还不是总体回归线，它至多只是未知的总体回归线的近似表现。,24,样本回归函数的特点,SRF1,SRF2,Y,X,A X,25,PRF,SRF,样本回归函数与总体回归函数的关系,如果能够通过某种方式获得和的数值，显然:和是对总体回归函数参数和的估计是对总体条件期望的估计 ei 在概念上类似总体

13、回归函数中的ui，可视为对ui 的估计。,26,对比：总体回归函数样本回归函数,对样本回归的理解,27,目的：计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差，SRF 总会过高或过低估计PRF。要解决的问题：寻求一种规则和方法，使其得到的SRF的参数和尽可能“接近”总体回归函数中的参数和的真实值。这样的“规则和方法”有多种，如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。,回归分析的目的,用样本去估计总体回归函数，总要使用特定的方法，而任何估计参数的方法都需要有一定的前提条件假定条件。一、简单线

14、性回归的基本假定为什么要作基本假定？只有具备一定的假定条件，所作出的估计才具有良好的统计性质。模型中有随机扰动项，估计的参数是随机变量，显然参数估计值的分布与扰动项的分布有关，只有对随机扰动的分布作出假定，才能比较方便地确定所估计参数的分布性质，也才可能进行假设检验和区间估计等统计推断。假定分为：对模型和变量的假定对随机扰动项的假定,28,第二节简单线性回归模型的最小二乘估计,例如对于假定模型设定是正确的（变量和模型无设定误差）假定解释变量X在重复抽样中取固定值。假定解释变量X是非随机的，或者虽然X是随机的，但与扰动项u是不相关的。假定变量不存在测量误差。注意:解释变量非随机的假定在自然

15、科学的实验研究中相对容易满足，而经济领域中变量的观测是被动不可控的，X非随机的假定并不一定都满足。,29,1.对模型和变量的假定,假定1：零均值假定:在给定解释变量Xi的条件下，的条件期望为零。假定2：同方差假定:对于给定的每一个Xi，的条件方差都等于某个常数,30,2.对随机扰动项u的假定,31,假定3：无自相关假定:随机扰动项的逐次值互不相关假定4：解释变量是非随机的，或者虽然是随机的但与扰动项不相关(从随机扰动角度看),假定5：对随机扰动项分布的正态性假定，即假定服从均值为零、方差为的正态分布（说明：正态性假定并不影响对参数的点估计，所以有时不列入基本假定，但这对确定所估

16、计参数的分布性质是需要的。且根据中心极限定理，当样本容量趋于无穷大时，的分布会趋近于正态分布。所以正态性假定有合理性）,32,由于其中的和是非随机的，是随机变量，因此Y是随机变量，的分布性质决定了的分布性质。对的一些假定可以等价地表示为对的假定：假定1：零均值假定假定2：同方差假定假定3：无自相关假定假定5：正态性假定,33,在对的基本假定下 Y 的分布性质,1.OLS的基本思想对于，不同的估计方法可以得到不同的样本回归参数和，所估计的也就不同。理想的估计结果应使估计的与真实的的差(即剩余)总的来说越小越好因可正可负，总有，所以可以取最小，即在观测值Y和X确定

17、时，的大小决定于和。要解决的问题:：如何寻求能使最小的和。,34,二、普通最小二乘法（OLS）（Ordinary Least Squares),用克莱姆法则求解得到以观测值表现的OLS估计量：,35,取偏导数并令其为0，可得正规方程,或整理得,即,2.正规方程和估计量,36,为表达得更简洁，或者用离差形式的OLS估计量：容易证明由正规方程：注意：其中：本课程中:大写的Xi 和Yi 均表示观测值；小写的xi 和yi 均表示观测值的离差而且由样本回归函数可用离差形式写为,用离差表现的OLS估计量,例2.2 估计样本回归函数,回顾：OLS的基本思想在观测值Y和X确定时，残差平方和的大小决定于

18、和要解决的问题:：如何寻求能使最小的和,取偏导数并令其为0，可得正规方程,即,剩余项的均值为零 OLS回归线通过样本均值估计值的均值等于实际观测值Yi的均值,40,(由OLS第一个正规方程直接得到),(由OLS正规方程两边同除n得到),3.OLS回归线的数学性质,由OLS正规方程有:,被解释变量估计值与剩余项ei 不相关,由样本相关系数的估计式有:,解释变量Xi与剩余项ei 不相关,43,面临的问题:参数估计值参数真实值对参数估计式的优劣需要有评价的标准为什么呢?参数无法直接观测，只能通过样本去估计。样本的获得存在抽样波动，不同样本的估计结果不一致。估计参数的方法有多种

19、，不同方法的估计结果可能不相同，通过样本来估计参数时，估计方法及所确定的估计量不一定完备，不一定能得到理想的总体参数估计值。对各种估计方法优劣的比较与选择需要有评价标准。估计准则的基本要求：参数估计值应尽可能地接近总体参数真实值”。什么是“尽可能地接近”原则呢？用统计语言表述就是:无偏性、有效性、一致性等,4.OLS估计量的统计性质,44,(1)无偏性,前提：重复抽样中估计方法固定、样本数不变。由重复抽样得到的观测值,可得一系列参数估计值的分布称为的抽样分布，其密度函数记为概念:如果，则称是参数的无偏估计量如果，则称是有偏的估计，其偏倚为,45,概率密度估计值偏倚,46,(

20、2)有效性,前提：样本相同、用不同的方法估计参数，可以找到若干个不同的无偏估计式目标:努力寻求其抽样分布具有最小方差的估计量（见下页图）既是无偏的、同时又具有最小方差特性的估计量，称为有效（最佳）估计量。,47,概率密度,估计值,思想:当样本容量较小时，有时很难找到方差最小的无偏估计量，需要考虑样本扩大后的性质（估计方法不变，样本数逐步增大）一致性：当样本容量 n 趋于无穷大时，如果估计式依概率收敛于总体参数的真实值，就称这个估计式是的一致估计式。即或（渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式）(见下页图)渐近有效性：当样本容量 n 趋于无穷大时，在所有的一致

21、估计式中，具有最小的渐近方差。,48,3、渐近性质（大样本性质）,49,概率密度,图 4,估计值,先明确几点:由OLS估计式可以看出都由可观测的样本值和唯一表示。因存在抽样波动，OLS估计是随机变量,50,OLS估计是否符合“尽可能地接近总体参数真实值”的要求呢?,4.分析OLS估计量的统计性质,51,OLS估计式的统计性质高斯定理,1、线性特征：是Yi 的线性函数,注意,2、无偏性可以证明（证明见教材P33）,52,（注意:无偏性的证明中用到了基本假定中ui 零均值等假定）,3、最小方差特性(有效性)（证明见教材P59附录21）可以证明：在所有的线性无偏估计中，OLS估计具

22、有最小方差。（注意:最小方差性的证明中用到了基本假定中的同方差、无自相关等假定）结论（高斯-马尔可夫定理）：在古典假定条件下，OLS估计量是最佳线性无偏估计量（BLUE）,53,概念：样本回归线是对样本数据的一种拟合。不同的模型（不同函数形式)可拟合出不同的样本回归线。相同的模型用不同方法去估计参数，也可以拟合出不同的回归线。拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度，可称为拟合优度。如何度量拟合优度呢？拟合优度的度量建立在对 Y 的总变差分解的基础上,54,第三节拟合优度的度量,Y的观测值、估计值与平均值有以下关系,55,一、总变差的分解,Y的观测值、估

23、计值与平均值有以下关系将上式两边平方并对所有观测值加总，,56,一、总变差的分解,Y的观测值、估计值与平均值有以下关系将上式两边平方并加总（提示：交叉项）可证得,57,一、总变差的分解,Y的观测值、估计值与平均值有以下关系将上式两边平方并加总（提示：交叉项）可证得（TSS）（ESS）（RSS）,58,一、总变差的分解,总变差（TSS）：被解释变量Y的观测值与其平均值的离差平方和（总平方和）(说明Y的总变动程度）解释了的变差（ESS）：被解释变量Y的估计值与其平均值的离差平方和（回归平方和）剩余平方和（RSS）：被解释变量观测值与估计值之差的平方和（未解释的平方和）,59,一、

24、总变差的分解,（TSS）（ESS）（RSS）,Y X,60,变差分解的图示(以某一个观测值为例),以TSS同除总变差等式两边：定义：回归平方和（解释了的变差ESS）在总变差（TSS）中所占的比重称为可决系数，用r2 或R2 表示:,61,或,二、可决系数,可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型的拟合程度越好。反之可决系数越小，说明模型对样本观测值的拟合程度越差。因此，可决系数可以作为综合度量回归模型对样本观测值拟合优度的指标。,62,可决系数的作用,例题：【例2.2】,用样本（一）数据估计的样本线性回归模型，计算出被解释变量的估计值，利用表2.4的数据计算出则可

25、决系数为说明在被解释变量观测值的总变差中，有99.39%由样本回归模型作出了解释。,可决系数的特点：可决系数取值范围：可决系数R2 是样本观测值的函数，是随抽样而变动的随机变量可决系数是非负的统计量,联系：数值上，可决系数是相关系数的平方,66,可决系数与相关系数的关系,区别：可决系数相关系数是就模型而言是就两个变量而言说明解释变量对被解释说明两变量线性依存程度变量的解释程度度量不对称的因果关系度量对称的相关关系取值 0 1 取值-1r1 有非负性可正可负,67,68,第四节回归系数的区间估计和假设检验,为什么要作区间估计？运用OLS法可以估计出参数的一个估计值，但OL

26、S估计只是通过样本得到的点估计，它不一定等于真实参数，还需要寻求真实参数的可能范围，并说明其可靠性。为什么要作假设检验？OLS 估计只是用样本估计的结果，是否可靠？是否只是抽样的偶然结果？还有待统计检验。区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。,69,一、OLS估计的分布性质基本思想是随机变量，必须确定其分布性质才能进行区间估计和假设检验。怎样确定的分布性质呢?ui 是服从正态分布的随机变量，决定了Yi 也是服从正态分布的随机变量；是Yi 的线性函数，决定了也服从正态分布 ui正态 Yi正态正态只要确定的期望和方差，即可确定的分布性质,线性特征,（线

27、性估计的重要性),70,的期望：(已证明是无偏估计）的方差和标准误差(证明见P34)(标准误差是方差的平方根)注意：以上各式中均未知，但是个常数，其余均是已知的样本观测值，这时和都不是随机变量。,参数估计量的期望和方差,71,基本思想：是ui 的方差，而ui 不能直接观测，只能从由样本得到的ei 去获得有关ui 的某些信息，去对作出估计。可以证明（见附录2.2)其无偏估计为(这里的n-2为自由度,即可自由变化的样本观测值个数)注意区别：是未知的确定的常数；是由样本信息估计的，是个随机变量,对随机扰动项方差的估计,72,对作标准化变换,为什么要对作标准化变换?在ui 正态性假定下，

28、由前面的分析已知但在对一般正态变量作实际分析时，要具体确定的取值及对应的概率，要通过正态分布密度函数或分布函数去计算是很麻烦的，为了便于直接利用“标准化正态分布的临界值”，需要对作标准化变换。标准化的方式：,标准正态分布函数,73,在已知时，对作标准化变换，所得Z统计量为标准正态变量。,1.已知时，对作标准化变换,注意:这时和都不是随机变量(X、都是非随机的）,74,条件：当未知时，可用（随机变量）代替去估计参数的标准误差。这时参数估计的标准误差是个随机变量。样本为大样本时,作标准化变换所得的统计量Zk，也可以视为标准正态变量（根据中心极限定理）。样本为小样本时，,用估计

29、的参数标准误差对作标准化变换，所得的统计量用t表示，这时t将不再服从正态分布，而是服从t 分布（注意这时分母是随机变量）：,2.未知时，对作标准化变换,基本思想：对参数作出的点估计是随机变量，虽然是无偏估计，但还不能说明这种估计的可靠性和精确性。如果能找到包含真实参数的一个范围，并确定这样的范围包含参数真实值的可靠程度，将是对真实参数更深刻的认识。方法：如果在确定参数估计式概率分布性质的基础上，可找到两个正数和，能使得这样的区间包含真实的概率为，即这样的区间称为所估计参数的置信区间。（上限、下限）讨论：“如果已经得出了的特定估计值,并确定了某个置信区间，这说明真实参数落入这个区间的

30、概率为1-”。这种说法对吗?,75,二、回归系数的区间估计,76,样本容量充分大,样本容量较小,总体方差已知,总体方差未知,Z将接近标准正态分布,服从 t 分布,三种情况,基本思想:利用标准化后统计量的分布性质去寻求:,置信区间：,标准正态分布,1、当总体方差已知时(Z 服从正态分布)取定（例如=0.05），查标准正态分布表得与对应的临界值z(例如z为1.96)，则标准化变量Z*（统计量）因为或即,77,回归系数的区间估计(分三种情况寻找合适的),概念回顾：临界值,方法：可用无偏估计去代替未知的，由于样本容量充分大，标准化变量Z*（统计量）将接近标准正态分布注意:这里的“”，表

31、示“估计的”,这时区间估计的方式也可利用标准正态分布只是这时,78,2.当总体方差未知，且样本容量充分大时,方法：用无偏估计去代替未知的，由于样本容量较小，“标准化变量”t（统计量）不再服从正态分布，而服从t 分布。这时可用 t 分布去建立参数估计的置信区间。选定，查 t 分布表得显著性水平为，自由度为n-2的临界值(n-2)，则有即,79,3、当总体方差未知，且样本容量较小时,例1:研究某市城镇居民人均鲜蛋需求量Y(公斤)与人均可支配收入X(元,1980年不变价计)的关系设定模型:1995-2005年样本数据:估计参数：,计算可决系数例1:由前面的估计结果可计算出由数据Y 可计算出:

32、则,估计结果:,估计：给定查df=n-2=9的t分布临界值参数区间估计:若给定查df=9的t分布临界值,82,若给定则,若给定则,则,83,83,统计量 t,计算的统计量为:,相对于显著性水平的临界值为:（单侧）或（双侧）,基本概念回顾:大概率事件与小概率事件,0,（大概率事件）,（小概率事件）,目的：简单线性回归中，检验X对Y是否真有显著影响,三、回归系数的假设检验,84,回归系数的检验方法,确立假设：原假设为备择假设为(本质：检验是否为0，即检验是否对Y有显著影响)(1)当已知或样本容量足够大时可利用正态分布作Z检验给定,查正态分布表得临界值 Z 如果则不拒绝原假设

33、如果或则拒绝原假设,85,(2)当未知，且样本容量较小时,只能用去代替，可利用 t分布作 t 检验：,给定,查 t 分布表得如果或者则拒绝原假设而不拒绝备择假设如果则不拒绝原假设,用 P 值判断参数的显著性,假设检验的 p 值：p 值是基于既定的样本数据所计算的统计量，拒绝原假设的最低显著性水平。统计分析软件中通常都给出了检验的 p 值,P,统计量 t,计算的统计量:,相对于显著性水平的临界值:或,注意：t检验是比较和P值检验是比较和 p,与相对应,与 P 相对应,87,用 P 值判断参数显著性的方法,方法：将给定的显著性水平与 p 值比较：若值，必有，则在显著性

34、水平下拒绝原假设，即认为对 Y 有显著影响若值，必有，则在显著性水平下不拒绝原假设，即认为对 Y 没有显著影响规则：当时，P值越小，越能拒绝原假设,举例：对【例1】参数的显著性检验例1:研究某市城镇居民人均鲜蛋需求量Y(公斤)与人均可支配收入X(元,1980年不变价计)的关系设定模型:1995-2005年样本数据:估计参数：,89,举例：对【例1】参数的显著性检验给定查df=9的 t分布临界值计算统计量判断:因拒绝说明显著不为0，X对Y 确有显著影响用P值检验:（需要确定与对应的P值）由，df=9，查 t 分布表知道P0.0005(t=4.781时)因t=5.00时的P值

35、0.0005（t=4.781)则在显著性水平下更应拒绝原假设即认为对 Y 有显著影响,第五节回归模型预测,一、回归分析结果的报告经过模型的估计、检验，得到一系列重要的数据，为了简明、清晰、规范地表述这些数据，计量经济学通常采用以下规范化的方式：例如：回归结果为=244545+05091（64138）（00357）标准误差SE t=(38128)(142605)t 统计量=09621 df=8 可决系数和自由度 F=20287 DW=2.3 F 统计量 DW统计量,1.基本思想经估计的计量经济模型可用于:经济结构分析经济预测政策评价验证理论运用计量经济模型作预测：指利用所估计的样本回

36、归函数作预测工具，用解释变量的已知值或预测值，对预测期或样本以外的被解释变量的数值作出定量的估计。,91,二、被解释变量平均值预测,计量经济预测是一种条件预测：条件：模型设定的关系式不变所估计的参数不变解释变量在预测期的取值已作出预测,预测值、平均值、个别值的相互关系,Y 是对真实平均值的点估计,也是对个别值的点估计,点预测值,真实平均值,个别值,2、Y 平均值的点预测,点预测:用样本估计的总体参数值所计算的Y的估计值直接作为Y的预测值。方法：将解释变量预测值直接代入估计的方程这样计算的是一个点估计值,3、Y平均值的区间预测,基本思想：预测的目标是真实平均值。由于存在抽样波动，预测的

37、平均值不一定等于真实平均值还需要对作区间估计。为对Y作区间预测，必须确定平均值点预测值的抽样分布。必须找出点预测值与预测目标值的关系，即找出与二者都有关的统计量。,具体作法（从的分布分析）,已知可以证明服从正态分布(为什么?)，将其标准化,当未知时，只得用代替，这时有,（较复杂不具体证明）,97,显然这样的 t 统计量与和都有关。给定显著性水平，查 t 分布表，得自由度n2的临界值，则有即Y平均值的置信度为的预测区间为,构建平均值的预测区间,三、被解释变量个别值预测,基本思想：既是对Y平均值的点预测，也是对Y个别值的点预测。由于存在随机扰动的影响，Y的平均值并不等

38、于Y的个别值。为了对Y的个别值作区间预测，需要寻找与点预测值和预测目标个别值有关的统计量，并要明确其概率分布。,已知剩余项是与预测值及个别值YF 都有关的变量，并且已知eF 服从正态分布，且可证明当用代替时，对eF 标准化的变量 t 为,99,（较复杂不具体证明）,具体作法：,构建个别值的预测区间,给定显著性水平，查 t 分布表得自由度为N2的临界值，则有因此，一元回归时Y的个别值的置信度为1-的预测区间上下限为,例题：对消费支出个别值作区间预测,对于【例2.2】，当收入Xf=7000时，在人均消费支出的点预测值的基础上，对人均消费支出个别值作区间预测。给定显著性水平=0

39、.05，由可计算消费支出个别值Yf 预测区间的上下限：,续【例2.2】,即：当家庭每月人均收入达到7000元时，人均消费支出个别值置信度为95%的区间预测值为（4296.37,4687.63）元。,103,被解释变量Y区间预测的特点,（1）Y平均值的预测值与真实平均值有误差，主要是受抽样波动影响预测区间 Y个别值的预测值与真实个别值的差异，不仅受抽样波动影响，而且还受随机扰动项的影响。预测区间,104,（2）平均值和个别值预测区间都不是常数，是随的变化而变化的。当时，预测区间最小。（3）预测区间上下限与样本容量有关，当样本容量n时，个别值的预测区间只决定于随机扰动的方差。,预测区间,1

40、05,SRF,各种预测值的关系,Y的个别值的预测区间,Y平均值的预测区间,106,第六节案例分析,案例1:分析各地区城镇居民计算机拥有量与城镇居民收入水平的关系提出问题：随着信息化程度和居民收入水平的提高，作为居民耐用消费品重要代表的计算机已为众多城镇居民家庭所拥有。研究中国各地区城镇居民计算机拥有量与居民收入水平的数量关系，对于探寻居民消费增长的规律性，分析各地区居民消费的差异，预测地区全体居民消费水平和结构的发展趋势，合理规划信息产业的发展，都有重要的意义。,理论分析：影响居民计算机拥有量的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入水平。从理论上说居民收入水平越高，居

41、民计算机拥有量越多。,107,变量选择：被解释变量选择能代表城乡所有居民消费的“城镇居民家庭平均每百户计算机拥有量”(单位:台)；解释变量选择表现城镇居民收入水平的“城镇居民平均每人全年家庭总收入”（单位:元）研究范围：全国各省市2011年底的城镇居民家庭平均每百户计算机拥有量和城镇居民平均每人全年家庭总收入数据。,2011年中国各地区城镇居民每百户计算机拥有量和人均总收入,为了初步分析城镇居民家庭平均每百户计算机拥有量(Y)与城镇居民平均每人全年家庭总收入(X)的关系，作以X为横坐标，以Y为纵坐标的散点图。,110,从散点图可以看出城镇居民家庭平均每百户计算机拥有量(Y)与城镇居民平均每人全

42、年家庭总收入(X)大体呈现线性关系。可以建立如下简单线性回归模型：,模型设定:,111,估计参数,假定模型中随机扰动满足基本假定，可用OLS法。,具体操作：使用EViews 软件，估计结果是：,112,112,用规范的形式将参数估计和检验的结果写为：,（5.6228）(0.00024)t=(2.1267)(11.9826),F=143.5836 n=31,113,1.可决系数：模型整体上拟合较好。2.系数显著性检验：取，查t分布表得自由度为的临界值为。因为应拒绝3.用P值检验 p=0.0000表明，城镇居民人均总收入对城镇居民每百户计算机拥有量确有显著影响。,模型检验,应拒绝,114,4.

43、经济意义检验：所估计的参数，说明城镇居民家庭人均总收入每增加1元，平均说来城镇居民每百户计算机拥有量将增加0.002873台，这与预期的经济意义相符。,115,点预测：如果西部地区某省城镇居民家庭人均总收入能达到25000元/人，利用所估计的模型可预测城镇居民每百户计算机拥有量，点预测值为,经济预测,(台),区间预测:,平均值区间预测上下限：,已知:,116,由X和Y的描述统计结果,平均值区间预测,即是说：当地区城镇居民人均总收入达到25000元时，城镇居民每百户计算机拥有量平均值置信度95%的预测区间为（80.6219，86.9473）台。,117,117,个别值区间预测,即是说：当地区城

44、镇居民人均总收入达到25000元时，城镇居民每百户计算机拥有量个别值置信度95%的预测区间为（67.0656，100.5036）台。,118,第六节案例分析,案例2:中国全体居民的消费水平与经济发展数量关系的分析提出问题：改革开放以来，随着中国经济的快速发展，人民生活水平不断提高，居民的消费水平也在不断增长。研究中国全体居民的消费水平与经济发展的数量关系，对于探寻居民消费增长的规律性，预测居民消费的发展趋势有重要意义。,理论分析：影响居民人均消费水平的因素有多种，但从理论和经验分析，最主要的影响因素应是经济发展水平。从理论上说经济发展水平越高，居民消费越多。,119,变量选择：被解释变量

45、选择能代表城乡所有居民消费的“全体居民人均年消费水平”(元/人)；解释变量选择表现经济增长水平的“人均国民生产总值（人均GDP）”（元/人）研究范围：1978年至2007年中国“全体居民人均年消费水平”与“人均国内生产总值（人均GDP）”的时间序列数据。,120,数据：1978年-2007年中国居民人均消费水平和人均GDP,为分析居民人均消费水平(Y)和人均GDP(X)的关系，作散点图：,122,从散点图可以看出居民消费水平(Y)和人均GDP(X)大体呈现为线性关系。为分析中国居民消费水平随人均GDP变动的数量规律性，可以建立如下简单线性回归模型：,模型设定:,123,估计参数,假定模型中随机

46、扰动满足基本假定，可用OLS法。,具体操作：使用EViews 软件，估计结果是：,124,124,用规范的形式将参数估计和检验的结果写为：,（55.64114）(0.007743),F=2490.823 n=30,t=(4.031457)(49.90815),125,1.可决系数：，模型整体上拟合好。2.系数显著性检验：给定，查 t 分布表，在自由度为时临界值为因为应拒绝3.用P值检验 p=0.0000表明，人均GDP对居民消费水平确有显著影响。,模型检验,应拒绝,126,4.经济意义检验：估计的解释变量的系数为03864，说明人均GDP每增加1元，人均年消费支出平均将增加03864 元

47、。这符合经济理论的界定。,127,点预测：如果2008年人均GDP将比2007年增长16.2%，将达到22001元/人，利用所估计的模型可预测2008年居民可能达到的年消费水平。,经济预测,(元),区间预测:,平均值区间预测上下限：,已知:,128,由X和Y的描述统计结果,平均值区间预测,即是说：当2008年=22001元时，居民人均消费水平平均值置信度95%的预测区间为（8445.38，9006.96）元。,129,129,个别值区间预测:,即是说：当2008年=22001元时，居民人均消费水平个别值置信度95%的预测区间为（8200.66，9251.68）元。,本章小结,1、变量间的关系分

48、为函数关系与相关关系。相关系数是对变量间线性相关程度的度量。2、现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究，回归的实质是由解释变量去估计被解释变量的平均值。3、总体回归函数（PRF）是将总体被解释变量Y的条件均值表现为解释变量X的某种函数。样本回归函数（SRF）是将被解释变量Y的样本条件均值表示为解释变量X的某种函数。总体回归函数与样本回归函数的区别与联系。,130,4、随机扰动项是被解释变量实际值与条件均值的偏差，代表排除在模型以外的所有因素对Y的影响。5、简单线性回归的基本假定：对模型和变量的假定、对随机扰动项u的假定（零均值假定、同方差假定、无自相关假定、随机扰动与解释

49、变量不相关假定、正态性假定）6、普通最小二乘法（OLS）估计参数的基本思想及估计量；OLS 估计量的分布性质及期望、方差和标准误差；OLS估计式是最佳线性无偏估计量。,131,7、简单线性回归模型极大似然估计的思想和方法。8、对回归系数区间估计的思想和方法。9、拟合优度是样本回归线对样本观测数据拟合的优劣程度，可决系数是在总变差分解基础上确定的。可决系数的计算方法、特点与作用。10、对回归系数假设检验的基本思想。对回归系数t检验的思想与方法；用P值判断参数的显著性。,132,11、被解释变量平均值预测与个别值预测的关系，被解释变量平均值的点预测和区间预测的方法，被解释变量个别值区间预测的方法。12、运用EViews软件实现对简单线性回归模型的估计和检验。参考书：1、电子版实验手册 2、易丹辉著数据分析与EViews应用,133,134,134,THANKS,第二章结束了！,