欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第2章简单线性回归模型教室.ppt

    • 资源ID:5906762       资源大小:4.60MB        全文页数:134页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第2章简单线性回归模型教室.ppt

    1,第 二 章 简单线性回归模型,计量经济学,引子:中国旅游业总收入将超过3000亿美元吗?,未来我国旅游需求将快速增长,根据中国政府所制定的远景目标,到2020年,中国入境旅游人数将达到2.1亿人次;国际旅游外汇收入580亿美元,国内旅游收入2500亿美元。到2020年,中国旅游业总收入将超过3000亿美元,相当于国内生产总值的8%至11%。(来源:2008年中国旅行社发展研究咨询报告)什么决定性因素能使中国旅游业总收入超过3000亿美元?旅游业的发展与这种决定性因素的数量关系究竟是什么?怎样具体测定旅游业发展与这种决定性因素的数量关系?,2,研究经济变量之间数量关系的方法,为了不使问题复杂化,我们先在某些标准的(古典的)假定条件下,用最简单的模型,对最简单的变量间的数量关系加以讨论。,显然,对旅游起决定性影响作用的是“中国居民的收入水平”以及“入境旅游人数”等因素。“旅游业总收入”(Y)与“居民平均收入”(X1)或者“入境旅游人数”(X2)有怎样的数量关系呢?能否用某种线性或非线性关系式 Y=f(X)去表现这种数量关系?具体该怎样去表现和计量呢?,4,第一节 回归分析与回归函数 一、相关分析与回归分析(对统计学的回顾)1、经济变量之间的相互关系 性质上可能有三种情况:确定性的函数关系 Y=f(X)可用数学方法计算 不确定的统计关系相关关系 Y=f(X,u)(u为随机变量)可用统计方法分析 没有关系 不用分析,相关关系的描述 最直观的描述方式坐标图(散布图、散点图),5,函数关系,相关关系(线性),没有关系,相关关系(非线性),2、相关关系,6,6,相关关系的类型,从涉及的变量数量看 简单相关 多重相关(复相关)从变量相关关系的表现形式看 线性相关散布图接近一条直线 非线性相关散布图接近一条曲线从变量相关关系变化的方向看 正相关变量同方向变化,同增同减 负相关变量反方向变化,一增一减 从变量相关的程度看 完全相关、不相关、不完全相关,7,3、相关程度的度量相关系数,如果 和 总体的全部数据都已知,和 的方差和协方差也已知,则 X和Y的总体线性相关系数:其中:-X 的方差-Y的方差-X和Y的协方差特点:总体相关系数反映总体两个变量X和Y的线性相关程度。对于特定的总体来说,和 的数值是既定的,总体相关系数 是客观存在的特定数值。总体的两个变量 和 的全部数值通常不可能直接观测,所以总体相关系数一般是未知的。,8,如果只知道 X 和 Y 的样本观测值,则X和Y的样本相关系数为:其中:和 分别是变量X和Y的样本观测值,和 分别是变量 X 和Y 样本值的平均值注意:是随抽样而变动的随机变量。,X和Y的样本线性相关系数:,相关系数较为简单,也可以在一定程度上测定变量间的数量关系,但是对于具体研究变量间的数量规律性还有局限性。,相关系数r的取值范围:-1,1 X 和 Y 都是相互对称的随机变量,线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。样本相关系数是总体相关系数的样本估计值。由于抽样波动,样本相关系数是随抽样而变动的随机变量,其统计显著性还有待检验。,9,对相关系数的正确理解和使用,10,4、回归分析,回归的古典意义:高尔顿遗传学的回归概念(父母身高与子女身高的关系)子女的身高有向人类平均身高回归的趋势回归的现代意义:一个被解释变量对若干个解释变量依存关系的研究。回归的目的(实质):由解释变量去估计被解释变量的平均值。相关分析和回归分析,被解释变量Y的条件分布和条件概率:当解释变量X取某固定值时(条件),Y 的值不确定,Y的不同取值会形成一定的分布,这是 Y 的条件分布。X取某固定值时,Y 取不同值的概率称为条件概率。变量 Y 的条件期望:对于二元离散型随机变量(X,Y),在X取某一个定值Xi的条件下,求Y的数学期望,称此期望为:给定X=Xi时Y的条件期望,记作 且,明确几个概念(为深刻理解“回归”),12,被解释变量 Y 的条件期望:对于解释变量X 的每一个取值,根据Y的条件分布和条件概率确定其期望或均值,称为 Y 的条件期望或条件均值,用 表示。注意:Y的条件期望是 随X的变动而变动的。,Y,X,明确几个概念(为深刻理解“回归”),13,回归线:对于每一个X的取值,都有Y的条件期望 与之对应,代表Y的条件期望的点的轨迹形成的直线或曲线称为回归线。回归函数:被解释变量Y的条件期望 随解释变量X的变化而有规律的变化,如果把Y的条件期望表现为 X 的某种函数,这个函数称为回归函数。回归函数分为:总体回归函数和样本回归函数,Y,X,回归线,14,举例:假如已知由100个家庭构成的总体的数据(单位:元),二、总体回归函数(PRF),15,消费支出的条件期望与收入关系的图形,对于本例的总体,家庭消费支出的条件期望与家庭收入 基本是线性关系,可以把家庭消费支出的条件均值表示为家庭收入的线性函数:,16,1.总体回归函数的概念 前提:假如已知所研究的经济现象的总体的被解释变量Y和解释变量X的每个观测值(通常这是不可能的),那么,可以计算出总体被解释变量Y的条件期望,并将其表现为解释变量X的某种函数 这个函数称为总体回归函数(PRF)本质:总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关系的规律,也就是要努力去寻求总体回归函数。,17,条件期望表现形式例如Y的条件期望 是解 释变量X的线性函数,可表示为:个别值表现形式(随机设定形式)对于一定的,Y的个别值 并不一定等于条件期望,而是分布在 的周围,若令各个 与条件期望 的偏差为,显然 是个随机变量。则有,2.总体回归函数的表现形式,PRF,作为总体运行的客观规律,总体回归函数是客观存在的,但在实际的经济研究中总体回归函数通常是未知的,只能根据经济理论和实践经验去设定。计量经济学研究中“计量”的根本目的就是要寻求总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数的具体形式。总体回归函数中 Y 与 X 的关系可以是线性的,也可以是非线性的。,18,3.如何理解总体回归函数,19,计量经济学中,线性回归模型的“线性”有两种解释:就变量而言是线性的 Y的条件期望(均值)是X的线性函数 就参数而言是线性的 Y的条件期望(均值)是参数的线性函数例如:对变量、参数均为“线性”对参数“线性”,对变量”非线性”对变量“线性”,对参数”非线性”注意:在计量经济学中,线性回归模型主要指就参数而言是“线性”的,因为只要对参数而言是线性的,都可以用类似的方法去估计参数,都可以归于线性回归。,“线性”的判断,概念:在总体回归函数中,各个 的值与其条件期望 的偏差 有很重要的意义。若只有 的影响,与 不应有偏差。若偏差 存在,说明还有其他影响因素。实际代表了排除在模型以外的所有因素对 Y 的影响。性质:是期望为 0,有一定分布的随机变量。重要性:随机扰动项的性质决定着计量经济分析结果 的性质和计量经济方法的选择。,20,三、随机扰动项,是未知影响因素的代表(理论的模糊性)是无法取得数据的已知影响因素的代表(数据欠缺)是众多细小影响因素的综合代表(非系统性影响)模型可能存在设定误差(变量、函数形式的设定)模型中变量可能存在观测误差(变量数据不符合实际)变量可能有内在随机性(人类经济行为的内在随机性),21,引入随机扰动项ui 的原因,样本回归线:对于X的一定值Xi,取得Y的样本观测值,可计算样本条件均值。Y的样本观测值的条件均值的轨迹,称为样本回归线。样本回归函数:如果把被解释变量Y的样本条件均值 表示为解释变量X的某种函数,这个函数称为样本回归函数(SRF),22,X,Y,SRF,四、样本回归函数(SRF),23,样本回归函数如果为线性函数,可表示为 其中:是与 相对应的 Y 的样本条件均值 和 分别是样本回归函数的参数 个别值(实际值)形式:被解释变量Y的实际观测值 不完全等于样本条件均值,二者之差用 表示,称为剩余项或残差项:则 或,样本回归函数的函数形式,条件均值形式:,样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回归线,(SRF不唯一)样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。样本回归线只是样本条件均值的轨迹,还不是总体回归线,它至多只是未知的总体回归线的近似表现。,24,样本回归函数的特点,SRF1,SRF2,Y,X,A X,25,PRF,SRF,样本回归函数与总体回归函数的关系,如果能够通过某种方式获得 和 的数值,显然:和 是对总体回归函数参数 和 的估计 是对总体条件期望 的估计 ei 在概念上类似总体回归函数中的ui,可视 为对ui 的估计。,26,对比:总体回归函数 样本回归函数,对样本回归的理解,27,目的:计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,SRF 总会过高或过低估计PRF。要解决的问题:寻求一种规则和方法,使其得到的SRF的参数 和 尽可能“接近”总体回归函数中的参数 和 的真实值。这样的“规则和方法”有多种,如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。,回归分析的目的,用样本去估计总体回归函数,总要使用特定的方法,而任何估计参数的方法都需要有一定的前提条件假定条件。一、简单线性回归的基本假定 为什么要作基本假定?只有具备一定的假定条件,所作出的估计才具有良好的统计性质。模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。假定分为:对模型和变量的假定对随机扰动项的假定,28,第二节 简单线性回归模型的最小二乘估计,例如对于 假定模型设定是正确的(变量和模型无设定误差)假定解释变量X在重复抽样中取固定值。假定解释变量X是非随机的,或者虽然X是随机的,但与扰动项u是不相关的。假定变量不存在测量误差。注意:解释变量非随机的假定在自然科学的实验研究中相对容易满足,而经济领域中变量的观测是被动不可控的,X非随机的假定并不一定都满足。,29,1.对模型和变量的假定,假定1:零均值假定:在给定解释变量Xi的条件下,的条件期望为零。假定2:同方差假定:对于给定的每一个Xi,的条件方差都等于某个常数,30,2.对随机扰动项u的假定,31,假定3:无自相关假定:随机扰动项 的逐次值互不相关 假定4:解释变量 是非随机的,或者虽然 是随机的但与扰动项 不相关(从随机扰动 角度看),假定5:对随机扰动项分布的正态性假定,即假定 服从均值为零、方差为 的正态分布(说明:正态性假定并不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时,的分布会趋近于正态分布。所以正态性假定有合理性),32,由于其中的 和 是非随机的,是随机变量,因此Y是随机变量,的分布性质决定了 的分布性质。对 的一些假定可以等价地表示为对 的假定:假定1:零均值假定 假定2:同方差假定 假定3:无自相关假定 假定5:正态性假定,33,在对 的基本假定下 Y 的分布性质,1.OLS的基本思想 对于,不同的估计方法可以得到不同的样本回归参数 和,所估计的 也就不同。理想的估计结果应使估计的 与真实的 的差(即剩余)总的来说越小越好 因 可正可负,总有,所以可以取 最小,即在观测值Y和X确定时,的大小决定于 和。要解决的问题::如何寻求能使 最小的 和。,34,二、普通最小二乘法(OLS)(Ordinary Least Squares),用克莱姆法则求解得到 以观测值表现的OLS估计量:,35,取偏导数并令其为0,可得正规方程,或整理得,即,2.正规方程和估计量,36,为表达得更简洁,或者用离差形式的OLS估计量:容易证明由正规方程:注意:其中:本课程中:大写的Xi 和Yi 均表示观测值;小写的xi 和yi 均表示观测值的离差而且由样本回归函数可用离差形式写为,用离差表现的OLS估计量,例2.2 估计样本回归函数,回顾:OLS的基本思想在观测值Y和X确定时,残差平方和的大小决定于 和要解决的问题::如何寻求能使 最小的 和,取偏导数并令其为0,可得正规方程,即,剩余项 的均值为零 OLS回归线通过样本均值 估计值 的均值等于实际观测 值Yi的均值,40,(由OLS第一个正规方程直接得到),(由OLS正规方程 两边同除n得到),3.OLS回归线的数学性质,由OLS正规方程有:,被解释变量估计值 与剩余项ei 不相关,由样本相关系数的估计式有:,解释变量Xi与剩余项ei 不相关,43,面临的问题:参数估计值 参数真实值对参数估计式的优劣需要有评价的标准 为什么呢?参数无法直接观测,只能通过样本去估计。样本的获得存 在抽样波动,不同样本的估计结果不一致。估计参数的方法有多种,不同方法的估计结果可能不相同,通过样本来估计参数时,估计方法及所确定的估计量 不一定完备,不一定能得到理想的总体参数估计值。对各种估计方法优劣的比较与选择需要有评价标准。估计准则的基本要求:参数估计值应尽可能地接近总体参数真实值”。什么是“尽可能地接近”原则呢?用统计语言表述就是:无偏性、有效性、一致性等,4.OLS估计量的统计性质,44,(1)无偏性,前提:重复抽样中估计方法固定、样本数不变。由重复抽样得到的观测值,可得一系列参数估计值 的分布称为 的抽样分布,其密度函数记为概念:如果,则称 是参数的无偏估计量如果,则称 是有偏的估计,其偏倚为,45,概 率 密 度 估计值 偏倚,46,(2)有效性,前提:样本相同、用不同的方法估计参数,可以找到若 干个不同的无偏估计式 目标:努力寻求其抽样分布具有最小方差的估计量(见下页图)既是无偏的、同时又具有最小方差特性的估计量,称为有效(最佳)估计量。,47,概 率 密 度,估计值,思想:当样本容量较小时,有时很难找到方差最小的无偏估计量,需要考虑样本扩大后的性质(估计方法不变,样本数逐步增大)一致性:当样本容量 n 趋于无穷大时,如果估计式 依概率收敛于总体参数的真实值,就称这个估计式是 的一致估计式。即 或(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式)(见下页图)渐近有效性:当样本容量 n 趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。,48,3、渐近性质(大样本性质),49,概 率 密 度,图 4,估计值,先明确几点:由OLS估计式可以看出 都由可观测的样本值 和 唯一表示。因存在抽样波动,OLS估计 是随机变量,50,OLS估计是否符合“尽可能地接近总体参数真实值”的要求呢?,4.分析OLS估计量的统计性质,51,OLS估计式的统计性质高斯定理,1、线性特征:是Yi 的线性函数,注意,2、无偏性 可以证明(证明见教材P33),52,(注意:无偏性的证明中用到了基本假定中ui 零均值等假定),3、最小方差特性(有效性)(证明见教材P59附录21)可以证明:在所有的线性无偏估计中,OLS估计 具有最小方差。(注意:最小方差性的证明中用到了基本假定中的同方差、无自相关等假定)结论(高斯-马尔可夫定理):在古典假定条件下,OLS估计量是最佳线性无偏估计量(BLUE),53,概念:样本回归线是对样本数据的一种拟合。不同的模型(不同函数形式)可拟合出不同的样本回归线。相同的模型用不同方法去估计参数,也可以拟合出不同的回归线。拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度,可称为拟合优度。如何度量拟合优度呢?拟合优度的度量建立在对 Y 的总变差分解的基础上,54,第三节 拟合优度的度量,Y的观测值、估计值 与平均值 有以下关系,55,一、总变差的分解,Y的观测值、估计值 与平均值 有以下关系 将上式两边平方并对所有观测值加总,,56,一、总变差的分解,Y的观测值、估计值 与平均值 有以下关系 将上式两边平方并加总(提示:交叉项)可证得,57,一、总变差的分解,Y的观测值、估计值 与平均值 有以下关系 将上式两边平方并加总(提示:交叉项)可证得(TSS)(ESS)(RSS),58,一、总变差的分解,总变差(TSS):被解释变量Y的观测值与其平均值的离差平方和(总平方和)(说明Y的总变动程度)解释了的变差(ESS):被解释变量Y的估计值与其平均值的离差平方和(回归平方和)剩余平方和(RSS):被解释变量观测值与估计值之差的平方和(未解释的平方和),59,一、总变差的分解,(TSS)(ESS)(RSS),Y X,60,变差分解的图示(以某一个观测值为例),以TSS同除总变差等式 两边:定义:回归平方和(解释了的变差ESS)在总变差(TSS)中所占的比重称为可决系数,用r2 或R2 表示:,61,或,二、可决系数,可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型的拟合程度越好。反之可决系数越小,说明模型对样本观测值的拟合程度越差。因此,可决系数可以作为综合度量回归模型对样本观测值拟合优度的指标。,62,可决系数的作用,例题:【例2.2】,用样本(一)数据估计的样本线性回归模型,计算出被解释变量的估计值,利用表2.4的数据计算出则可决系数为说明在被解释变量观测值的总变差中,有99.39%由样本回归模型作出了解释。,可决系数的特点:可决系数取值范围:可决系数R2 是样本观测值的函数,是随抽样而变动的随机变量 可决系数是非负的统计量,联系:数值上,可决系数是相关系数的平方,66,可决系数与相关系数的关系,区别:可决系数 相关系数 是就模型而言 是就两个变量而言 说明解释变量对被解释 说明两变量线性依存程度 变量的解释程度 度量不对称的因果关系 度量对称的相关关系 取值 0 1 取值-1r1 有非负性 可正可负,67,68,第四节 回归系数的区间估计和假设检验,为什么要作区间估计?运用OLS法可以估计出参数的一个估计值,但OLS估计只是通过样本得到的点估计,它不一定等于真实参数,还需要寻求真实参数的可能范围,并说明其可靠性。为什么要作假设检验?OLS 估计只是用样本估计的结果,是否可靠?是否只是抽样的偶然结果?还有待统计检验。区间估计和假设检验都是建立在确定参数估计值 概率分布性质的基础上。,69,一、OLS估计的分布性质 基本思想 是随机变量,必须确定其分布性质才能进行区间估计和假设检验。怎样确定 的分布性质呢?ui 是服从正态分布的随机变量,决定 了Yi 也是服从正态分布的随机变量;是Yi 的线性函数,决定了 也服从正态分布 ui正态 Yi正态 正态 只要确定 的期望和方差,即可确定 的分布性质,线性特征,(线性估计的重要性),70,的期望:(已证明是无偏估计)的方差和标准误差(证明见P34)(标准误差是方差的平方根)注意:以上各式中 均未知,但是个常数,其余均是已知的样本观测值,这时 和 都不是随机变量。,参数估计量的期望和方差,71,基本思想:是ui 的方差,而ui 不能直接观测,只能从由样本得到的ei 去获得有关ui 的某些信息,去对 作出估计。可以证明(见附录2.2)其无偏估计为(这里的n-2为自由度,即可自由变化的样本观测值个数)注意区别:是未知的确定的常数;是由样本信息估计的,是个随机变量,对随机扰动项方差 的估计,72,对 作标准化变换,为什么要对 作标准化变换?在ui 正态性假定下,由前面的分析已知但在对一般正态变量 作实际分析时,要具体确定 的取值及对应的概率,要通过正态分布密度函数或分布函数去计算是很麻烦的,为了便于直接利用“标准化正态分布的临界值”,需要对 作标准化变换。标准化的方式:,标准正态分布函数,73,在 已知时,对 作标准化变换,所得Z统计量为标准正态变量。,1.已知时,对 作标准化变换,注意:这时 和 都不是随机变量(X、都是非随机的),74,条件:当 未知时,可用(随机变量)代替 去估计参数的标准误差。这时参数估计的标准误差是个随机变量。样本为大样本时,作标准化变换所得的统计量Zk,也可以 视为标准正态变量(根据中心极限定理)。样本为小样本时,,用估计的参数标准误差对 作标准化变换,所得的统 计量用t表示,这时t将不再服从正态分布,而是服从t 分布(注意这时分母是随机变量):,2.未知时,对 作标准化变换,基本思想:对参数作出的点估计是随机变量,虽然是无偏估计,但还不能说明这种估计的可靠性和精确性。如果能找到包含真实参数的一个范围,并确定这样的范围包含参数真实值的可靠程度,将是对真实参数更深刻的认识。方法:如果在确定参数估计式概率分布性质的基础上,可找到两个正数和,能使得这样的区间 包含真实 的概率为,即这样的区间称为所估计参数的置信区间。(上限、下限)讨论:“如果已经得出了 的特定估计值,并确定了某个置信区间,这说明真实参数落入这个区间的概率为1-”。这种说法对吗?,75,二、回归系数的区间估计,76,样本容量充分大,样本容量较小,总体方差 已知,总体方差 未知,Z将接近标准正态分布,服从 t 分布,三种情况,基本思想:利用 标准化后统计量的分布性质去寻求:,置信区间:,标准正态分布,1、当总体方差 已知时(Z 服从正态分布)取定(例如=0.05),查标准正态分布表得与 对应的临界值z(例如z为1.96),则标准化变量Z*(统计量)因为 或 即,77,回归系数的区间估计(分三种情况寻找合适的),概念回顾:临界值,方法:可用无偏估计 去代替未知的,由于样本容量充分大,标准化变量Z*(统计量)将接近标准正态分布注意:这里的“”,表示“估计的”,这时区间估计的方式也可利用标准正态分布只是这时,78,2.当总体方差 未知,且样本容量充分大时,方法:用无偏估计 去代替未知的,由于样本容量较小,“标准化变量”t(统计量)不再服从正态分布,而服从t 分布。这时可用 t 分布去建立参数估计的置信区间。选定,查 t 分布表得显著性水平为,自由度为n-2的临界值(n-2),则有即,79,3、当总体方差 未知,且样本容量较小时,例1:研究某市城镇居民人均鲜蛋需求量Y(公斤)与人均可支配收入X(元,1980年不变价计)的关系设定模型:1995-2005年样本数据:估计参数:,计算可决系数例1:由前面的估计结果可计算出 由数据Y 可计算出:则,估计结果:,估计:给定 查df=n-2=9的t分布临界值参数区间估计:若给定 查df=9的t分布临界值,82,若给定 则,若给定 则,则,83,83,统计量 t,计算的统计量为:,相对于显著性水平 的临界值为:(单侧)或(双侧),基本概念回顾:大概率事件与小概率事件,0,(大概率事件),(小概率事件),目的:简单线性回归中,检验X对Y是否真有显著影响,三、回归系数的假设检验,84,回归系数的检验方法,确立假设:原假设为 备择假设为(本质:检验 是否为0,即检验 是否对Y有显著影响)(1)当已知 或样本容量足够大时 可利用正态分布作Z检验 给定,查正态分布表得临界值 Z 如果 则不拒绝原假设如果 或 则 拒绝原假设,85,(2)当 未知,且样本容量较小时,只能用 去代替,可利用 t分布作 t 检验:,给定,查 t 分布表得如果 或者 则拒绝原假设 而不拒绝备择假设如果 则不拒绝原假设,用 P 值判断参数的显著性,假设检验的 p 值:p 值是基于既定的样本数据所计算的统计量,拒绝原假设的最低显著性水平。统计分析软件中通常都给出了检验的 p 值,P,统计量 t,计算的统计量:,相对于显著性水平 的临界值:或,注意:t检验是比较 和P值检验是比较 和 p,与 相对应,与 P 相对应,87,用 P 值判断参数显著性的方法,方法:将给定的显著性水平 与 p 值比较:若 值,必有,则在显著性水平 下拒绝原假设,即认为 对 Y 有显著影响若 值,必有,则在显著性水平 下不拒绝原假设,即认为 对 Y 没有显著影响规则:当 时,P值越小,越能拒绝原假设,举例:对【例1】参数的显著性检验例1:研究某市城镇居民人均鲜蛋需求量Y(公斤)与人均可支配收入X(元,1980年不变价计)的关系设定模型:1995-2005年样本数据:估计参数:,89,举例:对【例1】参数的显著性检验给定 查df=9的 t分布临界值计算统计量判断:因 拒绝说明 显著不为0,X对Y 确有显著影响用P值检验:(需要确定与 对应的P值)由,df=9,查 t 分布表知道P0.0005(t=4.781时)因t=5.00时的P值 0.0005(t=4.781)则在显著性水平 下更应拒绝原假设即认为 对 Y 有显著影响,第五节 回归模型预测,一、回归分析结果的报告 经过模型的估计、检验,得到一系列重要的数据,为了简明、清晰、规范地表述这些数据,计量经济学通常采用以下规范化的方式:例如:回归结果为=244545+05091(64138)(00357)标准误差SE t=(38128)(142605)t 统计量=09621 df=8 可决系数和自由度 F=20287 DW=2.3 F 统计量 DW统计量,1.基本思想经估计的计量经济模型可用于:经济结构分析 经济预测政策评价 验证理论运用计量经济模型作预测:指利用所估计的样本回归函数作预测工具,用解释变量的已知值或预测值,对预测期或样本以外的被解释变量的数值作出定量的估计。,91,二、被解释变量平均值预测,计量经济预测是一种条件预测:条件:模型设定的关系式不变 所估计的参数不变 解释变量在预测期的取值已作出预测,预测值、平均值、个别值的相互关系,Y 是对真实平均值的点估计,也是对个别值的点估计,点预测值,真实平均值,个别值,2、Y 平均值的点预测,点预测:用样本估计的总体参数值所计算的Y的估计值直接作为Y的预测值。方法:将解释变量预测值直接代入估计的方程 这样计算的 是一个点估计值,3、Y平均值的区间预测,基本思想:预测的目标是真实平均值。由于存在抽样波动,预 测的平均值 不一定等于真实平均值 还需要对 作区间估计。为对Y作区间预测,必须确定平均值点预测值 的抽样分布。必须找出点预测值 与预测目标值 的关系,即找出与二者都有关的统计量。,具体作法(从 的分布分析),已知 可以证明 服从正态分布(为什么?),将其标准化,当 未知时,只得用 代替,这时有,(较复杂不具体证明),97,显然这样的 t 统计量与 和 都有关。给定显著性水平,查 t 分布表,得自由度n2的临界值,则有即Y平均值的置信度为 的预测区间为,构建平均值的预测区间,三、被解释变量个别值预测,基本思想:既是对Y平均值的点预测,也是对Y个别值的点预测。由于存在随机扰动 的影响,Y的平均值并不等于Y的个别值。为了对Y的个别值 作区间预测,需要寻找与点预测值 和预测目标个别值 有关的统计量,并要明确其概率分布。,已知剩余项 是与预测值 及个别值YF 都有关的变量,并且已知eF 服从正态分布,且可证明 当用 代替 时,对eF 标准化的 变量 t 为,99,(较复杂不具体证明),具体作法:,构建个别值的预测区间,给定显著性水平,查 t 分布表得自由度为N2的临界值,则有 因此,一元回归时Y的个别值的置信度为1-的预测区间上下限为,例题:对消费支出个别值作区间预测,对于【例2.2】,当收入Xf=7000时,在人均消费支出的点预测值 的基础上,对人均消费支出个别值作区间预测。给定显著性水平=0.05,由可计算消费支出个别值Yf 预测区间的上下限:,续【例2.2】,即:当家庭每月人均收入达到7000元时,人均消费支出个别值 置信度为95%的区间预测值为(4296.37,4687.63)元。,103,被解释变量Y区间预测的特点,(1)Y平均值的预测值与真实平均值有误差,主要是受抽样波动影响 预测区间 Y个别值的预测值与真实个别值的差异,不仅受抽样波动影响,而且还受随机扰动项的影响。预测区间,104,(2)平均值和个别值预测区间都不是常数,是随 的变化而变化的。当 时,预测区间最小。(3)预测区间上下限与样本容量有关,当样本容量n时,个别值的预测区间只决定于随机扰动的方差。,预测区间,105,SRF,各种预测值的关系,Y的个别值的预测区间,Y平均值的预测区间,106,第六节 案例分析,案例1:分析各地区城镇居民计算机拥有量与城镇居民收入水平的关系 提出问题:随着信息化程度和居民收入水平的提高,作为居民耐用消费品重要代表的计算机已为众多城镇居民家庭所拥有。研究中国各地区城镇居民计算机拥有量与居民收入水平的数量关系,对于探寻居民消费增长的规律性,分析各地区居民消费的差异,预测地区全体居民消费水平和结构的发展趋势,合理规划信息产业的发展,都有重要的意义。,理论分析:影响居民计算机拥有量的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入水平。从理论上说居民收入水平越高,居民计算机拥有量越多。,107,变量选择:被解释变量选择能代表城乡所有居民消费的“城镇居民家庭平均每百户计算机拥有量”(单位:台);解释变量选择表现城镇居民收入水平的“城镇居民平均每人全年家庭总收入”(单位:元)研究范围:全国各省市2011年底的城镇居民家庭平均每百户计算机拥有量和城镇居民平均每人全年家庭总收入数据。,2011年中国各地区城镇居民每百户计算机拥有量和人均总收入,为了初步分析城镇居民家庭平均每百户计算机拥有量(Y)与城镇居民平均每人全年家庭总收入(X)的关系,作以X为横坐标,以Y为纵坐标的散点图。,110,从散点图可以看出城镇居民家庭平均每百户计算机拥有量(Y)与城镇居民平均每人全年家庭总收入(X)大体呈现线性关系。可以建立如下简单线性回归模型:,模型设定:,111,估计参数,假定模型中随机扰动满足基本假定,可用OLS法。,具体操作:使用EViews 软件,估计结果是:,112,112,用规范的形式将参数估计和检验的结果写为:,(5.6228)(0.00024)t=(2.1267)(11.9826),F=143.5836 n=31,113,1.可决系数:模型整体上拟合较好。2.系数显著性检验:取,查t分布表得自由度为 的临界值为。因为 应拒绝3.用P值检验 p=0.0000表明,城镇居民人均总收入对城镇居民每百户计算机拥有量确有显著影响。,模型检验,应拒绝,114,4.经济意义检验:所估计的参数,说明城镇居民家庭人均总收入每增加1元,平均说来城镇居民每百户计算机拥有量将增加0.002873台,这与预期的经济意义相符。,115,点预测:如果西部地区某省城镇居民家庭人均总收入能达到25000元/人,利用所估计的模型可预测城镇居民每百户计算机拥有量,点预测值为,经济预测,(台),区间预测:,平均值区间预测上下限:,已知:,116,由X和Y的描述统计结果,平均值区间预测,即是说:当地区城镇居民人均总收入达到25000元时,城镇居民每百户计算机拥有量 平均值置信度95%的预测区间为(80.6219,86.9473)台。,117,117,个别值区间预测,即是说:当地区城镇居民人均总收入达到25000元时,城镇居民每百户计算机拥有量 个别值置信度95%的预测区间为(67.0656,100.5036)台。,118,第六节 案例分析,案例2:中国全体居民的消费水平与经济发展数量关系的分析 提出问题:改革开放以来,随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也在不断增长。研究中国全体居民的消费水平与经济发展的数量关系,对于探寻居民消费增长的规律性,预测居民消费的发展趋势有重要意义。,理论分析:影响居民人均消费水平的因素有多种,但从理论和经验分析,最主要的影响因素应是经济发展水平。从理论上说经济发展水平越高,居民消费越多。,119,变量选择:被解释变量选择能代表城乡所有居民消费的“全体居民人均年消费水平”(元/人);解释变量选择表现经济增长水平的“人均国民生产总值(人均GDP)”(元/人)研究范围:1978年至2007年中国“全体居民人均年消费水平”与“人均国内生产总值(人均GDP)”的时间序列数据。,120,数据:1978年-2007年中国居民人均消费水平和人均GDP,为分析居民人均消费水平(Y)和人均GDP(X)的关系,作散点图:,122,从散点图可以看出居民消费水平(Y)和人均GDP(X)大体呈现为线性关系。为分析中国居民消费水平随人均GDP变动的数量规律性,可以建立如下简单线性回归模型:,模型设定:,123,估计参数,假定模型中随机扰动满足基本假定,可用OLS法。,具体操作:使用EViews 软件,估计结果是:,124,124,用规范的形式将参数估计和检验的结果写为:,(55.64114)(0.007743),F=2490.823 n=30,t=(4.031457)(49.90815),125,1.可决系数:,模型整体上拟合好。2.系数显著性检验:给定,查 t 分布表,在自由度为 时临界值为 因为 应拒绝3.用P值检验 p=0.0000表明,人均GDP对居民消费水平确有显著影响。,模型检验,应拒绝,126,4.经济意义检验:估计的解释变量的系数为03864,说明人均GDP每增加1元,人均年消费支出平均将增加03864 元。这符合经济理论的界定。,127,点预测:如果2008年人均GDP将比2007年增长16.2%,将达到22001元/人,利用所估计的模型可预测2008年居民可能达到的年消费水平。,经济预测,(元),区间预测:,平均值区间预测上下限:,已知:,128,由X和Y的描述统计结果,平均值区间预测,即是说:当2008年=22001元时,居民人均消费水平平均值置信度95%的预测区间为(8445.38,9006.96)元。,129,129,个别值区间预测:,即是说:当2008年=22001元时,居民人均消费水平个别值置信度95%的预测区间为(8200.66,9251.68)元。,本章小结,1、变量间的关系分为函数关系与相关关系。相关系数是对变量间线性相关程度的度量。2、现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究,回归的实质是由解释变量去估计被解释变量的平均值。3、总体回归函数(PRF)是将总体被解释变量Y的条件均值表现为解释变量X的某种函数。样本回归函数(SRF)是将被解释变量Y的样本条件均值表示为解释变量X的某种函数。总体回归函数与样本回归函数的区别与联系。,130,4、随机扰动项是被解释变量实际值与条件均值的偏差,代表排除在模型以外的所有因素对Y的影响。5、简单线性回归的基本假定:对模型和变量的假定、对随机扰动项u的假定(零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定)6、普通最小二乘法(OLS)估计参数的基本思想及估计量;OLS 估计量的分布性质及期望、方差和标准误差;OLS估计式是最佳线性无偏估计量。,131,7、简单线性回归模型极大似然估计的思想和方法。8、对回归系数区间估计的思想和方法。9、拟合优度是样本回归线对样本观测数据拟合的优劣程度,可决系数是在总变差分解基础上确定的。可决系数的计算方法、特点与作用。10、对回归系数假设检验的基本思想。对回归系数t检验的思想与方法;用P值判断参数的显著性。,132,11、被解释变量平均值预测与个别值预测的关系,被解释变量平均值的点预测和区间预测的方法,被解释变量个别值区间预测的方法。12、运用EViews软件实现对简单线性回归模型的估计和检验。参考书:1、电子版实验手册 2、易丹辉著数据分析与EViews应用,133,134,134,THANKS,第二章结束了!,

    注意事项

    本文(第2章简单线性回归模型教室.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开