经典单方程计量经济学模型-多元线性回归.ppt
竭尽全力而不是尽力而为,在美国西雅图一所著名的教堂里,一位德高望重的牧师同教会学校一个班的学生讲故事。猎人带着猎狗去打猎,猎人击中了兔子的后腿,受伤的兔子拼命地逃跑,猎狗在后穷追不舍。可是追了一阵子,猎狗没追上,只好悻悻地回来。猎人气急败坏地说:“你真没用,连一只受伤的兔子都追不到!”猎狗辩解道:“我已经尽力而为了呀!”逃脱的兔子回来跟大家说:“他是尽力而已,我是竭尽全力呀!他没有追上我最多挨一顿骂,而我若不竭尽全力的跑,可就没命了呀!”,牧师讲完故事后,又向全班承诺:谁要能背出圣经.马太福音中第五章到第七章的全部内容,他就邀请谁去“太空针”高塔餐厅参加免费聚餐会。圣经.马太福音中第五章到第七章的全部内容有几万字,而且不押韵,要背诵起全文难度极大。尽管参加免费的聚餐会是许多学生梦寐以求的事情,但几乎所有的人都望而却步了。几天后,班上一个11岁的男孩,胸有成竹从头到尾按要求背了下来,竟然没有出一点差错。牧师比别人更清楚,即使在成年的信徒中,能背诵这篇文章的人也是罕见的。牧师不禁好奇地问:“你为什么能背下这么有长有难的文字呢?”男孩不假思索地回答道:“我竭尽全力。”如今,那个男孩成了首富,他就是比尔.盖茨。,第三章 经典单方程计量经济学模型:多元线性回归模型Multiple Linear Regression Model,引 子:中国汽车的保有量会达到2亿辆吗?,中国经济的快速发展,使居民收入不断增加,数以百万计的中国人开始得以实现拥有汽车的梦想,中国也成为世界上成长最快的汽车市场。截至2015年底,全国机动车保有量达2.79亿辆,其中汽车1.72亿辆。工信部装备工业司副司长王富昌日前指出,预计到2020年中国汽车保有量将超过2亿辆。是什么因素导致中国汽车数量的增长?影响中国汽车行业发展的因素并不是单一的,经济增长、消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境、相关政策等,都会使中国汽车行业面临机遇和挑战。,分析中国汽车行业未来的趋势,应具体分析这样一些问题:中国汽车市场发展的状况如何?(用销售量观测)影响中国汽车销量的主要因素是什么?(如收入、价格、费用、道路状况、能源、政策环境等)各种因素对汽车销量影响的性质怎样?(正、负)各种因素影响汽车销量的具体数量关系是什么?所得到的数量结论是否可靠?中国汽车行业今后的发展前景怎样?应当如何制定汽车的产业政策?很明显,只用一个解释变量已很难分析汽车产业的发展,还需要寻求有更多个解释变量情况的回归分析方法。,怎样分析多种因素的影响?,第三章 多元线性回归模型,本章主要讨论:如何将简单线性回归的研究方法推广到多元的情况 多元线性回归模型及古典假定 多元线性回归参数的估计 多元线性回归方程的拟合优度 多元线性回归的区间估计和假设检验 多元线性回归模型的预测 含有虚拟变量的多元线性回归模型,3.1 多元线性回归模型,一、多元线性回归模型 二、多元线性回归模型的基本假定,一、多元线性回归模型,多元线性回归模型:表现在线性回归模型中的解释变量有多个。一般表现形式:,i=1,2,n,其中:k为解释变量的数目,j称为回归参数(regression coefficient)。习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样:模型中解释变量的数目为(k+1),也被称为总体回归函数的随机表达形式。它的非随机表达式为:,方程表示:各变量X值固定时Y的平均响应。j也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化;或者说j给出了Xj的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。,指对各个回归系数而言是“线性”的,对变量则可是线性的,也可是非线性的例如:生产函数取自然对数,多元线性回归的“线性”,总体回归模型n个随机方程的矩阵表达式为,其中,样本回归函数:用来估计总体回归函数,其随机表示式:,ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的近似替代。样本回归函数的矩阵表达:,或,其中:,总结:,二、多元线性回归模型的基本假定,假设1:回归模型是正确设定的。假设2:解释变量在所抽取的样本中具有变异性,且各X之间不存在严格线性相关性(无完全多重共线性)。假设3,随机误差项具有条件零均值性,假设4,随机误差项具有条件同方差及不序列相关性,假设5,随机项满足正态分布,上述假设的矩阵符号表示式:,假设2,n(k+1)矩阵X的秩为k+1,即X列满秩。假设3,,假设4:随机误差项具有条件同方差及不序列相关性。,其中,I为一n阶单位矩阵。,假设5,向量 有一多维正态分布,即,基本假定的推论:,注:CLRM 和 CNLRM,以上假设(正态性假设除外)也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型(Classical Linear Regression Model,CLRM)。同时满足正态性假设的线性回归模型,称为经典正态线性回归模型(Classical Normal Linear Regression Model,CNLRM)。,3.2 多元线性回归模型的参数估计,一、普通最小二乘估计二、参数估计量的性质三、样本容量问题四、参数估计举例,说 明,估计对象:模型结构参数随机项的分布参数(方差)估计方法:3大类方法:OLS、ML或者MM在经典模型中多应用OLS在非经典模型中多应用ML或者MM,一、普通最小二乘估计,对于随机抽取的n组观测值,如果样本函数的参数估计值已经得到,则有:,i=1,2n,根据最小二乘原理,参数估计值应该是下列方程组的解,其中,于是得到关于待估参数估计值的正规方程组:,正规方程组的矩阵形式,条件?,即:,将上述过程用矩阵表示如下:,即求解方程组:,得到:,于是:,正规方程组 的另一种写法,对于正规方程组,于是,或,(*)或(*)是多元线性回归模型正规方程组的另一种写法。,(*),(*),样本回归函数的离差形式,i=1,2n,其矩阵形式为,其中:,在离差形式下,参数的最小二乘估计结果为,随机误差项的方差的无偏估计,可以证明,随机误差项 的方差的无偏估计量为,二、参数估计量的性质,在满足基本假设的情况下,其结构参数的普通最小二乘估计、最大或然估计及矩估计仍具有:线性性、无偏性、有效性。,同时,随着样本容量增加,参数估计量具有:渐近无偏性、渐近有效性、一致性。利用矩阵表达可以很方便地证明,注意证明过程中利用的基本假设。,1、线性性,其中,C=(XX)-1 X 为一仅与固定的X有关的行向量。,2、无偏性,这里利用了假设:E(X)=0,3、有效性(最小方差性),其中利用了,和,三、样本容量问题,所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。,最小样本容量,样本最小容量必须不少于模型中解释变量的数目(包括常数项),即 n k+1因为,无多重共线性要求:秩(X)=k+1,2、满足基本要求的样本容量,从统计检验的角度:n30 时,Z检验才能应用;n-k8时,t分布较为稳定,一般经验认为:当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。,模型的良好性质只有在大样本下才能得到理论上的证明。,地区城镇居民消费模型,被解释变量:地区城镇居民人均消费Y解释变量:地区城镇居民人均工资性收入X1地区城镇居民人均其它X2样本:2013年,31个地区,四、多元线性回归模型的参数估计实例,数据,变量间关系,变量间关系,OLS估计,OLS估计结果,3.3 多元线性回归模型的统计检验,一、拟合优度检验 二、方程的显著性检验(F检验)三、变量的显著性检验(t检验)四、参数的置信区间,一、拟合优度检验,1、可决系数与调整的可决系数,则,总离差平方和的分解,由于,=0,所以有:,注意:一个有趣的现象,可决系数,该统计量越接近于1,模型的拟合优度越高。,问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大。这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。,调整可决系数的原因,对于有k个解释变量的多元回归方程,可决系数的另一计算式如下:,其中,分母总离差平方和TSS是不变的,当每增加一个解释变量时,只要新增解释变量前系数不为0,则残差平方和会变小;分子中每一项的符号均为正(每一项中相乘的两项同号),所以R2会随解释变量增加而增加,因此,应该调整。,调整可决系数的原因,调整的可决系数(adjusted coefficient of determination),在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:,其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。,*2、赤池信息准则和施瓦茨准则,为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有:赤池信息准则(Akaike information criterion,AIC),施瓦茨准则(Schwarz criterion,SC),这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模型中增加该解释变量。,地区城镇居民消费模型(k=2),地区城镇居民消费模型(k=1),二、方程总体线性的显著性检验(F检验),方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。,1、方程显著性的F检验,即检验模型中的参数j是否显著不为0。,可提出如下原假设与备择假设:,H0:1=2=k=0 H1:j不全为零(j=1,2,k),F检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS,如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。因此,可通过该比值的大小对总体线性关系进行推断。,根据数理统计学中的知识,在原假设H0成立的条件下,统计量,服从自由度为(k,n-k-1)的F分布,给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过 F F(k,n-k-1)或 FF(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。,地区城镇居民消费模型,伴随概率:拒绝0假设,犯错误的概率为0,2、关于拟合优度检验与方程显著性检验关系的讨论,F与R2同向变化:当R2=0时,F=0;R2越大,F值也越大;当R2=1时,F为无穷大。,对于一般的实际问题,在5%的显著性水平下,F统计量的临界值所对应的R2的水平是较低的(例中,F0.05(2,28)=3.34,对应的调整R2为0.1349)。所以,不宜过分注重调整R2值,应注重模型的经济意义;在进行总体显著性检验时,显著性水平应该控制在5%以内。,因此,F检验是所估计回归的总显著性的一个度量,也是R2的一个显著性检验。亦即,三、变量的显著性检验(t检验),方程的总体线性关系显著不等于每个解释变量对被解释变量的影响都是显著的。,因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的 t 检验完成的。,1、t统计量,以cii表示矩阵(XX)-1 主对角线上的第i个元素,2、t 检验,设计原假设与备择假设:,H1:i0,给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过|t|t/2(n-k-1)或|t|t/2(n-k-1)来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。,H0:i=0(i=1,2k),地区城镇居民消费模型,注意:一元线性回归中,t检验与F检验一致,一方面,t检验与F检验都是对相同的原假设H0:1=0 进行检验;另一方面,两个统计量之间有如下关系:,统计检验方法总结:,注:(1);(2)一元模型中;(3),四、参数的置信区间,参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。在变量的显著性检验中已经知道:,容易推出:在(1-)的置信水平下i的置信区间是,其中,t/2为显著性水平为、自由度为n-k-1的临界值。,例题中,给定显著性水平=5%,参数1和2的置信区间分别为(0.3685,0.6045)和(0.3882,0.8153)。如何陈述模型估计结果?城镇居民工资收入的边际消费倾向为0.4865。错!城镇居民工资收入的边际消费倾向以95%的概率处于(0.3685,0.6045)的区间中。正确!,如何才能缩小置信区间?,增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。提高样本观测值的分散度,一般情况下,样本观测值越分散,(XX)-1的分母的|XX|的值越大,致使区间缩小。,3.4 多元线性回归模型的预测,一、E(Y0)的置信区间 二、Y0的置信区间,对于模型,给定样本以外的解释变量的观测值X0=(1,X10,X20,Xk0),可以得到被解释变量的预测值:,它可以是总体均值E(Y0)或个值Y0的预测。但严格地说,这只是被解释变量的预测值的估计值,而不是预测值。为了进行科学预测,还需求出预测值的置信区间,包括E(Y0)和Y0的置信区间。,一、E(Y0)的置信区间,易知,容易证明,于是,得到(1-)的置信水平下E(Y0)的置信区间:,其中,t/2为(1-)的置信水平下的临界值。,例题中,假设某城镇居民2013年工资性收入为20000元,其他收入为10000元,则该居民2013年现金消费支出的预测值为18346.1元。就全国平均情况看,2013年具有人均工资性收入20000元、其他来源收入10000元的城镇居民,当年平均的现金消费支出预测值的置信区间为(17870.0,18822.2)(在95%的置信度下)。,二、Y0的置信区间,如果已经知道实际的预测值Y0,那么预测误差为:,容易证明,e0服从正态分布,即,构造t统计量,可得给定(1-)的置信水平下Y0的置信区间:,例题中,假设某城镇居民2013年工资性收入为20000元,其他收入为10000元,则该居民2013年现金消费支出的预测值为18346.1元。就该居民看,当年平均的现金消费支出预测值的置信区间为(15958.3,20733.9)(在95%的置信度下)。,3.6 含有虚拟变量的多元线性回归模型,一、含有虚拟变量的模型二、虚拟变量的引入三、虚拟变量的设置原则,一、含有虚拟变量的模型,1、虚拟变量(dummy variables),许多经济变量是可以定量度量。一些影响经济变量的因素是无法定量度量。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量,记为D。本章只讨论:虚拟变量作为解释变量的情形。,一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。例如,反映文程度的虚拟变量可取为:虚拟变量能否取1、0以外的数值?,2、虚拟变量模型,同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-of variance:ANOVA)模型。例如,一个以性别为虚拟变量考察企业职工薪金的模型:,其中:Yi为企业职工的薪金;Xi为工龄;Di=1,若是男性,Di=0,若是女性。,二、虚拟变量的引入,1、加法方式,虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定E(i)=0,则企业男、女职工的平均薪金为:,假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。,0,2,几何意义:,将上例中的性别换成教育水平,教育水平考虑三个层次:高中以下、高中、大学及其以上。,高中以下,高中,大学及以上,在上例中同时引入性别和教育水平:,女职工本科以下学历的平均薪金:,女职工本科以上学历的平均薪金:,男职工本科以下学历的平均薪金:,男职工本科以上学历的平均薪金:,于是,不同性别、不同学历职工的平均薪金分别为:,2、乘法方式,加法方式引入虚拟变量,考察:截距的不同。许多情况下,斜率发生变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来测度。,例如,根据消费理论,收入决定消费。但是,农村居民和城镇居民的边际消费倾向往往是不同的。这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。,农村居民:,城镇居民:,3、同时引入加法与乘法形式的虚拟变量,当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。以Y为人均消费,X为人均可支配收入,可令:农村居民:Yi=1+2Xi+1i i=1,2,n1 城镇居民:Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:,(1)1=1,且2=2,即两个回归相同,称为重合回归(Coincident Regressions);(2)11,但2=2,即两个回归的差异仅在其截距,称为平行回归(Parallel Regressions);(3)1=1,但22,即两个回归的差异仅在其斜率,称为汇合回归(Concurrent Regressions);(4)11,且22,即两个回归完全不同,称为相异回归(Dissimilar Regressions)。,4、例题,判断中国农村居民与城镇居民的消费行为是否有显著差异。被解释变量:居民家庭人均生活消费支出Y解释变量:居民家庭人均工资收入X1、其他收入X2样本:2013年31个地区农村居民与城镇居民人均数据虚拟变量Di:农村居民取值1,城镇居民取值0,总体回归模型,引入虚拟变量后的回归结果如下:,由变量显著性检验得到:在10%的显著性水平下,Di和DiXi1是显著的,而DiXi2不显著。因此:农村居民与城镇居民在其他收入方面有相同的增加量时,两者增加的消费支出没有显著差异。模型需要进行调整,去掉DiXi2之后再进行回归,得到最终的模型。,在10%的显著性水平下,最终回归模型为:,由变量显著性检验得到:在10%的显著性水平下,引入模型的变量均是显著的,因此:2013年农村居民的平均消费支出要比城镇居民少1597.0元;在其他条件不变的情况下,农村居民与城镇居民的工资收入都增加100元时,农村居民要比城镇居民多支出18.8元用于生活消费。,三、虚拟变量的设置原则,每一定性变量(qualitative variable)所需的虚拟变量个数要比该定性变量的状态类别数(categories)少1。即如果有m种状态,只在模型中引入m-1个虚拟变量。例如,季节定性变量有春、夏、秋、冬4种状态,只需要设置3个虚变量:,如果设置第4个虚变量,则出现“虚拟变量陷井”(Dummy Variable Trap)。为什么?,例如:包含季节变量的正确模型:,解释变量完全共线性,错误模型,如果在服装需求函数模型中必须包含3个定性变量:季节(4种状态)、性别(2种状态)、职业(5种状态),应该设置多少虚变量?模型含常数项模型不含常数项,讨论:定序定性变量可否按照状态赋值?,例如:表示居民对某种服务的满意程度,分5种状态:非常不满意、一般不满意、无所谓、一般满意、非常满意。在模型中按照状态分别赋值0、1、2、3、4或者2、1、0、1、2。被经常采用,尤其在管理学、社会学研究领域。正确的方法:设置多个虚拟变量,理论上正确,带来自由度损失。以定性变量为研究对象,构造多元排序离散选择模型,然后以模型结果对定性变量的各种状态赋值。但需要更多的信息支持。赋值的方法等于是对虚变量方法中的各个虚变量的参数施加了约束,而这种约束经常被检验为错误的。,附录:一、随机误差项的方差的无偏估计,M为等幂矩阵,附录:二、最大似然估计(多元模型),1、最大似然法,最大似然法(Maximum Likelihood,ML),也称最大或然法,是不同于最小二乘法的另一种参数估计方法,是从最大或然原理出发发展起来的其它估计方法的基础。基本原理:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。ML必须已知随机项的分布。,2、估计步骤:以一元模型为例,Yi的分布,Yi的概率函数,Y的所有样本观测值的联合概率似然函数,对数似然函数,对数似然函数极大化的一阶条件,结构参数的ML估计量,分布参数的ML估计量,3、似然函数,4、ML估计量,由对数似然函数求极大,得到参数估计量,结果与参数的OLS估计相同,分布参数估计结果与OLS不同,注意:ML估计必须已知Y的分布。只有在正态分布时ML和OLS的结构参数估计结果相同。如果Y不服从正态分布,不能采用OLS。例如:选择性样本模型、计数数据模型等。,附录:三、矩估计Moment Method,MM,1、参数的矩估计,参数的矩估计就是用样本矩去估计总体矩。用样本的一阶原点矩作为期望的估计量。用样本的二阶中心矩作为方差的估计量。从样本观测值计算样本一阶(原点)矩和二阶(原点)矩,然后去估计总体一阶矩和总体二阶矩,再进一步计算总体参数(期望和方差)的估计量。,样本的一阶矩和二阶矩,总体一阶矩和总体二阶矩的估计量,总体参数(期望和方差)的估计量,2、多元线性计量经济学模型的矩估计,如果模型的设定是正确,则存在一些为0的条件矩。矩估计的基本思想是利用矩条件估计模型参数。,一组矩条件,等同于OLS估计的正规方程组。,3、矩估计法是工具变量方法和广义矩估计法的基础,矩估计利用随机干扰项与各解释变量不相关特性构造矩条件。如果某个解释变量与随机干扰项相关,只要能找到1个工具变量,仍然可以构成一组矩条件,就是工具变量法(IV)。如果存在多于(k+1)个变量(解释变量或工具变量)与随机干扰项不相关,可以构成一组包含多于(k+1)的矩条件,就是广义矩估计法(GMM)。,