第3章多元线性回归模型详解ppt课件.ppt
第3章 多元线性回归模型3.1 多元线性回归模型的估计3.1.1 多元线性回归模型及其矩阵表示 在计量经济学中,将含有两个以上解释变量的回归模型叫做多元回归模型,相应地,在此基础上进行的回归分析就叫多元回归分析。,在计量经济学中,将含有两个以上解释变量的回归模型叫做多元回归模型,相应地,在此基础上进行的回归分析就叫多元回归分析。如果总体回归函数描述了一个因变量与多个解释变量之间的线性关系,由此而设定的回归模型就称为多元线性回归模型。,它是解释变量的多元线性函数,称为多元线性总体回归方程。 假定通过适当的方法可估计出未知参数的值,用参数估计值替换总体回归函数的未知参数,就得到多元线性样本回归方程:,它代表了总体变量间的依存规律。,3.1.2 多元线性回归模型的基本假定,假设6: 解释变量之间不存在多重共线性,假设1用矩阵形式表示:,3.1.3 多元线性回归模型的估计1参数的最小二乘估计,上述(k+1)个方程称为正规方程。用矩阵表示就是:,将上述过程用矩阵表示如下:,根据矩阵求导法则可得:,例3.3.1 某地区居民家庭可支配收入与家庭消费支出的资料如下表所示(单位:百元)。,某地区居民家庭收入支出资料,例 3.1.2 经过研究,发现家庭书刊消费水平受家庭收入及户主受教育年数的影响。现对某地区的家庭进行抽样调查,得到样本数据如表3.1.1所示,其中y表示家庭书刊消费水平(元/年),x表示家庭收入(元月),T 表示户主受教育年数。下面我们估计家庭书刊消费水平同家庭收入、户主受教育年数之间的线性关系。,表3.1.1 某地区家庭书刊消费水平及影响因素的调查数据表,因变量观测值向量和解释变量观测值矩阵分别为,从而参数估计向量(最小二乘估计量)为:,借助于计量经济软件EViews对表3.1.1进行分析,具体步骤为(1)建立工作文件;(2)输入数据;(3)回归分析表3.1.2 回归结果,图3.1.1 观测值、拟合值与残差(a),图3.1.1 观测值、拟合值与残差(b),2最小二乘估计量的性质用最小二乘法得到的多元线性回归的参数估计量具有线性、无偏性、最小方差性。,3.1.4 随机误差项方差的估计若记,3.1.5 中心化和标准化1中心化多元线性回归模型的一般形式为,2标准化回归系数,例3.1.3 利用表3.1.1数据,建立标准化回归方程,说明标准化回归系数的经济含义。 利用表3.1.1数据和SPSS软件,得到表3.1.3回归结果。表3.1.3 回归结果 Coefficients(a),a Dependent Variable: Y 根据表3.1.3结果可知,某家庭书刊消费水平Y同家庭收入X、户主受教育年数T之间的线性关系,即未标准化回归方程为:,由标准化回归系数可知,对家庭书刊消费水平影响最大的因素是户主受教育年数,其次是家庭收入水平回归结果。户主受教育年数每增加1%,家庭书刊消费水平增加0.798%;家庭收入每增加1%,家庭书刊消费水平增加0.234%。与样本回归系数相比,标准化回归系数有较合理的经济解释。,3.1.6 极大似然估计法1似然函数,称为似然函数。 可以看出,联合密度函数与似然函数表达形式相同,但含义不同。联合密度函数参数已知,是随机变量y的函数;似然函数随机变量y的取值已经给定,是未知参数的函数。 2极大似然估计法的基本思想 极大似然估计法的基本思想:选取适当的未知参数的值,使得随机抽到实际获得的那个样本的概率值为最大。,3.2 多元线性回归模型的检验3.2.1 拟合优度检验拟合优度是指样本回归直线与观测值之间的拟合程度。1多重决定系数,总离差平方和 = 残差平方和+ 回归平方和 自由度: (n-1)= (n-k-1)+ k ESS:由回归直线(即解释变量)所解释的部分,表示x对y的线性影响。 RSS:是未被回归直线解释的部分,由解释变量x对y影响以外的因素而造成的。,多重决定系数或决定系数是指解释变差占总变差的比重,用来表述解释变量对被解释变量的解释程度:,2修正的决定系数,(1)用自由度调整后,可以消除拟合优度评价中解释变量多少对决定系数计算的影响;(2)对于包含的解释变量个数不同的模型,可以用调整后的决定系数直接比较它们的拟合优度的高低。,修正的决定系数与未经修正的多重决定系数之间有如下关系:,3.2.2 赤池信息准则和施瓦茨准则 为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有赤池信息准则(Akaike information criterion,AIC)和施瓦茨准则(Schwarz criterion,SC),其定义分别为,这两个准则均要求仅当所增加的解释变量能够减少AIC或SC值时才能在原模型中增加该解释变量。,3.2.3 偏相关系数 3.2.3 回归模型的总体显著性检验:F检验 假设检验的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。 其基本思想是:在某种原假设成立的条件下,利用适当的统计量和给定的显著性水平,构造个小概率事件,可以认为小概率事件在一次观察中基本不会发生,如果该事件竟然发生了,就认为原假设不真,从而拒绝原假设,接受备择假设。 回归模型的总体显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。 检验模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立,即是检验方程:,F 检验的具体步骤为:,借助于计量经济软件EViews对表3.1.1中的样本回归方程作F检验。 F 统计量的值:F =146.2973,n =18,n-k-1=18-2-1=15,在5%的显著性水平下,查自由度为(2,15)的F分布表,得临界值,3.2.4 回归参数的显著性检验:t检验 回归参数的显著性检验,目的在于检验当其他解释变量不变时,该回归系数对应的解释变量是否对因变量有显著影响。 由参数估计量的分布性质可知,回归系数的估计量服从如下正态分布:,用t统计量进行回归参数的显著性检验,其具体过程如下:,值判别法: 在前面阐述的统计假设检验的基本原理中,是通过比较t统计量与临界值的大小来判断拒绝还是接受原假设的。与查找临界值的一个等价判别方法就是p值判别法。EViews软件提供了这种判别方法。,借助于计量经济软件EViews对表3.1.1中的样本回归方程的系数作显著性检验:,至此,我们已全面分析了例3.1.1所提出的问题。现将从例3.1.1的回归分析结果整理如下:,3.3.2 区间预测,3预测评价 对于已经建立的模型,可以直接预测各样本的拟合值,Eviews软件提供了一系列对模型的评价指标,可以对模型预测精度进度量。 常用的判断模型拟合效果的检验统计量是:平均绝对误差(MAE)、平均相对误差(MPE)均方根误差(RMSE)和Theil不等系数(Theil IC)。其计算公式为,Theil不等系数(Theil IC)总是介于0和1之间,数值越小表明拟合值和实际值间的差异越小,预测精度越高。,图3.3.1 例3.1.1中家庭书刊消费水平的预测图,在例3.1.1中,在方程窗口,点击Forecast,可以得到如图3.3.1预测图。图中实线表示因变量的预测值,上下两条虚线给出的是近似95%的置信区间。图右边的附表提供了一系列预测评价指标。从图3.3.1看,回归的平均相对误差MPE为5.389,Theil不等系数为0.035,说明此次回归的预测精度相当高,预测值十分接近真实值。,3.4 非线性回归模型 3.4.1 可线性化模型 在非线性回归模型中,有一些模型经过适当的变量变换或函数变换就可以转化成线性回归模型,从而将非线性回归模型的参数估计问题转化成线性回归模型的参数估计,称这类模型为可线性化模型。在计量经济分析中经常使用的可线性化模型有对数线性模型、半对数线性模型、倒数线性模型、多项式线性模型、成长曲线模型等。 1对数模型 模型形式:,模型适用对象:对观测值取对数,将取对数后的观测值(lnx,lny)描成散点图,如果近似为一条直线,则适合于对数线性模型来描述x与y的变量关系。 容易推广到模型中存在多个解释变量的情形。例如,柯布道格拉斯生产函数形式:,例3.4.1 根据表3.4.1给出的中国1980-2003年间总产出(用国内生产总值GDP度量,单位:亿元),劳动投入L(用从业人员度量,单位为万人),以及资本投入K(用全社会固定投资度量,单位:亿元)。表3.4.1 1980-2003年中国GDP、劳动投入与资本投入数据,利用EViews软件解题如下:首先建立工作文件,其次输入样本数据Q、L、K,再次,在EViews软件的命令窗口,依次键入:GENR lnGDP=LOG(GDP)GENR lnL=LOG(L)GENR lnK=LOG(K)LS lnGDP C lnL lnK输出结果如下(表3.4.2):表3.4.2 回归结果,2半对数模型 在对经济变量的变动规律研究中,测定其增长率或衰减率是一个重要方面。在回归分析中,我们可以用半对数模型来测度这些增长率。 模型形式:,3倒数模型,例3.4.2 某硫酸厂生产的硫酸透明度一直达不到优质要求,经分析透明度低与硫酸中金属杂质的含量太高有关。影响透明度的主要金属杂质是铁、钙、铅、镁等。通过正交试验的方法发现铁是影响硫酸透明度的最主要原因。测量了47组样本值,数据见表3.4.3。试建立硫酸透明度(y)与铁杂质含量(x)的回归模型。表3.4.3 硫酸透明度(y)与铁杂质含量(x)数据,表3.4.3 硫酸透明度(y)与铁杂质含量(x)数据,根据表3.4.3,可得硫酸透明度(y)与铁杂质含量(x)的散点图如图3.4.1所示,可以建立非线性回归模型。,图3.4.1 硫酸透明度(y)与铁杂质含量(x)散点图,1通过线性化的方式估计非线性回归模型,表3.4.4 回归结果,实际上,建立指数模型函数,拟合效果会更好。在命令窗口键入:LS log(y) c 1/x 结果如表3.4.5所示。表3.4.5 回归结果,散点图与拟合的指数曲线见图3.4.4。EViews软件操作步骤是:打开x、y数据组窗口,点击View键,选择Graph/Scatter/Scatter with Regression功能(见图3.4.2),在随后弹出的对话框中y选对数形式,x选倒数形式(见图3.4.3),点击OK键即可得图3.4.4。拟合值与观测值见图3.4.5。,图3.4.2,图3.4.2,图3.4.2,图3.4.5,2直接估计非线性回归模型 EViews软件估计方法是直接书写非线性形式的命令,操作如下: 从工作文件主菜单中点击Quick键,选择Estimate Equation功能。在弹出的方程设定(Equation Specification)对话框中输入指数形式的估计命令:y=c(1)*exp(c(2)*(1/x) 如图3.4.6。其c(1)、c(2)表示被估参数,exp(.)表示指数函数形式。,图3.4.6,在Method(估计方法)对话框默认的选择是LS-Least Squares(NLS and ARMA),其中NLS表示非线性最小二乘估计,即直接采用非线性函数回归形式估计参数。点击OK键,输出结果如表3.4.6所示。或者在命令窗口键入非线性模型的迭代估计命令:NLS y=c(1)*exp(c(2)*(1/x) 可以得到同样的输出结果(见表3.4.6)。表3.4.6 回归结果,对应的非线性估计结果是:,这一估计结果比前面的估计结果要好。x与y、yf的散点图如图3.4.7所示。,图3.4.7,4多项式模型 多项式回归模型在生产与成本函数这个领域中被广泛地使用。多项式回归模型可表示为,例3.4.3 假设某企业在15年中每年的产量Y(件)和总成本X(元)的统计资料表3.4.7所示,试估计该企业的总成本函数模型。表3.4.7 某企业15年中每年总产量与总成本统计资料,5成长曲线模型 6交互作用模型 如果一个解释变量的边际效应依赖于另一个解释变量,我们就说存在交互作用。例如,对于下面的模型,3.4.2 非线性化模型的处理方法 无论通过什么变换都不可能实现线性化,这样的模型称为非线性化模型。对于非线性化模型,一般采用高斯牛顿迭代法进行估计,即将其展开成泰勒级数之后,再利用迭代估计方法进行估计。 3.4.3 回归模型的比较 1图形观察分析 (1)观察被解释变量和解释变量的趋势图。 (2)观察被解释变量与解释变量的相关图。 2模型估计结果观察分析 对于每个模型的估计结果,可以依次观察以下内容:,(1)回归系数的符号和值的大小是否符合经济意义,这是对所估计模型的最基本要求。 (2)改变模型形式之后是否使判定系数的值明显提高。 (3)各个解释变量t检验的显著性。 (4)系数的估计误差较小。 3残差分布观察分析 模型的残差反映了模型未能解释部分的变化情况,在方程窗口点击ViewActual,Fitted,ResidualTable(或Graph),可以观察分析以下内容: (1)残差分布表中,各期残差是否大都落在的虚线框内,这直观地反映了模型拟合误差的大小及变化情况。,(2)残差分布是否具有某种规律性,即是否存在着系统误差。 (3)近期残差的分布情况。 另外,利用判定系数比较模型的拟合优度时,如果两个模型包含的解释变量个数不同,则应采用“调整的判定系数”。 除了调整的判定系数之外,人们还使用另外两个指标SC(Schwarz Criterion,施瓦兹准则)和AIC(Akaike lnformation Criterion,赤池信息准则)来比较含有不同解释变量个数模型的拟合优度。,3.5 受约束回归 在建立回归模型时,有时根据经济理论需要对模型中变量的参数施加一定的约束条件。对模型施加约束条件后进行回归,称为受约束回归(restricted regresslon),与此对应,不加任何约束的回归称为无约束回归(unrestricted regression)。 3.5.1 模型参数的线性约束:沃尔德(Wald)检验 一般地,估计线性模型时可对模型参数施加若干个线性约束条件。例如,对模型,其中,表3.5.1 无约束条件的C-D生产函数估计结果,表3.5.2 有约束条件的C-D生产函数估计结果,在EViews软件中,当估计完C-D生产函数后,在方程结果输出窗口,点击View按钮,然后在下拉菜单中选择Coefficient TestWald Coefficient Restrictions,屏幕出现图3.5.1对话框。,图3.5.1 Wald检验定义对话框 在对话框中输入系数的约束条件,若有多个,则用逗号分开。本例中输入:C(2)+C(3)=1,得检验结果见表3.5.3。表3.5.3 Wald检验输出结果,由表3.5.3可知,在0.05显著性水平下,两个检验均仍然不能拒绝和为1的原假设,原假设为真。这个结果与直观判断差异明显,主要是因为变量LOG(L)的回归系数标准误差较大。 需要指出的是,这里介绍的F检验适合所有关于参数线性约束的检验,32节中对回归模型总体的线性检验,可以归结到这里的F检验上来。 3.5.2 解释变量的选择 在实际建模时,选取哪些变量作为解释变量引入模型,对模型的优劣有直接的影响作用。模型中,既不能遗漏重要的解释变量,又要防止过多的变量带来的多重共线性问题或对因变量没有什么影响的不必要的解释变量。这里介绍两种有用的用于选择解释变量的检验。 考虑如下两个回归模型:,在EViews软件中,Testdrop 检验用于在方程中检验冗余变量,检验剔除是否对模型有利。要检验冗余变量,选择Equation工具栏中的ViewCoefficient TestRedundant Variable功能。在对话框中输入需要检验的变量。 Testadd 检验用于在方程中检验引入新的解释变量,检验引入引入新的解释变量是否对模型有利。要检验缺失变量,选择Equation工具栏中的ViewCoefficient TestOmitted Variable功能。在对话框中输入需要检验的变量。,例3.5.2 检验例3.4.1中的我国C-D生产函数:lnGDP=C+lnL+lnK+u中的劳动投入量是否为多余的变量。 在例3.4.1的方程窗口(表3.4.2)输出结果中选择ViewCoefficient TestRedundant Variable-Likelihood Ratio,屏幕出现对话图3.5.2框。,图3.5.2 多余变量检验定义对话框,在话框中输入希望减少的序列名。在本例,输入LOG(L),点击OK,计算结果如表3.5.4所示。 表3.5.4 Testdrop检验输出结果,与Wald检验类似,EViews也给出F统计量和相伴概率。这里,在0.05显著性水平下,两个检验均拒绝变量LOG(L)不显著的假设,LOG(L)不是多余的变量,说明劳动投入量对GDP有显著影响。,3.5.3 参数的稳定性检验:邹氏检验 建立模型时往往希望模型的参数是稳定的,即所谓的结构不变,这将提高模型的预测与分析功能。然而,经济结构的变化往往导致计量经济模型结构也发生变化。例如,例3.4.1我国C-D生产函数例子中,从GDP、L、K散点图的变化上容易判断1992年前后这种结构的变化。下面给出一个结构变化的检验。,图3.5.3 中国1980-2003年GDP、L、K散点图,这两个回归方程是否显著的不同?如果这两个回归方程的差别并不显著,说明模型所反映的经济结构在时间上(或截面上)是稳定的。否则是不稳定的。邹至庄(Chow)提出了如下的Chow检验。,因此,对参数稳定性的原假设(3.5.22)的检验步骤为: 首先,分别以两个连续的时间序列作为两个样本运用式(3.5.18)进行回归,得到相应的残差平方和 RSS1与 RSS2; 其次,将两序列并为一个大样本后运用式(3.5.18)进行回归,得到大样本下的残差平方和 RSSR; 最后,通过式(3.5.25)的F统计量,在事先给定的显著性水平下进行假设检验。如果F大于相应的临界值,则拒绝原假设,认为发生了结构变化,参数是非稳定的。该检验方法也被称为邹氏参数稳定性检验(Chow test for parameter stability)。,本例利用EViews软件进行Chow检验。在操作上,首先根据表3.4.1,利用EViews软件可得如下结果(见表3.5.5)。 表3.5.5 回归结果,在方程窗口按View/Stability Tests/Chow Breakpoint Test顺序逐一单击鼠标键,打开Chow Test对话框(图3.5.4)。,图3.5.4 打开Chow Test对话框然后在对话框内输入转折点年份,1992(图3.5.5)。,图3.5.5 Chow Test 对话框,计算结果如表3.5.6所示。表3.5.6 计算结果,根据表3.5.6中F统计量对应的p值,可得在5的显著性水平下,接受原假设。由此可知中国GDP和L、K间的关系(即C-D生产函数),在不同时期(1980-1991与1992-2003)没有什么不同,即中国C-D生产函数结构是稳定的。 在运用Chow检验时,需要注意以下一些限制条件: (1)必须满足上面讲到的古典假定条件。 (2)Chow检验的结果仅仅告诉我们是否存在结构差异,而无法得知导致这种差异的原因。 (3)Chow检验假定知道结构发生变化的时间点。,3.5.4 参数带约束条件的最小二乘估计,3.6 案例分析3.6.1 案例1中国经济增长影响因素分析 根据表3.6.1给出的1980-2003年间总产出(用国内生产总值GDP度量,单位:亿元),最终消费CS(单位:亿元),投资总额I(用固定资产投资总额度量,单位:亿元),出口总额(单位:亿元)统计数据,试对中国经济增长影响因素进行回归分析。表3.6.1 1980-2003年中国GDP、最终消费、投资与出口总额(单位:亿元),从1980-2003年中国GDP、最终消费、投资总额与出口总额时序图及其对数时序图(图3.6.1)可以看出,这几个变量存在快速、稳定增长的趋势。可建立如下多元回归模型:,其具体步骤为:首先建立工作文件,然后输入样本数据。利用EViews的生成程序,得到新变量lnGDP、lnCS、 lnI、lnEX,利用EViews最小二乘程序,可得到回归结果(其中模型中加入AR(1)与AR(2)是为消除自相关),如表3.6.2所示。表3.6.2 回归结果,表3.6.2 回归结果,=(0.046534-2.0740.026485,0.046534+2.0740.026485) =(-0.00840, 0.10146) 3检验模型 (1)模型的经济意义检验:,说明GDP与消费需求、投资需求、出口同方向变动,当其它条件不变时,消费需求每增加一个百分点,平均产出将增加0.81%,投资需求每增加一个百分点,产出将平均增加0.14%,出口每增加一个百分点,平均产出将增加0.04%。 (2)回归方程的标准误差的评价:=0.014783说明,回归方程与各观测点(或估计值与观测值)的平均误差为0.014783。,3.6.2 案例2两要素不变替代弹性(CES)生产函数的参数估计 两要素不变替代弹性( CES)生产函数模型,其基本形式如下:,CES生产函数模型为一个关于参数的非线性模型,参数采用直接估计方法。首先将CES生产函数模型的计量形态假设为:,根据1980-1996年天津市GDP、资金和从业人员的统计资料(如表3.6.3所示),估计CES生产函数。 利用EViews的生成程序,得到新变量Z、X1、 X2、X3 的数据表3.6.4所示。表3.6.3 天津市1980-1996年GDP、资金和从业人员统计资料,表3.6.4 天津市1980-1996年GDP、资金和从业人员统计资料经过对数变换后的数据,利用EViews最小二乘程序,可得到回归结果如表3.6.5所示。回归方程的拟合优度相当好。这从残差图3.6.3也可以看出回归方程的拟合优度较好。表3.6.5 回归结果,图3.6.3 回归残差图,