Eviews线性回归.ppt
第一讲Eviews基础与线性回归,主要内容架构,一、数据的导入与基本统计量二、线性回归(一元和多元)三、回归检验,一、数据的导入与基本统计量,EViews提供序列的各种统计图、统计方法及过程。当用前述的方法向工作文件中读入数据后,就可以对这些数据进行统计分析和图表分析。,EViews可以计算一个序列的各种统计量并可用表、图等形式将其表现出来。视图包括最简单的曲线图,一直到核密度估计。,打开工作文件,双击一个序列名,即进入序列的对话框。单击“view”可看到菜单分为四个区,第一部分为序列显示形式,第二和第三部分提供数据统计方法,第四部分是转换选项和标签。,描述统计量,以直方图显示序列的频率分布。直方图将序列的长度按等间距划分,显示观测值落入每一个区间的个数。同直方图一起显示的还有一些标准的描述统计量。这些统计量都是由样本中的观测值计算出来的。,均值(mean)即序列的平均值,用序列数据的总和除以数据的个数。,中位数(median)即从小到大排列的序列的中间值。是对序列分布中心的一个粗略估计。最大最小值(max and min)序列中的最大最小值。标准差(Standard Deviation)标准差衡量序列的离散程度。计算公式如下,N 是样本中观测值的个数,是样本均值。,偏度(Skewness)衡量序列分布围绕其均值的非对称性。计算公式如下,是变量方差的有偏估计。如果序列的分布是对称的,S值为0;正的S值意味着序列分布有长的右拖尾,负的S值意味着序列分布有长的左拖尾。,峰度(Kurtosis)度量序列分布的凸起或平坦程度,计算公式如下,分布的凸起程度大于 正态分布;如果K值小于3,序列分布相对于正态分布是平坦的。,意义同S中,,正态分布的 K 值为3。如果 K 值大于3,,Jarque-Bera 检验 检验序列是否服从正态分布。统计量计算公式如下,S为偏度,K为峰度,k是序列估计式中参数的个数。在正态分布的原假设下,J-B统计量是自由度为2的 2 分布。J-B统计量下显示的概率值(P值)是J-B统计量超出原假设下的观测值的概率。如果该值很小,则拒绝原假设。当然,在不同的显著性水平下的拒绝域是不一样的。,二、基本回归模型,单方程回归是最丰富多彩和广泛使用的统计技术之一。本章介绍EViews中基本回归技术的使用,说明并估计一个回归模型,进行简单的特征分析并在深入的分析中使用估计结果。随后的章节讨论了检验和预测,以及更高级,专业的技术,如加权最小二乘法、二阶段最小二乘法(TSLS)、非线性最小二乘法、ARIMA/ARIMAX模型、GMM(广义矩估计)、GARCH模型和定性的有限因变量模型。这些技术和模型都建立在本章介绍的基本思想的基础之上。,(一)创建方程对象,EViews中的单方程回归估计是用方程对象来完成的。为了创建一个方程对象:从主菜单选择Object/New Object/Equation 或 Quick/Estimation Equation,或者在命令窗口中输入关键词equation。在随后出现的方程说明对话框中说明要建立的方程,并选择估计方法。,(二)在EViews中对方程进行说明,当创建一个方程对象时,会出现如下对话框:,在这个对话框中需要说明三件事:方程说明,估计方法,估计使用的样本。在最上面的编辑框中,可以说明方程:因变量(左边)和自变量(右边)以及函数形式。有两种说明方程的基本方法:列表法和公式法。列表法简单但是只能用于不严格的线性说明;公式法更为一般,可用于说明非线性模型或带有参数约束的模型。,(三)在EViews中估计方程,1 估计方法 说明方程后,现在需要选择估计方法。单击Method:进入对话框,会看到下拉菜单中的估计方法列表:,标准的单方程回归用最小二乘估计。其他的方法在以后的章节中介绍。采用OLS,TSLS,GMM,和ARCH方法估计的方程可以用一个公式说明。非线性方程不允许使用binary,ordered,censored,count模型,或带有ARMA项的方程。,2 估计样本 可以说明估计中要使用的样本。EViews会用当前工作文档样本来填充对话框。,如果估计中使用的任何一个序列的数据丢失了,EViews会临时调整观测值的估计样本以排除掉这些观测值。EViews通过在样本结果中报告实际样本来通知样本已经被调整了。在方程结果的顶部,EViews报告样本已经得到了调整。从1978年2002年期间的25个观测值中,EViews使用了24个观测值。,3 估计选项 EViews提供很多估计选项。这些选项允许进行以下操作:对估计方程加权,计算异方差性,控制估计算法的各种特征。,(四)方程输出,在方程说明对话框中单击OK钮后,EViews显示估计结果:,根据矩阵的概念,标准的回归可以写为:其中:y 是因变量观测值的 T 维向量,X 是解释变量观测值的 T k 维矩阵,T 是观测值个数,k 是解释变量个数,是 k 维系数向量,u 是 T 维扰动项向量。,1 系数结果(1).回归系数(Coefficient)系数框描述了系数 的估计值。最小二乘估计的系数 b 是由以下的公式计算得到的,如果使用列表法说明方程,系数会列在变量栏中相应的自变量名下;如果是使用公式法来说明方程,EViews会列出实际系数 c(1),c(2),c(3)等等。对于所考虑的简单线性模型,系数是在其他变量保持不变的情况下自变量对因变量的边际收益。系数 c 是回归中的常数或者截距-它是当其他所有自变量都为零时预测的基本水平。其他系数可以理解为假设所有其它变量都不变,相应的自变量和因变量之间的斜率关系。,(2)标准差(Std.Error)标准差项报告了系数估计的标准差。标准差衡量了系数估计的统计可信性-标准差越大,估计中的统计干扰越大。估计系数的协方差矩阵是由以下公式计算得到的:,这里 是残差。而且系数估计值的标准差是这个矩阵对角线元素的平方根。可以通过选择View/Covariance Matrix项来察看整个协方差矩阵。,其中,(3)t-统计量 t统计量是由系数估计值和标准差之间的比率来计算的,它是用来检验系数为零的假设的。(4)概率(P值)结果的最后一项是在误差项为正态分布或系数估计值为渐近正态分布的假设下,指出 t 统计量与实际观测值一致的概率。这个概率称为边际显著性水平或 P 值。给定一个 P 值,可以一眼就看出是拒绝还是接受实际系数为零的双边假设。例如,如果显著水平为5%,P 值小于0.05就可以拒绝系数为零的原假设。,2 方程统计量,(1)R2 统计量 R2 统计量衡量在样本内预测因变量值的回归是否成功。R2 是自变量所解释的因变量的方差。如果回归完全符合,统计值会等于1。如果结果不比因变量的均值好,统计值会等于0。R2 可能会由于一些原因成为负值。例如,回归没有截距或常数,或回归包含系数约束,或估计方法采用二阶段最小二乘法或ARCH方法。EViews计算R2 的公式为:,,其中,是残差,是因变量的均值。,(2)R2 调整 使用R2 作为衡量工具存在的一个问题,即在增加新的自变量时R2 不会减少。在极端的情况下,如果把样本观测值都作为自变量,总能得到R2 为1。R2 调整后的记为,消除R2 中对模型没有解释力的新增变量。计算方法如下:,从不会大于R2,随着增加变量会减小,而且对于很不适合的模型还可能是负值。,(3)回归标准差(S.E.of regression)回归标准差是在残差的方差的估计值基础之上的一个总结。计算方法如下:,(4)残差平方和 残差平方和可以用于很多统计计算中,为了方便,现在将它单独列出:,(5)对数似然函数值 EViews可以作出根据系数的估计值得到的对数似然函数值(假设误差为正态分布)。似然比检验可通过观察方程严格形式和不严格形式的对数似然值之间的差异来进行。对数似然计算如下:,(6)Durbin-Watson 统计量 D-W 统计量衡量残差的序列相关性,计算方法如下:,作为一个规则,如果DW值小于2,证明存在正序列相关。在例1的结果中,DW值很小,表明残差中存在序列相关。关于Durbin-Watson统计量和残差序列相关更详细的内容参见“序列相关理论”。对于序列相关还有更好的检验方法。在“序列相关的检验”中,我们讨论Q统计量和 LM检验,这些都是比DW统计量更为一般的序列相关检验方法。,(7).因变量均值和标准差(S.D)y 的均值和标准差由下面标准公式算出:,(8).AIC准则(Akaike Information Criterion)计算公式如下:,其中l 是对数似然值,我们进行模型选择时,AIC值越小越好。例如,可以通过选择最小AIC值来确定一个滞后分布的长度。,(9).Schwarz准则 Schwarz准则是AIC准则的替代方法:,(10).F统计量和边际显著性水平 F统计量检验回归中所有的系数是否为零(除了常数或截距)。对于普通最小二乘模型,F统计量由下式计算:,在原假设为误差正态分布下,统计量服从 F(k 1,T k)分布。,F统计量下的P值,即Prob(F-statistic),是F检验的边际显著性水平。如果P值小于所检验的边际显著水平,比如说0.05,则拒绝所有系数都为零的原假设。注意F检验是一个联合检验,即使所有的t统计量都是不显著的,F统计量也可能是高度显著的。,(五)虚拟变量的应用工资差别 为了解工作妇女是否受到了歧视,可以用美国统计局的“当前人口调查”中的截面数据研究男女工资有没有差别。这项多元回归分析研究所用到的变量有:W 雇员的工资(美元/小时)1;若雇员为妇女 SEX=0;其他 ED 受教育的年数 AGE 雇员的年龄 1;若雇员不是西班牙裔也不是白人 NONWH=0;其他 1;若雇员是西班牙裔 HISP=0;其他,(六)估计中存在的问题,如果自变量具有高度共线性,EViews 在计算回归估计时会遇到困难。在这种情况下,EViews会产生一个显示错误信息对话框“奇异矩阵”。出现这个错误信息后,应该检查回归变量是否是共线的。如果一个回归变量可以写作其他回归变量的线性组合,则回归变量是完全共线的。在完全共线的情况下,回归变量矩阵X不是列满秩的,不能计算OLS估计值。,三 定义和诊断检验,经验研究经常是一种相互影响的过程。这一过程从估计关系的定义开始。选择定义常含有几个选择:变量,连接这些变量的函数,以及当数据是时间序列时表示变量间关系的动态结构。不可避免地,在初始定义的恰当性方面存在不确定性。一旦估计了方程,EViews提供了评价方程定义质量的工具。随着改进,检验结果将影响所选择的定义,这一过程将重复下去,直到方程定义恰当为止。本节描述了在方程对象的View中关于定义检验统计量的多个菜单。我们试图提供足够的统计方法来进行这些检验,但是实际考虑的许多描述是不完全的,建议查阅标准统计和经济计量学参考资料。,下面描述的每一检验过程包括假设检验的原假设定义。检验指令输出包括一个或多个检验统计量样本值和它们的联合概率值(P值)。P值说明在原假设为真的情况下,样本统计量绝对值的检验统计量大于或等于临界值的概率。P值度量的是犯第一类错误的概率,即拒绝正确的原假设的概率,P值越大,错误地拒绝原假设的可能性就越大;P值越小,拒绝原假设时就越放心。例如,如果P值在0.05和0.1之间,原假设在5%被拒绝而不是在1%水平。切记:对每一检验都有不同假设和分布结果。例如,有些检验统计量有确切的有限的样本分布(常为 t 或 F分布)。其它是服从近似分布的大样本检验统计量。每一检验的内容都不同,将分别描述。,其它检验在其它章节讨论。它们包括单位根检验、Granger因果检验和Johansen协整检验。,方程对象菜单的View中给出三种检验类型选择来检验方程定义。包括系数检验、残差检验和稳定性检验:,(一)系数检验,系数检验对估计系数的约束进行评价,包括对遗漏变量和冗余变量特殊情况的检验。,1Wald检验系数约束条件检验,(1).Wald检验原理 Wald检验没有把原假设定义的系数限制加入回归,通过估计这一无限制回归来计算检验统计量。Wald统计量计算无约束估计量如何满足原假设下的约束。如果约束为真,无约束估计量应接近于满足约束条件。下面给出计算Wald 检验统计量的一般公式。,对于一个线性回归模型,一个线性约束:,式中R是一个已知的 q k 阶矩阵,r 是 q 维向量。Wald统计量简写为:,W 在H0下服从渐近2(q)分布。进一步假设误差独立同时服从正态分布,我们就有一确定的、有限的样本F-统计量,是约束回归的残差向量。F统计量比较有约束和没有约束计算出的残差平方和。如果约束有效,这两个残差平方和差异很小,F统计量值也应很小。EViews显示2 和F统计量以及相应的P值。,(2).如何进行Wald系数检验,为介绍如何进行Wald系数检验,我们考虑一个例子。生产函数的数学形式为,在最初提出的C-D生产函数中,假定参数满足+=1,也就是假定研究对象满足规模报酬不变。,Q 为产出,K 为资本投入,L 为劳动力投入。很容易推出参数,分别是资本和劳动的产出弹性。那么由产出弹性的经济意义,应该有,即当资本与劳动的数量同时增长倍时,产出量也增长 倍。1937年,提出了C-D生产函数的改进型,即取消了+=1 的假定,允许要素的产出弹性之和大于1或小于1,即承认研究对象可以是规模报酬递增的,也可以是规模报酬递减的,取决于参数的估计结果。,3、遗漏变量(Omitted Variables)检验,(1).遗漏变量检验原理 这一检验能给现有方程添加变量,而且询问添加的变量对解释因变量变动是否有显著作用。原假设H0是添加变量不显著。检验的输出是 F 统计量和似然比(LR)统计量及各自P值,以及在备选假设下无约束模型估计结果。F统计量基于约束和无约束回归残差平方和之差。LR统计量由下式计算:,Lr和Lu是约束和无约束约束回归对数似然函数的最大值。在H0下,LR统计量服从渐近2 分布,自由度等于约束条件数,即加入变量数。,注意:(1)遗漏变量检验要求在原始方程中和检验方程中观测值数相等。如果要加入变量的任一序列与原方程样本相比,含有缺失观测值(当加入滞后变量时这种情况常见),检验统计量将无法建立。(2)遗漏变量检验可应用于线性LS,TSLS,ARCH,Binary,Ordered,Censored,Count模型估计方程。只有通过列表法列出回归因子定义方程而不能通过公式,检验才可以进行。2.如何进行遗漏变量检验 选择View/Coefficient Tests/Omitted VariablesLikelihood Ration,在打开的对话框中,列出检验统计量名,用至少一个空格相互隔开。,例如:原始回归为:log(q)c log(L)log(k)。输入:K L EViews将显示含有这两个附加解释变量的无约束回归结果,而且显示原假设:新添变量系数为0 的检验统计量。输出的结果如下:,对数似数比统计量就是LR检验统计量且渐进服从于2 分布,自由度等于添加回归因子数。本例中,检验结果不能拒绝原假设,即添加变量不显著。,(二)Chow分割点检验,Chow分割点检验的思想是对每一个子样本区间估计方程,看估计方程中是否存在显著差异。显著差异说明关系中存在结构变化。例如,可以使用这个检验来检查石油危机前后的能源需求函数是否一样。为进行检验,把数据分为两个或多个子样本区间,每一子区间包含的观测值数应大于方程参数,这样才使得方程能被估计。Chow分割点检验基于比较利用整个样本估计方程获得的残差平方和及利用每一子区间样本估计方程获得的残差平方和之间的差别。对Chow分割点检验,EViews提供了两个检验统计量。F统计量和对数似然比(LR)统计量,F统计量基于对约束和非约束残差平方和的比较。在最简单情况下(一个分割点),计算如下:,Chow分割点检验的原假设:不存在结构变化。Chow分割点检验的主要缺陷是,如果每一个子区间要求至少和被估计参数一样多的样本数,那么这里就存在一个问题,比如说,要检验战争和和平时期的结构变化,但是战争时期的样本数较少。下面要讨论的Chow预测检验可以解决这个问题。,其中:是整个样本期间估计的残差平方和;是第 i 个子区间的残差平方和;T 是观测值数;k 是方程参数个数,这一公式可以扩展为多于一个分割点。,为了进行Chow分割点检验,选择View/Stability Tests/Chow Breakpoint Test出现对话框以后,填入间断点的日期。比如,如果方程的数据是从1950到1994,填入1960,则被定义成两个子区间:一个是1950到1959,另一个是1960到1994。,