第十四章向量自回归模型.doc
第十四章 向量自回归模型本章导读:前一章介绍了时间序列回归,其基本知识为本章的学习奠定了基础。这一章将要介绍的是时间序列回归中最常用的向量自回归,它独有的建模优势赢得了人们的广泛喜爱。14.1 VAR模型的背景及数学表达式 VAR模型主要应用于宏观经济学。在VAR模型产生之初,很多研究者(例如Sims,1980和Litterman,1976;1986)就认为,VAR在预测方面要强于结构方程模型。VAR模型产生的原因在于20世纪60年代一大堆的结构方程并不能让人得到理想的结果,而VAR模型的预测却比结构方程更胜一筹,主要原因在于大型结构方程的方法论存在着更根本的问题,并且结构方程受到最具挑战性的批判来自卢卡斯批判,卢卡斯指出,结构方程组中的“决策规则”参数,在经济政策改变时无法保持稳定,即使这些规则本身也是正确的。因此宏观经济建模的方程组在范式上显然具有根本缺陷。VAR模型的研究用微观化基础重新表述宏观经济模型的基本方程,与此同时,对经济变量之间的相互关系要求也并不是很高。我们知道经济理论往往是不能为经济变量之间的动态关系提供一个严格的定义,这使得在解释变量过程中出现一个问题,那就是内生变量究竟是出现在方程的哪边。这个问题使得估计和推理变得复杂和晦涩。为了解决这一问题,向量自回归的方法出现了,它是由sim于1980年提出来的,自回归模型采用的是多方程联立的形式,它并不以经济理论为基础,在模型的每一个方程中,内生变量对模型的全部内生变量的滞后项进行回归,从而估计全部内生变量的动态关系。向量自回归通常用来预测相互联系的时间序列系统以及分析随机扰动项对变量系统的动态影响。向量自回归的原理在于把每个内生变量作为系统中所有内生变量滞后值的函数来构造模型,从而避开了结构建模方法中需要对系统每个内生变量关于所有内生变量滞后值的建模问题。一般的VAR(P)模型的数学表达式是。 (14.1)其中表示K×1阶随机向量,到表示K×K阶的参数矩阵,表示M×1阶外生变量向量,到是K×M阶待估系数矩阵,并且假定是白噪声序列;即, 并且。 在实际应用过程之中,由于滞后期p和q足够大,因此它能够完整的反映所构造模型的全部动态关系信息。但这有一个严重的缺陷在于,如果滞后期越长,那么所要估计的参数就会变得越多,自由度就会减少。因此需要在自由度与滞后期之间找出一种均衡状态。一般的准则就是取许瓦咨准则(SC)和池此信息准则(AIC)两者统计量最小时的滞后期,其统计量见式(14-2)与式(14-3)。 (14.2) (14.3)式(14-2)与(14-3)中表示待估参数个数,n表示观测样本个数,同时满足: (14.4)14.2 VAR模型的估计 在对VAR模型进行估计时,首先必须对变量进行单位根检验。具体操作步骤见本书前面章节,在此不多加阐述了。14.2.1 VAR模型输入在Eviews里面设定VAR模型之前必须创建VAR系统,选择quick/Estimate VAR或者直接在命令窗口内输入var。此时会出现var对话框,你必须在对话框中填入适当的信息,如下图14.1。(1)选择VAR估计的类型:Unrestricted VAR(非限制性向量自回归)或者Vector Error Correct(向量误差修正模型),现在所谓的VAR是指Unrestricted VAR(非限制性向量自回归),Vector Error Correct(向量误差修正模型)将在下一步做进一步介绍。(2)设定需要估计的样本跨度。(3)在对话框(Lag Intervals for Endogenous)键入适当的滞后期间隙,滞后期间隙必须是成对键入:每一对数字都定义了滞后期的区间,例如右图中:1 4表示Eviews使用内生变 图14.1 VAR设定的对话框量滞后第1期至第4期来估计系统中的(gdp cpi m1 r)变量。你可以键入任何成对滞后数字。滞后期的设定如下:2 4 6 9 12上面数字意味着使用滞后2-4,6-9和12-12。(4)在对话框中键入需要估计的内生变量和外生变量名称,此处我们把gdp,cpi,m1和r作为内生变量序列,同时把常数项c作为一个外生变量键入对话框内。剩下来的对话标签(Cointegration和VEC Restrictions)仅仅和我们下一步需要介绍的向量误差修正模型有关。14.2.2 VAR模型输出如果设定好var模型以后,就可以点击ok,在var窗口中会显示估计的结果。如图14.2。图14.2 VAR模型估计结果 图中每一列代表相应VAR模型中每一个内生变量的方程。每一个变量的右端Eviews汇报了待估系数,标准差(圆括号内)以及t统计量(中括号内)。例如在方程GDP中GDP(-1)的系数为0.848803,标准差为0.13700,t统计量为6.19545,根据t统计量分布表,可知在5%的显著水平下,该系数是显著不为0的。 在系数估计表的下端,Eviews汇报了一些额外的信息,如图14.3。图14.3 VAR模型回归统计量在图14.3中,第一部分表示的是每一个方程标准的OLS统计量。根据各自的残差分别计算每一个方程的结果,并显示在对应的每一列中。输出的第二部分表示的是整个VAR系统的回归统计量。残差的协方差行列式值(自由度进行调整以后)的计算原理是 (14.5) 在式(14-5)中m表示的是VAR系统中每一个方程待估参数的个数,非调整的估计可以忽略m。通过假定服从多元正态分布(高斯分布)的似然对数值的计算如下: (14.6) AIC和SC两个信息准则的计算原理如下: (14.7) (14.8)其中表示VAR模型中待估参数的总数,根据这些准则可以决定VAR模型适当的滞后期长度,这些准则的值越小,那么模型的滞后期就越合适。14.3 VAR模型的诊断如果完成了VAR模型的估计,那么Eviews会提供各种视窗来反映估计的VAR模型是否恰当。在这一节中我们将要讨论VAR模型的设定,并对VAR模型进行诊断。在VAR系统视窗的View/Lag Structure 和 View/Residual Tests菜单下提供了一系列帮助我们进行VAR模型诊断的视图。14.3.1 VAR模型滞后期的确定对于VAR(1),模型稳定的条件是特征方程的根都在单位圆以内,或相反的特征方程的根都要在单位圆以外。对于k>1的VAR(k)模型可以通过矩阵变换改写成分块矩阵的VAR(1)模型形式。 (14.9)模型稳定的条件是特征方程的根都在单位圆以内,或其相反的特征方程 |I-LA|=0的全部根都在单位圆以外。所以也可以通过估计得到相应模型的参数。这一小节主要介绍的是如何给VAR模型确定去合适的滞后期,在滞后结构中提供许多确定滞后期的方法,见图14.4。图14.4 VAR滞后结构视窗对话框1)AR根的图表关于AR特征根多项式的倒数可以参考:Lütkepohl (1991)。如果VAR系统中所有根的模的倒数小于1,即位于单位圆内,那么VAR系统就是稳定的。如果VAR系统不是稳定的,即部分根的模的倒数位于单位圆外,那么估计的某些结果(例如,脉冲响应的标准误差)就可能无效,估计过程中存在kp个根,其中k表示内生变量的个数,p表示最大滞后期。如果估计一个带有r个协整关系的向量误差修正模型,那么必须有k-r个根的模等于1。根据这一原则,我们得到的估计结果如表14.1。表14-1 AR根表Roots of Characteristic PolynomialEndogenous variables: GDP CPI M1 R Exogenous variables: C Lag specification: 1 4 RootModulus 0.992091 0.992091 0.965850 0.965850-0.413574 - 0.711282i 0.822779-0.413574 + 0.711282i 0.822779 0.814673 0.814673 0.698590 - 0.408019i 0.809016 0.698590 + 0.408019i 0.809016 0.356653 - 0.683437i 0.770901 0.356653 + 0.683437i 0.770901-0.168418 - 0.667357i 0.688281-0.168418 + 0.667357i 0.688281-0.535191 0.535191 0.478679 0.478679-0.255845 - 0.372175i 0.451632-0.255845 + 0.372175i 0.451632 0.290012 0.290012 No root lies outside the unit circle. VAR satisfies the stability condition.从表14.1估计的结果可知,所有根的模的倒数都小于1,所以估计的VAR系统满足稳定性条件,为了更加直观的所有根的模的倒数在单位圆中的位置,我们根据AR根图来判断VAR系统的稳定性。见图14.5。图14.5 AR根图根据图14.5可知,所有AR根的模的倒数都位于单位圆内,由此可以判断VAR系统是稳定的。如果VAR系统是稳定的,那么进一步进行VEC估计的结果就是有效的,否则某些估计的结果可能不是有效的。2)Granger因果检验(Pairwise Granger Causality Tests)格兰杰因果检验主要是用来检验一个内生变量可否作为一个外生变量对待。对于VAR系统中的每一个方程,Eviews将会输出每一个内生变量与其他内生变量滞后期的联合(Wald)统计量,在表格的最后一行(All)报告了在这个方程中检验所有滞后内生变量联合的(Wald)统计量数值。具体见表14.2。表14.2 VAR格兰杰因果检验VAR Granger Causality/Block Exogeneity Wald TestsSample: 1999M01 2006M12Included observations: 92Dependent variable: GDPExcludedChi-sqdfProb.CPI 3.7243844 0.4446M1 59.055094 0.0000R 1.4468734 0.8360All 77.9417112 0.0000Dependent variable: CPIExcludedChi-sqdfProb.GDP 20.787324 0.0003M1 26.631754 0.0000R 2.4646584 0.6510All 68.5100912 0.0000Dependent variable: M1ExcludedChi-sqdfProb.GDP 72.089284 0.0000CPI 33.053004 0.0000R 4.7446824 0.3145All 93.1034012 0.0000Dependent variable: RExcludedChi-sqdfProb.GDP 5.4503814 0.2441CPI 0.6036494 0.9627M1 2.7543764 0.5997All 8.35389912 0.7569从表14.2汇报的结果可以看出内生变量CPI(物价水平)的滞后期不能很好的解释内生变量GDP(国内生产总值),因此CPI不是GDP 的格兰杰原因;同理可以解释其他内生变量。3)滞后排除检验(Lag Exclusion Tests)滞后排除检验是用来检验VAR系统中每一个滞后期。对每一个滞后期,所有内生变量在特定显著水平下的对于每一个方程的(Wald)统计量被分别单独列出,最后一列是联合的显著性检验。具体估计结果见表14.3。表14.3 滞后排除检验结果VAR Lag Exclusion Wald TestsSample: 1999M01 2006M12Included observations: 92Chi-squared test statistics for lag exclusion:Numbers in are p-valuesGDPCPIM1RJointLag 1 55.14276 130.6234 80.80588 83.62508 377.5179 3.02e-11 0.000000 1.11e-16 0.000000 0.000000Lag 2 6.610822 13.77340 13.61024 4.540688 45.89505 0.147940 0.008055 0.008649 0.337750 0.000101Lag 3 28.54094 3.554922 46.93112 3.605451 70.88551 9.69e-06 0.469577 1.58e-09 0.462026 6.98e-09Lag 4 4.828657 20.93722 29.99224 1.837606 57.63659 0.305334 0.000326 4.91e-06 0.765595 1.30e-06df444416从表14.3汇报的结果可以看出,对于滞后1期来说所有内生变量在0.01显著水平下的每一个方程的都是显著的。4)滞后长度准则(Lag Length Criteria)在理想状态下,我们希望选择VAR的随机扰动项服从向量白噪音。所以从理论上说,如果能够通过某一种方法选择滞后期数能够使得扰动项满足向量白噪音过程,那么滞后期的选择问题就很好解决了。在Eviews里面提供了五种准则来确定滞后期的选择。在选择时,我们需要设定一个最大滞后期数,当然它的设定存在一定的主观性。但是通常可以根据数据的频率来进行确定。例如,对于月度数据一般选择最大滞后期为6,12和18。对于季度数据一般选择4或者8。需要注意不同的准则或者检验的统计量选择的滞后期可能会有所不同。在这种状况下,一般根据多数原则来确定最优滞后期。这个过程实际上就是所谓的稳健性检验过程。所有滞后期选择准则的原理可以参见Lütkepohl (1991, Section 4.3)。由具体估计结果如表14.4。表14.4 VAR模型滞后期选择结果VAR Lag Order Selection CriteriaEndogenous variables: GDP CPI M1 R Exogenous variables: C Sample: 1999M01 2006M12Included observations: 90 LagLogLLRFPEAICSCHQ0 312.3743NA 1.24e-08-6.852762-6.741659-6.8079591 763.3624 851.8665 7.87e-13-16.51917-14.96365-16.295142 804.8764 74.72508 4.48e-13-17.08614-16.08622-16.682913 828.9678 41.22313 3.76e-13-17.26595-14.82162-16.683514 859.8364 50.07563 2.73e-13-17.59636-14.70762-16.834715 925.3564 100.4641 9.23e-14-18.69681 -16.36365*-17.755946 959.7743 49.71468* 6.29e-14* -19.10609*-16.32853 -17.98602* * indicates lag order selected by the criterion LR: sequential modified LR test statistic (each test at 5% level) FPE: Final prediction error AIC: Akaike information criterion SC: Schwarz information criterion HQ: Hannan-Quinn information criterion从表14.4汇报的结果可知LR、FPE、AIC和HQ都指向同样的6阶滞后期,因此应该选择VAR(6)进行后续分析。14.3.2 VAR模型残差检验VAR模型估计出来以后,还必须对其残差进行检验,以确保估计的结果符合VAR的经典假设。Eviews提供各种检验办法,下面一一进行介绍。1)相关图Eviews可以显示VAR模型在指定的滞后阶数的条件下得到残差成对交叉相关图(样本自相关)。交叉相关图有三种显示方式,其中有两种表格形式显示:一是根据变量的顺序显示(以变量为序的表格形式);另一种是根据滞后阶数的顺序显示(以滞后阶数的表格形式)。最后一种是曲线图显示的交叉相关图矩阵形式。这些点线图表示的是加上或者减去滞后性渐进标准误差的两倍(计算原理是)。没有超出两本滞后性渐进标准误差的两倍,就说明VAR模型估计的残差不存在交叉相关。具体操作见图14.5。图14.5通过点击Corrlograms以后,会出现如图14.6的对话框。图14.6为了更加直观,选择用曲线图显示的形式,选择好滞后阶数以后(这里选择滞后阶数为6期)就可以直接点击OK,然后会报告残差交叉相关情况。具体见图14.7。图14.7从图14.7汇报的结果来看,各变量之间残差不存在交叉相关的情况。如果存在就必须重新修正设定的模型。2)混合自相关检验计算与指定阶数所产生的残差序列自相关的多变量Box-Pierce/Ljung-Box Q的统计量(详细了解参见: Lütkepohl, 1991, 4.4.21 & 4.4.23),同时计算出Q统计量和调整的Q统计量(带小样本修正)。在滞后h期不存在序列相关的原假设情况下,两个统计量近似的服从自由度为的卡方分布,其中p为VAR模型的滞后阶数。这种渐进分布是近似的,在某种意义上,它要求当滞后阶数i>h-p时,移动平均项(MA)的系数为0,因此如果AR多项式的根越接近于1并且h很小时,那么这种渐进分布就不在近似了,实际上当h<p时,自由度将变成负数。3)自相关检验Breusch-Godfrey LM检验的原假设是,待检验的序列不存在最多至m期的序列相关性,即:而备选假设是: 至少存在一个 Breusch-Godfrey LM检验的统计量等于有效样本的大小乘以回归得到的拟合优度,即: LM检验统计统计量=在原假设的情况下,Breusch-Godfrey LM检验统计量服从自由度为m的卡方分布,一般情况下,Breusch-Godfrey LM检验统计量实际上服从渐进卡方分布,LM也在渐进条件下有效。4)正态检验 这是J-B残差正态检验在多变量情况下的扩展,这种检验主要是比较残差的第三阶、第四阶残差矩与来自正态分布的矩。在进行多元正态分布检验之前,需要选择相互正交的k个残差的因式分解。令p为k×k阶的因式分解矩阵,即: (14.10) 其中表示衰减残差,定义三阶、四阶矩向量和,则 在原假设服从正态分布的情况下,因为每一个残差成分都是相互独立的,所以任何三阶矩和四阶矩的平方和服从卡方分布。Eviews里面提供了许多因式分解矩阵p的选项,在此不做一一介绍(详细情况参加Lütkepohl 1991, p. 145-148,Doornik and Hansen 1994 ,Urzua 1997)。5)怀特异方差检验这些检验是针对系统方程的whites检验的扩展,由Kelejian(1982)和Doornik(1995)提出。这个回归检验是通过残差序列对每一个回归量及回归量交叉项乘积的回归来实现的,并且检验回归的显著性。14.4 VAR模型具体案例操作及原理14.4.1 协整检验.协整的概念最早是由加州大学圣地亚哥分校计量经济学家Granger于1981年提出来的,后来Engle和Granger(1987),Engle和Yoo(1987,1991),Phillips和Ouiaris(1990),Stock和Watson(1988),Phillips(1991)和Johansen(1988,1991,1994)等经济学家不断完善,从而使得协整分析成为计量经济学的一个重要分支。它在宏观经济研究以及金融市场分析中具有广泛的应用。协整分析主要应用于短期动态关系容易受到随机扰动的显著影响,而长期关系又受到均衡关系制约的经济系统。例如股票价格与股息的协整关系,股票价格容易受到短期市场因素的影响而容易波动,在长期内,股息主要受到股息政策的约束,表现比较平稳。在做协整检验之前要明确变量之间的经济含义,同时必须强调变量的经济理论基础,另外我们进行单方程回归的时候可能会遇到“伪回归”的情况。如下列所示:1985年至2004年,我国的国内生产总值(GDP),人力资本(L),固定资产投资(K)的年度数据,如表14.5。表14.5 19852004 年我国生产函数模型样本观测数据表年份国内生产总值(GDP)固定资本存量(K)就业人数(L)19856991.016883.94987319867610.618367.65128219878491.320140.75278319889448.022142.35433419899832.223599.755329199010209.124906.064749199111147.726545.665491199212735.129081.266142199314452.933082.266808199416283.137362.767455199517993.741654.568065199619718.746245.168950199721461.951121.569820199823139.956955.470637199924792.563126.771394200026774.969821.672085200128782.677337.173025200231170.986362.773740200334111.498210.274432200437352.0112472.475412注:数据来源于中国统计年鉴2004利用 19852004年我国的相关数据在Eviews6.0里面采用普通最小二乘法进行估计下列生产函数: (14.11)可以得到如下结果:表14.6 生产函数估计结果Dependent Variable: LNGDPMethod: Least SquaresVariableCoefficientStd. Errort-StatisticProb. LOGK0.7808160.03532922.101330.0000LOGL0.5691890.1463803.6397740.0020C-4.8889141.406906-3.4749410.0029R-squared0.994872 Mean dependent var9.703319Adjusted R-squared0.994269 S.D. dependent var0.530959S.E. of regression0.040195 Akaike info criterion-3.452692Sum squared resid0.027465 Schwarz criterion-3.303332Log likelihood37.52692 Hannan-Quinn criter.-3.423535F-statistic1649.222 Durbin-Watson stat0.608175Prob(F-statistic)0.000000从回归的结果来看,除杜宾统计量偏低以外,t统计量值以及拟合优度R-squared值都很高,该回归模型除存在自相关以外,似乎看不出其他任何问题。但是进一步分析表明,这个回归模型是一个伪回归。对伪回归的初步判断可以根据Granger和Newbold于1974年提出来的经验性规则:当R2>DW时,所估计的回归就有可能存在伪回归。在本例中的R2=0.995>DW=0.608,这表明,回归模型很可能是伪回归,因此需要对时间序列LNGDP,LNK和LNL进行单位根检验,以此来判断时间序列是否为非平稳序列。使用下列模型进行单位根检验: (14.12) 估计的结果如下:表14.7 LNGDP平稳性检验Null Hypothesis: LNGDP has a unit rootExogenous: Constant, Linear TrendLag Length: 1 (Automatic based on SIC, MAXLAG=1)t-Statistic Prob.*Augmented Dickey-Fuller test statistic-3.223796 0.1110Test critical values:1% level-4.5714595% level-3.69081410% level-3.286909*MacKinnon (1996) one-sided p-values.表14.8 LNK平稳性检验Null Hypothesis: LOGK has a unit rootExogenous: Constant, Linear TrendLag Length: 1 (Automatic based on SIC, MAXLAG=1)t-StatisticProb.*Augmented Dickey-Fuller test statistic-1.6905410.7131Test critical values:1% level-4.5714595% level-3.69081410% level-3.286909*MacKinnon (1996) one-sided p-values.表14.9 LNL平稳性检验Null Hypothesis: LOGL has a unit rootExogenous: Constant, Linear TrendLag Length: 0 (Automatic based on SIC, MAXLAG=1)t-StatisticProb.*Augmented Dickey-Fuller test statistic-1.5360490.7796Test critical values:1% level-4.5325985% level-3.67361610% level-3.277364*MacKinnon (1996) one-sided p-values.通过观测表14.7至表14.9发现时间序列LNGDP,LNK和LNL均是非平稳的时间序列。由此可知模型(14.11)是三个非平稳时间序列间的回归,因而,标准的t值和F检验都是无效的,回归方程是一个伪回归,进一步分析表明,这三个变量的一阶差分序列是平稳的时间序列,这样我们可以用这三个一阶差分后的平稳时间序列来替代LNGDP,LNK和LNL,然后进行回归。如果只是从回归的角度来讲,这样做是允许的。但从经济意义上来讲,这可能会将某些有丰富经济意义的和富含价值变量水平之间的长期关系舍弃。因为,大多数经济理论都是以变量的水平值而不是由一阶差分或者多阶差分形式给出。这样会出现一个两难的问题:在使用非平稳时间序列建立计量经济模型时,如何既要防止伪回归的出现,同时又不至于因使用差分序列而舍弃变量间的长期关系?Granger和Enger于1987年共同提出了协整模型有效地解决了这一问题。1)协整检验原理如果时间序列都是d阶单整序列,那么存在一个向量,使得,其中,b>0, ,则认为时间序列是(d,b)阶协整,记为为协整向量。协整检验分为量变量协整检验和多变量协整检验,首先介绍两变量协整检验,检验步骤如下:(1)两变量的Enger-Granger检验为了检验两变量Yt,Xt是否协整,Enger和Granger于1987年提出了两步检验法。第一步,用OLS方法估计下列方程: (14.13)得到 (14.14) (14.15)称为协整回归。第二步,检验的单整性。如果为稳定序列,则认为变量,为(1,1)阶协整;如果为1阶单整,则认为变量,为(2,1)阶协整,检验单整性的方法为ADF检验。下面举例说明两变量Enger-Granger检验过程。我们以1999年1月至2006年12月的工业增加值(GDP)与物价消费指数(CPI),GDP作为因变量,CPI作为自变量,所有变量取对数后用最小二乘法在EVIEWS6.0进行估计得到的结果如表14.10。表14.10Dependent Variable:LNGDPMethod: Least SquaresVariableCoefficientStd. Errort-StatisticProb. LNCPI1.7543360.009713180.62420.0000R-squared0.169108 Mean dependent var8.079913Adjusted R-squared0.169108 S.D. dependent var0.480975S.E. of regression0.438425 Akaike info criterion1.199105Sum squared resid18.26055 Schwarz criterion1.225817Log likelihood-56.55704 Hannan-Quinn criter.1.209902Durbin-Watson stat0.069641回归以后点击Quick-Genetate series在对话框的Enter equation里面输入re=resid,点击OK,然后双击,然后会得到回归以后的残差序列,如图14.8。图14-8如图14.8,点击View-Unit Root Test,进行单位根检验得到如下表14.11的结果。表 14.11Null Hypothesis: RE has a unit rootExogenous: Constant, Linear TrendLag Length: 0 (Automatic based on SIC, MAXLAG=6)t-StatisticProb.*Augmented Dickey-Fuller test statistic-9.0027920.0000Test critical values:1% level-4.0597345% level-3.45885610% level-3.145470*MacKinnon (1996) one-sided p-values.表14.11的结果显示,残差序列re是稳定序列,因此工业增加值(GDP)与物价消费指数(CPI)是(1,1) 阶协整。(2)多变量协整关系的检验。上述Enger-Granger检验通常用来检验两变量之间的协整关系,对于多个变量之间的协整关系,Johansen于1988年,以及与Juselius于1990年提出了一种极大似然法进行检验的方法,通常为Johansen检验。协整系统的最大似然估计是对协整系统中的所有独立的协整关系做总体分析,而对系统中的协整个数并没有事先假定,同时也不需要对哪个分量的系数进行规范。由于多变量协整的原理在本章开始就已经介绍,在此不再做过多阐述。仍然根