毕业论文我国粮食产量预测的时间序列模型研究.doc
分类号:F810.3 U D C:D10621-407-(2011)3077-0密 级:公 开 编 号:2007062010学位论文我国粮食产量预测的时间序列模型研究论文作者姓名:Xxxx申请学位专业:信息与计算科学申请学位类别:理学学士指导教师姓名(职称):论文提交日期:2011年06月5日我国粮食产量预测的时间序列模型研究摘要粮食是关系国民生计的重要战略物资,为做好粮食预测,本文介绍了时间序列的几种建模方法。通过分析1978-2009年我国粮食生产总量数据特点,建立了单积自回归移动平均模型ARIMA(p,d,q)。最终,利用Eviews6.0软件计算完成了我国粮食产量的预测。结果表明,在未来几年我国粮食产量在不受自然灾害影响的前提下,依然会进行缓慢增长。经分析,重大自然灾害对我国粮食产量影响严重,确保粮食产量要做好重大自然灾害预防。关键字:粮食产量;时间序列; ARIMA ;预测Research for Forecasting of Chinas Grain Yield Based on Time Series ModelAbstractGrain is an important livelihood strategy for the national relationship between material. Forecast for the grain, this thesis introduces several modeling methods of time serials Method and establishes autoregressive moving average model ARIMA (p, d, q) by analyzing characteristics of Chinas grain yield from 1978 to 2009. Finally, forecasting of Chinas grain yield is finished by means of Eviews6.0 and the result shows that Chinas grain yield will still grow slowly in the next few years if not being affected by natural disasters. Key words: grain yield; time serials; ARIMA; forecasting目 录 论文总页数:16页1引言11.1课题背景11.2国内外研究现状11.3本课题研究的意义21.4本课题的研究方法22几种时间序列预测分析法简介22.1自回归(AR)模型22.2移动平均(MA)模型32.3自回归移动平均(ARMA)模型32.4差分自回归滑动平均(ARIMA)模型42.4.1ARIMA模型原理42.4.2ARIMA模型预测的基本程序43数据分析及模型建立43.1数据分析43.2数据平稳化63.3模型的定阶83.4模型优化103.5模型检验113.6模型有效性检验113.7模型预测12结 论12参考文献12附 录13致 谢15声 明161 引言1.1 课题背景“国以民为本,民以食为天。”粮食是关系国计民生的重要战略物资,粮食安全与社会的和谐、政治的稳定、经济的持续发展息息相关。我国是发展中的农业大国,耕地仅占世界10,而人口却占世界的22,十几亿人的粮食问题始终是头等大事。加入WTO以后,我国的粮食安全问题受到了国内外的广泛关注。我国粮食产量受多种因素影响,没有规律可循。1.2 国内外研究现状我国学者对粮食产量的预测模型总体上来说大致可以分为三大类:时间序列模型、回归模型和人工神经网络模型。指数平滑模型、灰色预测模型及基于马尔可夫链的预测模型等都属于时间序列模型。回归模型中使用比较多的就是线性回归模型和双对数模型。人工神经网络模型是近几年才开始使用的基于生物学原理的预测系统。这些方法的优缺点分析如下:首先,指数平滑模型的原理和计算方法比较简单,对历史数据的数量没有太大的要求。迟灵芝(2004)曾运用单指数平滑方法首先对我国19911999年的粮食产量进行拟合,计算出平均相对误差为0.104%,效果还是比较理想的。但是模型中对平滑系数的确定直接关系到模型的精度问题,所以不同的平滑系数就可能造成结果的差异。林绍森等(2007)对三种预测模型的分析的结果证明了指数平滑法的预测误差最大。此外,由于模型本身在计算方法上的局限性,该方法只适用于近、短期预测。灰色预测模型也是比较常用的粮食产量预测模型。迟灵芝(2002)对灰色预测方法和回归模型进行比较分析,得出灰色预测的平均相对误差最小的结论。林绍森等(2007)对单指数平滑、自回归移动平均和灰色预测三种模型进行了比较,他指出灰色预测模型比自回归预测模型和单指数平滑预测模型更适合长期的预测。线性(或非线性)回归模型的一个优点是可对变量之间进行因果分析,描述其内在的联系。很多学者利用这一方法建立了粮食产量模型,找到了影响粮食产量的主要因素。如李子奈( 2000)的线性回归函数、石森昌等(2003)的双对数生产函数、李云松等(2002) 、肖海峰等(2004) 、程杰等(2007)的柯布道格拉斯生产函数等等。虽然他们选取的变量都不尽相同,但是都证明了回归模型对粮食产量的拟合效果很好。但是回归方法受到解释变量的约束,一般也只用在近、短期预测中。神经网络模型是一种建立在生物学神经元基础上的一个不需要建立解释变量与被解释变量之间具体关系的数学模型。它可以通过隐含层的学习和训练实现输入元素与输出元素之间的非线性映射。该模型的模拟效果可以在王启平(2002)、禹建丽等( 2004)的文章中看到。但是目前我国尚无比较完善和成熟的理论指导网络模型,在神经网络的程序设计中对隐含层单元数及目标参数的设置都只能凭经验或者是经过反复的训练和测试才能确定。总之,每个模型都有其优点和不足之处。对于数据比较少的短期预测问题,应用简单的指数进行平滑。对于结构复杂、影响因素众多的中长期问题一般用灰色预测模型。回归模型一般用来做因素分析,而且预测期较短。1.3 本课题研究的意义根据农业部发布的数据, 1998年我国粮食产量曾经达到历史最高水平,此后几年连续多年呈现下滑态势,持续稳产增产基本没有超过3年。自2004年开始,中国连续四年粮食增产, 2007年粮食产量突破了5亿吨。但是粮食生产是由诸多因素综合影响的不确定系统,未来我国粮食产量将如何变动,能否达到国家粮食安全的目标就成为一个很有意义的话题。有效地分析和预测我国粮食生产能力,对政策调整方向乃至保障粮食安全具有非常重要的价值。1.4 本课题的研究方法对于大多数时间数列是非平稳的,如果直接将非平稳时间序列当做平稳时间序列来进行回归分析,则可能造成“伪回归”,即变量间本来不存在相依关系,但回归结果却得出存在相依关系的错误结论。本文首先根据时间序列的散点图、自相关函数和偏自相关函数图识别其平稳性。然后对非平稳的时间序列数据进行平稳化处理,将其视为一个随机序列,分析此序列的特征并根据所识别出来的特征建立相应的时间序列模型。判断该模型残差序列是否为白噪声序列。通过检验后,利用此模型对粮食产量进行预测。2 几种时间序列预测分析法简介 2.1 自回归(AR)模型如果时间序列是它的前期值和随机项的线性函数,即可表示为 (1)则称该时间序列是自回归序列,(1)式为自回归模型,记为AR(p)。实参数称为自回归系数,是模型的待估参数。随机项是相互独立的白噪声序列,且服从均值为0、方差为的正态分布。随机项与滞后变量不相关。不是一般性,在(1)中假定序列均值为0。若,则令,可将写成(1)式的形式。记为k步滞后算子,即,则模型(1)可表示为 (2)令 模型可简写为: (3)AR(p)过程平稳的条件是滞后多项式的根均在单位圆外,即的根大于1。2.2 移动平均(MA)模型如果时间序列(是它的当前和前期的随机误差项的线性函数,即可表示为 (4)则称该时间序列是移动平均序列,(2)式为q阶移动平均模型,记为MA(q)模型。实参数为移动平均系数,是模型的待估系数。引入滞后算子,并令则模型(4)可简写为 (5)移动平均过程无条件平稳。但希望AR过程与MA过程能相互表出,即过程可逆。因此要求滞后多项式的根都在单位圆外,经推导可得 (6)其中,其他权重可递推得到。称(6)为MA(q)模型的逆转形式,它等价与无穷阶的AR过程。2.3 自回归移动平均(ARMA)模型如果时间序列是它的当期和前期的随机误差项以及前期值的线性函数,即可表示为: (7)则称该时间序列(是自回归平均序列,(7)式为(p,q)阶的自回归移动平均模型,记为ARMA(p,q)。为自回归系数,为移动平均系数,都是模型的待估参数。引入滞后算子B,模型(7)可简记为 (8)ARMA(p,q)过程的平稳条件是滞后多项式的根均在单位圆外。可逆条件是的根都在单位圆外。若,则称满足方程的平稳随机序列为p阶自回归模型,记为AR(p)模型。若,则称满足方程的平稳随机序列为q阶移动平均模型,记为MA(q)模型。显然,AR(p)模型和MA(q)模型都是ARMA(p,q)模型的特例。2.4 差分自回归滑动平均(ARIMA)模型2.4.1 ARIMA模型原理差分自回归滑动平均模型ARIMA(p,d,q)中,AR是"自回归",p为自回归项数;MA为"滑动平均",q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。ARIMA(p,d,q)模型是ARMA(p,q)模型的扩展。ARIMA(p,d,q)模型可以表示为: (9)其中L 是滞后算子(Lag operator)。2.4.2 ARIMA模型预测的基本程序 (一)根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其季节性变化规律,对序列的平稳性进行识别。一般来讲,经济运行的时间序列都不是平稳序列。 (二)对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降趋势,则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。 (三)根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。 (四)进行参数估计,检验是否具有统计意义。 (五)进行假设检验,诊断残差序列是否为白噪声。 (六)利用已通过检验的模型进行预测分析。 3 数据分析及模型建立3.1 数据分析1978-2009年我国粮食产量(单位:万吨)如下表1:表1 我国1978-2009年粮食产量年份粮食产量年份粮食产量197834076.5199444510.1197933211.5199546661.8198032055.5199650453.5198132502199749417.1198235450199851229.5198338727.5199950838.6198440730.5200046217.5198537910.8200145263.7198639151.2200245705.8198740473.3200343069.5198839408200446946.9198940754.9200548402.2199044624.3200649804.2199143529.3200750160.3199244265.8200852870.9199345648.8200953082注:数据来源于中国统计局网。建立时间序列模型之前需要检验序列的平稳性,只有平稳序列才能建立时间序列模型。利用EVIEWS数据分析软件对时间序列进行ADF检验,以判断其平稳性,当检验值(Augmented dickey-Fuller test statistic)的绝对值大于临界值的绝对值时,序列为平稳序列;否则,为非平稳数据。利用EVIEWS6.0软件作出我国历年粮食产量的曲线图,见图1:图1 我国粮食产量曲线图从曲线图中明显可以看到粮食产量总体呈上升趋势,在1998-2003年出现了明显下降,直观表现为非平稳序列。利用Eviews6.0对其进行单位根检验,检验结果为图2:图2 粮食产量时间序列单位根检验由图中检验结果可以看出FOOD时间序列单位根为-0.972583大于10%水平下临界值,故该序列存在单位根,为非平稳时间序列。3.2 数据平稳化用Eviews将粮食产量时间序列做一阶差分并对其进行单位根检验,结果分别见图3和图4:图3 我国粮食产量一阶差分图图4 粮食产量一阶差分单位根检验结果图通过看图,粮食产量一阶差分后得到的序列在某一常数附近波动,可初步识别序列已平稳。并且ADF的检验值为4.879665,分别小于不同检验水平的三个临界值,因此它通过了ADF检验,为一平稳序列。在这里应该注意的是要防止过度差分。一般来说平稳序列差分得到的仍然是平稳序列,但当差分次数过多时存在两个缺点,(1)序列的样本容量减小;(2)方差变大;所以建模过程中要防止差分过度。对于一个序列,差分后若数据的极差变大,说明差分过度。此处,我们认为一阶差分已可以消除序列的非平稳性。因此在ARIMA(p,d,q)模型中d=1。.3.3 模型的定阶ARIMA模型的定阶方法主要有如下三种:自相关和偏相关函数定阶法;FPS准则;AIC和SC准则。所谓自相关:构成时间序列的每个序列值之间的简单相关关系称为自相关。自相关程度由自相关系数度量,表示时间序列相隔k期的观测值之间的相关程度。其中,是样本量;为滞后期;代表样本数据的算术平均值。所谓偏自相关:对于时间序列,在给的的条件下,与之间条件相关关系。其相关程度用偏自相关系数度量,有,其中是滞后期的自相关系数, 。首先我们通过考察平稳时间序列的自相关和偏相关的函数性质来进行定阶,利用Eviews6.0作出粮食产量一阶差分序列DFOOD的自相关-偏相关图,结果见图5:图5 粮食产量一阶差分自相关-偏相关图从图中可以看出平稳序列DFOOD的自相关系数AC在K=5后很快趋于0,即自相关系数在4阶结尾,因此q=4;偏相关系数PAC在k=4很快趋于0,即偏相关系数在4阶截尾。于是,先建立ARMA(4,1,4)模型,并利用EVIEWS软件计算模型参数,具体参数值见图6:图6 ARIMA(4,1,4)模型参数估计结果图3.4 模型优化观察参数计算结果,发现MA(3),MA(4)项的系数没有显著性。为简化模型,我们再利用AIC和SC准则,即AIC和AC值最小原则,进行项数筛选。最终得到AR(2)、AR(3)和MA(2)的系数具有显著性。Eviews6.0计算结果如图7:图7 ARIMA(3,1,2)模型参数估计结果图我们由此得到模型的最终表达式:利用Eviews6.0软件绘制出所得模型的拟合值和实际值以及残差值的比较,其结果见图8:图8 拟合值和实际值的比较图3.5 模型检验为确保模型的可靠性,需要对模型残差进行检验,看其是否为白噪声序列。利用Ewviews6.0软件对ARIMA(3,12)模型进行Q统计量检验,检验结果见图9:图9 ARIMA(3,1,2)残差Q统计结果图模型的残差自相关-偏相关图,没有任何模式,残差序列平稳,该残差序列由一些无关的相互独立的随机变量组成。说明此模型拟合成功,可以进行预测。3.6 模型有效性检验预测模型有效性检验,即是利用未使用过的观测值评价模型的预测能力。用部分历史数据对模型进行回归并预测,将预测结果与实际值比较,可以简单而有效地检验模型的预测效果。这里,我们对ARIMA(3,1,2)模型利用19782009年的数据进行回归,然后给出了的预测结果以及完整的历史数据,由以上模型预测出的2007-2009年的粮食产量FOOD和实际粮食产量以及相对误差见下表3:表3 2007-2009年估计值与实际值及相对误差年份200722082009估计值51242.5352278.953839.3实际值50160.352870.953082相对误差2.2%1.1%1.4%由表可以看到相对误差最高为2.2%,均小于5%。预测结果比较准确,能够基本拟合实际值。3.7 模型预测利用此模型对2010-2012年我国粮食产量进行预测,结果如表4:表4 2010-2012年我国粮食产量预测值即增长率年份201020112012估计值54047.254986.9155967.58增长率1.78%1.70%1.75%由预测结果可以看起我国粮食产量在未来几年仍然会呈增长趋势,但增长率将处于波动状态,即我国粮食产量增长可能出现放缓。结 论时间序列模型一般只能用于短期预测,对于中长期预测可能会出现误差累计情况,因此本模型只可对未来近几年的我国粮食产量进行预测。其次,观察拟合曲线会发现在1998-2000年的拟合效果较差,查阅资料发现1998年和2000年自然灾害比较严重,分别遭受了特大洪水和罕见的全国性干旱(建国以来干旱最为严重的年份之一)。本模型无法排除突发严重自然灾害影响因素,所以本模型的预测结果只有在无重大自然灾害的前提下才具有价。在此前提下,本文成功预测了我国粮食产量在未来依然会增长,增长率会在1.75%波动,可会出现放缓。要保持我国粮食产量出现持续增长,除保持科技进步,更要加强自然灾害的预防。参考文献1梁仕莹,孙东升,杨秀平,刘合光.2008-2020年我国粮食产量分析J.农业经济问题,2008年,增刊:132-140。2 高铁梅,计量经济分析方法与建模M.清华大学出版社2006年版。3于俊年,经济计量学软件-Eviews的使用M.对外经济贸易出版社2006年版。4庞皓,经济计量学M.科学出版社2007年版。附 录1978-2009年我国粮食产量数据年份粮食产量年份粮食产量197834076.5199444510.1197933211.5199546661.8198032055.5199650453.5198132502199749417.1198235450199851229.5198338727.5199950838.6198440730.5200046217.5198537910.8200145263.7198639151.2200245705.8198740473.3200343069.5198839408200446946.9198940754.9200548402.2199044624.3200649804.2199143529.3200750160.3199244265.8200852870.9199345648.82009530821978-2009年我国粮食一阶差分后数据年份一阶差值年份一阶差值1978NA1994-1138.71979273519952151.71980-115619963791.71981446.51997-1036.41982294819981812.4198332771999-390.919842003.52000-4621.11985-2819.72001-953.819861240.42002442.119871322.12003-2636.31988-1065.320043877.419891346.920051455.319903869.4200614021991-10952007356.11992736.520082710.6199313832009211.1ARIMA(3,1,2)模型拟合值、实际值、残差值及残差图年份真实值拟合值残差值残差值图198229481073.7971874.203| . | .* |19833277.55194.092-1916.59| *. | . |198420031883.09119.9096| . * . |1985-2819.7-877.679-1942.02| *. | . |19861240.41705.181-464.781| . *| . |19871322.1962.0665360.0335| . |* . |1988-1065.3-1106.941.5975| . * . |19891346.91345.5791.321073| . * . |19903869.41954.0691915.331| . | .* |1991-109532.85569-1127.86| . * | . |1992736.51955.25-1218.75| .* | . |199313831886.97-503.97| . * | . |1994-1138.7-936.63-202.07| . *| . |19952151.7276.39861875.301| . | .* |19963791.71770.22021.5| . | .* |1997-1036.41521.733-2558.13| * . | . |19981812.42420.54-608.14| . * | . |1999-390.9446.2166-837.117| . * | . |2000-4621.1-718.373-3902.73|* . | . |2001-953.81055.714-2009.51| *. | . |2002442.1-1264.851706.945| . | * |2003-2636.3-2539.52-96.7765| . * . |20043877.42067.7221809.678| . | .* |20051455.32036.438-581.138| . * | . |20061402198.79021203.21| . | *. |2007356.11476.736-1120.64| . * | . |20082710.62222.673487.9266| . | * . |2009211.1334.2805-123.18| . * . |致 谢本论文的工作是 2011年4月至2011年5月在成都信息工程学院数学学院完成的。文中除了特别加以标注地方外,不包含他人已经发表或撰写过的研究成果,也不包含为获得成都信息工程学院或其他教学机构的学位或证书而使用过的材料。除非另有说明,本文的工作是原始性工作。本文是在吴泽忠老师的热情关心和指导下完成的,他渊博的知识和严谨的治学作风使我受益匪浅,对顺利完成本课题起到了极大的作用。在此向他表示我最衷心的感谢!在论文完成过程中,本人还得到了老师和同学的热心帮助,本人向他们表示深深的谢意!最后向在百忙之中评审本文的各位专家、老师表示衷心的感谢!作者简介:成都信息工程学院数学学院姓 名:xxx 性别:男 出生年月:xxxxx 民族:汉 E-mail: xxxxxx声 明关于学位论文使用权和研究成果知识产权的说明:本人完全了解成都信息工程学院有关保管使用学位论文的规定,其中包括:(1)学校有权保管并向有关部门递交学位论文的原件与复印件。(2)学校可以采用影印、缩印或其他复制方式保存学位论文。(3)学校可以学术交流为目的复制、赠送和交换学位论文。(4)学校可允许学位论文被查阅或借阅。(5)学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。除非另有科研合同和其他法律文书的制约,本论文的科研成果属于成都信息工程学院。特此声明! 作者签名: 2011年06月5 日