时间序列分析模型实例.ppt.ppt
时间序列分析模型,1 时间序列分析模型简介,2 长江水质污染的发展趋势预测【CUMCM 2005A】,一、问题分析,二、模型假设,三、模型建立,四、模型预测,五、结果分析,六、模型评价与改进,一、时间序列分析模型概述,1、自回归模型,2、移动平均模型,3、自回归移动平均模型,二、随机时间序列的特性分析,三、模型的识别与建立,四、模型的预测,时间序列的分类,随机性时间序列模型的特点,把时间序列数据作为由随机过程产生的样本来分析多数影响时间序列的因素具有随机性质,因此时间序列的变动具有随机性质随机过程分为平稳随机过程和非平稳随机过程由平稳随机过程产生的时间序列叫做平稳性时间序列由非平稳随机过程产生的时间序列叫做非平稳性时间序列,平稳序列(stationary series)基本上不存在趋势的序列,各观察值基本上在某个固定的水平上波动或虽有波动,但并不存在某种规律,而其波动可以看成是随机的 非平稳序列(non-stationary series)有趋势的序列:线性的,非线性的 有趋势、季节性和周期性的复合型序列,平稳时间序列,非平稳时间序列,平稳性时间序列,由平稳随机过程产生的时间序列的性质:概率分布函数不随时间的平移而变化,即:P(Y1,Y2,Yt)=P(Y1+m,Y2+m,Yt+m)期望值、方差和自协方差是不依赖于时间的常数,即:E(Yt)=E(Yt+m)Var(Yt)=Var(Y t+m)Cov(Yt,Y t+k)=Cov(Y t+m,Y t+m+k)随机性时间序列模型是以时间序列的平稳性为基础建立的,随机性时间序列模型的特点,利用时间序列中的自相关关系进行分析和建摸时间序列的自相关关系是指时间序列在不同时期观测值之间的相关关系许多因素产生的影响不是瞬间的,而是持续几个时期或更长时间,因此时间序列在不同时期的值往往存在较强的相关关系用自相关函数和偏自相关函数衡量时间序列中的自相关关系,时间序列的自相关关系,自相关函数随机过程的自相关函数样本的自相关函数偏自相关函数随机过程的偏自相关函数样本的偏自相关函数,自相关函数,对于平稳随机过程,滞后期为 K 的自相关函数定义为滞后期为 K 的自协方差与方差之比,样本自相关函数,样本自相关函数的性质,可以用来判断时间序列的平稳性平稳性时间序列的样本自相关函数值随滞后期的延长很快趋近于零可以较好描述季节性变动或其他周期性波动的规律如果季节变化的周期是 12 期,观测值 Yt 与 Yt+12,Yt+24,Yt+36之间存在较强自相关关系因此,当 K=12,24,36,48,时,样本自相关函数值在绝对值上大于它周围的值,偏自相关函数值,滞后期为 K 的偏自相关函数值是指去掉 Y t+1,Y t+2,Y t+3,Y t+k-2,Y t+k-1 的影响之后,反映观测值Yt和Y t+k之间相关关系的数值,随机性时间序列模型的特点,建摸过程是一个反复实验的过程借助自相关函数值和偏自相关函数值确定模型的类型借助诊断性检验判断模型的实用性,时间序列最佳模型的确定,模型分类,总类模型移动平均模型 MA(q)(Moving Average)自回归模型 AR(p)(Autoregression)混合自回归移动平均模型 ARMA(p,q)差分自回归-移动平均模型 ARIMA(p,d,q),1 时间序列分析模型【ARMA模型】简介,ARMA模型是一类常用的随机时间序列模型,是一种精度较高的时间序列短期预测方法,其基本思想是:某些时间序列是依赖于时间 的一族随机变量,构成该时间序列的单个序列值虽然具有不确定性,但整个序列的变化却有一定的规律性,可以用相应的数学模型近似描述.通过对该数学模型的分析研究,能够更本质地认识时间序列的结构与特征,达到最小方差意义下的最优预测.,ARMA模型有三种基本类型:自回归(AR:Auto-regressive)模型移动平均(MA:Moving Average)模型自回归移动平均(ARMA:Auto-regressive Moving Average)模型,一、概 述,1 时间序列分析模型【ARMA模型】简介,1、自回归【AR】模型,自回归序列:,如果时间序列 是它的前期值和随机项的线性函数,即可表示为,【1】,【1】式称为 阶自回归模型,记为AR(),注1:实参数 称为自回归系数,是待估参数.随机项 是相互独立的白噪声序列,且服从均值为0、方差为 的正态分布.随机项与滞后变量不相关。,注2:一般假定 均值为0,否则令,1 时间序列分析模型【ARMA模型】简介,记 为 步滞后算子,即,则模型【1】可表示为,令,模型可简写为,AR()过程平稳的条件是滞后多项式,的根均在单位圆外,即,的根大于1,【2】,1 时间序列分析模型【ARMA模型】简介,2、移动平均【MA】模型,移动平均序列:,如果时间序列 是它的当期和前期的随机误差项的线性函数,即可表示为,【3】,式【3】称为,阶移动平均模型,记为MA(),注:实参数,为移动平均系数,是待估参数,1 时间序列分析模型【ARMA模型】简介,引入滞后算子,并令,则模型【3】可简写为,注1:移动平均过程无条件平稳,注2:滞后多项式,的根都在单位圆外时,AR过程与MA过程,能相互表出,即过程可逆,,【4】,即为MA过程的逆转形式,也就是MA过程等价于无穷阶的AR过程,注3:【2】满足平稳条件时,AR过程等价于无穷阶的MA 过程,即,1 时间序列分析模型【ARMA模型】简介,3、自回归移动平均【ARMA】模型【B-J方法建模】,自回归移动平均序列:,如果时间序列,是它的当期和前期的随机误差项以及,前期值的线性函数,即可表示为,【5】,式【5】称为,阶的自回归移动平均模型,记为ARMA,注1:实参数,称为自回归系数,,为移动平均系数,,都是模型的待估参数,注2:【1】和【3】是【5】的特殊情形,注3:引入滞后算子,模型【5】可简记为,【6】,注4:ARMA过程的平稳条件是滞后多项式,的根均在单位圆外,可逆条件是滞后多项式,的根都在单位圆外,1 时间序列分析模型【ARMA模型】简介,二、随机时间序列的特性分析,1、时序特性的研究工具,(1)自相关,构成时间序列的每个序列值,相关关系称为自相关。自相关程度由自相关系数,表示时间序列中相隔,期的观测值之间的相关程度。,之间的简单,度量,,注1:,是样本量,,为滞后期,,代表样本数据的算术平均值,注2:自相关系数,的取值范围是,且,越接近1,自相关程度越高,1 时间序列分析模型【ARMA模型】简介,(2)偏自相关,偏自相关是指对于时间序列,,在给定,的条件下,,与,之间的条件相关关系。,其相关程度用,度量,有,偏自相关系数,其中,是滞后,期的自相关系数,,1 时间序列分析模型【ARMA模型】简介,2、时间序列的特性分析,(1)随机性,如果一个时间序列是纯随机序列,意味着序列没有任何规律性,序列诸项之间不存在相关,即序列是白噪声序列,其自相关系数应该与0没有显著差异。可以利用置信区间理论进行判定。在B-J方法中,测定序列的随机性,多用于模型残差以及评价模型的优劣。,(2)平稳性,若时间序列,满足,1)对任意时间,,其均值恒为常数;,2)对任意时间,和,,其自相关系数只与时间间隔,有关,而与 的起始点无关。,那么,这个时间序列就称为平稳时间序列。,和,1 时间序列分析模型【ARMA模型】简介,序列的平稳性也可以利用置信区间理论进行判定.需要注意的是,在B-J方法中,只有平稳时间序列才能直接建立ARMA模型,否则必须经过适当处理使序列满足平稳性要求,在实际中,常见的时间序列多具有某种趋势,但很多序列通过差分可以平稳,判断时间序列的趋势是否消除,只需考察经过差分后序列的自相关系数,(3)季节性,时间序列的季节性是指在某一固定的时间间隔上,序列重复出现某种特性.比如地区降雨量、旅游收入和空调销售额等时间序列都具有明显的季节变化.,一般地,月度资料的时间序列,其季节周期为12个月;,季度资料的时间序列,季节周期为4个季.,1 时间序列分析模型【ARMA模型】简介,判断时间序列季节性的标准为:月度数据,考察,时的自相关系数是否,与0有显著差异;,季度数据,考察,系数是否与0有显著差异。,时的自相关,说明各年中同一月(季)不相关,序列不存在季节性,否则存在季节性.,若自相关系数与0无显著不同,,实际问题中,常会遇到季节性和趋势性同时存在的情况,这时必须事先剔除序列趋势性再用上述方法识别序列的季节性,否则季节性会被强趋势性所掩盖,以至判断错误.,包含季节性的时间序列也不能直接建立ARMA模型,需进行季节差分消除序列的季节性,差分步长应与季节周期一致.,1 时间序列分析模型【ARMA模型】简介,三、模型的识别与建立,在需要对一个时间序列运用B-J方法建模时,应运用序列的自相关与偏自相关对序列适合的模型类型进行识别,确定适宜的阶数,以及(消除季节趋势性后的平稳序列),1、自相关函数与偏自相关函数,(1)MA(,)的自相关与偏自相关函数,自协方差函数,是白噪声序列的方差,1 时间序列分析模型【ARMA模型】简介,样本自相关函数,MA(,)序列的自相关函数,在,这种性质称为自相关函数的,步截尾性;,以后全都是0,,随着滞后期,这种特性称为偏自相关函数的拖尾性,的增加,呈现指数或者正弦波衰减,趋向于0,,偏自相关函数,1 时间序列分析模型【ARMA模型】简介,(2)AR(,)序列的自相关与偏自相关函数,偏自相关函数,是,步截尾的;,自协方差函数,满足,自相关函数,满足,它们呈指数或者正弦波衰减,具有拖尾性,(3)ARMA(,)序列的自相关与偏自相关函数均是拖尾的,1 时间序列分析模型【ARMA模型】简介,2、模型的识别,自相关函数与偏自相关函数是识别ARMA模型的最主要工具,B-J方法主要利用相关分析法确定模型的阶数.,若样本自协方差函数,在,步截尾,则判断,是MA(,)序列,若样本偏自相关函数,在,步截尾,则可判断,是AR(,)序列,若,,,都不截尾,而仅是依负指数衰减,这时可初步认为,ARMA序列,它的阶要由从低阶到高阶逐步增加,再通过检验来确定.,在,,,是,但实际数据处理中,得到的样本自协方差函数和样本偏自相关函数只是,和,的估计,要使它们在某一步之后全部为0几乎是,而只能是在某步之后围绕零值上下波动,故对于,和,不可能的,,的截尾性,只能借助于统计手段进行检验和判定。,1 时间序列分析模型【ARMA模型】简介,(1),的截尾性判断,对于每一个,,计算,(,一般取,左右),考察其中满足,或,的个数是否为,的68.3%或95.5%。,如果当,时,,明显地异于0,而,近似为0,且满足上述不等式的个数达到了相应的比例,,则可近似地认为,在,步截尾,1 时间序列分析模型【ARMA模型】简介,(2),的截尾性判断,作如下假设检验:,存在某个,,使,,且,统计量,表示自由度为,的,分布,的上侧,分位数点,对于给定的显著性水平,,若,,则认为,样本不是来自AR(,)模型;,,可认为,样本来自AR(,)模型。,注:实际中,此判断方法比较粗糙,还不能定阶,目前流行的方法是H.Akaike,信息定阶准则(AIC),1 时间序列分析模型【ARMA模型】简介,(3)AIC准则确定模型的阶数,AIC定阶准则:,是模型的未知参数的总数,是用某种方法得到的方差,的估计,为样本大小,则定义AIC准则函数,用AIC准则定阶是指在,的一定变化范围内,寻求使得,最小的点,作为,的估计。,AR(,)模型:,ARMA,模型:,1 时间序列分析模型【ARMA模型】简介,3、参数估计,在阶数给定的情形下模型参数的估计有三种基本方法:矩估计法、逆函数估计法和最小二乘估计法,这里仅介绍矩估计法,(1)AR(,)模型,白噪声序列,的方差的矩估计为,1 时间序列分析模型【ARMA模型】简介,(2)MA(,)模型,(3)ARMA,模型的参数矩估计分三步:,i)求,的估计,1 时间序列分析模型【ARMA模型】简介,ii)令,,则,的自协方差函数的矩估计为,iii)把,近似看作MA(,)序列,利用(2),对MA(,)序列的参数估计方法即可,1 时间序列分析模型【ARMA模型】简介,4、模型检验,对于给定的样本数据,AIC准则确定了模型的类型和阶数,用矩估计法确定了模型中的参数,从而建立了一个ARMA模型,来拟合真正的随机序列。但这种拟合的优劣程度如何,主要应通过实际应用效果来检验,也可通过数学方法来检验。,,我们通过相关分析法和,下面介绍模型拟合的残量自相关检验,即白噪声检验:,对于ARMA模型,应逐步由ARMA(1,1),ARMA(2,1),ARMA(1,2),ARMA(2,2),依次求出参数估计,对AR(,)和MA(,)模型,先由,和,初步定阶,再求参数估计。,的截尾性,1 时间序列分析模型【ARMA模型】简介,一般地,对ARMA,模型,取初值,和,它们均值为0),可递推得到残量估计,现作假设检验:,(可取它们等于0,因为,是来自白噪声的样本,令,1 时间序列分析模型【ARMA模型】简介,其中,取,左右。,则当,成立时,,服从自由度为,的,分布。,对给定的显著性水平,,若,,则拒绝,,即模型与原随机序列之间拟合得不好,,,则认为模型与原随机序列之间拟合,需重新考虑,得较好,模型检验被通过。,建模;若,1 时间序列分析模型【ARMA模型】简介,四、模型的预测,若模型经检验是合适的,也符合实际意义,可用作短期预测.,B-J方法采用L步预测,即根据已知,个时刻的序列观测值,,对未来的,个时刻的序列值做出估计,,线性最小方差预测是常用的一种方法.,误差的方差达到最小.,其主要思想是使预测,若,表示用模型做的L步平稳线性,最小方差预测,那么,预测误差,并使,达到最小.,1 时间序列分析模型【ARMA模型】简介,1、AR(,)序列预测,模型(1):,的L步预测值为,其中,(,),1 时间序列分析模型【ARMA模型】简介,2、MA(,)的预测,对模型(3):,当,时,由于,可见所有白噪声的时刻都大于,,故与历史取值无关,,;,从而,当,时,各步预测值可写成矩阵形式:,1 时间序列分析模型【ARMA模型】简介,递推时,初值,均取为0。,2 长江水质污染的发展趋势预测【CUMCM 2005A】,题中给出了“19952004年长江流域水质报告”中的主要统计数据和关于地表水环境质量标准的国标(GB3838-2002)中4个主要项目标准限值(见附录1),其中I、II、III类为可饮用水.假如不采取更为有效的治理措施,根据过去10年的主要统计数据(见附录2),对长江未来水质污染的发展趋势做出预测分析,比如研究未来10年的情况.,2 长江水质污染的发展趋势预测【CUMCM 2005A】,一、问题分析,为了分析长江水质的发展变化情况,对未来10年全流域、支流、干流中三类水所占的比例做出预测.考虑到若仅用10年水文年的观测数据来预测后10年的数据,显然可利用的数据量太少,所以我们将充分利用枯水期、丰水期和水文年的数据.由于建立时间序列模型需要相等的时间间隔,所以我们将一年分为三段,1-4月、5-8月、9-12月.对于每一年,1-4月的平均数据可直接取为枯水期的数据,5-8月的平均数据可直接取为丰水期的数据,而9-12月的数据可用【(水文年*12-枯水期*4-丰水期*4)/4=水文年*3-枯水期-丰水期】来估计(具体数据见附录3).我们分别对全流域、干流、支流来建立时间序列模型,并将水质分为饮用水(I、II、III类)、污水(IV、V类)和劣V类水三类,注意到饮用水的比例可由其它两类水的比例推算出来.,2 长江水质污染的发展趋势预测【CUMCM 2005A】,二、模型假设,(2)假设枯水期、丰水期和水文年中,每个月各类水质的百分比不变.,(1)问题中所给出的数据能客观反映现实情况;,2 长江水质污染的发展趋势预测【CUMCM 2005A】,三、模型建立,对于各类水,根据它在各个时期所占的比例,通过作图容易观察发现,时间序列是非平稳的,而通过适当差分则会显示出平稳序列的性质,所以我们将建立自回归移动平均模型ARIMA(,).,在实际建模中,考虑到一期的数据应该与前期的数据有关,所以对差分后的平稳序列我们建立ARMA模型.,在这里,我们不考虑随机干扰项,即,,因此建立AR模型,仅以预测干流中劣类水所占比例的 ARIMA 模型为例,详细叙述一下 ARIMA 建模过程。,2 长江水质污染的发展趋势预测【CUMCM 2005A】,1、数据筛选与处理,根据需要,我们将数据筛选并处理得到干流中劣类水所占比例的时间序列:,=0,4,-4,0,1.5,-1.5,0,0,0,0,0,0,0,0,0,0,0,0,6.9,5.1,5.4,7.9,4.8,13.4,0,0,0,14.2,9.3,3.5,,2、对序列平稳化,观察序列时序图,发现序列有递增趋势,,因此,我们对序,,得到序列,列进行一阶差分,2 长江水质污染的发展趋势预测【CUMCM 2005A】,0,4,-8,4,1.5,-3,1.5,0,0,0,0,0,0,0,0,0,0,0,6.9,-1.8,0.3,2.5,-3.1,8.6,-13.4,0,0,14.2,-4.9,-5.8,劣类水所占比例时序图,2 长江水质污染的发展趋势预测【CUMCM 2005A】,利用公式,计算此序列的自相关系数,可看出,,明显异于0,说明此序列短期内具有很强的相关性,因此可初步认为经1阶差分后的序列平稳,即,1阶差分后的白噪声检验结果如下:,在检验的显著性水平取为0.05的条件下,P值大于0.05,故该差分后序列可视为白噪声序列,2 长江水质污染的发展趋势预测【CUMCM 2005A】,3、对序列,进行零均值化,对序列,进行零均值化,得到新序列,=-0.11667,3.88333,-8.11667,3.88333,1.38333,-3.11667,1.38333,-0.11667,-0.11667,-0.11667,-0.11667,-0.11667,-0.11667,-0.11667,-0.11667,-0.11667,-0.11667,-0.11667,6.78333,-1.91667,0.18333,2.38333,-3.21667,8.48333,-13.51667,-0.11667,-0.11667,14.08333,-5.01667,-5.91667,2 长江水质污染的发展趋势预测【CUMCM 2005A】,4、对序列,求样本自协方差函数与样本偏自相关函数,利用,(,)得样本自协方差函数估计,利用,,(,)计算样本自相关函数,通过,估计样本偏自相关函数,得到,2 长江水质污染的发展趋势预测【CUMCM 2005A】,当,时,,具有截尾性,用AR(3)模型拟合序列,模型拟合原序列。对残差序列进行检验,得到,,即用ARIMA(3,1,0),拟合检验统计量的概率P值都显著大于显著性检验水平0.05,可认为该残差序列为白噪声序列,系数显著性检验显示三个参数均显著。从而ARIMA(3,1,0)模型对该序列建模成功。,2 长江水质污染的发展趋势预测【CUMCM 2005A】,5、模型参数估计,通过公式,得到与上述参数显著性检验一样的结果:,=-3.16,,=-2.75,,=-3.30,,因此ARIMA(3,1,0)模型即为:,注:利用同样的方法可以建立预测干流中其他两类水、全流域和支流中的三类水所占比例的时间序列分析模型。,2 长江水质污染的发展趋势预测【CUMCM 2005A】,四、模型预测,利用上述模型,预测干流中劣类水未来10年所占比例,得到:,2 长江水质污染的发展趋势预测【CUMCM 2005A】,五、结果分析,在上述模型预测结果中,我们得到的数据为枯水期、丰水期和8-12月的平均值,并不包含水文年的数据,故还需要还原水文年的数据,可以通过公式:水文年=(枯水期+丰水期+8-12月平均值)/3对于三类水所占的比例满足:饮用水+污水+劣V类水=100%.具体预测结果见附录4。从预测结果中可以看出,干流中污水和劣V类水所占的比例只有微小的增长,支流中劣V类水的比例增长速度较快。全流域中劣V类水所占比例增长速度也较快。尽管干流中和全流域中污水所占比例增长并不大,但长期发展下去,全流域和支流中可饮用水的比例将低于50%,而在干流中可饮用水比例也仅仅是略高于50%,若不采取措施防污治污,后果不堪设想!,2 长江水质污染的发展趋势预测【CUMCM 2005A】,六、模型评价与改进,在题目中仅仅给出了10年水文年的观测数据,要用来预测后10年的数据,显然数据量太小。虽然我们经过了数据处理,将数据合理地增加到30个,但是对于利用时间序列分析模型进行短期的预测,数据量仍然显得太少,这样难免导致数据的预测误差较大。但就本题目而言,我们还是得到了较为满意的结果。,事实上,我们还可以对数据进一步进行处理,以增加数据量,提高预测的精度。对上述的原始序列,我们可以在保证序列的平稳性的条件下,进行平滑技术处理:,然后与原始序列融合得到一个新的时间序列,新序列的时期长度将接近于原始序列的两倍,数据个数大大增多,关键是可以降低预测的误差。,2 长江水质污染的发展趋势预测【CUMCM 2005A】,2 长江水质污染的发展趋势预测【CUMCM 2005A】,2 长江水质污染的发展趋势预测【CUMCM 2005A】,附录1:附表:地表水环境质量标准(GB38382002)中4个主要项目标准限值 单位:mg/L,2 长江水质污染的发展趋势预测【CUMCM 2005A】,附录2:1995年-2004年长江流域水质报告【干流劣V类】,2 长江水质污染的发展趋势预测【CUMCM 2005A】,附录3:干流中劣V类水所占比例(1/100),2 长江水质污染的发展趋势预测【CUMCM 2005A】,附录4:20052014年的预测数据(1/100)【干流劣V类水】,