数学建模时间序列分析课件.ppt
时间序列分析,一.时间序列分析简介二.时间序列的趋势分析三. ARMA时间序列,一.时间序列分析简介,引言时间序列的定义时间序列分析方法简介 时间序列分析软件,1.1 引言,最早的时间序列分析可以追溯到7000年前的古埃及。古埃及人把尼罗河涨落的情况逐天记录下来,就构成所谓的时间序列。对这个时间序列长期的观察使他们发现尼罗河的涨落非常有规律。由于掌握了尼罗河泛滥的规律,使得古埃及的农业迅速发展,从而创建了埃及灿烂的史前文明。 按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。,1.2 时间序列的定义,随机序列:按时间顺序排列的一组随机变量观察值序列:随机序列的 个有序观察值,称之为序列长度为 的观察值序列随机序列和观察值序列的关系观察值序列是随机序列的一个实现我们研究的目的是想揭示随机时序的性质实现的手段都是通过观察值序列的性质进行推断,1.3 时间序列分析方法简介,描述性时序分析 统计时序分析,1.3.1 描述性时序分析,通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律,这种分析方法就称为描述性时序分析 描述性时序分析方法具有操作简单、直观有效的特点,它通常是人们进行统计时序分析的第一步。,例如,德国业余天文学家施瓦尔发现太阳黑子的活动具有11年左右的周期,1.3.2 统计时序分析,频域分析方法时域分析方法,时域分析方法,原理事件的发展通常都具有一定的惯性,这种惯性用统计的语言来描述就是序列值之间存在着一定的相关关系,这种相关关系通常具有某种统计规律。目的寻找出序列值之间相关关系的统计规律,并拟合出适当的数学模型来描述这种规律,进而利用这个拟合模型预测序列未来的走势特点理论基础扎实,操作步骤规范,分析结果易于解释,是时间序列分析的主流方法,时域分析方法的分析步骤,考察观察值序列的特征根据序列的特征选择适当的拟合模型根据序列的观察数据确定模型的口径检验模型,优化模型利用拟合好的模型来推断序列其它的统计性质或预测序列将来的发展,1.4 时间序列分析软件,常用软件S-plus,Matlab,Gauss,TSP,Eviews 和SAS 推荐软件SAS在SAS系统中有一个专门进行计量经济与时间序列分析的模块:SAS/ETS。SAS/ETS编程语言简洁,输出功能强大,分析结果精确,是进行时间序列分析与预测的理想的软件由于SAS系统具有全球一流的数据仓库功能,因此在进行海量数据的时间序列分析时它具有其它统计软件无可比拟的优势,二.时间序列的趋势分析,目的有些时间序列具有非常显著的趋势,我们分析的目的就是要找到序列中的这种趋势,并利用这种趋势对序列的发展作出合理的预测 常用方法趋势拟合法平滑法,2.1 趋势拟合法,趋势拟合法就是把时间作为自变量,相应的序列观察值作为因变量,建立序列值随时间变化的回归模型的方法 分类线性拟合非线性拟合,2.1.1 线性拟合,使用场合长期趋势呈现出线形特征模型结构,例2.1 拟合澳大利亚政府19811990年每季度的消费支出序列,线性拟合,模型参数估计方法最小二乘估计参数估计值,拟合效果图,2.1.2 非线性拟合,使用场合长期趋势呈现出非线形特征 参数估计指导思想能转换成线性模型的都转换成线性模型,用线性最小二乘法进行参数估计实在不能转换成线性的,就用迭代法进行参数估计,常用非线性模型,例2.2 对上海证券交易所每月末上证指数序列进行模型拟合,非线性拟合,模型变换参数估计方法线性最小二乘估计拟合模型口径,拟合效果图,2.2 平滑法,平滑法是进行趋势分析和预测时常用的一种方法。它是利用修匀技术,削弱短期随机波动对序列的影响,使序列平滑化,从而显示出长期趋势变化的规律 常用平滑方法移动平均法指数平滑法,2.2.1 移动平均法,基本思想假定在一个比较短的时间间隔里,序列值之间的差异主要是由随机波动造成的。根据这种假定,我们可以用一定时间间隔内的平均值作为某一期的估计值 分类n期中心移动平均n期移动平均,n期中心移动平均,5期中心移动平均,n期移动平均,5期移动平均,移动平均期数确定原则,事件的发展有无周期性以周期长度作为移动平均的间隔长度 ,以消除周期效应的影响对趋势平滑的要求移动平均的期数越多,拟合趋势越平滑对趋势反映近期变化敏感程度的要求 移动平均的期数越少,拟合趋势越敏感,例2.3:病事假人数的移动平均,例2.4,移动平均作预测,预测公式: 特别的当,例2.3,某一观察值序列最后4期的观察值为:5,5.5,5.8,6.2(1)使用4期移动平均法预测 。(2)求在二期预测值 中 前面的系数等于多少?,(1)(2) 在二期预测值中 前面的系数等于,例2.4 某产品的销售额如下: 试用移动平均法(N=4)对第12个月的销售额进行预测。 解:N4,故预测值为 同时利用n期移动平均公式可得到412月的平滑值序列为【312.5 390 392.5 405 402.5 405 412.5 415 418.75】,2008-8-2,Anna,37,加权移动平均作预测,在计算滑动平均值时,若对各序列值不作同等看待,而是对每个序列值乘上一个加权因子,然后再作平均,则称此为加权滑动平均,称下述预测值 为加权滑动平均拟合值, 为加权因子,满足,例如,当 时, 有 滑动平均值与所选的时段长短有关,时段长时的滑动平均值比时段短时的滑动平均值的反应速度慢,这是对于干扰的敏感性降低的结果。造成这种现象的原因,主要是参数滑动平均的数据一律平等对待,不分先后。实际上最新数据更能反映销售的趋势。因此,要特别强调新数据的影响,突出新数据的作用;为达此目的,可采用加权滑动平均法。,加权数的选择,涉及预测者的预测艺术水平。一般的规律是对新数据加的权大,老数据加的权小,至于大到什么程度和小到什么程度,完全靠预测者对序列做全面的了解和分析。,二次移动平均预测法,以上已见到对有线性增长趋势的序列应用移动平均法去作预测比用全体历史数据的平均法好。但是,必须指出,对于有线性增长(或减少)趋势的序列,运用滑动平均法去作预测,也不是最佳的预测,其预测值会明显的滞后于观察值的现象。 例如,线性趋势方程是 这里 是常数。当上式增加一个单位时间时, 就有一个增量为 它不会随时间 的改变而改变。,因此,当时间从 增至 时,序列值是 但是,采用滑动平均法计算的序列的拟合值是 比 滞后了 为了消除上述滞后现象,对上述的滑动平均法应加以改进,改进的办法是对已取得的滑动平均值,再进行一次滑动平均,并称这种滑动平均为二次滑动平均。 其公式为,假设 是有线性增长趋势的序列, 为序列 的移动平均预测值,移动时段长为 。 假定已观察到时间 以前的序列值 ,要预测未来时刻 的序列值。由于序列有线性增长趋势,假定预测方程为 这里 依赖于 以前的 的观察值。 下面介绍运用二次移动平均法去确定 的方法。设序列的二次移动平均值为 。 二次移动平均是在一次滑动平均基础上求出的因此又比第一次移动平均产生了滞后,滞后值,于是有由此得及由于 是实际观察值,可作为预测的基础,故令由于 故由,得从而这样也就给出了预测公式中的参数 的估计值,在介绍了的滑动平均和加权滑动平均预测法中均受到一定的限制,那就是必须使用 n 个历史的观察值。这种方法受到两方面的约束,一是必须有 n 个历史数据,二是预测值仅包含了这 n 个数据的信息,而不能反映更多的历史数据的信息。人们希望找出一种更理想的方法,使预测值能较多地反映最新观察值的信息,也能反映大量的历史资料的信息,但计算量要尽可能的少,需要存储的历史数据也不多。这种方法就是指数平滑预测法。指数平滑法与滑动平均法不同,指数平滑使用已知的全部数据来决定一特别时间序列的平滑值。,2.2.2 指数平滑法,指数平滑方法的基本思想在实际生活中,我们会发现对大多数随机事件而言,一般都是近期的结果对现在的影响会大些,远期的结果对现在的影响会小些。为了更好地反映这种影响作用,我们将考虑到时间间隔对事件发展的影响,各期权重随时间间隔的增大而呈指数衰减。这就是指数平滑法的基本思想 分类简单指数平滑Holt两参数指数平滑,简单指数平滑,基本公式等价公式,初始值的确定平滑系数的确定一般对于变化缓慢的序列, 常取较小的值对于变化迅速的序列, 常取较大的值经验表明 的值介于0.05至0.3之间,修匀效果比较好。,简单指数平滑预测,一期预测值二期预测值 期预测值,例2.5,对某一观察值序列 使用指数平滑法。 已知 , ,平滑系数 (1) 求二期预测值 。 (2)求在二期预测值 中 前面的系数等于多少? 解:(1) (2) 所以使用简单指数平滑法二期预测值中 前面的系数就等于平滑系数,例2.6:某小商店用指数平滑滑动模型预报下个月吸引新顾客人数。取=0.3,则有如下的预报:,二次指数平滑 在指数平滑预测公式中,不论是一步预测还是多步预测都是同一公式,这对稳定序列是可行的。但是,用在上升或下降趋势明显的需求序列上就不够理想。二次指数平滑就是为弥补这种缺陷的一种方法,但它不是直接用于序列预测的方法,而是为计算有线性趋势的线性预测方程的系数服务的。 所谓二次指数的平滑法,是对一次指数平滑后的序列数据再作一次指数的平滑,其平滑公式是 其中 , 为二次指数平滑值, 为指数平滑常数。 二次指数平滑公式的运用,同一次指数平滑公式一样,也涉及初始值的选取问题。但随着时间的推移,初始值的影响是很小的,因此可选取 。,由于时间序列具有线性趋势,故设线性预测方程为 由指数平滑方法的基本定理可以证明: 由此得到预测公式,Holt两参数指数平滑,使用场合适用于对含有线性趋势的序列进行修匀 构造思想假定序列有一个比较固定的线性趋势 两参数修匀,平滑序列的初始值趋势序列的初始值,Holt两参数指数平滑预测,期预测值,例2.7,对北京市19782000年报纸发行量序列进行Holt两参数指数平滑。指定,平滑效果图,三.ARMA时间序列,ARMA模型的全称是自回归移动平均模型,它是目前最常用的拟合平稳序列的模型。它又可细分为AR模型,MA模型和ARMA模型三大类。,平稳时间序列,平稳时间序列可分为严平稳时间序列和宽平稳时间序列。 如果一个时间序列的概率分布与时间t 无关,则称该序列为严格 的(狭义的)平稳时间序列。 如果序列的一阶、二阶矩存在,而且对任意时刻 t 满足: (1) 均值为常数; (2)协方差 为时间间隔的函数 ; 则该序列称为宽平稳时间序列(广义平稳时间序列)。,我们以后所研究的时间序列主要是宽平稳时间序列。平稳序列反应在图像上就是所有样本点都围绕某一水平直线上下随机波动。 一类特殊的平稳序列白噪声序列 它是指一列相互之间无关,其均值都为0,方差都 为 的随机变量序列。,在ARMA模型中需要用到的一些统计量的估计。 延迟K的自协方差函数的估计值 总体方差的估计值 延迟k自相关系数的估计值 当延迟阶数远远小于样本容量时,偏自相关系数,平稳序列的检验自相关图检验 平稳序列通常具有短期相关性,该性质用自相关系数来描述就是随着延迟期数k的增加,平稳序列的自相关系数 会很快衰减向零。反之非平稳序列的自相关系数 衰减向零的速度通常比较慢,这就是我们利用自相关图进行平稳性判断的标准。,例 检验1949年1998年北京市每年最高气温序列的平稳性,AR模型,具有如下结构的模型称为 阶自回归模型简记为特别当 时,称为中心化 模型。通常会缺省上式中的限制条件而把 简记为,MA模型,具有如下结构的模型称为 阶移动平均模型,简记为 特别当 时,称为中心化 模型。 通常会缺省上式中的限制条件而把 简记为,ARMA模型,具有如下结构的模型称为自回归移动平均模型,简记为 特别当 时,称为中心化 模型。 通常会缺省上式中的限制条件而把 简记为,ARMA模型相关性特征拖尾: 系数始终有非零取值,不会在k大于某个常数之后就恒等于零(截尾),这个性质就是拖尾性。,平稳序列建模步骤,1.计算样本相关系数,样本自相关系数,样本偏自相关系数,2.模型识别,基本原则,模型定阶的困难,因为由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的 或 仍会呈现出小值振荡的情况 由于平稳时间序列通常都具有短期相关性,随着延迟阶数 , 与 都会衰减至零值附近作小值波动。 当 或 在延迟若干阶之后衰减为小值波动时,什么情况下该看作为相关系数截尾,什么情况下该看作为相关系数在延迟若干阶之后正常衰减到零值附近作拖尾波动呢?,模型定阶的经验方法 如果样本(偏)自相关系数在最初的d阶明显大于两倍标准差范围,而后几乎95的自相关系数都落在2倍标准差的范围以内,而且通常由非零自相关系数衰减为小值波动的过程非常突然。这时,通常视为(偏)自相关系数截尾,截尾阶数为d。,例 选择合适的模型ARMA拟合1950年1998年北京市城乡居民定期储蓄比例序列。,序列自相关图,序列偏自相关图,拟合模型识别,1.自相关图显示延迟3阶之后,自相关系数全部衰减到2倍标准差范围内波动,这表明序列明显地短期相关。但序列由显著非零的相关系数衰减为小值波动的过程相当连续,相当缓慢,该自相关系数可视为不截尾 2.偏自相关图显示除了延迟1阶的偏自相关系数显著大于2倍标准差之外,其它的偏自相关系数都在2倍标准差范围内作小值随机波动,而且由非零相关系数衰减为小值波动的过程非常突然,所以该偏自相关系数可视为一阶截尾 ,所以可以考虑拟合模型为AR(1)。,例 美国科罗拉多州某一加油站连续57天的OVERSHORT序列,序列自相关图,序列偏自相关图,拟合模型识别,1.自相关图显示除了延迟1阶的自相关系数在2倍标准差范围之外,其它阶数的自相关系数都在2倍标准差范围内波动。根据这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。同时,可以认为该序列自相关系数1阶截尾 2.偏自相关系数显示出典型非截尾的性质。 3.综合该序列自相关系数和偏自相关系数的性质,为拟合模型定阶为MA(1),例 1880-1985全球气表平均温度改变值差分序列,序列自相关图,序列偏自相关图,拟合模型识别,1.自相关系数显示出不截尾的性质 2.偏自相关系数也显示出不截尾的性质 3.综合该序列自相关系数和偏自相关系数的性质,可以尝试使用ARMA(1,1)模型拟合该序列。,3.参数估计,待估参数 个未知参数 常用估计方法矩估计极大似然估计最小二乘估计,矩估计,原理样本自相关系数估计总体自相关系数样本一阶均值估计总体均值,样本方差估计总体方差,例3.10:求AR(2)模型系数的矩估计,AR(2)模型Yule-Walker方程矩估计(Yule-Walker方程的解),例3.11:求MA(1)模型系数的矩估计,MA(1)模型方程矩估计,例3.12:求ARMA(1,1)模型系数的矩估计,ARMA(1,1)模型方程矩估计,对矩估计的评价,优点估计思想简单直观不需要假设总体分布计算量小(低阶模型场合)缺点信息浪费严重只用到了p+q个样本自相关系数信息,其他信息都被忽略估计精度差通常矩估计方法被用作极大似然估计和最小二乘估计迭代计算的初始值,最小二乘估计,原理使残差平方和达到最小的那组参数值即为最小二乘估计值,条件最小二乘估计,实际中最常用的参数估计方法假设条件残差平方和方程解法 迭代法,对最小二乘估计的评价,优点最小二乘估计充分应用了每一个观察值所提供的信息,因而它的估计精度高条件最小二乘估计方法使用率最高缺点需要假定总体分布,例续,确定美国科罗拉多州某一加油站连续57天的OVERSHORTS序列拟合模型的口径 拟合模型:MA(1)估计方法:条件最小二乘估计模型口径,例续,确定1880-1985全球气表平均温度改变值差分序列拟合模型的口径 拟合模型:ARMA(1,1)估计方法:条件最小二乘估计模型口径,4.模型检验,模型的显著性检验整个模型对信息的提取是否充分参数的显著性检验模型结构是否最简,模型的显著性检验,目的检验模型的有效性(对信息的提取是否充分)检验对象残差序列判定原则一个好的拟合模型应该能够提取观察值序列中几乎所有的样本相关信息,即残差序列应该为白噪声序列 反之,如果残差序列为非白噪声序列,那就意味着残差序列中还残留着相关信息未被提取,这就说明拟合模型不够有效,假设条件,原假设:残差序列为白噪声序列备择假设:残差序列为非白噪声序列,检验统计量,LB统计量,例续,检验1950年1998年北京市城乡居民定期储蓄比例序列拟合模型的显著性 残差白噪声序列检验结果,参数显著性检验,目的检验每一个未知参数是否显著非零。删除不显著参数使模型结构最精简 假设条件检验统计量,例续,检验1950年1998年北京市城乡居民定期储蓄比例序列极大似然估计模型的参数是否显著 参数检验结果,例续:对OVERSHORTS序列的拟合模型进行检验,残差白噪声检验参数显著性检验,例3.9续:对1880-1985全球气表平均温度改变值差分序列拟合模型进行检验,残差白噪声检验参数显著性检验,5.模型优化,问题提出当一个拟合模型通过了检验,说明在一定的置信水平下,该模型能有效地拟合观察值序列的波动,但这种有效模型并不是唯一的。优化的目的选择相对最优模型,参考文献,1王燕.应用时间序列分析(第二版).北京,中国人民大学出版社.2邓祖新.SAS系统和数据分析.北京,电子工业出版社.3翟颢瑾,高晶.长江未来水质污染的时间序列分析.沈阳师范大学学报,2006.4吴涛,严辉武.三峡库区水质数据时间序列分析预测研究.武汉大学学报,2006.,