《时间序列分析(建模).ppt》由会员分享,可在线阅读,更多相关《时间序列分析(建模).ppt(170页珍藏版)》请在三一办公上搜索。
1、数学建模讲座-时间序列分析,主讲人:李春萍(孝感学院数学与统计学院),讲座内容提纲,时间序列分析基本概念时间序列因素分解时间序列分析方法确定性分析平稳时间序列分析非平稳时间序列分析,第一节 时间序列分析基本概念,定义 按照时间先后顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。,例1.1 1964年1999年中国纱年产量构成一个时间序列例1.2 1949年1998年北京市每年最高气温构成时间序列,特征统计量,均值 方差自协方差自相关系数,平稳时间序列定义,满足如下条件的序列称为平稳序列,平稳性的检验(图
2、检验方法),时序图检验 根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界、无明显趋势及周期特征自相关图检验 平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数的增加,平稳序列的自相关系数会很快地衰减向零,例1.1 检验1964年1999年中国纱年产量序列的平稳性例1.2 检验1949年1998年北京市每年最高气温序列的平稳性,例1.1时序图,例1.1自相关图,例1.2时序图,例1.2自相关图,纯随机序列的定义,纯随机序列也称为白噪声序列,它满足如下两条性质,标准正态白噪声序列时序图,白噪声序列的性质,纯随
3、机性 各序列值之间没有任何相关关系,即为“没有记忆”的序列 方差齐性 根据马尔可夫定理,只有方差齐性假定成立时,用最小二乘法得到的未知参数估计值才是准确的、有效的,纯随机性检验,检验原理假设条件检验统计量 判别原则,Barlett定理,如果一个时间序列是纯随机的,得到一个观察期数为 的观察序列,那么该序列的延迟非零期的样本自相关系数将近似服从均值为零,方差为序列观察期数倒数的正态分布,假设条件,原假设:延迟期数小于或等于 期的序列值之间相互独立备择假设:延迟期数小于或等于 期的序列值之间有相关性,检验统计量,Q统计量 LB统计量,判别原则,拒绝原假设当检验统计量大于 分位点,或该统计量的P值小
4、于 时,则可以以 的置信水平拒绝原假设,认为该序列为非白噪声序列接受原假设当检验统计量小于 分位点,或该统计量的P值大于 时,则认为在 的置信水平下无法拒绝原假设,即不能显著拒绝序列为纯随机序列的假定,例1.3,对1950年1998年北京市城乡居民定期储蓄所占比例序列的平稳性与纯随机性进行检验,例1.3时序图,例1.3自相关图,例1.3白噪声检验结果,第一节主要内容,时序图与自相关图平稳性检验随机性检验,作业1,表一为某公司在2000-2003年期间每月的销售量(1)绘制时序图和样本自相关系图(2)判断序列的平稳性与纯随机性,第二节 时间序列因素分解,Wold分解定理Cramer分解定理,Wo
5、ld分解定理(1938),对于任何一个离散平稳过程 它都可以分解为两个不相关的平稳序列之和,其中一个为确定性的,另一个为随机性的,不妨记作 其中:为确定性序列,为随机序列,它们需要满足如下条件(1)(2)(3),确定性序列与随机序列的定义,对任意序列 而言,令 关于q期之前的序列值作线性回归 其中 为回归残差序列,。确定性序列,若随机序列,若,Cramer分解定理(1961),任何一个时间序列 都可以分解为两部分的叠加:其中一部分是由多项式决定的确定性趋势成分,另一部分是平稳的零均值误差成分,即,确定性影响,随机性影响,对两个分解定理的理解,Wold分解定理说明任何平稳序列都可以分解为确定性序
6、列和随机序列之和。它是现代时间序列分析理论的灵魂,是构造ARMA模型拟合平稳序列的理论基础。Cramer 分解定理是Wold分解定理的理论推广,它说明任何一个序列的波动都可以视为同时受到了确定性影响和随机性影响的综合作用。平稳序列要求这两方面的影响都是稳定的,而非平稳序列产生的机理就在于它所受到的这两方面的影响至少有一方面是不稳定的。,因素分解,传统的因素分解长期趋势。循环波动季节性变化因素随机波动,因素分解,长期趋势是指由于某种根本性原因的影响,在一段较长的时间内,使序列呈现逐渐增加或减少的变化。循环波动是指序列以若干年为周期,波浪起伏形态的变动。这种变动的周期长度和变动幅度在每个周期都不一
7、样。,因素分解,季节性变化因素是指由于自然条件,社会条件的影响,客观现象在一年内随着季节的变化而产生的周期性变化,这种变化是年复一年重复出现随机波动(不规则变动)因素是指一种无规则的变化。它是由影响时间序列短期的,不可预见的和不重复出现的因素引起的。,现代的因素分解,长期趋势波动包括长期趋势和无固定周期的循环波动。季节性变化包括所有具有稳定周期的循环波动。随机波动其他因素的综合影响。,确定性时序分析的目的,克服其它因素的影响,单纯测度出某一个确定性因素对序列的影响推断出各种确定性因素彼此之间的相互作用关系及它们对序列的综合影响,各因素之间关系的常用模型,若以 分别表示时间序列的长期趋势波动、季
8、节性变动、不规则变动则实际观测值与它们之间的关系常用模型有 加法模型乘法模型混合模型,加法模型与乘法模型不同点,加法模型是假设季节变动和循环变动与趋势变动无关即季节变动并不随着时间的推移而增大或减小。而乘法模型是假设季节变动和循环变动与趋势变动有关,即季节变动随着时间的推移而增大或减小。,趋势分析,在实际应用中,常常是根据时间序列寻找其长期趋势及季节变动然后建立适当的预测模型,再通过模型分析,对现象的未来作出预测。这一节将介绍如何依据时间序列确定其长期趋势、如何得到长期趋势棋型、如何依据模型对现象的未来作出中、长期预测以及如何评价预测的给果。关于带有明显季节性变动的时间序列的预例方法将在下一节
9、介绍。,趋势分析目的有些时间序列具有非常显著的趋势,我们分析的目的就是要找到序列中的这种趋势,并利用这种趋势对序列的发展作出合理的预测 常用方法趋势拟合法平滑法,趋势拟合法,趋势拟合法就是把时间作为自变量,相应的序列观察值作为因变量,建立序列值随时间变化的回归模型的方法 趋势拟合法常用的模型线性趋势模型可线性化的曲线趋势拟模型不可线性化的曲线趋势拟模型,(一)线性趋势模型,使用场合长期趋势呈现出线形特征模型结构式中 就是消除随机波动的影响之后该序列的长期趋势。,例2.1拟合澳大利亚政府19811990年每季度的消费支出序列,(二)可线性化的曲线趋势拟模型,可线性化的曲线趋势模型是指时间序列随着
10、时间的推移呈现曲线变动趋势,但在估计这些趋势方程时,可以把它们转化成线性关系利用估计线性趋势模型的方法估计其参数。最常用的可线性化的曲线趋势模型有二次曲线模型指数曲线模型对数曲线模型,二次曲线模型,二次曲线趋势模型:二次曲线趋势模型的线性形式:其中:,例2.2:对上海证券交易所每月末上证指数序列进行模型拟合,指数曲线模型,指数曲线趋势模型:指数曲线趋势模型的线性形式:其中,对数曲线模型,对数曲线趋势模型:对数曲线趋势模型的线性形式:其中,(三)不可线性化的曲线趋势模型,常用的不可线性化的曲线趋势模型有:修正指数模型龚铂兹趋势模型皮尔曲线模型,龚铂兹趋势模型与皮尔曲线模型,龚铂兹曲线与皮尔曲线的
11、图形很相似,它们都属于生长曲线回归预测方法。一般来说,一个产品或一项枝术从投放市场会经历萌芽、畅销、饱和及衰退四个阶段。龚铂兹曲线与皮尔曲线 特别适用于刻画产品的生命周期,所以两模型特别适用于对处在成熟期的商品进行预测以掌握产品的市场需求和销售的饱和量、在实际中很难通过趋势图来判断用以上两个模型中的哪一个。一般情况下,可以把两个模型都估计出来,然后选择预测误差最小的模型。,趋势模型判断的方法,以上列出了一些基本的长期趋势型接下来的问题是我们在实际应用中如何根据实际观测值选择合适的趋势模型。特别当时间序列呈现出曲线趋势时很难做出决断因为曲线趋势模型的种类很多。下面就介绍两种判断模型类型的方法:图
12、形识别法与差分法,(一)图形识别法,图形识别法是通过时间序列的散点图或趋势图来判断趋势。散点图或趋势图是以时间t为横轴,以时问序列中的实际观测值为纵轴的图形根掴此图形观测其变化曲线与各类函数曲线模型的图形进行比较,以便选择较为合适的趋势模型。这种方法非常简单、直观。但由干许多曲线模型的图形较相似此时通过这种直观的图形识别法就不容易判断、当然,我们可以选几种曲线模型,然后通过计算每一仲的精度指标来确定。,(二)差分法,根据序列的差分结果来选择模型:(一)一阶差分相等,选择线性模型(二)二阶差分为常数,选择二次曲线模型(三)一阶差比率为常数,选择指数曲线模型(四)一阶差分的一阶差比率为常数选择修正
13、指数曲线模型(五)对数一阶差分的一阶比率为常数,选择龚铂兹曲线模型,趋势拟合步骤,第一步 确定趋势拟合模型的类型.第二步 参数估计.第三步 模型检验与参数检验.第四步 模型优化.第五步 利用模型预测,第二步 参数估计,线性模型利用最小二乘估计可线性化模型首先转换为线性模型再利用最小二乘估计.不可线性化模型利用三和值法或非线性最小二乘法,第三步 模型检验,利用方差分析表检验包括:模型的显著性检验(F检验),偏回归系数的显著性检验(t检验),第四步 模型优化,优化准则:选择估计精度最高的,(使SSE 和 MAPE达到最小的)SSR是回归平方和SSE是误差平方和MAPE是,第五步 利用模型预测,例2
14、.3 线性趋势模型,某商场需要预测2001年512月2002年112月的29寸彩电的销售量。所选预测方法为趋势预测法。,具体步骤如下:(一)确定趋势模型的类型 1.图形识别,2计算一阶差分,结合此时间序列的趋势图可以选用线性趋势模型作为预测模型:用最小二乘法估计参数,得到线性趋势方程:,案例2.4 可线性化趋势模型,某电器生产厂家希望预测20002003年的生产量现手头上有该电器生产厂家 1991 1999年的年生产量的数据,如下表4.11,(一)确定预测模型1.画电器生产厂家历年生产量的趋势图详见图4.22,根据曲线图形的形状,可以初步确定为二次曲线趋势和修正指数曲线趋势模型两种、但到底取哪
15、一种,通过图形无法作出准确的判断,此时需进一步计算其差分来确定其曲线趋势线的函数表达形式。2 计算差分,差分结果见下表,综合趋势图及数据的差分特点,选用二次曲线趋势模型作为预测模型比较好。即设预测模型的数学表达式为;(二)利用最小二乘法得到参数的估计值以及预测模型:,案例2.5 不可线性化的趋势模型,某公司某产品 19812001年的销售量资料见下表,请根据历史数据建立合适的模型,并对20022005年该公司该产品的销售量进行预侧。,(一)确定摸型画该公司某产品的销售量的趋势图,趋势图见下图,从图形上可以看出,该公司某产品的销售量大致呈一条“S”型曲线变动。有三个模型适合刻画这条曲线,它们是修
16、正指数曲线模型、龚琅兹曲线模型及皮儿曲线模型、到底用哪一个曲线模型进行预测,最好把三个模型都估计出来,然后选择估计精度最高的模型。,(二)参数估计,(1)利用三和值法估计得到初值(2)利用非线性最小二乘估计法,通过迭代得到估计值修正指数模型为,(三)模型优化,作业2 根据下表数据,利用趋势拟合法对该商场2001年12月份微波炉的销售量进行预测。,作业3某商场销售部门经理希望对2001年5一12月份的29寸彩电的销售量作出预测现收集了该商场前28个月度的29寸彩电的销售量资料,详见下表.,案例,作业4 为了预测中国2002年的餐饮业的零售总额现收集了中同1978一2001年的餐饮业的零售总额数据
17、,见下表,4.3 季节效应分析,例2.5 北京某一著名烤鸭店位于商业区,销售额一直不错。为了能把这种势头保持下去,在每一个年末都必须确定下一年的经营目标,为此,该店经理希望能提前预测下一年每月的销售额。该烤鸭店 19992002年的销售额(单位;百万元)见下表.,从时序图可以明显地看出时序特点为:无趋势但呈明显的季节性变动。,例题 2.6 根据资料预测奥克马机床工业公2002年 14季度的销售额。该公司 19952001年的季度销售额的趋势图见如下.,例2.7 请根据熊猫公司在1992 2001年的季度利润额预测该公司在 2002年14季度的利润额.数据如下,以上时间序列的共同特点是:存在季节
18、性变动。季节性变动是指由于自然条件、社会条件的影响,客观现象在一年内随着季节的变动而产生的周期性变动。这种变动是年复一年重复出现的。如水果的出口额、冰淇淋的销售量等。当然要观察某一现象的时间序列是否存在季节性变动,首先必需具有记录此现象变动的以月度或以季度为单位的时序数据。如何对具有季节性变动的现象作出预测,经常采用如下几种模型:(1)无趋势的季节性乘法预测模型;(2)无趋势的季节性加法预测模型;(3)带趋势的季节性加法预测模型;(4)带趋势的季节性乘法预测模型;,第三节 平稳时间序列分析-ARMA,方法性工具 ARMA模型 平稳序列建模序列预测,差分运算,一阶差分 阶差分 步差分,延迟算子,
19、延迟算子类似于一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻 记B为延迟算子,有,延迟算子的性质,,其中,2.2 ARMA模型的性质,AR模型(Auto Regression Model)MA模型(Moving Average Model)ARMA模型(Auto Regression Moving Average model),AR模型的定义,具有如下结构的模型称为 阶自回归模型,简记为特别当 时,称为中心化 模型,MA模型的定义,具有如下结构的模型称为 阶自回归模型,简记为特别当 时,称为中心化 模型,ARMA模型的定义,具有如下结构的模型称为自回归移
20、动平均模型,简记为特别当 时,称为中心化 模型,ARMA模型相关性特征,平稳序列建模步骤,计算样本相关系数,观察特点模型识别参数估计模型检验模型优化序列预测,建模步骤,平稳非白噪声序列,计算样本相关系数,模型识别,参数估计,模型检验,模型优化,序列预测,Y,N,计算样本相关系数,样本自相关系数,样本偏自相关系数,模型识别,基本原则,模型定阶的困难,因为由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的 或 仍会呈现出小值振荡的情况由于平稳时间序列通常都具有短期相关性,随着延迟阶数,与 都会衰减至零值附近作小值波动?当 或 在延迟若干阶之后衰减为小值波动时,什么情况下该看作
21、为相关系数截尾,什么情况下该看作为相关系数在延迟若干阶之后正常衰减到零值附近作拖尾波动呢?,模型定阶经验方法,95的置信区间模型定阶的经验方法如果样本(偏)自相关系数在最初的d阶明显大于两倍标准差范围,而后几乎95的自相关系数都落在2倍标准差的范围以内,而且通常由非零自相关系数衰减为小值波动的过程非常突然。这时,通常视为(偏)自相关系数截尾。截尾阶数为d。,例1.3续,选择合适的模型ARMA拟合1950年1998年北京市城乡居民定期储蓄比例序列。,序列自相关图,序列偏自相关图,拟合模型识别,自相关图显示延迟3阶之后,自相关系数全部衰减到2倍标准差范围内波动,这表明序列明显地短期相关。但序列由显
22、著非零的相关系数衰减为小值波动的过程相当连续,相当缓慢,该自相关系数可视为不截尾 偏自相关图显示除了延迟1阶的偏自相关系数显著大于2倍标准差之外,其它的偏自相关系数都在2倍标准差范围内作小值随机波动,而且由非零相关系数衰减为小值波动的过程非常突然,所以该偏自相关系数可视为一阶截尾 所以可以考虑拟合模型为AR(1),例3.1,美国科罗拉多州某一加油站连续57天的OVERSHORT序列,序列自相关图,序列偏自相关图,拟合模型识别,自相关图显示除了延迟1阶的自相关系数在2倍标准差范围之外,其它阶数的自相关系数都在2倍标准差范围内波动。根据这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。同时
23、,可以认为该序列自相关系数1阶截尾偏自相关系数显示出典型非截尾的性质。综合该序列自相关系数和偏自相关系数的性质,为拟合模型定阶为MA(1),例3.2,1880-1985全球气表平均温度改变值差分序列,序列自相关图,序列偏自相关图,拟合模型识别,自相关系数显示出不截尾的性质偏自相关系数也显示出不截尾的性质综合该序列自相关系数和偏自相关系数的性质,可以尝试使用ARMA(1,1)模型拟合该序列,参数估计,待估参数 个未知参数常用估计方法矩估计极大似然估计最小二乘估计,例1.3续,确定1950年1998年北京市城乡居民定期储蓄比例序列拟合模型的口径 拟合模型:AR(1)估计方法:极大似然估计模型口径,
24、例3.1续,确定美国科罗拉多州某一加油站连续57天的OVERSHORTS序列拟合模型的口径 拟合模型:MA(1)估计方法:条件最小二乘估计模型口径,例3.2续,确定1880-1985全球气表平均温度改变值差分序列拟合模型的口径 拟合模型:ARMA(1,1)估计方法:条件最小二乘估计模型口径,模型检验,模型的显著性检验整个模型对信息的提取是否充分参数的显著性检验模型结构是否最简,模型的显著性检验,目的检验模型的有效性(对信息的提取是否充分)检验对象残差序列判定原则一个好的拟合模型应该能够提取观察值序列中几乎所有的样本相关信息,即残差序列应该为白噪声序列 反之,如果残差序列为非白噪声序列,那就意味
25、着残差序列中还残留着相关信息未被提取,这就说明拟合模型不够有效,假设条件,原假设:残差序列为白噪声序列备择假设:残差序列为非白噪声序列,检验统计量,LB统计量,例1.3续,检验1950年1998年北京市城乡居民定期储蓄比例序列拟合模型的显著性 残差白噪声序列检验结果,参数显著性检验,目的检验每一个未知参数是否显著非零。删除不显著参数使模型结构最精简 假设条件检验统计量,例1.3续,检验1950年1998年北京市城乡居民定期储蓄比例序列极大似然估计模型的参数是否显著 参数检验结果,例3.1续:对OVERSHORTS序列的拟合模型进行检验,残差白噪声检验参数显著性检验,例3.2续:对1880-19
26、85全球气表平均温度改变值差分序列拟合模型进行检验,残差白噪声检验参数显著性检验,模型优化,问题提出当一个拟合模型通过了检验,说明在一定的置信水平下,该模型能有效地拟合观察值序列的波动,但这种有效模型并不是唯一的。优化的目的选择相对最优模型,例3.3:拟合某一化学序列,序列自相关图,序列偏自相关图,拟合模型一,根据自相关系数2阶截尾,拟合MA(2)模型参数估计模型检验模型显著有效 三参数均显著,拟合模型二,根据偏自相关系数1阶截尾,拟合MA(1)模型参数估计模型检验模型显著有效 两参数均显著,问题,同一个序列可以构造两个拟合模型,两个模型都显著有效,那么到底该选择哪个模型用于统计推断呢?解决办
27、法确定适当的比较准则,构造适当的统计量,确定相对最优,AIC准则,最小信息量准则(An Information Criterion)指导思想似然函数值越大越好 未知参数的个数越少越好 AIC统计量,SBC准则,AIC准则的缺陷在样本容量趋于无穷大时,由AIC准则选择的模型不收敛于真实模型,它通常比真实模型所含的未知参数个数要多 SBC统计量,例3.3续,用AIC准则和SBC准则评判例3.3中两个拟合模型的相对优劣 结果AR(1)优于MA(2),序列预测,线性预测函数预测方差最小原则,例1.3:北京市城乡居民定期储蓄比例序列拟合与预测图,作业3,现有201个连续的生产记录,(1)判断序列的平稳性
28、与纯随机性(2)如果是平稳且非白噪声,选择合适的模型拟合序列(3)预测未来5期的值以及该序列未来5期95%的置信区间。(4)绘制出原序列图与预测图,第四节 非平稳时间序列分析,差分运算ARIMA模型Auto-Regressive模型,差分运算的实质,差分方法是一种非常简便、有效的确定性信息提取方法Cramer分解定理在理论上保证了适当阶数的差分一定可以充分提取确定性信息差分运算的实质是使用自回归的方式提取确定性信息,差分方式的选择,序列蕴含着显著的线性趋势,一阶差分就可以实现趋势平稳 序列蕴含着曲线趋势,通常低阶(二阶或三阶)差分就可以提取出曲线趋势的影响 对于蕴含着固定周期的序列进行步长为周
29、期长度的差分运算,通常可以较好地提取周期信息,例4.1,【例1.1】1964年1999年中国纱年产量序列蕴含着一个近似线性的递增趋势。对该序列进行一阶差分运算 考察差分运算对该序列线性趋势信息的提取作用,差分前后时序图,原序列时序图,差分后序列时序图,例4.2,尝试提取1950年1999年北京市民用车辆拥有量序列的确定性信息,差分后序列时序图,一阶差分,二阶差分,例4.3,差分运算提取1962年1月1975年12月平均每头奶牛的月产奶量序列中的确定性信息,差分后序列时序图,一阶差分,1阶12步差分,过差分,足够多次的差分运算可以充分地提取原序列中的非平稳确定性信息但过度的差分会造成有用信息的浪
30、费,例4.4,假设序列如下 考察一阶差分后序列和二阶差分序列 的平稳性与方差,比较,一阶差分平稳方差小,二阶差分(过差分)平稳方差大,ARIMA模型结构,使用场合差分平稳序列拟合模型结构,ARIMA 模型族,d=0ARIMA(p,d,q)=ARMA(p,q)P=0ARIMA(P,d,q)=IMA(d,q)q=0ARIMA(P,d,q)=ARI(p,d)d=1,P=q=0ARIMA(P,d,q)=random walk model,ARIMA模型建模步骤,获得观察值序列,平稳性检验,差分运算,Y,N,白噪声检验,Y,分析结束,N,拟合ARMA模型,例4.6,对1952年1988年中国农业实际国民
31、收入指数序列建模,一阶差分序列时序图,一阶差分序列自相关图,一阶差分后序列白噪声检验,拟合ARMA模型,偏自相关图,建模,定阶ARIMA(0,1,1)参数估计模型检验模型显著参数显著,ARIMA模型预测,原则最小均方误差预测原理 Green函数递推公式,例4.6续:对中国农业实际国民收入指数序列做为期10年的预测,疏系数模型,ARIMA(p,d,q)模型是指d阶差分后自相关最高阶数为p,移动平均最高阶数为q的模型,通常它包含p+q个独立的未知系数:如果该模型中有部分自相关系数 或部分移动平滑系数 为零,即原模型中有部分系数省缺了,那么该模型称为疏系数模型。,疏系数模型类型,如果只是自相关部分有省缺系数,那么该疏系数模型可以简记为 为非零自相关系数的阶数如果只是移动平滑部分有省缺系数,那么该疏系数模型可以简记为 为非零移动平均系数的阶数如果自相关和移动平滑部分都有省缺,可以简记为,例4.7,对1917年1975年美国23岁妇女每万人生育率序列建模,一阶差分,自相关图,偏自相关图,建模,定阶ARIMA(1,4),1,0)参数估计模型检验模型显著参数显著,习题4,已知某城市连续14年的月度某产品的消费率(1)选择合适的模型拟合该序列的发展(2)利用拟合模型预测下一年度该城市月度产品的消费率。,
链接地址:https://www.31ppt.com/p-2950222.html