时间序列分析a第一章绪论课件.ppt
应用时间序列分析,第一章 绪 论,本章介绍时间序列分析的基本思想、基本概念以及确定性时间序列分析的基本方法。具体要求:理解时间序列的特征;掌握时间序列 预处理的基本方法;了解时间序列分析的基本思想;熟悉确定性时间序列分析方法;掌握随机时间序列分析中的基本概念的含义。,2,最早的时间序列分析,7000年前,古埃及人把尼罗河涨落的情况逐天记录下来,就构成所谓的时间序列。对这个时间序列长期的观察使他们发现尼罗河的涨落非常有规律。当天狼星第一次和太阳同时升起的那一天之后,再过两百天左右,尼罗河就开始泛滥,泛滥期将持续七、八十天,洪水过后,土地肥沃,随意播种就会有丰厚的收成。由于掌握了尼罗河泛滥的规律,使得古埃及的农业迅速发展,解放出大批的劳动力去从事非农业生产,从而创建了埃及灿烂的史前文明。,1月1日,6月17日,10月,12月,尼罗河泛滥期,“落泪夜,4,时间序列分析不仅可以从数量上揭示某一现象的发展变化规律或从动态的角度刻划某一现象与其他现象之间的内在数量关系及其变化规律性,达到认识客观世界之目的。而且运用时序模型,还可以预测和控制现象的未来行为,修正或重新设计系统以达到利用和改造客观之目的。,5,从数据的形成来看,数据可分成横剖面数据和纵剖面数据两类,或者叫做静态数据和动态数据。横剖面数据是由若干相关现象在某一时点上所处的状态组成的,它反映一定时间、地点等客观条件下诸相关现象之间存在的内在数值联系;纵剖面数据是由某一现象或若干现象在不同时刻上的状态所形成的数据它反映的是现象以及现象之间关系的发展变化规律性。研究横剖面数据结构的统计方法是多元统计分析;研究从剖面数据结构的统计方法是时间序列分析。,6,第一节 时间序列分析的一般问题,一、时间序列的含义,从数学意义上讲,如果对某一过程中的某一个或一组变量,X(t)进行观察,在一系列时刻,为自变量,且,得到的离散有序数集合,称为离散数字时间序列,,即随机过程的一次样本实现。设 X(t:tT)是一个随机过程,,是在时刻,对过程,的观察值,则,称为一次样本实现,也就是一个时间序列。,7,从统计意义上讲,所谓时间序列就是将某一个指标在不同时间上的不同数值,按照时间的先后顺序排列而成的数列。从系统意义上看,时间序列就是某一系统在不同时间(地点、条件等)的响应。时间序列是所研究系统的历史行为的客观记录,因而它包含了系统结构特征及其运行规律。所以我们通过研究时间序列来认识所研究系统的机构特征(如周期波动的周期、振幅、趋势的种类等);揭示其运行规律,进而用以预测、控制其未来行为;修正和重新设计系统(如改变其周期、参数),使之按照新的结构运行。,首先,序列中的数据或数据点的位置依赖于时间,即数据的取值依赖于时间的变化,但不一定是时间t的严格函数。其次,每一时刻上的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值预测。再次,前后时刻(不一定是相邻时刻)的数值或数据点的位置有一定的相关性,这种相关性就是系统的动态规律性。最后,从整体上看,时间序列往往呈现某种趋势性或出现周期性变化的现象。,8,时间序列特点,1、按所研究的对象的多少分,有一元时间序列和多元时间序列。,9,多元时间序列不仅描述了各个变量的变化规律,而且还揭示了各变量间相互依存关系的动态规律性。,2、按时间的连续性可将时间序列分为离散时间序列和连续时间 序列两种。我们主要研究离散时间序列,并用 表示,对于 连续时间序列,可通过等间隔采样使之转化为离散时间序列 后加以研究。,二、时间序列的主要分类,4、按序列的分布规律来分,有高斯型(Gaussian)时间序列和非高斯型(non-Gaussian)时间序列。服从高斯分布(正态分布)的时间序列叫做高斯型时间序列,否则叫做非高斯型时间序列。本书所介绍的模型多数是假设服从高斯分布的高斯型时序模型。对于一些非高斯序列,往往通过适当变换,则可近似地看成是高斯型时间序列。,10,3、按序列的统计特性分为平稳时间序列和非平稳时间序列。,如果一个时间序列的概率分布与时间t无关,则称该序列为严格的(狭义的)平稳时间序列。如果序列的一、二阶矩存在,而且对任意时刻t满足:(1)均值为常数;(2)协方差为时间间隔,的函数则称该序列为宽平稳时间序列或广义平稳时间序列。,根据时间序列数据,较精确地找出相应系统的内在统计特性和发展规律性,尽可能多地从中提取出我们所需要的准确信息,用来实现这一目的的整个方法称为时间序列分析。它是一种根据动态数据揭示系统动态结构和规律的统计方法,是统计学科的一个分支。基本思想:根据系统的有限长度的运行记录,建立能够比较精确地反映时间序列中所包含的动态依存关系的数学模型,并借以对系统的未来行为进行预报。,11,三、时间序列分析,时间序列的变动,主要是由长期趋势、季节变动、循环波动、随机型变动而形成的。前三种变动的一个共同特点,就是依一定的规则而变化,随机波动在综合中可以消除。基于这种认识,时间序列分析就是设法消除随机型波动,拟合确定型趋势,因而形成了长期趋势分析、季节变动分析和循环波动测定等一系列确定型时间序列分析方法。确定型趋势控制着时间序列变动的基本样式,但用随机理论来考察,许多偶然因素共同作用的随机型波动,也是有一定的规律性。人们根据随机理论,对随机时间序列进行分析,就叫做随机时间序列分析,其相应的方法,称之为随机时间序列分析方法。,12,13,时间序列分析,确定性时间序列分析,随机时序分析,发展水平方向,趋势变动分析,周期波动分析,长期趋势加周期波动分析,水平分析,速度分析,直线趋势分析,曲线趋势分析,周期点平均法,帕森斯季节性分析,温特斯线性与季节性指数平滑法,自适应过滤法,分解法(传统分解法、Gensus分解法、FRAN系统),一元时序分析,多元时序分析,可控时序分析,不可控时序分析,马尔科夫分析,贝叶斯分析,时间序列分析方法,描述性时序分析通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律,序列,统计时序分析利用数理统计学的基本原理,分析序列值内在的相关关系,15,时间序列分析方法如果按其采用的手段不同可以分为数据图法、指标法和模型法。数据图法是将时间序列在平面坐标系中绘出坐标图,根据图形直接观察序列的总趋势和周期变化以及异常点,升降转折点等。指标法是指通过计算一系列核心指标来反映所研究系统的动态特征。模型法是对给定的时间序列,根据统计理论和数学方法,建立描述该序列的适应或最优统计模型,并进而据以进行预测和控制。模型法是本课程将要介绍的主要内容。,描述性时序分析案例,德国业余天文学家施瓦贝(S.H.Schwabe)发现太阳黑子的活动具有11年左右的周期,描述性时序分析,通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律,这种分析方法就称为描述性时序分析 描述性时序分析方法具有操作简单、直观有效的特点,它通常是人们进行统计时序分析的第一步。局限性:它只能展示非常明显的规律性。而在金融、保险、法律、人口、心理学等社会科学研究领域,随机变量的发展通常会呈现出非常强的随机性,想通过对序列简单的观察和描述,总结出随机变量发展变化的规律,并准确预测出它们将来的走势通常是非常困难的。,统计时序分析方法,频域分析方法,时域分析方法,统计时序分析,频域分析方法,原理假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动发展过程早期的频域分析方法借助富里埃分析从频率的角度揭示时间序列的规律 后来借助了傅里叶变换,用正弦、余弦项之和来逼近某个函数 20世纪60年代,引入最大熵谱估计理论,进入现代谱分析阶段 特点非常有用的动态数据分析方法,但是由于分析方法复杂,结果抽象,有一定的使用局限性,时域分析方法,原理事件的发展通常都具有一定的惯性,这种惯性用统计的语言来描述就是序列值之间存在着一定的相关关系,这种相关关系通常具有某种统计规律。目的寻找出序列值之间相关关系的统计规律,并拟合出适当的数学模型来描述这种规律,进而利用这个拟合模型预测序列未来的走势特点理论基础扎实,操作步骤规范,分析结果易于解释,是时间序列分析的主流方法,时域分析方法的分析步骤,考察观察值序列的特征根据序列的特征选择适当的拟合模型根据序列的观察数据确定模型的口径检验模型,优化模型利用拟合好的模型来推断序列其它的统计性质或预测序列将来的发展,时域分析方法的发展过程,启蒙阶段,基础阶段,发展阶段,YuleWalker,BoxJenkins,Engle Granger,启蒙阶段,G.U.Yule 英国数学家。1927年,Yule提出用线性回归方程来模拟一个时间序列,这是最早的AR模型。G.T.Walker英国数学家,天文学家。1931年,Walker利用Yule的分析 方法 研究了衰减正弦时间序列,得出Yule-Walker方程,基础阶段,G.E.P.Box和 G.M.Jenkins George EP.Box,国际级统计学家,1960年创立威斯康星大学统计系并任该系系主任,他发表过200多篇沦文Gwilvm MJenkins 已故国际级统计学家。曾于1966年创立了英国兰开斯特大学系统工程系。1970年,Box-Jenkins出版了Time Series Analysis Forecasting and Control一书,提出了ARIMA模型(BoxJenkins 模型)ARIMA模型的:单变量、同方差场合的线性模型,完善阶段,异方差场合Robert F.Engle,1982年,ARCH模型Bollerslov,1985年GARCH模型 Nelson等人提出了IGARCH模型的多种衍生模型多变量场合C.Granger,1987年提出了协整(co-integration)理论非线性场合汤家豪等,1980年,门限自回归模型,Robert F.Engle,C.Granger,时间序列分析软件,常用软件S-plus,Matlab,Gauss,TSP,Eviews 和SAS 推荐软件SAS在SAS系统中有一个专门进行计量经济与时间序列分析的模块:SAS/ETS。SAS/ETS编程语言简洁,输出功能强大,分析结果精确,是进行时间序列分析与预测的理想的软件由于SAS系统具有全球一流的数据仓库功能,因此在进行海量数据的时间序列分析时它具有其它统计软件无可比拟的优势,时间序列分析的基本特征就是研究序列随时间发展的模式。区别于其他统计分析的重要特征:一是明确重视顺序的重要性。二是时间序列中的观察值之间存在着一定的依存关系。三是时间序列分析还对所研究系统未来行为的分析。时序分析不是根据某一变量与其他变量之间的静态相关关系来预测未来变化,而是根据预测变量本身或其他相关变量过去的变化规律来预测未来的变化。,27,时序分析的作用,(1)对理论性模式与数据进行适度检验,以讨论模式是否能正确地表示所观测的现象。(2)刻划系统所处的状态及其结构性。从而达到认识和解释系统之目的(3)描述系统的运行规律性,从而达到认识规律和掌握规律性之目的。(4)预测系统的未来行为,以达到利用规律之目的。(5)控制系统的未来行为,以达到利用和支配系统之目的。,28,第二节 时间序列的建立,29,一、时间序列数据的采集 时间序列数据的采集往往是按照一定的时间间隔 来采样的,对于连续时间序列也采用这种方法进行离散化处理。采样的时间间隔可以相等也可以不相等。本课程只讨论“等间隔采样”采样过程中的时间间隔 的大小要根据具体问题的特征和经验来确定,过大就有信息的损失,过小会造成数据量增大,处理的时间会变长。,把获取时间序列以及对其进行检查、整理和预处理等工作,称为时间序列的建立。,30,离群点(Outlier)是指在一个时间序列中远离序列一般水平的极端大值和极端小值。离群点也称着奇异值或野值。,一般地,离群点在进行时间序列分析时会直接影响模型的拟合精度,甚至得到一些虚假的信息。但从另一个角度看,离群点也提供了很重要的信息,如系统的稳定性、灵敏性等信息,同时会提醒我们认真检查数据的准确性。,二、离群点的检验与处理,1.离群点,2.离群点的分类(1)加性离群点(additive outlier):造成这种离群点的干扰只影响干扰发生的时刻序列值,不影响该时刻以后的序列值。(2)更新离群点(innovational outlier):造成这种离群点的干扰不仅影响干扰发生的时刻序列值,而且影响该时刻以后的序列值。(3)水平移位离群点(level shift outlier):造成这种离群点的干扰从某时刻起,系统的结构发生变化,序列的平均值在该时刻以后发生水平移位。(4)暂时变更离群点(temporary change outlier):造成这种离群点的干扰从干扰发生的时刻开始对以后的序列值产生的影响逐渐衰减。,31,3.离群点的检验和处理,32,(1)根据数据取值进行检验,如果在某一时刻数值超出了一定的范围,则认为该点是一个离群点。具体讲,一种是将序列值与平滑值进行比较,检验其是否显著的大或者小。另一种方法是检验序列值与其相应的曲线平滑估计值的绝对离差是否大于预先设定的值。(2)对数据进行模型分析,然后根据拟合模型后的剩余序列计算特定的统计量,测出显著的离群点,并加以修正。,处理离群值方法一将系列值与平滑值进行比较,检验其是否显著地大或小。假定正常的系列值是平滑的,而离群点是突变的。用 表示先对 进行平滑再平方得到的数值,表示先对序列 取平方再作平滑而得到的数值,并用 表示样本方差,则有,33,如果则认为 是正常的,否则 是一个离群点。一般地 取39的整数。如果 是一个离群点,则可用 来代替,即 这实际上是线性外推。,34,处理离群值方法二检验序列值与其相应的曲线平滑估计值的绝对离差是否大于某一预先设定值。首先根据序列从首项开始取5项移动中位数生成一个新序列 即取 的中位数作为,然后舍去,加入 取中位数的,以此类推,直到加入序列最后一个数。其次,用同样的方法根据序列,从首项开始取3项中位数构成序列。再次,由序列 按照如下公式构成序列:最后,检测是否存在,35,36,缺损值(missing value)的存在破坏了系统运行的连续性和规律性,但是在实际工作中由于仪器故障、操作失误等等原因,时间序列中常会出现缺损值。通常对缺省值的补足可以用以下的方法:增长量推算法、发展速度推算法、比例推算法、平滑法、插值估算法等。,三、缺损值的补足,37,一、时间序列的分解(1)趋势变动。是指时间序列朝着一定的方向持续上升、下降或停留在某一水平上的倾向,是事物的主要变化趋势。(2)季节变动。是指一年或更短的时间之内,由于受某种固定周期性因素的影响而呈现出有规律的周期性波动。(3)循环变动。通常是指周期为一年以上的有规律的波动。(4)不规则变动。可分为突然变动和随机变动。突然变动是指战争、自然灾害或是其它社会因素等意外事件引起的变动。随机变动是指由于大量的随机因素产生的宏观影响。,第三节 确定性时序分析方法概述,通常用 Tt表示长期趋势项,St表示季节变动趋势项,Ct表示循环变动趋势项,Rt表示随机干扰项。常见的确定性时间序列模型有以下几种类型:,38,(i)加法模型:,(ii)乘法模型:,(iii)混合模式:,其中,是观测目标的观测记录:,39,1、移动平均法,设观测序列为,正整数NT。一次移动平均值计算,公式为:,二次移动平均值计算公式为:,二、确定型时间序列的预测方法,当预测目标的基本趋势是在某一水平上上下波动时,可用一次移动平均方法建立预测模型:,40,当预测目标的基本趋势与某一线性模型相吻合时,常用二次移动平均法,但序列同时存在线性趋势与周期波动时,可用趋势移动平均法建立预测模型:,其中:,2、指数平滑法,41,设观测序列,a为加权系数,0a1,一次指数,平滑公式为:,类似地,二次指数平滑公式为:,一般P次指数平滑公式为:,用的较多的是几个低阶指数平滑顶测模型:(1)水平趋势预测模型:,42,(2)线性趋势预测模型-单系数线性平滑预测:,其中,(3)二次曲线趋势预测模型Brown单系数二次式平滑预测其中,43,a的取值范围一般是0.10.3,选择a值的一些基本准则为:(1)如果序列的基本趋势比较稳,预测偏差由随机因素造成,则a值应取小一些,以减少修正幅度,使预测模型能包含更多历史数据的信息。,44,(2)如果预测目标的基本趋势已发生系统地变化,则a值应取得 大一些。这样,可以偏重新数据的信息对原模型进行大幅度修 正,以使预测模型适应预测目标的新变化。,上述原则可结合模型对比方法来进行。,3时间回归法,45,(1)线性方程:,(2)二次曲线:,(3)指数曲线:,(4)修正指数曲线:,(5)Gompertz(龚帕兹)曲线:,(0b1),(6)Logistic(逻辑斯谛)曲线:,(7)振动曲线:,4.季节周期预测法,46,(i)乘法型季节模型,其中,是序列长期变动趋势项,,是季节指数,它表示季,节性变动幅度的大小,,如月度为周期k12;季度,为周期k4。,(ii)加法型季节模型,或,从总体上来说,确定性时序分析方法刻画了序列的主要趋势,且直观、简单,易于计算,便运用。但是,其假定比较严格,现实问题很难完全满足。,47,一、随机过程(Stochastic Process),定义1(从时间变化角度来考察)若对于每一个特定的tT(T是一个无穷集合,称为参数集),X(t)是一个随机变量,则称这一族无穷多个随机变量X(t),t0是一个随机过程。可见,随机过程X(t)是依赖于时间t的一族随机变量.,定义2(从试验结果来看)若对事物变化的全过程进行一次观测,得到的结果是一个时间t的函数,但对同一事物的变化过程独立地重复进行多次观测,所得的结果是不相同的,则称这种变化过程为随机过程。,第四节 随机时序分析的预备知识,定义3:设E是随机试验,S是它的样本空间,如果对于每一个eS,我们总可以依某种规则确定一时间t的函数,48,与之对应(T是时间t的变化范围),于是,对于所有的eS来说,就得到一族时间t的函数,我们称这族时间t的函数为随机过程,而族中每一个函数为这个随机过程的样本函数(或一次实现、现实)。,随机变量与随机过程的区别,(1)随机变量是定义在样本空间上的一个单值实函数,随机过程则是一族时间t的函数。(2)对应于一定随机试验和样本空间的随机变量与时间t无关,而随机过程则与时间密切相关。(3)随机变量描述事物在某一特定时点上的静态,随机过程描述事物发展变化的动态。,49,(1)随机过程具有随机变量的特性,同时还具有普通函数的特性。(2)随机变量是随机过程的特例。即一元随机变量可视为参数集为单元集的随机过程。(3)当随机过程固定某一个时刻时,就得到一个随机变量。(4)随机过程是n维随机变量、随机变量列的一般化,它是随机变量的集。,50,随机变量与随机过程的联系,二、平稳随机过程,51,(1)纯随机过程白噪声随机过程 X(t)(t=1,2,-),如果是由一个不相关的随机变量的序列构成的,即对于所有st,随机变量 Xt和Xs 协方差均为零,则称其为纯随机过程。对于一个纯随机过程来说,若其期望和方差均为常数,则称之为白噪声过程,其的样本实现称为白噪声序列,简称白噪声(White noise)。,图1.7是一个具有零均值,单位方差的正态白噪声序列(100个数据)的示意图。,52,(2)独立增量(可加)过程 对于任意给定的正整数n,任意给定,53,随机变量序列,相互独立。则称随机过程,为独立增量过程.,(3)二阶矩过程 若随机过程,对每个,的均值和方,差存在,则称之为二阶矩过程。,(4)正态过程 若,的有限维分布都是正态分布,即若,的n维概率密度为,则称为正态随机过程。,(5)平稳过程 统计特性不随时间的平移而变化的过程。用数学语言来描述,就是:如果对于时间t的任意n个值,54,和任意实数,随机过程,的n维分布函数,满足关系式:,则称X(t)为平稳过程。,若随机过程,的均值和协方差存在,且满足:,(i),(ii),则称之为宽平稳随机过程.,北京市每年最高气温时序图,56,不具有平稳性的过程就是非平稳过程。一般来说,当环境及主要条件随时间变化时,就可以认为是非平稳的。如工艺革新、原材料质量提高(或下降)、设备更新等发生时,产品某一质量指标X(t)就是一个非平稳过程。,三、非平稳随机过程,中国纱年产量时序图,奶牛月产奶量时序图,59,自相关指时间序列观察资料相互之间的依存关系。这种依存关系既可以用相关函数来表示,称为自相关函数;也可以用一个回归模型来表示。这个回归模型把现在的观测值表示为独立的两部分:一部分依赖于以前(过去)的观测值,一部分是独立的序列。,它描述的一种动态相关性。,如:设,只与其前一期有关(比如一个患者服药),则有,四、自相关,60,从统计观点来看,是指系统现在的行为与其历史行为的相关性。体现在时序中,就是观测值之中蕴含着的相关关系,因此,可用相关函数来刻划系统(时序)的动态性。从系统的观点来看,是指系统的记忆性。就是在某一时刻进入系统的输入对系统后继行为的影响。如果该输入只影响系统的下一时刻的行为,而对下一时刻以后的行为不发生作用,那么系统就有一阶动态性(或一期记忆性)。依次类推,如果该输入对系统后继n个时刻的行为都有影响,那么就说该系统具有n阶动态性。,五、动态性(即记忆性),例如,AR模型描述的是系统对过去自身状态的记忆,MA模型描述的是系统对过去时刻进入系统的噪声的记忆,而ARMA模型则是系统对过去自身状态以及各时刻进入的噪声的记忆。,61,AR(n)即n阶自回归模型为:,MA(m)即m阶移动平均模型为:,ARMA(n,m)即n阶自回归m阶移动平均模型为:,本章小结,时间序列,在统计意义上就是将某一个指标在不同时间上的不同数值,按照时间先后顺序排列而成的数列;在数学意义上就是某一随机过程的一次样本实现;在系统意义上就是某一系统在不同时间(地点、条件等)的响应。时间序列只强调数列中数据之间的“顺序”的重要性,并非强调必须以“时间”顺序排列,这里的“时间”也可以是其他单调递增地取值的物理量。时间序列是所研究系统的历史行为的客观记录,它包含了该系统的机构特征及其运行规律。所以人们可以通过对序列的研究来认识所研究系统的机构特征,揭示其运行规律。进而用以预测、控制其未来行为,修正或重新设计系统使之按照新的结构运行。时间序列具有四个明显的特征。时间序列根据所研究的依据不同,可有不同的分类。时间序列分析方法可以分为确定性时间序列分析和随机性时间序列分析两大类。,62,选择合理的采样间隔是科学地采集时间序列数据的关键。不论通过哪一种途径获得的时间序列,在进行分析处理前,必须对所依据的资料进行认真的检查、整理,有时还需要进行适当的预处理(如离群点的检查与处理、缺损值的补足)一个时间序列往往是由长期趋势变动、季节变动、循环变动和不规则变动等形式的叠加或耦合而形成的。随机变量与随机过程既有区别又有联系。平稳随机过程的统计特性不随时间的推移而变化。如果一个随机过程仅仅是一阶矩和二阶矩不随时间的推移而变化,那么称该随机过程为宽平稳随机过程,白噪声就是一个宽平稳随机过程。系统的动态性就是在某一时刻进入系统的输入对系统后继行为的影响,也就是系统的记忆性,描述记忆性的函数称为记忆函数。,63,