《物流规划-第四章第二节.ppt》由会员分享,可在线阅读,更多相关《物流规划-第四章第二节.ppt(85页珍藏版)》请在三一办公上搜索。
1、第二节 经济社会发展预测模型,一 回归预测模型二 时间序列模型,回归分析方法,线性回归的概念,1.预测原理,函数关系(确定性关系),Y=4X,相关关系(非确定性关系,随机关系),汽车生产数量X与所需车轮数量Y之间的关系,人的身高X与体重Y之间的关系,在研究相关关系时,将其中一些因素作为所控制的变量(自变量X),另一些随机变量作为它们的因变量Y,这种关系分析就称为回归分析。,具有相关关系的变量,虽然不能用准确的函数式表达其联系,却可以通过大量实验数据(或调查数据)的统计分析,找出各相关因素的内在规律,从而近似地确定出变量间的函数关系。,回归regression19世纪英国生物学家高尔顿统计概念-
2、相关correlation-回归分析,2.预测步骤,(1)调查分析,确定相关因素(确定回归方程中的自变量和因变量),收集统计资料;,(2)从收集到的样本数据(散点图)出发确定自变量和因变量之间的数学关系式,即建立回归方程;,(3)对回归方程进行统计检验,验证方程的合理性;,(4)利用回归方程进行预测。,研究变量间的相关关系及其相关程度,3.适用范围,在使用回归分析法之前,先要通过经济理论分析或实践经验研究变量之间是否存在相关关系,对不存在相关关系的变量,就不能够用这种方法进行预测。,从事物变化的因果关系出发进行预测事物的内在分析精度较高所需的数据量较大,4.方法特点,按照变量的个数一元回归分析
3、和多元回归分析,线性回归的方法,按照变量之间的关系线性回归分析和非线性回归分析,一元线性回归分析,一元线性回归模型是用于分析一个自变量x与一个因变量y之间线性关系的数学方程,又称回归方程或回归直线。其数学表达式(经验回归方程)是:,称为变量y对x的一元线性回归方程。,基本原理:最小二乘法原理,以回归直线与样本数据点在垂直方向上的偏离程度(残差平方和)最小为原则,进行回归方程的参数求解。,O,y,x,残差=实际值-回归值=实际值-拟合值,样本数据点,回归直线,一元线性回归模型的检验,经济意义检验计量检验统计检验,四种统计检验,回归方程显著性F检验,相关系数r的显著性检验,拟合优度检验r2,回归系
4、数显著性t检验,回归方程显著性F检验,相关系数r的显著性检验,拟合优度检验r2,回归系数显著性t检验,一元线性回归检验,统计检验,回归系数显著性t检验,为查t分布表得到的临界值,,不通过回归系数显著性检验,,通过回归系数显著性检验,是否与零有显著性差异,为显著性水平,n为样本数量,,显著性水平,significance level 是一个临界概率值。它表示在“统计假设检验”中,用样本资料推断总体时,犯拒绝“假设”错误的可能性大小。越小,犯拒绝“假设”的错误可能性越小。,回归系数显著性t检验,是否与零有显著性差异,为查t分布表得到的临界值,=3.182,?,,通过。,回归系数显著性t检验,是否与
5、零有显著性差异,查表,t分布表,如果不查表,如何进行检验?,方法就是用相伴概率值,也称P值,,不通过回归系数显著性检验,,通过回归系数显著性检验,?,软件自动计算t 的相伴概率值,P=0.005,,通过回归系数显著性检验,通过回归方程显著性检验,不通过回归方程显著性检验,为查t分布表得到的临界值,为显著性水平,n为样本数量,回归系数显著性t检验,是否与零有显著性差异,P为相伴概率值,,回归方程显著性F检验,,通过回归方程显著性检验,,不通过回归方程显著性检验,为查F分布表得到的临界值,检验因变量y与自变量x之间的线性关系是否显著,为显著性水平,n为样本数量,=10.13,?,,通过。,回归方程
6、显著性F检验,检验因变量y与自变量x之间的线性关系是否显著,F分布临界值表,=0.05,为查F分布表得到的临界值,为显著性水平,n为样本数量,回归方程显著性F检验,检验因变量y与自变量x之间的线性关系是否显著,P为相伴概率值,,相关系数是反映两变量间是否存在相关关系,以及这种相关关系的密切程度的统计量。,相关系数r,(1)当|r|=0时,表示变量y与x之间无相关关系;(2)当r+1时,表示y与x之间存在强正相关,x增加时,将引起y的增加(2)当r-1时,表示y与x之间存在强负相关,x增加时,将引起y的减少(4)当0|r|1时,表示变量y与x之间存在不同程度的线性相关关系:当|r|=1时,表示变
7、量y与x完全线性相关;当0|r|0.3时,为微弱相关;当0.3|r|0.5时,为低度相关;当0.5|r|0.8时,为显著相关;当0.8|r|1时,为高度相关。,工程中希望r越大越好,O,y,x,r=1,O,y,x,r=-1,O,y,x,r=0,O,y,x,0r1,O,x,-1r0,O,x,|r|1,(a),(b),(c),(d),(e),(f),回归方程显著性F检验,相关系数r的显著性检验,回归系数显著性t检验,一元线性回归检验,统计检验,关系?,三种检验结果完全一致t检验与相关系统r检验完全等价F统计量是t统计量的平方,拟合优度检验r2,数量指标:判定系数r2,拟合优度是指样本数据点在样本回
8、归直线周围的紧密程度,以此评价回归方程对样本数据的代表程度。,判定系数r2性质:1.具有非负性2.取值范围0 r2 1,修正判定系数r2,在线性回归分析中,修正判定系数越大越好。,修正判定系数更能准确地反映回归方程对样本数据点的拟合程度。,随着自变量个数增加,r2必然也增加,数学习性还是引入好的自变量?,回归方程显著性F检验,相关系数r的显著性检验,拟合优度检验r2,回归系数显著性t检验,一元线性回归检验,统计检验,r2越大越好,残差分析,残差=实际值-回归值=实际值-拟合值,可看作是误差项的估计值。,线性回归模型的前提要求残差项应服从方差相等的正态分布,且残差间相互独立。,理论模型,经验模型
9、,e是不可观测的随机误差表示其它因素的影响,一元线性回归检验,残差分析,残差随机性,残差正态性,残差独立性,(1)残差独立性分析,DW2时,表示残差序列不存在自相关,实际应用中,一般要求DW值处在之间,接近2时基本可以认定残差序列具有独立性。,0DW2时,表示残差序列存在某种程度正自相关。,2DW4时,表示残差序列存在某种程度负相关。,DW(Durbin-Watson)检验:用于检验随机误差项是否存序列相关,以保证预测结果的有效性。,(2)残差随机性分析残差散点图横轴:因变量回归值纵轴:残差,如果残差序列是随机的,那么残差序列应与预测值序列无关,所有残差应是在附近随机变化,并在变化幅度不大的一
10、条带子内(-2和+2之间)。,(3)残差正态性分析残差直方图。是以一组无间隔的直条图表现残差频数分布特征的统计图,其中每一条形的高度分别代表相应组别的频率。直方图可以展示正态分布曲线及其参数。图形显示越接近标准正态分布越好。,积累概率图。是一种用来判断一个变量分布与指定分布是否符合的概率分布图。这里代表残差分布的曲线与代表正态分布的斜线重合程度越高,则两种分布的一致性越好。,一元线性回归检验,残差分析,残差随机性,残差正态性,残差独立性,残差应在变化幅度不大的一条带子内(-2和+2之间),残差直方图或积累概率图,DW1.52.5,回归方程显著性F检验,相关系数r的显著性检验,拟合优度检验r2,
11、回归系数显著性t检验,一元线性回归检验,统计检验,残差分析,残差随机性,残差正态性,残差独立性,残差应在变化幅度不大的一条带子内(-2和+2之间),残差直方图或积累概率图,DW1.52.5,判定系数r2越大越好,一元线性回归方程:,多元线性回归分析,多元线性回归方程中的自变量个数有2个以上,是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,仍然采用最小乘法确定回归方程参数,式中,假定该线性方程中有k个自变量。,常数项,方程的偏回归系数。,偏回归系数表示当其他自变量都固定时,某一自变量变化一个单位而使因变量平均变化的量。,回归方程显著性F检验,相关系数r的显著性检验,拟合优度检验r2
12、,回归系数显著性t检验,多元线性回归检验,统计检验,回归方程显著性F检验,相关系数r的显著性检验,拟合优度检验r2,回归系数显著性t检验,多元线性回归检验,统计检验,残差分析,残差随机性,残差正态性,残差独立性,残差应在变化幅度不大的一条带子内(-2和+2之间),残差直方图或积累概率图,DW1.52.5,判定系数r2越大越好,多元线性回归方程:,时间序列分析方法(简称时序分析)是在具有先后顺序的信号中提取有用信息的一门学科。时序分析起源于上世纪20年代,最早是为了市场预测。随着对时序分析的理论和应用这两方的深人研究。时序分析的应用范围日益扩大,从一般的市场预测到语音识别与模拟,从机械设备的监视
13、到生物生理、心理状态研究,时间序列分析的应用也越来越广泛,越来越深入。,二 时间序列模型,时间序列就是一个变量在一定时问段内不同时间点上观测值的集合,如Y:Y1,Y2,这些观测值是按时间顺序排列的,时间点之间的间隔是相等的。时间序列获取以后可以对它进行预测分析,预测方法可以从定性分析法和定量分析法两方面考虑。,(一)时间序列的含义,时间序列的组成,长期趋势变动 一个时间序列可能相对平稳或表现出一定 的趋势。长期趋势一般是线性、二次或者指数函数.季节性变动 当变化规律在一些时间内重复,序列就认为具有季节因素影响.季节因素通常与日期和气候变化有关.季节变动的时间通常以年为单位.周期变动上升或下降与
14、季节变动无关.通常是由经济条件的改变引起的.随机因素,时间序列分析预测法定量方法:(1)算术平均法(2)加权平均法(3)几何平均法(4)移动平均法(5)指数平滑法(6)季节指数法,ARMA模型,ARMA 模型是一类常用的随机时间序列模型,是一种精度较高的时间序列短期预测方法,其基本思想是:某些时间序列是依赖于时间 t 的一组随机变量,构成该时间序列的单个序列值虽然具有不确定性,但整个序列的变化却有一定的规律性,可以用相应的数学模型近似描述.,ARMA模型的基本原理,将预测指标随时间推移而形成的数据序列看作是一个随机序列,这组随机变量所具有的依存关系体现着原始数据在时间上的延续性。一方面,影响因
15、素的影响,另一方面,又有自身变动规律,假定影响因素为x1,x2,xk,由回归分析,其中Y是预测对象的观测值,e为误差。作为预测对象Yt受到自身变化的影响,其规律可由下式体现,,误差项在不同时期具有依存关系,由下式表示,由此,获得ARMA模型表达式:,ARMA模型的三种基本类型:ARMA 模型(Auto-Regressive and Moving Average Model)是研究时间序列的重要方法,由自回归模型(简称AR模型)与滑动平均模型(简称MA模型)为基础“混合”构成。自回归(AR:Auto-regressive)模型移动平均(MA:Moving Average)模型自回归移动平均(AR
16、MA:Auto-regressive Moving Average)模型,1、自回归【AR】模型,自回归序列:,如果时间序列 是它的前期值和随机项的线性函数,即可表示为,【1】,【1】式称为 阶自回归模型,记为AR(),注1:实参数 称为自回归系数,是待估参数.随机项 是相互独立的白噪声序列,且服从均值为0、方差为 的正态分布.随机项与滞后变量不相关。,注2:一般假定 均值为0,否则令,记 为 步滞后算子,即,则模型【1】可表示为,令,模型可简写为,AR()过程平稳的条件是滞后多项式,的根均在单位圆外,即,的根大于1,【2】,2、移动平均【MA】模型,移动平均序列:,如果时间序列 是它的当期和
17、前期的随机误差项的线性函数,即可表示为,【3】,式【3】称为,阶移动平均模型,记为MA(),注:实参数,为移动平均系数,是待估参数,引入滞后算子,并令,则模型【3】可简写为,注1:移动平均过程无条件平稳,注2:滞后多项式,的根都在单位圆外时,AR过程与MA过程,能相互表出,即过程可逆,,【4】,即为MA过程的逆转形式,也就是MA过程等价于无穷阶的AR过程,注3:【2】满足平稳条件时,AR过程等价于无穷阶的MA 过程,即,3、自回归移动平均【ARMA】模型,自回归移动平均序列:,如果时间序列,是它的当期和前期的随机误差项以及,前期值的线性函数,即可表示为,【5】,式【5】称为,阶的自回归移动平均
18、模型,记为ARMA,注1:实参数,称为自回归系数,,为移动平均系数,,都是模型的待估参数,注2:【1】和【3】是【5】的特殊情形,注3:引入滞后算子,模型【5】可简记为,【6】,注4:ARMA过程的平稳条件是滞后多项式,的根均在单位圆外,可逆条件是滞后多项式,的根都在单位圆外,一、自回归移动平均模型的概念如果平稳随机过程既具有自回归过程的特性又具有移动平均过程的特性,则不宜单独使用AR(p)或MA(q)模型,而需要两种模型混合使用。由于这种模型包含了自回归和移动平均两种成分,所以它的阶是二维的,由p和q两个数构成,其中p代表自回归成分的阶数,q代表移动平均成分的阶数,记作ARMA(p,q),称
19、作自回归移动平均混合模型或称为自回归移动平均模型。,最简单的自回归移动平均模型是ARMA(1,1),其具体形式为:模型ARMA(p,q)的一般表达式为,显然,ARMA(0,q)=MA(q),ARMA(p,0)=AR(p),因此,MA(q)和AR(p)可以分别看作ARMA(p,q),当p=0和q=0时的特例。,(二)时间序列模型的步骤,1、获得时间序列数据 要进行时间序列分析,首先要有时间序列数据,这里可以是有时间变量的数据,也可以是物理上的空问变里数据等具有一定前后相关性的数据。2、判断时间序列是否平稳 平稳序列的特点:a.不同时刻,均值相同。围绕常数的长期均值 波动,即均值问复。b.方差有界
20、并且不随时间变化,是常数。在毎一时刻,对均值的偏离基本相同,波动程度大致相等。c.预测的特点足收敛到均值。,判断数据是否平稳的方法:a.检验序列的平稳性。主要记单位根检验方法。b.观察观测数据的折线图。如果折线图有趋势或经常不会到均值线上,说明序列不平稳。c.观察样本自相关函数图形。如果样本自相关函数不呈指数衰减趋势,也说明序列不平稳。如若序列平稳进行下一步,否则需要平稳化。平稳方法主要有差分法。但问时要注意不能过度差分,这样会导致模型不能满足可逆条件。判断过度差分的常见方法是差分后的方差是否会増大,如果增大则表示已过度差分。,纯随机性检验 纯随机序列也称为白噪声序列,对于一个纯随机过程来说,
21、若其期望和方差均为常数,则称之为白噪声过程。白噪声过程的样本实称成为白噪声序列,简称白噪声。之所以称为白噪声,是因为他和白光的特性类似,白光的光谱在各个频率上有相同的强度,白噪声的谱密度在各个频率上的值相同。,它满足如下两条性质:,检验原理:如果一个时间序列是纯随机的,得到一个观察期数为 n的观察序列,那么该序列的延迟非零期的样本自相关系数将近似服从均值为零,方差为序列观察期数倒数的正态分布:,原假设:延迟期数小于或等于 期的序列值之间相互独立备择假设:延迟期数小于或等于 期的序列值之间有相关性,样本自相关系数:,拒绝原假设:当检验统计量大于 分位点,或该统计量的P值小于 时,则可以以 的置信
22、水平拒绝原假设,认为该序列为非白噪声序列。反之则接受。结论:若检验结果显示接受原假设,则此次时叫序列分祈结束,再做分析没有任何意义。若是结果拒绝,则进行下一步。,4、模型识别 对于AR、MA、ARMA模型,在进行参数估计之前,需要进行模型的识别。识别的基本任务是找出ARMA(p,q)、AR(p)、MA(q)模型的阶。方法:(1)残差方差图定阶法(2)自相关函数(ACF)和偏相相关函数定阶法(PACF)(3)F检验定价法(4)信息准则定阶法(A IC及B IC准则),基本原则,时间序列样本的自相关函数(ACF)和偏自相关函数(PACF)定阶法。,根据自相关函数,当kq时,yt 与y t-k 不相
23、关,这种现象称为截尾,因此,当kq时,自相关函数为零是MA(q)的一个特征。也就是说,可以根据自相关系数是否从某一点开始一直为零来判断MA(q)模型的阶。MA(q)的偏自相关系数随着滞后期的增加,呈现指数衰减,趋向于零,这称为偏自相关系数的拖尾性。根据自相关函数的特征,可见AR(p)序列的自相关函数是非截尾序列,称为拖尾序列。因此,自相关函数拖尾是AR(p)序列的一个特征。根据偏自相关函数的特征,当kp时,PACF=0,也就是在p以后截尾。,AR(p)模型的识别。若序列的偏自相关函数在p以后截尾,而且自相关系数是拖尾的,则此序列是自回归AR(p)序列。MA(q)模型的识别。若序列的自相关函数在
24、q以后截尾,而且偏自相关系数是拖尾的,则此序列是移动平均MA(q)序列。ARMA(p,q)模型的识别。若序列的自相关函数和偏自相关系数都是拖尾的,则此序列是自回归移动平均ARMA(p,q)序列。至于模型中p和q的识别,则要从低阶开始逐步试探,直到定出合适的模型为止。,计算样本相关系数,样本自相关系数,样本偏自相关系数,由克莱姆法则,解Yule-Walker方程组得到。,AIC准则是由日本学者赤池(A ka ike)在识别AR模型阶数准则即最小最终预测误差准则(FPE)的基础上推广发展到识别ARMA模型阶数,称为最小信息准则AIC,进而赤池又从Bayes观点出发引入新的准则,称为BIC。,信息准
25、则定阶法,定阶准则:,是模型的未知参数的总数,是用某种方法得到的方差,的估计,为样本大小,则定义AIC准则函数,用AIC准则定阶是指在,的一定变化范围内,寻求使得,最小的点,作为,的估计。,AR(,)模型:,ARMA,模型:,BIC(S)=ln+(SlnN)/N,5、估计未知参数 常用估计方法:矩估计极大似然估计最小二乘估计模型参数估计一般分两步进行,首先找出参数的初步估计,又称矩估计,然后在初步估计的基础上,根据一定准则,用最小二乘法和极大似然估计法作参数的精估计。,MA(,)模型,ARMA,模型的参数矩估计分三步:,i)求,的估计,(1)矩估计,ii)令,,则,的自协方差函数的矩估计为,i
26、ii)把,近似看作MA(,)序列,利用(2),对MA(,)序列的参数估计方法即可,矩估计的特点:,优点估计思想简单直观不需要假设总体分布计算量小(低阶模型场合)缺点信息浪费严重只依赖p+q个样本自相关系数信息,其他信息都被忽略估计精度较差通常矩估计方法被用作极大似然估计和最小二乘估计迭代计算的初始值,(2)极大似然估计,原理极大似然准则:抽取的样本出现概率最大。因此未知参数的极大似然估计就是使得似然函数(联合密度函数)达到最大的参数值,似然方程,由于 和 都不是 的显式表达式。因而似然方程组实际上是由p+q+1个超越方程构成,通常需要经过复杂的迭代算法才能求出未知参数的极大似然估计值,极大似然
27、估计的特点,优点极大似然估计充分应用了每一个观察值所提供的信息,因而它的估计精度高同时还具有估计的一致性、渐近正态性和渐近有效性等许多优良的统计性质缺点需要已知总体分布实际中,为便于计算,很多时候看作服从多元正态分布,(3)最小二乘估计,原理使残差平方和达到最小的那组参数值即为最小二乘估计值,实际中最常用的参数估计方法是条件最小二乘估计法,假设条件:过去未观测到的序列值为0,即残差平方和方程用迭代法,求得使其达最小的参数值。,最小二乘估计的特点,优点是:a.最小乘怙计充分应用了每一个观察值所提供的信息,因而它的估计精度髙;b.条件最小二乘估计方法便用率最缺点主要是需要假定总体分布。,6、模型检
28、验及优化 模型估计完后需要检验模型是否充分描述了数据。可以从以下几个 方面去列断:(1)所有系数是否显著不等于0,即参数显著性检验。目的是检验每一个未知参数是否显著非零,删除不显著参数便模型结构最精简。如果某个参数不显著,即表示该参数所对应的那个自变里对因变量的影响不明显,该自变量就可以从拟合模型中删除,最终模型将由一系列参数显著非零的自变量表示。,(2)残差是否为白噪声,即模型的显著性检验。一个好的拟合模型应该能够提取观察值序列中几乎所有的样本相关信息,即残差序列应该为白噪声序列。反之,如果残差序列为非白噪卢序列,那就意味着残差序列中还残留着相关信息未被提取,这就说明拟合模型不够有效。,LB
29、统计量,(3)是否有大的拟合优度和小的AIC或BIC。拟合优度=冋归平方和/总平方和,拟合优度越大说明模型的拟合效果越好。同样,AIC是均方误差的估计值,所以此值越小说明所对应的模型的估计稍度越髙,模型越适合。(4)是否有直现意义和经济理论基础。一个好的模型应该是每个系数都显著不等于0,参数是白噪声序列,预测比其他模型准确,拟合优度大,AIC或BIC小,没有公共因子,不可以简化,有直观意义和经济理论基础。,(5)异方差性检验。如果随机误差序列的方差会随着时间的变化而变化,这种情况被称为异方差。异方差直观诊断主要有:残差图和残差平方图。判断方法是看残差散点图是否平稳。异方差的处理方法是:假如已知异方差函数的具体形式,进行方差齐性变换。假如不知异方差函数的具体形式,拟合条件异方差模型。,7、预测预测是根据过去和现在的样本值对序列未来时刻取值进行估计,常用的是线性最小均方误差预测,选择合适的函数形式,若模型经检验是合适的,也符合实际意义,使得预测误差的平方和最小,就是最优预测。,
链接地址:https://www.31ppt.com/p-5786200.html