交通运输专业毕业设计(论文)外文翻译.doc
外文翻译内容时间序列计数数据模型:一个实证申请交通意外摘要计数资料主要划分为横断面,时间序列,和小组。在过去十年中, 伯松分布和负二项分布(注)模式已广泛用于分析横断面、时间系列计数数据、随机效应和固定效应泊松和注模式被用来分析小组计数数据。然而,最近的文献表明,尽管有关这些模型的分配假设适合横断面计数的数据,但它们往往发现在纯时间序列计数数据没有能力考虑到序列相关性的影响。实值时间序列模型,诸如框和詹金斯介绍的自动回归移动平均(ARIMA)模型,在过去几十年已用于许多应用程序。然而,当模拟非负整数值的数据,如在交通事故随着时间的推移,框和詹金斯模式可能不适合了。这主要是由于在ARIMA模型中正常的的错误假设。在过去的几年里,一类新的被称为整数值自动回归( INAR )泊松模型的时间序列模型,已经由许多作者研究了。这一级别的模型尤其适用于时间序列分析计算模型的数据,因为这些模型能反映伯松回归的性能,并能够处理序列相关性,因此提供了一种替代的实值时间序列模型。本文的首要目的是介绍大不列颠的这类分析交通事故的时间序列的INAR模型。不同类型的时间序列数据被认为是:综合时间序列数据都在空间和调查的时间区域内是比较大的(例如,大不列颠和年的关系),分散的时间序列数据在空间和时间区域内相对较小(例如,拥挤收费区与月的关系)。INAR模式的性能与同类别的框和詹金斯实值模型相比较。其结果表明,综合交通事故时间序列数据在系数估计方面和拟合优度的情况下,这些两类模式的性能是十分相似的。这是因为在这种正常的相近的情况下,平均的计数是很准确的,ARIMA模型可以令人满意。然而,INAR泊松模型的性能被发现有明显优于的ARIMA模型,因为在分散的时间序列数据的交通事故中,ARIMA模型的计数是在相对较低。文章最后讨论了INAR模型的局限性来处理的季节性和观测到的异质性。1.绪论公路运输给社会带来了巨大的利益,但它也有直接和间接成本。直接成本包括提供公路运输服务如基础设施,设备和人员的成本。间接成本包括由于道路交通拥堵,和来自道路交通的空气污染引起的公路运输事故,旅行延误的成本。所有这些费用中,与道路交通事故相关的成本是非常高的。根据英国运输部( DFT, 2003年),为道路防止一人死亡(妇女议会论坛)的价值为125万英镑(按2002年价格)。在世界上虽然英国是其中一个最安全的国家,但在2005年,事故每百公里旅游,在公路交通总的死亡人数是3201人。分析道路交通事故的原因的最佳途径之一是制定各种事故预测模型,用来确定有关人力,车辆,社会经济,道路基础设施,土地使用,环境的重大因素。例如,诺兰德和Quddus(2004年)制定了一个事故预测模型,并报告说,改善的医疗技术和医疗保健能减少英国交通死亡人数。基于事故预测模型的成果,以实施不同的对策来减少道路交通事故的频率。事故预测模型是用来监测已经提出的以尽量减少事故发生的各种道路安全政策的效力。举例来说,休斯敦和理查森(2002年)制定了一个事故预测模型,并得出结论认为,从中学到小学改变现有的安全带的法律来增强道路交通安全执法。然而,业绩和这些事故模型的有效性在很大程度上依赖于选择适当的计量经济模型,由于道路交通事故都是非负,离散,和零星的事件计数,了解不同的计数变量是至关重要。由于道路交通事故的非负数,整数,和随机事件数量,这类事件的分布遵循泊松分布。事故计数模型的方法发展很好。例如,横断面计数数据是参照采用泊松回归模型(Kulmala,1995年)。自事故计数数据通常是过度分散的(即差额大于意思),一个负二项分布(注)回归模型是一个泊松-混合物更适合运用(阿卜杜勒Aty和拉德万,2000年;主,2000年;伊万,2000年等等)。如果这种截面计数数据包含许多零的意见(即超过零计数资料),然而零膨胀泊松(或注)模式或栅栏计数数据模型更合适(土地,1996年等等)。如果横断面事故计数数据被截断或检查,如截断一个有应至少一人死亡的事故,这些数据被参照使用在短泊松或截断毒品调查科模型中。如果横断面事故计数数据的报道诸如发生轻微的伤害或财产损失的事故,然后根据报道使用泊松模型。如果事故计数数据是面板数据,固定效应(远东)泊松(或注)模型或随机效应(重新)泊松(或注)模型被使用(钦邦和Quddus,2003年)。广义估计方程(吉)技术是受雇于集群小组计数数据(主和佩尔绍德,2000年)。但是,在事故模拟模型文献事故计数的时间序列数据中缺乏合适的计量经济模型。通常,这种类型的事故数据是仿照用一个泊松回归模型或注回归模型,有一个普遍的假设是:意见应彼此独立。这表明,这些模型更适合横断面计数数据。使用这些时间序列模型计算的数据可能会导致估计参数效率低下,因为时间序列数据通常是串行相关的。一个简单的解决办法是在模型中实行一个时间趋势变量作为解释变量来控制序列的相关性。例如,诺兰德(2006)等。注:模型采用了一种趋势变量研究在交通意外伤亡的伦敦进城费的影响。但是,也不能保证,这将明确解决序列相关性的影响,特别是在交通意外伤亡对事件的长期时间序列计数数据。时间序列模型的连续数据非常发达。实值时间序列模型,诸如回归移动平均(MA)模型,由框和詹金斯(1970年)介绍了, 过去几十年,在许多应用中已被用来计数模型时间序列数据(例如,Zimring,1975;夏尔马和尔哈雷,1999年;休斯顿和理查森,2002年;吴作栋,2005年;诺兰德,2006年;等等)。然而,当非负整数值模型计数的数据,诸如在地理实体里交通意外随着时间的推移,Box和詹金斯模式可能不适合。这主要是由于在ARIMA模型中错误的正常假设。这在很大程度上表明,模型是必要的,它可以考虑到非负离散财产和自动计数的时间序列数据。在过去几年中,一类新的,例如被称为整数值自回归(INAR)泊松模型的时间序列模型,已经在金融、公共卫生监测、旅行和旅游,林业部门等领域中被许多作者研究了。这一级别的模型尤其适用于时间序列分析计算模型的数据,因为这些模型拥有分配数量的数据的属性,并能处理序列相关性,因此,提供了一种可替代的实值时间序列模型和一般泊松或注:模式。本篇章主要的目的是介绍INAR模式中的时间序列分析来自大不列颠的事故计数数据。两种时间序列事故数据类型被认为:(1)时间序列数据汇总情况的空间和时间的观察单位是比较大的(例如,大不列颠和年的关系);(2)分类的时间序列数据在两个空间和时间的观察单位相对较小(例如,在伦敦中部的拥挤收费区和月的关系)。各种计量经济模型,如MA,注,注的时间趋势,INAR(1)模型用于为每个数据集发展事故预测模型。INAR(1)泊松模型的表现与其它模型相比较得出的。其余的篇章,如下论述。下一节描述了在这些研究中INAR模型的使用。随后说明用于分析的数据来源。介绍和分析结论,然后在一些细节上讨论。本文最后部分是结论和本研究的局限性。2.方法论由框和詹金斯(1970年)介绍的纯粹的连续时间序列数据的回归模型,现在发展很好。框和詹金斯模型,如季节性自动回归移动平均(SARIMA)模型能够考虑到这一趋势和季节性(因此序列相关性)通常存在于时间序列数据中。延长这一模式是由框和朓(1975年)提议的,其中有能力研究各种解释变量和作为解释变量干预,除了常规的趋势和季节性的组成部分的影响。该模型可以表示如下(Hipel和麦克里奥德,1994年): (1)其中t是离散时间(例如周、月、季或年),是适当的Box- Cox 中的变换, 即是,或者本身(Box和Cox,1964 ),是特定时间t 的因变量,这是干预的组成部分,X是独立变量的影响的决定性称为控制变量,是随机变化或可由一个ARIMA模型,表示为(为非季节性的时间序列)或SARIMA模型(为季节性时间序列),表示为SARIMA的噪音部分。在这些公式中,p是指非季节性自动回归(AR)的进程,P是指季节性受体的进程,d是指非季节性差异,D是指季节性差异,q是指非季节性移动平均线(MA)的进程,Q是指季节性(MA)的进程,而下标s是季节性的长度(例如s= 12是每月时间序列数据)。该SARIMA模型可以表示为(Box, 1994年等): (2)其中,和是经常和季节性AR群,和是经常和季节性MA群,B和是落后转变群,是一个与零均值不相关的随机误差项,恒定方差()。详情可在Box(1994年)等中发现有关这一模型的进一步解释。ARIMA或SARIMA的基础干预模型显示在方程(1)中,作为假定为正态分布零均值和恒定方差的误差项,适用于实值时间序列数据。尽管这一假设,这种模式正在被用来调查非负离散时间序列进程与许多应用相关,包括道路交通事故(例如,休斯顿和理查森,2002年;诺兰德,2006年等)。在以非负整数值时间序列过程中,如每月事故计数数据,有几个关于应用SARIMA模式的重大问题。第一个问题是模型的定义。一个实值的命令1的自动回归过程可表述如下: (3)为了获得一个整型值以下的限制,必须在方程(3)中实行均衡器,如(i)是整数值及(ii)=- 1,0,或1。这种制约因素限制了实际实值时间序列自动回归进程的在计数变量的框架中应用。第二个问题涉及作出正常假设的普遍性。一个计数变量,其平均计数相对较高,如大不列颠每年道路交通事故,通常认为是近似正常的分布,因此,使用SARIMA模型可以满足作为正常的假设是不会有疑问的。然而,作为一个计数变量,其意味着接近于零,如每月的道路交通事故的死亡是一个小型单元方块,其分布通常是向右倾斜的。因此,通常的,或任何其他分布的假设,是不无道理的。这类整数价值自动回归过程由INAR表示,已经由许多作者(例如,基地奥什和Alzaid ,1987年;肯思国际律师事务所,1988年;Brännäs和赫尔斯特伦,2001年;卡尔利斯,2006年)研究了。这种模式的自然想法取代了由一个随机滞后的s的影响的确定性(见方程(3)。发展的途径在和之间取代了标量乘法间通过如下定义的细化的二项式。 (4)如果是一个非负整数且,而是一个独立序列与柏努利随机变量分布一样(IID),独立的N ,且保证。值得注意的是,成为一个二项分布随机变量是有条件的,在一些成功的独立审判的每一个成功的可能性是。因此,原来的实值AR(1)方程(3)的模式别取代为 (5)的阶段行程基于和是独立的。方程(5)的第二部分在区间时进入系统的组成要素称为革新。基本的INAR的推导过程基于假设,这种假设即革新,有一个独立和相同的泊松分布,即泊松(),这里的是指由泊松定义表示为 (6)在Al-Osh和Alzaid(1987年)和麦肯齐(1988年)可以发现方程(5)的模型的属性。方程(5)中变量与相等时被称为泊松INAR(1),其中假定时间序列的基本过程是固定的(AL-Osh和Alzaid ,1987年;肯思国际律师事务所,1988年;Brännäs和Hall,2001年;赫尔斯特伦,2002年)。扩展该模型包括泊松INMA(1),泊松INARMA,注:模型INAR(1),和注:模型INARMA。这些都是可以同时处理非平稳和过度分散的计数数据(Al-Osh和Alzaid,1988年;Brännäs和Hall,2001年;卡尔利斯,2006年)。方程(5)可以使用可编程估计确切最高群(EM)可能算法(卡尔利斯,2006年)。其他时间序列模型的计数,如串行相关误差模型(Zeger,1988年)和Zegar - Qaqish模型(Zegar和Qaqish,1988年)中可以在赫尔斯特伦( 2002年)和Kedem和Fokianos(2002)中找到。3.资料上面讨论的两个数据集经常用来调查是否适宜不同类型的事故预测模型。其中之一是一个高度集中的时间序列的事故数量,另一种是相对分散的时间序列事故数量。在本研究认为高度集中的时间序列数据是每年道路交通死亡人数以GB 1950年至2005年从英国运输部(DFT的,2006年)获得的。统计到的总人数是55人,平均和标准差的时间序列过程分别是5769和1352。众所周知,在公路网中,一个事故模型应包含一个事故变量的暴露来控制总的道路交通运动。文献表明,一个良好的事故变量的暴露是车辆公里数(VKT)。GB的年度VKT数据,是从DfT(DfT,2006年)中收集到的。每年道路交通死亡和VKT数据中都显示在图1中。值得注意的是,每年道路交通死亡人数随着VKT的增加而增加,直到1966年,死亡人数随着VKT的增加而减少。这主要是由于在过去几年,不同的道路安全的措施,法规和政策的实施。例如,在1983年英国政府推出了安全带安全法,以减小事故的严重程度。在1989年,针对粗心驾驶的扣分,驾驶的保险,儿童、乘客的安全带的系带已编入法律。事故预测模型,利用这个调查数据将发展,也将在控制VKT时影响到对道路交通死亡事故的这两个措施。时间序列数据认为这项研究是关于在伦敦拥挤收费区(消委会)在1991年1月和2005年10月间的每月的汽车伤亡人数(见图2)。该区域的伤亡数据取自STATS19全国道路交通事故数据库。这个拥挤收费区的介绍是为了减少交通事故伤亡人数。据伦敦交通运输(交通局,2006年),在这个收费区,按小时的收费期间可以在总体上减少约40-70人的伤亡。从图2看这也是明显的,每月的汽车伤亡人数在干预之后减少。因此,我们期望,事故预测模型,将开发的这项研究将发现这一事实,并将确定实行对汽车伤亡的收费的影响。调查的总人数是178人,这种时间序列过程的总体均值和方差是60.98和239.77 。在大伦敦,每月道路交通事故的总人数将在所有模型中作为这个资料集发生事故的危险因素。图1 GB中每年道路交通死亡事故和车辆运行公里数图2 1991年1月至2005年10月中每月在拥挤收费区汽车的伤亡人数