时间序列干扰分析非重复大尺度实验.docx
《时间序列干扰分析非重复大尺度实验.docx》由会员分享,可在线阅读,更多相关《时间序列干扰分析非重复大尺度实验.docx(19页珍藏版)》请在三一办公上搜索。
1、第9章: 时间序列干扰分析:非重复大尺度实验Paul W. RasmussenDannis M. HeiseyErik V. NordheimThomas M. Frost91 非重复的研究一些重要的生态学问题,尤其是那些在大尺度或独特尺度下的生态学问题,重复和随机几乎不可能 (Schindler 1987; Frost 等 1988; Carpenter 等 1995)。例如,假如我们想知道湖水酸化是如何影响龟甲轮虫属种群, 那么我们主要的工作就是将单独的小湖泊进行酸化,因此,这样的操作也许只能在一个湖中进行。即使是有酸化前的基础数据,这样的实验也不可能重复地进行,因此不能够采用传统统计方法
2、来进行分析,例如方差分析(第4章)。一种可替代的方法就是采用一些生物学或物理学模型,这些有趣的系统模型允许进行重复。例如,我们可以在湖中建一些小而相同的围栏并将它们中的一些进行酸化。尽管这(在实施适当的情况下)能够使我们对这些小实验单元的差异进行有效的统计分析,但是,这种模型能否在湖泊生态系统中进行有效的生态学普遍应用仍有置疑(Schindler 1987)。对于大尺度现象,小尺度模型的实验应用于大尺度研究仍然不能令人信服(尽管他们可能提供有价值的补充信息)。 我们将在本章检验一些非重复研究类型是如何利用以时间序列数据发展起来的技术进行分析。时间序列是取自相同的实验单元在不同时间进行的重复测量
3、或采集子样本。时间序列分析技术包括能确定一个序列平均水平上非随机变化是否已经在以前特定时间内发生的方法。这种分析的结果能够帮助确定那些特定时间之前发生的其他变化或操作是否可能导致了观察系列中的变化。我们描述的这些方法利用了许多可用于大尺度研究中的长期数据(还见于Jassby和Powell 1990; Stow等 1980)。以前的一些作者已经提供了许多的评价这些研究的技术,包括从图示的方法(Bormann和Likens 1979)到更加复杂的统计分析 (Matson和Carpenter 1990)。这些技术都强调了时间序列数据,并通常需要对处理和参照系统中处理前后量测数据序列进行比较(例如,S
4、tewart-Oaten et al.1986; Carpenter et al. 1989)。尽管有很多其他的时间序列方法也可以使用,但我们将着重讨论时间序列方法在ARIMA模型技术的应用。我们首先考虑时间系列数据如何影响传统统计分析方法的应用和解释(第9.2节)。第9.3节中举出一些非重复时间序列设计的例子。第9.4节介绍一些时间系列分析的重要概念和思想。第9.5节描述干扰分析,这是一个时间序列分析的扩展,对检验人工处理或自然干扰的时间序列的影响是有用的。第9.6节举例说明干扰分析在整个湖水酸化实验中的应用。(如果你不是一个水生生态学家,那么你可以在你的脑子中用你喜欢的生物体和生态系统分别
5、来代替“龟甲轮虫”或“湖泊”,在我们的实例中,原理和潜在的应用都是通用的。)我们将在第9.7节讨论一些有普遍性的议题。92 重复和实验中的误差我们首先简要地回顾一下湖水酸化的例子。对于检验湖水酸化对龟甲轮虫密度影响的传统实验设计如下所示: 1 确认我们想要将进行推论应用的所有湖泊。2 从这个湖泊总体中随机选择四个湖。 3 从这四个湖中随机选择两个进行酸化。4 将其它两个湖作为参照,或控制湖泊。假设已有对四个湖泊的处理前后龟甲轮虫密度的估计;对每一个湖泊,我们能够计算处理前后之间的变化(差异)从而可以进一步分析。然后再考虑到典型湖泊变异性后,继续用传统的分析方法来检验酸化湖泊中的变化是否始终与参
6、照湖泊中的变化不同。这种典型湖泊变异性,或试验误差,仅仅能够利用每一组内已有重复湖泊进行估计。(要想评估试验误差,每一组最少两个湖泊,尽管每组仅有两个湖泊的设计通常得到相当粗略的实验误差估计Carpenter1989)。传统方法的一个重要的特征是我们能够详细给出当酸化不存在的情况下却错误地认定有酸化影响的概率(类错误的概率 译者注)。尽管将更多的湖泊进行酸化是很困难的,但从单独酸化处理的湖泊得到处理前后的长期数据确是可行的。使用这样的序列,根据典型湖泊的可变性判断,我们能够检验与是否在处理时数据序列发生了一些不寻常变化相关问题,这可与全部时间内数据序列发生正常变化进行比较做出判断。在这里检验的
7、假设要比传统的假设要弱。这种假设检验仅仅能够回答在处理时是否发生变化这类的问题;而不能解决这种变化是由于处理还是由于一些其他偶然的事件引起这样的问题(Frost等 1988; Carpenter等 1998)。无重复情况下由于处理而导致变化的案例基本上是类似于统计学问题的生态学问题;这些争论通常能够被那些证实了的数据所支持,例如围栏试验。在下一节,我们要讨论时间系列的设计,这种设计在某种程度上防范了对假变化的认可。 确定某一时间内时间序列的正常变化要比确定一个重复实验中的实验误差更困难。在一个随机重复实验中,假定实验单元是互相独立的,这样就能够极大地将统计模型简单化。另一方面,时间序列的量测通
8、常互相依赖或自相关;即将来能(至少部分地)从过去来预测。时间上的系统变化依赖于其自相关结构,并且时间序列分析大都集中在对这些结构模型的构建和评估上。我们提醒读者要防止将时间上的亚抽样(subsampling)视为真正的重复并在分析非重复的试验中当作是有重复的。在一些例子中,可能已经证明一些传统的检验如t-test能够应用到时间序列上。如果分析表明量测数据间不是自相关,那么这样的检验就能够被采用(Stewart-Oaten et al. 1986)。尽管如此,一定要记住这种被检验的假设必须在实施处理时对检验水平有所改变,而这种变化可能并不是由于处理而产生的。要想有效地实施生态学实验,就必须对这些
9、问题有一个的基本的理解;这方面的讨论可参看Hurlburt (1984) 和Stewart-Oaten 等 (1992)。照例我们不应该鼓吹非重复的设计,但是它们有些时候是必要的。尽管时间序列有很具体的方法,在解释结果时仍需谨慎。没有重复,我们就不能够保证我们对用于判断处理效果的基本误差有充足的了解。然而,有几个方法可以增强在这方面解释的置信度。这包括1)考虑自然的可变性的信息,这些信息是被操作系统类型所特有的 2)在大尺度的操作范围内融入小尺度的实验 3)发展评估过程的仿真、机理模型(Frost 等 1988)。93 非重复时间序列设计假定一个生态学家在一个湖泊中监控龟甲轮虫密度5年,每两周
10、观测一次,然后将湖水酸化并继续监控该湖泊5年。在这个例子中,对单个的实验单元(湖泊)随着时间的观察是有顺序的(时间序列)。我们将这样一个干扰内的单独序列称为前后设计。(酸化就是干扰)有时可能并不会像预期的那样,自然界会对某个系统施加干扰。这可称作是自然实验。在这种情况下,可能没有其它选择,不得不采用简单的前后设计。这类设计最倾向于出现会被错误地认为是干预影响的巧合“跳跃”(数据的突然变化译者注)或趋势。当处理是在观察者的控制下时,就有可能改善前后设计。一个简单的改进是设立多重干扰,或在处理和控制条件之间来回变动。如果每一个干扰都得到一个一致的响应,那么观察到的反应仅仅是巧合的可能性就会减少。采
11、用配对单元的设计也是有用的。一个单元在研究的过程中接受了一个处理(干扰),另一单元则作为参照或基础值而不施以处理。处理前后在这两个单元内同时重复取样。Stewart-Oaten等(1986) 已经讨论过这种设计,而更早的讨论见于Eberhardt (1976),虽然这种方法已经在这两个讨论之前被野外生物学家们应用(见Hunt (1976))。我们依Stewart-Oaten等(1986)将这种设计称为前后控制影响(BACI)设计。在一个BACI设计中,参照单元提供一个与处理单元进行比较的标准。这就有助于确定在处理单元中的变化是否是由于处理本身,长期的环境趋势,自然的变化,或其他一些原因所致。在
12、使用BACI设计时应考虑两个重要因素,即实验单元,时机的选择以及确定每一单元的样本数量。处理单元和对照单元应该在所研究系统中具有代表性,从而在这些系统中,观察到处理的影响能代表整个系统,并且它们相互之间物理和生物特性应该是相似的。常见的做法是样品采集间隔是均匀的,采样时间间隔依赖于所研究种群或现象变化的速率(Frost等1988)。例如,种群变化迅速的昆虫或浮游动物需要一年采样多次,而变化慢的脊椎动物或植物种群通常一年仅采样一次。采样的频率依赖于所研究的系统和所提出的具体问题。每一个评估时期的持续时间(处理前后)是由自然周期、随机时间波动幅度,和所研究的生物体的生命周期决定的。当随机波动很大、
13、循环周期更长或研究的生物体是长寿时,就需要更长一些的采样间隔时间。我们将采用一个多重干扰的BACI设计的例子来详细展示一个真正的非重复设计的一些分析和解释的细节。这个例子关注的是小石湖酸化的影响,小石湖是位于威斯康辛北部的一个小贫养渗出湖(Brezonik等1996)。从1983年开始,这个湖已经成为研究渗出湖对逐渐酸化反应的一个生态系统水平试验的地点(Watres和Frost 1989)。小石湖被不透水乙烯基塑料布分成处理和对照两部分。在经过一个观察的起始期后(1983年8月到1985年4月),处理部分逐渐用硫酸将其酸化成三个pH值目标水平,5.6 、5.1、 4.7,每一个pH值水平保持两
14、年。而对照部分在整个实验过程中保持平均pH值 6.1水平。详细的湖泊学特征可以参看Brezonik等 (1986)。我们在这里的分析将集中在随着酸化,龟甲轮虫(Keratella taurocephala)种群将会发生明显的变化。制定一些好的非重复设计需要一些创造力。要分析好结果数据也同样如此。对大多数有真正重复的研究来说分析方法(例如方差分析)相当简单。然而,大多数无重复试验的分析就不那么清晰,且常趋向于主观。如果时间序列的数据长度足够的话(至少50个观测资料),那么就有可能采用具有严格理论基础的统计技术。我们将在9.4章节 和9.5章节讨论一些这样的技术。这些统计模型通常的目标是发现一个简
15、化的模型、一个能够很好的处理数据的简单模型。简单的说,我们想要一个生物学和物理学都合理的模型,且该模型能够利用较少的参数来进行评估。我们将对单个干扰的时间序列采用恰当的分析技术。在接下来的两部分章节也将看到,正确地采用这些技术需要掌握某一定的基本技能并且要非常小心。除非你在这个领域已经很熟练了,否则我们建议在进行分析时请教一下统计学家。94 时间序列时间序列分析包括大量统计技术用于分析具有时间次序序列依赖性的观察结果。我们将集中于讨论以自回归综合移动均值模型(AutoRegressive Integrated Moving Average Models-ARIMA)发展的时间序列技术的一个子集
16、。对于ARIMA模型的经典参考文献请见Box和Jenkins (1976)。其他的参考文献有MaCleary和Hay (1980), Cryer(1986) ,Diggle (1990), 和Wei (1990)。ARIMA模型很有价值,因为他们能够仅仅利用很少的参数来描述广泛的过程(由随机模型产生的事件次序)。此外,用于识别,估计和检查ARIMA模型适应性的方法已经有很好的研究。这些模型在模拟离散、(通常)均匀时空间隔观察结果的时间序列时是很合适的。ARIMA模型包括两个基本类型的模型:自回归(AR)和移动均值模型(MA)。AR模型与时间t的观察结果与早期观察结果一起进行回归。首先,我们介绍
17、一些符号含义。设yt是初始时间序列,也就是t时间的龟甲轮虫密度。用以均值为中心的序列来论述较为方便,也就是说,Zt=yt-u; Zt是t时间密度对长期平均值的离差。则用于中心龟甲轮虫密度的p=2阶AR模型(标示为()有以下形式:Zt = 1Zt-1 + 2Zt-2 +t(9.1)这里的 是系数(如同回归系数),t是在t时间的随机误差(通常假定与0均值和2方差不相关)。这个模型所表述的是目前龟甲轮虫种群密度是以前两次取样的密度加上随机误差的线性方程。MA模型将时间t观察的随机误差与现在和过去的随机误差t联系起来。例如, q=2阶的MA模型可表示为:Zt =t1t-1 +2t-2 (9.2)这里是
18、系数。更多通用的模型可包括AR 和MA,所谓的ARMA模型(注意,ARIMA模型包括ARMA模型,以下同)。拟合ARMA模型的作用就是用自回归和移动均值来描述所有的序列依赖性从而使残差或估计误差项看上去像无相关的随机误差或白噪音。ARMA过程要求在观察的整个时间内,无论什么样的时间间隔,都要有相同的均值、方差和自相关格局。 这是对所说的稳态(stationarity)基本特性的一种直觉的描述(更为严格的定义请见引用文献)。尽管缺乏真正的重复,稳态允许有效的统计推论和估计。就像重复是建立在过程中一样,稳态过程展示了不同的时间间隔下相同的行为。因为观察结果之间的自相关依赖于它们之间时间段的数目,所
19、以观察结果通常一定是有相等的空间间隔。然而对于一些生物学过程,这是否有必要还不清楚。例如,在浮游动物丰度之间的两周自相关系数在种群变化慢的冬天就要大于种群变化快的夏天。因为在自然界中许多的观察过程是非稳态的,因此找到一种修正观察时间序列的方式就十分必要,以便于修正后的序列是稳态的。如此,有很少参数的ARMA模型就能够用于修正后的数据了。要做到这一点有两种方法。一是将一些确定性的方程引入模型,例如整个时间内的线性趋势、已知时间里加一步或周期性的方程,例如正余弦,来表示季节性行为。另外的一种方法是针对序列进行差分,也就是说,计算新的观察结果如Zt-Zt-1(第一个差异)或者Zt-Zt-12(与周期
20、12的季节性变化)。差分是一个较通用的方法,因为它能够同时表示确定性的和随机的趋势。在另一方面,当确定性的趋势有特殊意义时,通过差分来拟合这些趋势要比简单的处理掉它们可能更合理。由于它的较大通用性,我们将集中讨论通过差分来得到稳态。描述一些过程可能需要AR和MA二者的参数以及差分。这就产生了有pAR参数、qMA参数和d差分ARIMA模型(标示为ARIMA(p,d,q))。例如,ARIMA(1,1,1)模型有如下形式:Xt =1Xt-1+t1t-1 (9.3)同前述,式中xt = zt zt-1和t是不相关的误差。Box和Jenkins (1976)为确定ARIMA模型来自数据的恰当形式发展了一
21、些方法。他们的方法要求计算样本的自相关系数和相关的来自数据的方程,并利用这些方程的相关性质来确定可能的ARIMA模型。每一个样本在时间距k的自相关系数rk(即相距时间段观测值间的相关系数)在时间距为 1,2 被计算出来以获得样本的自相关方程(ACF)。一个相关的方程,样本的偏自相关方程(PACF)表示当调整为在中等时间距状态下的自相关时时间距为时样本观察结果间的自相关关系。此模型确定过程包括确定用于拟合ACF、PACF结果的ARIMA模型的子集并将原始序列标绘出来。原始序列可能会显示出长期趋势或季节性行为,因而意味着非稳态。对于非稳态序列的ACF也会非常缓慢地下降到零。如果序列出现非稳态,那么
22、它应该在进一步检验ACF和PACF之前差分,直至它稳定为止。理论上ACF 和PACF对任何特定ARIMA模型都给出可鉴别的信号。在ARIMA模型中,样本ACF 和PACF 是从希望能够辨认出这种信号的数据(可以是差分出来的数据)中来估计的,并因此确定恰当的ARIMA参数化方式。对于纯MA模型的理论ACF仅在低时间距的情况下才有大值,而PACF下降更为缓慢。具自相关的非零时间距数目给出MA模型的阶q。对于纯AR模型来说则正相反,在那里只有ACF下降更为缓慢时,PACF在低时间距的情况下才有大值。在这种情况下,非零偏自相关系数的数目确定AR模型的阶数p。通常低阶(1或2)AR或MA模型对观察到的序
23、列有好的拟合,但可能要求模型同时有AR 和MA二项。这个模型的拟和程度将通过检验残差来实现。残差样本ACF 和PACF在任何时间距都不会有大值,也不显示任何明显格局。Box 和Jenkins(1970)提出了一个对缺乏拟合度的全面检验,后来该检验已经被精炼了(Ljung和Box 1978)。95 干扰模型干扰分析扩展了ARIMA建模方法以研究已知事件或干扰对时间序列的影响。干扰或处理的反应可有不同的形式。两个最简单的形式是:一个是干扰后形成在新水平上的永久跳跃,另一个是干扰时暂时的波动,或峰值。例如,在ARIMA模型中一个步骤变化能够表示为:Zt = St + Nt (9.4)式中St=0表示
24、干扰之前,St=1表示干扰时和干扰后,是系数。Nt 是一个ARIMA模型。在这个公式里,如果原始数列不是稳态的,Zt可以使用差分出来的序列。要模拟一个有峰值或波动的反应,令St在干扰时为1,否则为0。Box和Tiao (1975)讨论了一些更复杂的模型,如线性或非线性增加到新水平。McCleary和Hay (1980)给出一些说明的例子。干扰和反应之间的时间距也能够通过用不同的时间距拟合模型来检测。一般没有直接的方法可以通过观察时间序列本身来确定干扰模型ARIMA形式。通常一个可能的ARIMA模型是从一个整体序列或者是单独地从干扰前后的序列得到。对于干扰的反应形式可以通过检验没有干扰的ARIM
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 时间 序列 干扰 分析 重复 尺度 实验
链接地址:https://www.31ppt.com/p-1732874.html