假重复和野外生态学实验的设计.docx
假重复和野外生态学试验的设计摘要:假重复是指“进行推论统计以检验处理效果时 使用的数据来自于未设置重复的 试验(尽管可能存在多个抽样)或者来自于虽然存在重复但统计上不独立的实验”。在方差 分析中,它是指使用不适宜假说的误差项来检验处理效果。通过查看19601984年发表 的176个试验研究,我们发现在全部试验中有27%,或者说在使用统计检验的文章之中有48% 存在“假重复”。在研究海洋底栖生物和小型哺乳动物时,假重复的发生率特别高。本文总 结了控制试验的关键特性。“偶然事件干扰” (Nondemonic intrusion)是指在一个试验进行中 偶然事件的影响。作为对偶然事件干扰和渐变干扰的预防,处理的布局被认为是良好试验设 计的必要特性。尤其是在小规模试验中,有时仅通过避免严格的随机化程序就能保证恰当的 试验布局。区分预布局(或常规)和特定布局可以辅助理解试验布局和随机化之间的冲突(【类 错误:即本来零假设是正确的,而根据样本得出的统计量的值落入了拒绝域,根据检验拒绝 了正确的零假设)。本文章为统计人员和生态学学术期刊的编辑加深对试验设计的理解,同 时也提出了改善这个问题的建议。没有人会想到通过比较2个试验组(一个处理,一个未处理)来检验对一个试验处理的响应。-R.A. Fisher & J. Wishart (1930)野外生态学试验(通常)要么没有重复,要么只有很少的重复,因此不能很好的解决问题 -L.L. Eberhardt (1978)我不知道为什么一些人提倡一个不受欢迎的原因,除非这个人是被刺激过的或没用的。-Bertrand Russell (Clark 1976: 290)简介下面的论述是批判生态学家们如何设计和分析他们的野外试验的。也可以作为一个试验 设计的勘探基础。我的方法是:(1)讨论一些常见的试验方法和统计误区,(2)引用大量的研 究,对这些问题进行举例,(3)提出一些现在缺乏特定分类的新的术语和概念,(4)提倡将处 理布局作为一个好的设计的必要特点,(5)给编辑一些可以很快的改善这个问题的方法。我认为大多数关于试验设计或统计方面的书籍,根本没有或者只有一些简单的基础,极 少有关于设计错误的实验的例子以及关于种群、群落或生态系统水平的系统的实验方法的例 子。以技术数学和机械方面为主题的书占据大部分,这是应当的,但它们也只是分散在那些 只寻基本原则的书中。我在这里省略所有数学的讨论。引用特定研究对本文的有效性是至关 重要的。避免提及具体的负面例子相当于放弃一个强大的教学法。过去的评论太过于礼貌甚 至是歉意的,以下例子可以说明:野外试验中还有很多要改进的地方。关于正确的方法我将列出我的观点,而不是批评特 定实例(Connell, 1974)在此综述中,作者通常避免批评实验设计、缺乏研究性的引用以及结论中作为结果的 统计缺点,这足够说明大多数研究在这些方面是有缺陷的。(Hurlbert, 1975)当我写我的评论时,我似乎只挑剔细节,这必然会有被大家责骂的总效应我希望 那些我作为例子引用的作品会原谅我。我真诚地欣赏这些论文的质量<Hayne, 1978)在查阅的151篇论文中,遇到了一些常见的问题这些讨论对于个人的论文可能是不 利的甚至是不友好的(Underwood, 1981)因为我在这里既不是匿名的批判也不是盲目的赞赏,我只是表明一个显而易见的事实 调查的质量不仅仅取决于良好的试验设计,所以良好的试验设计本身并不能保证研究的 价值。本评论不评估任何作品的总体质量。他们中的大多数,尽管有设计或统计数据上的错 误,然而都包含有用的信息。另一方面,当评论人员试图通过特定领域的研究而强调评论的积极性时,他们的选择有 时似乎是不合适的。例如,Connell(1974)引用了 Boaden(1962)的“控制野外试验的最好例子 之一”;和Chew(1978)引用Spitz(1968)的“关于植物对小型哺乳动物捕食的反应的最好例子”。 然而两篇被引用的文章的实验处理都没有设置重复,因此两个实验都不受随机因素的控制 (Spitz, 1968)。此外,误用统计、处理重复的样方就犹如它们代表了重复的试验单位。这里所提出的新术语都是精心挑选的。也许数学统计学家会认为他们是不雅的,但我觉 得他们至少对生态学家以及其他与试验设计有关的人是有帮助的。统计和试验设计是一个词 汇贫乏的科目。这篇文章的大部分是关于一个统计学家称之为,随机化”、“重复”、“独立”或 “误差项”的问题,但这些概念可以应用在一个试验中的许多方面,他们以不同的方式运用到 不同类型的试验中。例如,在设计试验中,重复可以在不同的层次如楼群、试验单位、样 本、亚样本等)上设置,在许多时候重复可能是多余的或可做可不做的,但通常有至少一个 试验单位的重复是必须的,至少在假设显著性测定中会使用。同样的,术语“误差”是用于许 多不同地方或概念的的简单方法,包括:I型和II型错误、随机和试验者引起的系统误差、 组内的变异,样本中的变异,p和x的差异,等等。稍微扩大词汇量,尤其是为各种类型的 错误提供术语,就可以为我们提供方便。我从初级水平开始讨论,假设读者已经有相当于一学期课程的统计基础,但没有试验设 计的基础。事实上,用这种方法会使整个文章显得太初级而不像生态学家写的。但是我希望 我的前提和论点是明确、清晰的,如果有错误也是易于被攻击的。并且,这是试验设计的基 本原理,而不是先进或深奥的以及频繁和严重违反了生态学家的东西。试验方法一个试验有五个组成部分:假设、试验设计、试验执行,统计分析和解释。显然这个假 设是最重要的,因为如果假设按照的一些“标准'不是好的,甚至一个做的很好的试验 都是没有什么价值的。试验设计也就是“试验的逻辑结构”(Fisher1971: 2)。一个试验目标的完整描述应该指定 试验单位的性质,数量和处理的类型(包括“控制”处理),测量的试验单位的属性或响应。 一旦这些已经决定,一个试验设计就明确了哪个试验单位怎么处理,试验单位的重复数目。 试验单位的物理布局。什么时间对不同的试验单位怎么处理。一个试验的执行是试验设计中所有步骤和操作的实施。成功的执行取决于试验者的艺术 性、洞察力和良好的判断力,以及他的技术技能。当眼前的目标是简单的技术操作行为的试 验时,想要成功的执行试验者就要避免引入系统误差(偏见),减少随机误差。比如说检验DDT的影响,那么DDT必须不能含有硫、磷。如果检验一个潮间带的捕食 者的效果,通过使用排除笼子来检测,那么笼子必须在系统变量中除了捕食者外没有直接的 影响。如果研究营养对池塘浮游生物的影响,必须用相关设备对其进行取样,此技术不依赖 于浮游生物丰富度。如果在处理、取样或测量过程中出现试验误差,试验将是无效或不确定 的。试验单元之间的异质性到什么程度是允许的或者可行的,或者在试验过程中环境因子的 调节限度也存在主观判断的问题。这些决定会影响随机误差的大小和试验的灵敏度。他们也 会影响到具体的结果解释,但他们无法通过自身影响试验的形式有效性。从前面所讲的来看,很明显,试验设计和试验执行对一个试验的有效性和灵敏度具有同 等的责任。然而在实际意义上,相对于设计而言,执行是一个试验更关键的方面。在试验执 行中的错误通常在试验中以更大数量的形式出现,这往往比设计错误更精细。因此,对试 验者和其报告的读者而言,执行错误一般比设计错误更难被发现。正是由于这些未被发现的 或发现不了的潜在错误的影响,试验的执行才至关重要。尽管执行错误作为问题的来源有很 重要的地位,但在这里不再对其做进一步考虑。在试验工作中,统计学的主要功能是使统计数据清晰、简洁及客观,给出结果并解释。 统计分析和解释是试验最不重要的方面,如果只是纯粹的统计或解释所犯的错误,这些数据 可以被再分析。另外,对设计或执行错误的唯一完整的补救是做重复试验。测定性试验试验可以分为测定性试验和控制性试验两种。测定性试验只涉及一个或多个点在空间或 时间里的测量,空间和时间是唯一的“试验”变量或“处理”。测试的重要性可能不会被认可。 测定性试验通常不涉及对试验室试验人员的一些外部因素的强加。如果他们确实涉及这样一 种强加(比如,比较了高海拔的橡树与低海拔的橡树对试验中落叶的反应),所有试验单位将 被视为一样的)。例1。为了确定在湖底1米深处械树叶分解速度,我们做了八个尼龙网小袋,每个都用 械树叶填满,将它们以小组形式放置在水下l米等深线处。一个月后检查这些袋子,测定每 个袋子中有机物质量损失了多少(“分解”),并计算平均分解率。就实验本身而言这个过程是 令人满意的。然而,他没有注意到沿着l米等深线从一个点到另一点分解速度会有不同的信 息;平均速度可以用八个叶袋计算。概括关于“在湖的l米等深线的分解率”这是很草率的。仅仅由于测量过程很复杂,这样一个过程通常就被称为试验,经常涉及系统的干预或“刺 激”。如果我们在无脊椎动物试验中测量了八个温度或八个海泥样本,很少人会认为这些过 程和他们的结果是“试验”。语义改革上的努力将是徒劳的。从历史的角度看,“试验”总是以“困难”、“复杂”和“干涉” 作为其共同的含义,并不可避免地将会继续这样。这个测定性试验可以帮助我们记住其和控 制试验的区别。区别主要是,在抽样和狭义的试验中,关于测定性试验的设计的建议在大部 分的书籍中是可以找到的,如抽样技术(Cochran1963域进行普查和调查的抽样方法(Yates 1960),而不是在书中以单词“设计”为标题。可以比较的测定性试验例2。继续使用例1的例子,测试械树叶的分解率在一米和十米的等深线下是否相同。 我们在一米等深线设置八个叶包,在十米级等深线设置另外八个叶包,一个月后取回,并获 取数据。然后我们用统计分析(如T检验或U检验)来看看这两个位置是否有显著差异。我们可以称之为一个比较测定性试验。虽然我们使用两个等深缴或“处理”)和显著性检 验,我们仍没有进行真正的控制试验。我们仅仅是测量一个系统的两个点的特性并观察在它 们之间是否有一个真正的差异(“处理效果”)。在示例1中为了实现我们的目的,也许这八个袋子在一米等深线下的任何类型的分布都 是足够的。在示例2中,然而,我们已经表明我们的目标是两个等深线下械树叶分解率的比 较。因此我们不能把每个等深线的树叶包放在一个单一的地点。这将不会给我们任何关于沿 着每个等深线分解率从一个点到另一个的变化的信息。我们需要在能妥当地运用推理统计学 来测试前,知道我们的零假设(两个等深线的分解率相同)。所以在每个等深线必须安放合 适的叶包。有许多方式可以做到这一点。每个等深线的位置最好是随机挑选的,但树叶包可 以单独放置(八个地点),一组两个(四个位置),或一组四个(两个位置)。此外,我们可能会 决定这仅仅足以处理沿着湖的一侧的等深线,等等。确保野外样品或测量是分散在空间(或时间)里的。用适合特定假设被测试的方法,是测 定性试验设计中最关键的方面。在测定性试验里的假重复例3。由于懒惰,我们把所有八个包放在每个等深线的一个位置。它仍将是适用于结果 数据的有意义的测试。然而,关键是在这个试验中,如果一个'碰巧”是在l m等深线处的一 个点,第二个“碰巧”是在十米等深线的一个点,有显著差异,这两个位置(点)之间差异构 成证据。这样一个显著的差异不能被合理地解释为是两个等深线间区别的证据,即,作为“处 理效果的证据”。我们都知道,如果两套八个袋子被放置在同一个等深线的两个点,这种观 察到的重要区别是不会大于我们的发现的。如果我们坚持将有明显区别的例子3作为“处理效应”或等深线间的真正区别来解释,然 后我们说假重复术语。在方差术语分析中,假重复被认为是假设有误差项的处理效果的测试。 在例3中,基于八袋在一个位置的误差项是不恰当的。一般在测定性试验中,假重复往往是 由于实际的采样或测量的空间比隐含在被测试的假说中的推理空间小或者更受限制在控制 试验中,假重复通常是因为使用推论统计来检测处理效果的试验数据有问题,这些数据要么 处理并不重复(尽管样本可能)或重复在统计上不独立。假重复因此指的不是在试验设计(或抽 样)中的一个问题,而是试验设计(或抽样)统计分析的一个特殊结合,该统计分析不适合测试 假说的重要性。假重复现象是在测定性试验和控制试验两种文献中广泛存在的。它可以以许多形式出现。 本文是讲述关于假重复在控制试验和与控制试验相关事项的。控制试验更多相关术语一个测定性试验可能由一个单一的处理(示例1)组成,而一个控制试验总是涉及到两个 或两个以上的处理,它的目标是进行一个或更多的比较。起决定性作用的特征是不同控制试 验的试验单位接受不同的处理,试验单位的处理是随机的或者是可以随机的。需要注意的 是,在示例2中,试验单位不是叶袋子,更准确地说是测量仪器,而不是八个放置袋子的物 理位置。以下许多统计学家Anscombe(1948)使用术语来比较试验一一所谓的控制试验和所谓的 测定性试验。我觉得Anscombe的术语有误导性。它掩盖了比较也是许多测定性试验的目标 (如例2)的事实。Cox (1958: 92-93)画了一个处理因素和分类因素的区别图,乍一看似乎测定性试验和 控制性试验间有着相似的区别。但是他们之间没有。对Cox来说,“物种”将永远是一个分 类的因素,因为'物种”是一个本质性质的单位,不是指定的试验者。然而'物种”,像许多其 他类型的分类因素一样,显然可以是测量试验或控制试验的可变因素。测试阻燃木材的两种 类型(Cox的例子6.3,简化)的效果或比较橡木和槭树叶(例5)的分解率代表了测定性试验, 物种是处理变量,随机赋值试验单位(=物理位置)的处理是可能的。然而,为了测量并比较 森林中的橡树和枫树的自然光合速率,将会进行一个测定性试验。随机分配两个树种的地点 是不可能的。Cox(1958)的处理因素和分类因素的区别是有效的,它比测定性试验的分类受到较少的 批评。但它不符合试验设计和统计过程中的二分法。控制试验的关键特性控制试验是多个类别的潜在问题的关键。在表1我已经列出这些“误差的来源”;在某种 程度上试验是成功的,因为这些因素无法显示其结果的不确定或结果的模棱两可。试验设计 的任务是减少或消除这些来源的误差。为了减少误差,每一个潜在来源都列出了一个或多个 试验设计的特性。这些特点大多数都是必须有的。改良后一个试验的执行可能会进一步减少 这些误差的来源。然而,这样的细化不能替代试验设计的关键特性:控制(对照)、重复、 随机,和试验的布局。人们总是可以假设误差的特定来源是无效的,也可以简化试验设计和 相应的程序。这节省了很多工作。然而,可控试验的本质取决于其结论的有效性而不是取决 于与逼真的假设的一致性。表1、试验误差的来源及其消除方法误差的来源减少或消除误差的试验设计的特点1、时间变化控制处理2、程序影响控制处理3、试验偏差不同处理之间试验单元的随机分配; 其它程序操作的随机化;盲程序4、试验者造成的可变性处理的重复5、试验单元之间的内在或内禀变异重复处理;分散处理;同步观察6、非偶然事件的干扰重复处理;分散处理7、偶然事件的干扰时刻保持警惕,除去干扰,人的奉献表1列出了误差来源,试验设计必须遵从。“致命”和“非致命干扰”的意义下文将做 简短的阐明。控制(对照)一“控制”是另一个不幸的术语,在上下文的试验设计中有好几个意义。在 表1中,是其最传统的意义,即任何相对于一个或多个其他处理的处理将会被比较。它可能 是一个“空白,,处理(一个试验变量没有控制),一个“程序,处理(当老鼠注射生理盐水被用来作 为老鼠注射生理盐水加药物的控制),或者只是一个不同的处理。至少在生物系统的试验中,控制是需要的,因为生物系统是随时间变化的。如果我们可 以绝对肯定,随着时间的推移,一个给定的系统的属性不变,即使缺少试验处理,一个单独 的控制也将是不必要的。在一个试验单位进行处理前,可以作为试验单位处理后的控制。在许多类型的试验中,控制有第二个功能:允许试验过程中不同方面效果的分离。因此, 在老鼠的例子中,“只有盐溶液“处理似乎是一种必须的控制。额外的控制,如'只有针插入” 和“不处理”在某些情况下可能是有用的。一个更广泛和更有用的(虽然不那么传统的)“控制”的定义将包括所有必须的设计特性, 列在表1中。“控制”(时间变化和过程影响狭义的控制)。随机化控制(减少或消除潜在偏见) 试验者偏向试验单位处理的分配以及在执行其他程序。随机因素野外控制,即试验材料的野 外可变性是固有的或试验员引入的或由于干扰导致的。试验单位的空间变化属性的布置控制, 这是否代表一个初始条件或非致命干扰导致的结果?在这种似乎完全准确的状态的背景下,例如,一个试验如果缺乏重复,也是一个不受控 制的试验,它就是不可控的随机因素。把重复和控制作为试验设计的单方面的习俗是根深蒂 固的,然而,“控制”只有在这种狭隘、传统的意义上才会被使用。控制在试验环境下的第三个意思是试验被实施的条件下的规则。它可能指的是试验单位 的同质性,对特定处理程序的精度,或在通常规定的物理环境中进行的试验。因此一些调查 人员想说在2 5±1摄氏度的试验室里用小白鼠比野生老鼠“更好控制”。在这个领域中温度波 动在15摄氏度和30摄氏度之间。这是不幸的用法,因为一个试验中真正控制的妥善性(即 控制处理)相对物理条件的限制或管制来说是独立的。试验的有效性既不是这种监管的影响, 也不是统计分析被修改的结果;如果没有设计或统计错误,我们有可能拒绝认为零假设就是 指定的值P。这些事实是许多试验室科学家知之甚少的。控制的第三个含义无疑源于对古老但模棱两可的格言的误解,“除了有兴趣的,其他所 有变量保持恒定。这指的不是没有一般价值的世间万物恒久不变,这只是试验想得到的恒等 式以及除了处理变量和它的各方面影响的控制系统。重复、随机和独立在试验中重复和随机都有两个功能:提高估计的价值并且允许测 试。只是在估计方面的作用是隐含在表1的。重复可以减少“噪声”的影响或随机偏差的错误, 从而提高估计的精度,如,处理的平均值或两种处理方法的区别。部分试验者随机消除可能 的偏见,增加了估计的精度。关于试验,“重复的主要目的(没有现实的替代方法),是为了提供一个估计的误差(即, 可变性)。通过这些,比较的意义将被判断(和)随机化的目的是保证测试的有效 性的意义,这个测试是基于野外的估计误差”(Fisher197: 1: 63 - 64)。在一个试验中,试验单位处理的随机分配用什么方式授予'有效性”? 一个清晰、简洁的 回答是不经常发现的。它保证“不仅仅试验是无偏的”(Fisher197: 43),尽管这是非常重要的。 它保证平均“误差”都是独立分布的,“相似处理的成对的实验组和不同处理的成对的实验组 相比不能相距更近或更远,或者彼此在其他相关方面不能存在差异,”除非把在这个范围作 为存在一个处理效应。(Fisher1926506)。 (在她讲话的解释中,Box(1978: 146)在这一 点上插入了非常重要的限定符“平均”)。在操作术语上,误差独立性的缺失阻止我们知道第一类误差的可能性。通过一个显 著性检验的例行方法,我们可以指定(例如,a = 0.05)和查找适当的测试标准(如,t或F) 的相应的临界值。然而,如果错误是不独立的,那么真正的可能是高于或低于0.05,但在一 些情况下它是未知的。因此对统计分析的解释就变得相当主观。偶然事件和非偶然事件干扰。如果你的试验在干扰严重的区域,不管你的试验设计是否 完美你都会惹上麻烦。如果一个干扰选择对每个在处理A的试验单位“做些什么”,但没有 对处理B的试验单位“做些什么”,如果他/她/它的访问也未被发现,结果将是错误的。人们 也可以界定某些实验设计结果和致命干扰的执行错误。例如,如果在有篱笆和没有篱笆的地 段研究狐狸捕食的影响,鹰可能被吸引到篱笆墙并使用它们作为栖息地,寻找猎物。之后, 狐狸可能会对鹰在篱笆地段产生的处理效果产生防御。是否将这样的非偶然事件视为干扰或 者简单的归结为试验者缺乏远见和实验步骤控制不足是一个主观的问题。这取决于我们是否 相信一个合理周到的试验者应该已经能够预见到非致命干扰并采取措施阻止它。偶然事件干扰意味着在一个试验进展中偶然事件的影响冲击。这种干扰发生在所有试验 工作中,在数据中增加了“噪声”。大多数时候,任何单一的随机事件的影响是不可估量的。 然而,关于定义、性质、规模和频率等这样的偶然事件是不可预测的,也不是他们的影响。 如果一个事件影响着所有的试验单位的所有处理,这是没有问题的在野外试验中每一个天气 的变化将是这样一个“偶然”事件。可能更麻烦的是只影响一个或几个试验单位的随机事件。 一个试验动物可能死亡,污染事件可能发生或供热系统可能发生故障。一些偶然事件可以被 检测到,但大多数是不会的。试验者通常努力减少偶然事件的发生,因为它们减少了检测真 正的处理效果的试验力量。然而,同样重要的是要尽量减少当没有偶然事件的时候产生处理 影响的可能性。实验处理的重复和布置为避免随机事件产生的伪处理效应提供了最好的保障。处理的布局从本质上讲,在一个测定性试验(例2)中,“处理”通常在空间和/或时间上彼此隔离。相比之下,在控制试验中,处理总是在空间和时间上互相穿插的。这种布局/隔离标准 是这两种类型的试验的主要操作区分。在大多数类型的控制试验中,当试验单位被随机分配 时,处理结果的合适布局就可能会出现。然而,在某些方面,布局是更关键的概念或特征; 随机化是实现合适布局的一中简单方式,消除了可能的误差。同样,对于适当的试验设计的 初步评估,布局是一个比随机化更实际的准则。后者仅指过程,但前者表明试验的物理布局 应该看起来像什么,试验单位在空间分布上大致如何。例4.我们继续检测在1米的等深线中橡树叶(栋属)是否比槭树叶(槭属)分解的更 快。尽管这次的试验操作与我们之前的测量试验(例2,例3)很相似,但它仍是一个人为 控制试验。现在我们选择了不同物种,并在时间或空间上从两点对多于一种的系统属性进行 对比。我们将8包槭树叶随机放入0.5平方米的A试验区中,再将8包橡树叶随机放入另一个相同的相邻B试验区之中。因为这次处理是分隔但不散置的,所以比较无趣。唯一被证实 的假设就是:在A试验区的械树叶与在B试验区的橡树叶相比以不同的速率分解。试验中 所谓的“相同”的试验区基本上是不存在的,而两个试验区只要可能存在一丝微小的不同,分 解速率就会受到影响。而且,试验也没有考虑到外力入侵,即,外界产生的不可逆的影响和 偶然事件的发生。而这些也会增加试验区之间的差异。所以,这个试验并没有完全在掌控之 中。例5.我们将这两种树叶随机放入一个试验区里,并置于1米的等深线之中。这个试验 能让我们有效的检测这两种树叶是否以相同的速率分解。如果我们的目的只是比较二者的分 解速率,那么这样已经足够了。但如果我们想要阐释在1米的等深线中二者的分解对比是怎 样的,那我们就应当将两种树叶,随机散置在两个或两个以上的选定点上,置于1米等深线 上,如果我们想要把试验普及到某种湖水中,那么毫无疑问,这两种树叶必须随机分配,或 者使用这些湖水的随机样本进行随机分配。空间散置与空间分隔模式图1图解了在两种处理的试验中3种可行的散置处理方法和4种(不是5种,根据散置 标准,B-4与A-1相同)不可行的散置处理方法。试验单位可以在户外或者潮间带,可以是 试验室工作台上的水槽,可以是一小片池塘,也可以是一排试验区。有没有真实的界限都可 以。每个试验单位都使用相同的处理方法(引入鱼类,使用杀虫剂,移除海星),并各自独 立。图表1展示了一些关于每个试验设计的评论。SCHEMAA-1 Cnmpletely RandomizedJ A-2 Randomized BlockA-3 Systematic6-1 Simple 5egrBgac.i-DHB-2 Clumped SegregationB-4 Randomized, but with intBr-ddpandBnt replicatesB-5 No replicationDESIGN TYPE口 jpg j Q-fl Q图1,可以接受的重复的布局(A)和应该避免的布局(B)完全随机设计(A-1)简单随机设计是对试验单位进行分配处理的最直接最基本的方 法。然而它在生态学野外试验中却并不常用,至少在试验单位很大(池塘,或1公顷的试验 区等)的时候不常用。在这种情况下,每种处理只有少数可利用的试验单位,而野外巨大的 试验单位也是不可能的。这个时候,完全随机分配就能提供产生分隔处理而不是空间散置处 理的可能性。比如,当存在3倍重复的时候,随机数字表提供的简单分隔(图表1,B-1) 的几率约等于百分之三,当存在4倍重复的时候则为百分之十。这里我强烈反对以下观点:(Cox 1958: 71; Cochran和Cox 1957: 96)完全随机设计在“小试验”中最为适用。很明显 我们不能总指望它能给我们像A-1(图表1)这么“好”的结果。=<5-4 mh图2:三个试验不是很恰当的处理的布局(I)在森林地被物区系上雄性和雌性的捕食 率(Cox 198 1, 1982); (II)在不受保护的田地里两种啮齿类动物的去除、一种去除(S,R),都 不去除(SR)或者都去除(C)对散布的影响;(III)去除啃食者(R)和没去除(C)对海 藻的影响(Slocum 1980);阴影表示未使用部分的研究领域。我们很少能在生态学中发现严格随机导致散置处理不当的例子。试验生态学家大致分为 两派:一派是根本没有意识到散置的需要;一派是意识到了散置的重要性并根据需要采取步 骤且得到了一定成果。图表2展示了3种现存的试验布局,但其中的散置程度都差强人意。 图表2-I是我所发现的唯一清晰具体,随机程序正确运用的例子。即使如此,试验布局也只 是完全随机区组设计中四个区组之一而已。在另外两个试验(图表2-II,III)中,试验者并 没有指出给试验处理分配试验区时所运用的程序或标准。不过,这对于这种源于随机分配的 分隔布局也不算罕见。在以上三种案例里,事先存在的梯度和外力的干扰可能会产生伪处理 效果,而且此种可能性很大。随机区组设计(A-2)此种设计在生态学野外试验中很常见。在这个例子中,四个区组 各自明确,每个区组由两个试验区组成,每种处理都被随机分配到每个区组的每个试验区。 对于“有限随机化”的其他模式,随机区组设计则会降低处理偶然分隔中发生意外的可能性, 也有助于防止先前存在的梯度和外力干扰模糊处理效果或产生伪效果。关于预防外力入侵, 分区块或是其他能保证散置的程序也是很可取的。根据试验单位的属性,事先操纵的梯度是 已知或未知存在的,而随机区组设计不仅仅是一项仅适用于此种情况的技术。当结果用非参数数据分析时,此设计会有一个(弊端)。在显著性(PM0.5)差异可以通 过Wilcoxon的符号秩检测(A-2的正确检测方法)的方法证明之前,取六倍重复的最小值 是有必要的;反之,在差异可以用Mann-Whitney的U检验(A-1的正确检测方法)证明之 前,四倍重复即可。至少从实践的角度看,将U检验运用于设计A-2的试验数据并没有什 么问题,这种做法不会增加产生伪处理效果的可能性(即增加I型错误的可能性),而且它 也是评估这种混合法有效性的最好的单准则。系统设计(A-3)系统设计可以达到有规律的散置效果,但是它也有风险:干扰的间隔 时间可能与试验区周期变化的周期一致。在大多数情况下,存在这种风险的几率很小。有这么一个例子,在这个例子中系统设计似乎比随机设计更可取:有人做了一个关于影 响火烈鸟对湖泊微型底栖生物的捕食的试验(Hurlbert & Chang, 1983)。建立了四块围场, 以线性排列,每块围场的间隔相同,这些围场四周还有十块系统散置控制区。我们的解释是 火烈鸟可能是因为围场的栅栏而畏缩不前。在这个案例中围场距离的变化导致了火烈鸟活动 的控制区的变化。在我们的统计分析里,我们就完全随机设计运用了一个程序(Mann-Whitney 的 U 检验)。不管是系统设计还是随机区组设计,我们都可以将分配过程确立于设计的内部属性而不 是试验单位的定位。假设我们的研究是关于土壤螨类,那我们就能事先安排好土壤中螨类密 度,再因此排列试验区。我们可以给奇数排列的试验区分配一种处理方法,给偶数排列的试 验区分配另一种。在这个过程中,我们事先控制螨类的密度,再经过两次或两次以上的取样 期处理,螨类的密度都是平均的。把分配过程确立在设计的内部属性而不是试验单位的定位上存在着一个风险:分配可能 会以空间分隔处理结束(比如B-1),而完全随机设计也有着同样的风险。风险随着每种处 理方法中样品数目的增加而降低。混合法既考虑到了定位也考虑到人为内部属性,而且在本质上也是根据个人主观态度将 处理方法分配到试验单位中去,目的是达到适当的空间散置,还有处理方法与样品单位(在 处理单位中)之间的人为可变性的最小值。我们也将它运用到杀虫剂(Hurlbert et al 1972) 和鱼对浮游生物数量(Hurlbert & Mulla, 1981)的影响的研究中去。在后者的试验中,最初有 三种处理方法(每个池塘分别有0条,50条,450鱼)和有限不等的重复(每个处理方法分 别有5个,4个和3个池塘)各池塘存在浮游生物的差异性。这些不等的重复反映出我们的 观点:人为操控下的池塘里浮游生物的总量的变化与鱼的密度成反比。在这种情况下,很难 有什么方法能比分配散置更适用了。简单集群分隔(B-L2)这种类型的方法很少在生态学野外试验中运用°Vossbrinck(1979), Rausher( 1980)和Warwick等(1982)给出了三个例子。大概是人们意识到自然界独立重 复的必要性,也因此意识到散置处理的必要性。处理分隔在室内试验更为常用。任何种类的分隔处理都有一定的风险一分隔处理很容易导致伪处理结果,比如I型错 误,伪处理结果可能是由以下其中之一或二者共同导致的。第一,在进行试验之前,两种处 理的差异可能已经存在。理论上这些差异是可以被检测出的,但这也需要丰富的相关知识和 精确的研究工作。第二,在进行不受结果支配的试验时,定位差异会由于外力干扰而被进一 步拉大。例6为了检测杀虫剂对浮游生物数量的影响,我们准备了 8个装有浮游生物的水槽, 并放置在试验室的工作台上。我们将杀虫剂注入左边的四个水槽,也密切关注另外4个水槽。 建立像这几种及其相似的初始条件相对简单,只需要确保所有的水槽都有相同的物种和光照 条件等。在这样的试验里,试验系统建立后的突发事件最有可能成为产生伪处理结果的'温床。 比如说,工作台一头的灯光暗了一下,然后就会在整个工作台上产生光照梯度,而我们并无 法察觉。那么一个伪处理结果就因此产生了。或者,灯泡完全坏了,而我们在48小时之后 才发现,在这种情况下,如果我们想亡羊补牢,那么我们就要换灯泡,制定一个更好的试验 设计,取消此次试验然后一切从头开始。否则,出现伪处理结果的可能性将会很大。例7设想:有人将一瓶开封的甲醛搁置在工作台的一边,过了一下午,试验台周围到 处都是甲醛气体,而我们对此也一无所知。这时我们会发现杀虫剂可以刺激浮游生物的光合作用。但事实上这只是因为那瓶开封的甲醛而已!不仅在这个试验中,在很多室内试验中,处理配置对于确保初始条件并没有那么重要。 因为这两种处置很相似。但是,当处理配置作为对外力干扰和对突发事件的控制手段时,是 极其关键的。如果杀虫剂和水槽能够合理的散置,那么即使灯泡和甲醛对两种处理的差异不 会产生影响,但是却可能导致每种处理方法中水槽的差异。不过这样也排除了产生伪处理结 果的可能性,但同时也会使真正的试验结果扑朔迷离。例8我们重复了浮游生物和杀虫剂的试验。这一次,我们使用了简单分隔处理(B-1), 并在试验池塘里进行了试验。因为是野外试验,所以分隔处置会造成双重风险。试验既没有 控制事先存在的定位差异(比如土壤类型存在梯度),也没有确保定位差异在试验中不会被 拉大(比如,如果试验池塘组的一边有树林,那么靠近树林的那个池塘可能已经是两栖动物 活动栖息地了,刮风下雨时,泥沙更容易流入逆风的池塘而不是顺风的池塘。)孤立分隔(B3)孤立分隔是室内试验常见的设计方法,但它却没有受到实地生态学家 的青睐。它会以极端的方式引发简单分隔所有的全部风险,因而伪处理结果也很容易产生。 在关于气温的影响的研究中,人们通常会使用恒温室、生长箱或保温箱,但这些设备价格昂 贵、数量有限,而且经常是许多人合用。尽管两个这样的生长箱看似一模一样(除非设置了 不同的温度),但事实上,在某些方面(光照,有机挥发物等)它们还是有差别的,尽管人 们也在尽力避免这些差异。在鱼类的生理机能和成长过程的研究中,试验者通常使用一个水槽,水槽里混合了各种 鱼。每一种处理方法(温度,食物等级等)都是如此。如果鱼的种类是我们所关注的试验单 位,那么这种试验就会被看做是对孤立分隔处理的示例(设计B-3)。如果水槽是直接受操 控的试验单位,那么这种试验就会被看作是缺少重复处理的试验(设计B-5)。在例7中,孤立分隔方法而导致的伪处理结果被认为是甲醛溢出造成。伪处理结果产生 的环境是不太可能存在的。因为在这个环境中,甲醛有显著的密度梯度,能免受房间中正常 的空气循环的影响,并且能长期坚持在一排水槽边萦绕不散。在我们的新例子中,不管是在 恒温的房间里还是在水槽里,即使是溢出的一点点甲醛都会导致外来变量处理方法布局的不 同。而且处理方法受过污染之后,其样品也会比例7中的样品更为显露。随着处理中差异的 减小,这也会进一步增加产生伪处理效果的可能性。随机但是组内相互依存设计(B-4)到目前为止,我们主要集中研究空间散置,并把它 作为确保统计独立的方法,但这也不是金科玉律。设计(B-4)(图表1)反映了一种试验安 排。在这个设计中,8个水槽平均分为两批,每一批都共用一个加热器,一个通风器,一个 过滤器,和一个流动器。尽管这个设计有充足散置设备,但是它却没有孤立分隔使用。而且 这种设计也容易产生伪处理结果。对于涉及这种系统的试验,每个重复都应该有各自的独立 维护系统。使用这种方法,电机故障、污染事件或是其他的外力入侵都只会影响到单个的试 验单位,不会产生伪处理结果。同样令人满意的是,所有的处理的试验单位都会与同样的保 持系统相联系。随机和布局综上所述,我们可以显而易见地看出人们在使用随机化程序和散置处理时存在着分歧。 随机化处理有时会产生这样的布局:处理方法在空间上分隔,特别是在野外调查样方很小并 且运用了完全随机设计的方法获取样方的时候。运用严格随机设计(随机区组,拉丁方)会 减小极端分隔布局的可能性,但这不表示不会出现一定程度的分隔,这种分隔让那些谨慎的试验者们接受不了(图表3)。A BC D C DA BB A D C DC B ACBBAB图3。隔离散置四个处理的例子,每个重复四次,使用 严格的随机化程序,可以导致:(I)随机区组设计,(II)拉丁方设计。Cox(1958: 85 - 90)讨论了三种解决问题的方法。其中最简单最有用的是第二个:当 该布局出现时,如果布局高度分隔,再进行随机分配,直到出现令人可接受的散置。理论来 讲,接受度的标准是提前规定好的,由这个程序引出设计。通常,这种设计比那些通过严格 随机程序得来的设计要更加散置(系统或均衡)。但是这个程序也会阻碍我们对出现第I类 错误可能性做出精