方差分析-田间试验统计.ppt
第六章 方 差 分 析,5.1 方差分析的基本原理,上章介绍了一个或两个样本平均数的假设测验方法。本章将介绍k(k3)个样本平均数的假设测验方法,即方差分析(analysis of variance)。这种方法的基本特点是:将所有k个样本的观察值和平均数作为一个整体加以考虑,把观察值总变异的自由度和平方和分解为不同变异来源的自由度和平方和,进而获得不同变异来源的总体方差估计值。,其中,扣除了各种试验原因所引起的变异后的剩余变异提供了试验误差的无偏估计,作为假设测验的依据。,上一章学习一个或两个样本平均数的假设测验方法本章将学习k3个样本平均数的假设测验方法。在k3个样本能否用统计推断的方法进行两两测验呢?回答是不可取的。主要原因是会提高犯第一类错误的概率。例如,用一对一比较的方法检验5个平均数之间的相等性,共检验10对。假设每一对检验接受无效假设的概率都是1-=0.95,而且这些检验都是独立的,那末,10对都接受的概率是0.9510=0.60,=1-0.6=0.40,犯第一类错误的概率明显增加。解决这一问题的一种统计方法,叫做方差分析法。此法将所有k个样本的观察值和平均数作为一个整体加以考虑,把观察值总变异的自由度和平方和分解为不同变异来源的自由度和平方和,进而获得不同变异来源的总体方差估值。计算这些估值的适当的F值,就测验假设H0:1=2=3=k(各总体平均数相等),方差分析是科学的实验设计和分析中的一个十分重要工具。,5.1.1 自由度和平方和的分解,方差是平方和除以自由度的商。要将一个试验资料的总变异分解为各个变异来源的相应变异,首先必须将总自由度和总平方和分解为各个变异来源的相应部分。因此,自由度和平方和的分解是方差分析的第一步。下面我们首先用一个例子来说明这一问题。,例5.1以A、B、C、D4种药剂处理水稻种子,其中A为对照,每处理各得4个苗高观察值(cm),试分解其自由度和平方和。,1、总变异 把表中的全部观察值作为一个组看待即把4个处理(4组、每组有4个观察值)合并成一组,共有16个观察值,根据前面讲过的计算平方和的公式,可以计算出总变异的平方和和自由度,自由度DFT=nk-1=44-1=15。表中的每一个观察值,即包括有处理的效应(不同药剂对苗高的影响)又受到误差的影响。,其中:,称为矫正数,用C表示。,2、误差效应表中处理内(组内)各观察值之间,若不存在误差,则各观察值应该相等,由于误差是客观存在的,因而处理内(组内)各观察值之间必然是有差异的,因此,可以用组内(处理内)的差异度量误差效应:,药剂A内:,药剂B内:,药剂C内:,药剂D内:,从理论上讲,这4个误差平方和除以相应的自由度得的误差均方都可以作为总体误差方差的无偏估计值。但是,用它们的加权平均值来估计总体误差方差,则效果更佳。所以:,每个组内(处理内)的自由度为:n-1=4-1=3,所以误差的自由度为:DFe=k(n-1)=4(4-1)=12,3、处理效应,如果没有处理效应,表中各个处理(组)平均数,来度量处理效应。,从理论上讲均应该相等,因此可以用,为了进行正确的F 测验,必须使它们都是估,应为:,需要注意的是,,系样本平均数的方差,,是,的估值,而,则是,的估值,本例中 平方和:602=504+98自由度:15=3+12因此误差平方和可以采用简单的办法计算SSe=SST-SSt=602-504=98。进而可得均方:,平方和与自由度的分解归纳为下表,将上述例子推广到一般,设有k组数据,每组皆具n个观察值,则资料共有nk个观察值,其数据分组如表6.1(P99)。,5.1.2 F分布与F测验,一、F 分布 在一个平均数为、方差为2的正态总体中随机抽取两个独立样本,分别求,按上述方法从正态总体中进行一系列抽样,就可得到一系列的F值而作成一个F分布。它是具平均数F=1和取值区间为0,的一组曲线;,而某一特定曲线的形状仅决定于参数1和2。F分布下一定区间的概率可从已制成的统计表中查出。附表5给出了各种1和2下右尾概率=0.05和=0.01,二、F 测验 在方差分析的体系中,F测验可用于检测某项变异因素的效应或方差是否存在。所以在计算F值时,总是将要测验的那一项变异因素的均方作分子,而以另一项变异(如误差项)作分母。,F测验需具备的条件:(1)变数y遵循N(,2);,=8.17,具有自由度1=3,2=12。试测验药剂间变异,是否显著大于药剂内变异?,假设H0:,对HA:,=0.05,查附表5在1=3,2=12时 F0.05=3.49,F0.01=5.95实得F F0.01 P0.01,测验计算:,将例6.1和例6.3的分析结果归纳在一起,列出方差分析表如下:,水稻药剂处理苗高方差分析表,5.2 多重比较,5.2.1 最小显著差数法,最小显著差数法(least significant differrence,简称LSD法),例6.4 试以LSD法测验各种药剂处理的苗高平均数之间的差异显著性。,由附表4,=12时,t0.05=2.179,t 0.01=3.055故 LSD0.05=2.1792.02=4.40(cm)LSD0.01=3.0552.02=6.17(cm),不同药剂处理水稻苗高平均数比较(LSD法),a,b,c,c,A,A,B,B,C,C,5.2.2 q 法,q 测验方法是将k个平均数由大到小排列后,根据所比较的两个处理平均数的差数是几个平均数间的极差分别确定最小显著极差LSR值的。,例6.5 试以q法测验各种药剂处理的苗高平均数之间的差异显著性。,查附表7,得到当DF=12时,p=2,3,4的q值,LSR值,不同药剂处理水稻苗高平均数比较(q法),5.2.3 新复极差法,新复极差法,又称最短显著极差法(shortest significant range),与q法相似。计算LSR值查的是SSR值(附表8)而不是q表。,LSR值,1.标记字母法,A,B,2.列梯形表法,3.划线法,29cm(D)23cm(B)18cm(A)14cm(C),5.2.4 多重比较方法的选择,1、试验事先确定比较的标准,凡是与对照相比较,或与预定要比较的对象比较,一般可选用最小显著差数法LSDa法;2、根据否定一个正确的H0和接受一个不正确的H0的相对重要性来决定。参考以下几点:根据试验的侧重点选择。三种方法的显著尺度不相同,LSD法最低,SSR次之,q法最高。故对于试验结论事关重大或有严格要求时,用q测验,一般试验可采用SSR法。,方差分析的基本步骤:(1)分解平方和与自由度;(2)F测验;(3)平均数的多重比较。,5.3 方差分析的线性模型与期望均方,5.3.1 方差分析的线性数学模型,方差分析是建立在一定的线性可加模型的基础上的。所谓线性可加模型是指总体每一个变量可按其变异的原因分解成若干个线性组成部分,它是方差分析的基础。,表6.1数据的线性模型可表示为:,式中,为总体平均数,i为试验处理效应,ij为随机误差具有N(0,2)。,在以样本符号表示时,样本的线性组成为:,是的无偏估计值,,5.3.2 期望均方,在线性可加模型中,由于对i有不同解释产生了固定模型(I)和随机模型(II)。一、固定模型(fixed model)指试验的各处理都抽自特定的处理总体,其处理效应i=(i-)是一个固定的常量,我们的目的就在于研究i,所测验的假设是H0:i=0或H0:i=。,一般的栽培和饲养试验,如肥料试验、药效试验、密度试验、饲料试验、品种试验等均属于固定模型。,例6.8以5个水稻品种作大区比较试验,每品种作3次取样,测定其产量,所得数据为单向分组资料。本试验需明确各品种的效应,故为固定模型,方差分析和期望均方的参数列入下表:,5个水稻品种产量的方差分析与期望均方表,固定模型的处理效应(本例为品种效应)i属于固定效应,固定效应的方差用表示。固定模型的F测验,二、随机模型(random model)指试验中的各处理皆是抽自N(0,)的一组随机样本,因而处理效应i是随机的,它会因试验的不同而不同;故我们的目的不在于研究i而在于研究i的变异度。随机模型在遗传、育种和生态的研究试验方面有较广泛的用处。,例6.9研究籼粳杂交F5代系间单株干草重的遗传变异,随机抽取76个系进行试验,每系随机取2个样品测定干草重(g/株)。因这76个系是随机抽取的样本,要从这些样本来估计F5代系间单株干草重的遗传变异,故这是随机模型。其方差分析的结果如下:,随机模型的F 测验,本例中系统内 MS 估计了2,因而,这是测验处理效应的变异度,而不是测验处理效应本身。本例F72.79/17.77=4.09F0.05,说明单株干草重存在遗传变异。,5.4 单向分组资料的方差分析,5.4.1 组内观察值数目相等的单向分组资料的方差分析,每组具n个观察值的k组数据的符号表,组内观察值数目相等的单向分组资料的方差分析,例:研究6种氮肥施用法对小麦的效应,每种施肥法种5盆小麦,完全随机设计。最后测定它们的含氮量(mg),试作方差分析,1.自由度和平方和的分解自由度:总变异的自由度=65-1=29处理间的自由度=6-1=5误差的自由度=6(5-1)=24平方和:(按照公式进行计算)SST=45.763 SSt=44.463 SSe=SST-SSt=47.763-44.463=1.3002.F测验(见下表)方差分析表,单向分组资料的方差分析,3.各处理平均数的比较,单向分组资料的方差分析,多重比较结果:,2、组内观察值数目不等的单向分组资料的方差分析,其方差分析表为:,方差分析表,设有K个处理,每处理中的观察值数目分别为n1,n2,nk的资料,其数据类型如表:,例:调查4种不同类型的水稻田28块,每田稻纵卷叶螟的百丛虫口密度如表,问不同类型田的虫口密度有无差异?,表 4块稻田的虫口密度,a.分解自由度总自由度28-1=27处理间自由度k-1=3处理内自由度27324,b.计算平方和C3272283 818.89SST=x2-C=4 045-3 818.89=226.11SSt=1022/7+732/6+802/8+722/7-C=96.13SSe=SST-SSt=129.98,C.计算均方,226.111540.13,组间均方,组内均方,总均方,96.13332.04,129.98245.42,方差分析表,平方和 自由度 均方 F F0.01SSt=96.13 3 St2=96.13/3=32.04 St2/Se2=5.91*4.72SSe=129.98 24 Se2=129.98/24=5.42SST=226.11 27,d.计算F值(列出方差分析表),计算平均数的标准误采用新复极差法,查SSR表,自由度为12时平均数大小排序、比较,e.多重比较,处理 虫口密度 显著性 0.05 0.01 A 14.57 a A B 12.17 ab AB D 10.29 b B C 10.0 b B,计算新的n0值,,处理 虫口密度 显著性 0.05 0.01 A 14.57 a A B 12.17 ab AB D 10.29 b B C 10.0 b B,f.结论 本试验中不同处理间有极显著差异(F=5.91F.01(4.72),其中在.05和.01水平上第1块田与第3、4田的虫口密度有显著差异,其他处理间差异均不显著。,组内又分亚组的单向分组资料的方差分析,设一系统分组资料共有l组,每组内有m个亚组,每一亚组内有n个观察值,则该资料共有lmn个观察值。其观察值的线性模型为:,将该线性模型变型得:,等式的左边是总效应,它是由右边的(1)组间变异;(2)同一组内亚组间变异;(3)同一亚组内各重复观察值间的变异所构成。其自由度和平方和的估计如下:,1、总变异自由度DFT=lmn-1,2、组间(处理间)变异 自由度DFt=l-1,3、同一组内亚组间的变异 自由度,4、亚组内变异自由度,二级系统分组资料的方差分析,例6.12在温室内以4种培养液(l=4)培养某种作物,每种3盆(m=3),每盆4株(n=4),一个月后测定其株高生长量(mm),结果如下表,试作方差分析。,一、自由度和平方和分解总自由度DFT=lmn-1=(434)-1=47培养液间自由度DFt=l-1=4-1=3培养液内盆间自由度DFe1=l(m-1)=4(3-1)=8盆内株间自由度DFe2=lm(n-1)=43(4-1)=36,2、培养液间差异,二、F 测验1、盆间差异,F=157.81/89.06=1.77此F值小于1=8,2=36 F0.05=2.22,所以接受H0,推断:该试验同一培养液内盆间的生长量无显著差异;而不同培养液间的生长量有极显著的差异。,F=2375.25/157.81=15.05,此F值大于1=3,2=8F0.01=7.59,故否定,方差分析表,三、各培养液平均数间的比较,4种培养液的LSR值(新复极差测验),4种培养液植株生长量(mm)的差异显著性,5.5 两向分组资料的方差分析,5.5.1 组合内只有单个观察值的两向分组资料的方差分析,设有A和B两个因素,A因素有a个水平,B因素有b个水平,每一处理组合仅有一个观察值,则全试验共有ab个观察值,其资料类型如下表:,观察值的线性模型为:,因此,总变异可分解成A因素效应、B因素效应和误差效应三个部分。其自由度和平方和的分解如下表:,注意:这种类型资料,其误差项是误差与互作的混合项。因此只有AB不存在互作时,才能正确估计误差。另外,为提高试验的精确性。误差自由度不能小于12。,例5.13采用5种生长素处理豌豆,未处理为对照,待种子发芽后,分别每盆中移植4株,每组6盆,每盆一个处理,试验共有4组24盆,并按组排列于温室中,使同组各盆的环境条件一致。当各盆见第一朵花时记录4株豌豆的总节间数,结果见下表,试作方差分析。,(1)自由度和平方和的分解,方差分析表,(2)F测验组间效应:假设,F1.48/2.89 1,推断:组间环境条件无显著差异,不同生长素处理有显著差异。,处理间效应:假设,F13.17/2.89=4.56,(3)处理间比较此例有预先指定的对照,故用LSD 法。,查得15时,t0.05=2.131,t0.01=2.947LSD0.05=1.2022.131=2.56,LSD0.01=1.202 2.947=3.54,5.5.2 组合内有重复观察值的两向分组资料方差分析,设有A、B两个试验因素,A因素有a 个水平,B因素有b个水平,共有ab个处理组合,每个组合有n个观察值,则该资料共有abn个观察值。如果试验按完全随机设计,则其资料类型如下表:,线性模型为:,各变异来源的自由度和平方和的估计为:,例6.14施用A1、A2、A33种肥料于B1、B2、B33种土壤,以小麦为指示作物,每处理组合种3盆,得产量结果(g)如下表,试作方差分析。,期望均方,1、自由度和平方和的分解,2、F 测验将上述结果及自由度录于方差分析表中,以固定模型作F测验,3、平均数的比较(1)各处理组合平均数的比较,各处理组合平均数的LSR值,各处理平均数的新复极差测验,(2)各肥类平均数的比较,肥类平均数的LSR测验,5.6 方差分析的基本假定与数据转换,5.6.1 方差分析的基本假定,1、可加性(additivity)处理效应与环境效应是可加的,如:,2、正态性(normality)试验误差 应该是随机的、彼此独立的,具有平均数为0而且作正态分布。,3、同质性(homogeneity)所有试验处理必须具有共同的误差方差。,5.6.2 数据转换,1、平方根转换(square root transformation)如果样本平均数与其方差有比例关系,则用此转换。,2、对数转换(logarithmic transformation)如果数据表现出倍加性,则用此转换。,3、反正弦转换(acrsine transformation)如果资料系成数或百分数,则它将作二项分布,而已知这一分布的方差是决定于平均数p的。所以,在理论上如果p0.7则需要作反正弦转换,以获得一个比较一致的方差。,4、用几个观察值的平均数作方差分析。,