【教学课件】第六章方差分析.ppt

上传人：小飞机

文档编号：5663604

上传时间：2023-08-07

格式：PPT

页数：122

大小：1.20MB

《【教学课件】第六章方差分析.ppt》由会员分享，可在线阅读，更多相关《【教学课件】第六章方差分析.ppt（122页珍藏版）》请在三一办公上搜索。

1、第六章方差分析,第一节方差分析的基本原理第二节多重比较第三节方差分析的线性模型与期望均方第四节单向分组资料的方差分析第五节两向分组资料的方差分析第六节方差分析的基本假定和数据转换,第一节方差分析的基本原理,所谓方差分析(analysis of variance),是关于k(k3)个样本平均数的假设测验方法，是将总变异剖分为各个变异来源的相应部分，从而发现各变异原因在总变异中相对重要程度的一种统计分析方法。,假设测验的依据是:扣除了各种试验原因所引起的变异后的剩余变异提供了试验误差的无偏估计。,这里采用均方来度量试验处理产生的变异和误差引起的变异.,方差是平方和除以自由度的商。,

2、一、自由度和平方和的分解,设有k组数据，每组皆具n个观察值，则该资料共有nk个观察值，其数据分组如表6.1。,表6.1 每组具n个观察值的k 组数据的符号表,在表6.1中，总变异是nk个观察值的变异，故其自由度v=nk1，而其平方和SST则为：,（61）,其中的C称为矫正数：,(62),对于第 i 组的变异，有,从而总变异(61)可以剖分为:,（63）,即总平方和=组内(误差)平方和+处理平方和,组间变异由k个的变异引起，故其自由度 v=k1,组间平方和 SSt 为：,组内变异为各组内观察值与组平均数的变异，故每组具有自由度 v=n1和平方和；而资料共有k 组，故组内自由度 v=k(n1)

3、,组内平方和 SSe 为：,(65),（64）,因此，得到表6.1类型资料的自由度分解式为：,(66),总自由度DFT=组间自由度DFt+组内自由度DFe,求得各变异来源的自由度和平方和后，进而可得:,(67),例6.1 以A、B、C、D 4种药剂处理水稻种子，其中A为对照，每处理各得4个苗高观察值(cm)，其结果如表6.2，试分解其自由度和平方和。,表6.2 水稻不同药剂处理的苗高(cm),根据(66)进行总自由度的剖分：总变异自由度DFT=(nk1)=(44)1=15 药剂间自由度DFt=(k1)=41=3 药剂内自由度DFe=k(n1)=4(41)=12,根据(63)进行总平方和的剖分：

4、,或,或药剂A内：药剂B内：药剂C内：药剂D内：,所以,进而可得均方：,二、F分布与F测验,在一个平均数为、方差为的正态总体中，随机抽取两个独立样本，分别求得其均方 s12 和 s22，将 s12 和 s22 的比值定义为F：,（68）,此F值具有s12 的自由度 v1 和 s22 的自由度 v2。,所谓F分布，就是在给定的 v1 和 v2 下按上述方法从正态总体中进行一系列抽样，就可得到一系列的F 值而作成一个分布。,F分布下一定区间的概率可从已制成的统计表查出。,F分布曲线特征：（1）具有平均数=1（2）取值区间为0，；（3）某一特定曲线的形状则仅决定于参数 v1和 v2。在 v1=1

5、或 v1=2时，F分布曲线是严重倾斜成反向J型；,当 v13时，曲线转为偏态(图6.1)。,图6.1 F分布曲线（随v1和v2的不同而不同）,F测验需具备条件：(1)变数y遵循正态分布N(，)，(2)s12 和 s22 彼此独立。,另外，在F 测验中，如果作分子的均方小于作分母的均方，则F0.05，应接受H0。,例6.2 测定东方红3号小麦的蛋白质含量10次，得均方 s12=1.621；测定农大139小麦的蛋白质含量5次，得均方 s22=0.135。试测验东方红3号小麦蛋白质含量的变异是否比农大139为大。,假设H0：东方红小麦总体蛋白质含量的变异和农大139一样，即，对。,显著水平=0.05

6、，v1=9，v2=4时，F0.05=6.00。,测验计算:F=1.621/0.135=12.01,此FF0.05，即P0.05。,推断：否定H0，接受HA，即东方红3号小麦蛋白质含量的变异大于农大139。,例6.3 在例6.1算得药剂间均方st2=168.00，药剂内均方se2=8.17，具自由度 v1=3，v2=12。试测验药剂间变异是否显著大于药剂内变异？,假设对,显著水平=0.05，F0.05=3.49。,测验计算：F=168.00/8.17=20.56,查附表5 v1=3，v2=12时 F0.05=3.49，F0.01=5.95，实得FF0.01F0.05。,推断：否定，接受；即药剂

7、间变异显著地大于药剂内变异，不同药剂对水稻苗高是具有不同效应的。,例6.1和例6.3的分析结果可以归纳在一起，列出方差分析表，如表6.3所示。,表6.3 水稻药剂处理苗高方差分析表,第二节多重比较,所谓多重比较（multiple comparisons）是指一个试验中k个处理平均数间可能有k(k1)/2个比较，亦称为复式比较。,多重比较有多种方法，本节将介绍常用的三种：最小显著差数法复极差法(q法)Duncan氏新复极差法,一、最小显著差数法,最小显著差数法(least significant difference，简称LSD法)，法实质上是第五章的t 测验。其程序是：（1）在处理间的F测

8、验为显著的前提下，计算出显著水平为的最小显著差数；（2）任何两个平均数的差数()，如其绝对值，即为在水平上差异显著；反之，则为在水平上差异不显著。,已知：,若|t|，即为在水平上显著。,因此，最小显著差数为：,(69),当两样本的容量n相等时，,在方差分析中，上式的se2有了更精确的数值 MSe（因为此自由度增大），因此(69)中的为：,(610),例6.4 试以LSD法测验表6.2资料各种药剂处理的苗高平均数间的差异显著性。,由(例6.3)计算得F=20.56为显著，MSe=8.17，DFe=12，,故,由附表4，v=12时，t0.05=2.179，t0.01=3.055,故 LSD0

9、.05=2.1792.02=4.40(cm)LSD0.01=3.0552.02=6.17(cm),然后将各种药剂处理的苗高与对照苗高相比，差数大于4.40cm为差异显著；大于6.17cm为差异极显著。,二、q法,q测验是Student-Newman-Keul基于极差的抽样分布理论提出来的，或称复极差测验，有时又称SNK测验或NK测验。,q法是将一组k个平均数由大到小排列后，根据所比较的两个处理平均数的差数是几个平均数间的极差分别确定最小显著极差值的。q测验因是根据极差抽样分布原理的，其各个比较都可保证同一个显著水平。,q测验尺度值构成为：,(611),(612),式中2pk，p是所有比较的

10、平均数按大到小顺序排列所计算出的两极差范围内所包含的平均数个数(称为秩次距)。SE为平均数的标准误，可见在每一显著水平下该法有k1个尺度值。,平均数比较时，尺度值随秩次距的不同而异。,例6.5 试对表6.2资料的各平均数作q测验。,由6.1资料得：,查附表7 q值表，当DF=12时，p=2，3，4的值，并由(611)计算出尺度值，列于表6.4。,表6.4 表6.2资料值的计算(q测验),由表6.2可知,=29cm，=23cm,=18cm，=14cm。：,由此可得到,-,-,-,-,三、新复极差法,新复极差法是D.B.Duncan(1955)基于不同秩次距p下的最小显著极差变幅比较大而提出的

11、，又称最短显著极差法(shortest significant ranges，SSR)。,查得后，有,（613）,此时，在不同秩次距p下，平均数间比较的显著水平按两两比较是，但按p个秩次距则为保护水平,例6.6 试对表6.2资料的各平均数作新复极差测验。,已知=29cm，=23cm，=18cm，=14cm，MSe=8.17，,查附表8，得值，由(613)算得在p=2，3，4时的值(表6.5)，即为测验不同p时的平均数间极差显著性的尺度值。,表6.5 表6.2资料LSR值的计算(新复极差测验),当p=2时，=6(cm)5水平显著；=5(cm)5水平显著；=4(cm)不显著。当p=3时，=11(

12、cm)1水平上显著；=9(cm)1水平上显著。当p=4时，=15(cm)1水平上显著。,结论：表6.2资料的4个处理的苗高，除处理A与C差异不显著外，其余处理间均达显著差异，本例结果与上面介绍的q测验法相同，但q法的要比新复极差法的大。,四、多重比较结果的表示方法,(一)列梯形表法(二)划线法(三)标记字母法,将全部平均数从大到小顺次排列，然后算出各平均数间的差数。凡达到=0.05水平的差数在右上角标一个“*”号，凡达到=0.01水平的差数在右上角标两个“*”号,凡未达到=0.05水平的差数则不予标记。若以列梯形表法表示，则成表6.6。,(一)列梯形表法,表6.6 表6.2资料的差异显著性

13、(新复极差测验),优点：十分直观，缺点：占篇幅较大，特别是处理平均数较多时。,(二)划线法,将平均数按大小顺序排列，以第1个平均数为标准与以后各平均数比较，在平均数下方把差异不显著的平均数用横线连接起来，依次以第2，k1个平均数为标准按上述方法进行。这种方法称划线法。下面就是表6.2资料用划线法标出0.01水平下平均数差异显著性结果(q法)。,优点：直观、简单方便，所占篇幅也较少。,(三)标记字母法：,（1）将全部平均数从大到小依次排列。（2）在最大的平均数上标上字母a；将该平均数与以下各平均数相比，相差不显著的，都标上字母a，直至某一个与之相差显著的平均数则标以字母b(向下过程)，（3）再以

14、该标有b的平均数为标准，与上方各个比它大的平均数比，凡不显著的也一律标以字母b(向上过程)；再以该标有b的最大平均数为标准，与以下各未标记的平均数比，凡不显著的继续标以字母b，直至某一个与之相差显著的平均数则标以字母c。,（4）如此重复进行下去，直至最小的一个平均数有了标记字母且与以上平均数进行了比较为止。（5）这样各平均数间，凡有一个相同标记字母的即为差异不显著，凡没有相同标记字母的即为差异显著。在实际应用时，可以小写字母表示=0.05显著水平，大写字母表示=0.01显著水平。,（1）在表6.7上先将各平均数按大小顺序排列，并在行上标a。（2）由于与呈显著差异，故上标b。（3）然后以

15、为标准与相比呈显著差异，故标c。（4）以为标准与比，无显著差异，仍标c。同理，可进行4个在1水平上的显著性测验，结果列于表6.7。,例6.7 试对例6.6测验结果作出字母标记。,表6.7 表6.2资料的差异显著性(新复极差测验),由表6.7就可清楚地看出，该试验除A与C处理无显著差异外，D与B及A、C处理间差异显著性达到=0.05水平。处理B与A、D与B、A与C无极显著差异；D与A、C，B与C呈极显著差异。,五、多重比较方法的选择,多重比较方法选用原则：,（1）试验事先确定比较的标准，凡与对照相比较，或与预定要比较的对象比较，一般可选用最小显著差数法；（2）根据否定一个正确的H0和接受一

16、个不正确的H0的相对重要性来决定。,方差分析的基本步骤是：（1）将资料总变异的自由度和平方和分解为各变异原因的自由度和平方和，并进而算得其均方；（2）计算均方比，作出F 测验，以明了各变异因素的重要程度；（3）对各平均数进行多重比较。,第三节方差分析的线性模型与期望均方,一、方差分析的线性数学模型,方差分析的理论依据：线性可加模型，即总体每一个变量可以按其变异的原因分解成若干个线性组成部分。,例如表6.1数据的线性模型可表示为：,（614）,其中，为总体平均数，为试验处理效应，为随机误差具有分布N(0，)。象表6.1类型的资料，其每一观测值都由这三个部分相加而成。,在以样本符号表示时，样本的

17、线性组成为：,(615),其中，是的无偏估计量，是的无偏估计量，,为其所属亚总体误差方差的无偏估计量。,当测验H0：时，假定和，,可看作是总体的无偏估计量。,也是的无偏估计量。,因而,对于 t i 部分，每一样本的平方和是，故k个样本的平方和是，而处理间方差st2为：,(616),因为，故估计了，,或。或写为：,(617),二、期望均方,在线性可加模型中，关于部分的假定，由于对有不同的解释产生了固定模型()和随机模型()。,固定模型是指各个处理的平均效应是固定的一个常量，且满足(或)，但常数未知；主要是研究并估计处理效应；固定模型中所得的结论仅在于推断关于特定的处理；随机模型是指

18、各个处理效应不是一个常量，而是从平均数为零、方差为的正态总体中得到的一个随机变量，即 N(0，)。主要是研究并估计总体变异即方差。而随机模型中试验结论则将用于推断处理的总体.,(一)固定模型（fixed model）,例6.8 以5个水稻品种作大区比较试验，每品种作3次取样，测定其产量，所得数据为单向分组资料。本试验需明确各品种的效应，故为固定模型，其方差分析和期望均方的参数估计列于表6.8。,表6.8 5个水稻品种产量的方差分析和期望均方表,为固定效应的方差,本例中品种内MS估计了，因而；品种间MS估计了因而,固定模型的F测验,若，则F值等于1。,所以固定模型是测验假设H0：(i=1，

19、2，k)对HA：，即测验H0：。,因而，一般比较处理效应的试验都应当采用固定模型,(二)随机模型(random model),例6.9 研究籼粳稻杂交F5代系间单株干草重的遗传变异，随机抽取76个系进行试验，每系随机取2个样品测定干草重(g/株)。因这76个系是随机抽取的样本，要从这些样本来估计F5代系间单株干草重的遗传变异，故这是随机模型。其单向分组分析结果见表6.9。,表6.9 籼粳杂种F5代干草重的方差分析和期望均方,为随机效应的方差,本例中系统内MS估计了，因而；系统间MS估计了,因而,随机模型的F测验,若假设，则F=1。因而，随机模型的假设为H0：对HA：。显然，这是测验处理效应的变

20、异度(方差)，而不是测验处理效应本身。,随机模型方差分析在数量遗传学中的应用:,如果F测验显著则表示处理间的变异是显著的。本例F=72.79/17.77=4.09F0.05，说明是存在的。=25.71测度了系统间变异。本例中，(或记为)代表了系间遗传型的变异；代表了环境条件所致的变异(记作)。代表了系间的表型变异，因而可求出遗传型变异占表型变异的份量，这就是数量遗传中常用的遗传率，即：,（618）,当试验因素在2个或2个以上时，可以在固定模型和随机模型的基础上产生第三种模型：混合模型(记作模型）。混合模型乃既包括有固定模型的试验因素，又包括有随机模型的试验因素的模型。这类模型凡随机因素仍用

21、表示，固定模型用表示。混合模型中的期望均方组成因包括有不同的成份，应选择恰当的均方进行F测验。,第四节单向分组资料的方差分析,单向分组资料是指观察值仅按一个方向分组的资料示。所用的试验设计为完全随机试验设计。,一、组内观察值数目相等的单向分组资料的方差分析二、组内观察值数目不等的单向分组资料的方差分析三、组内又分亚组的单向分组资料的方差分析,分类,一、组内观察值数目相等的单向分组资料的方差分析,这是在k组处理中，每处理皆含有n个供试单位的资料如表6.1。,在作方差分析时，其任一观察值的线性模型皆由表示，方差分析如表6.10。,表6.10 组内观察值数目相等的单向分组资料的方差分析,例6.

22、10 作一水稻施肥的盆栽试验，设5个处理，A和B系分别施用两种不同工艺流程的氨水，C施碳酸氢铵，D施尿素，E不施氮肥。每处理4盆(施肥处理的施肥量每盆皆为折合纯氮1.2克)，共54=20盆，随机放置于同一网室中，其稻谷产量(克/盆)列于表6.11，试测验各处理平均数的差异显著性。,表6.11 水稻施肥盆栽试验的产量结果,(1)自由度和平方和的分解总变异自由度DFT=nk1=541=19 处理间自由度DFt=k1=51=4 误差(处理内)自由度DFe=k(n1)=5(41)=15 矫正数,(2)F测验将上述结果录入表6.12,表6.12 表6.11资料的方差分析,假设H0:，HA:不全相等。为

23、了测验H0，计算处理间均方对误差均方的比率，算得 F=75.3/6.73=11.19 查F表当 v1=4，v2=15时，F0.01=4.89，现实得F=11.19F0.01，故否定H0，推断这个试验的处理平均数间是有极显著差异的。,(3)各处理平均数的比较,算得单个平均数的标准误,根据=15，查SSR表得p=2，3，4，5时的SSR0.05与SSR0.01值，将值分别乘以SE值，即得值，列于表6.13。进而进行多重比较(表6.14)。,表6.13 多重比较时的值计算,表6.14 施肥效果的显著性(SSR测验),推断：根据表6.14多重比较结果可知，施用氮肥(A、B、C和D)与不施氮肥有显

24、著差异，且施用尿素、碳酸氢铵、氨水1与不施氮肥均有极显著差异；尿素与碳酸氢铵、碳酸氢铵与氨水1、氨水1与氨水2处理间均无显著差异。,二、组内观察值数目不等的单向分组资料的方差分析,若k个处理中的观察值数目不等，分别为n1，n2，nk，在方差分析时有关公式因ni 不相同而需作相应改变。主要区别点如下：,(1)自由度和平方和的分解,(619),(620),(2)多重比较,平均数的标准误为：,上式的nA和nB系两个相比较的平均数的样本容量。但亦可先算得各ni 的平均数n0。,然后有：,或,(622),(621),(623),(624),例6.11 某病虫测报站，调查四种不同类型的水稻田28块，每块田

25、所得稻纵卷叶螟的百丛虫口密度列于表6.15，试问不同类型稻田的虫口密度有否显著差异？,表6.15 不同类型稻田纵卷叶螟的虫口密度,该资料=7+6+8+7=28 故总变异自由度 DFT=1=281=27 稻田类型间自由度 DFt=k1=41=3 误差自由度 DFe=k=284=24,求得：,表6.16 表6.15资料的方差分析,表6.16所得F=5.91F0.01，因而应否定H0：即4块麦田的虫口密度间有极显著差异。,F测验显著，再作平均数间的比较。需进一步计算n0，并求得SE(LSR测验）或(LSD测验)。如在此可有：,三、组内又分亚组的单向分组资料的方差分析,单向分组资料，如果每组又分若干

26、个亚组，而每个亚组内又有若干个观察值，则为组内分亚组的单向分组资料，或称系统分组资料。系统分组并不限于组内仅分亚组，亚组内还可分小组，小组内还可分小亚组，如此一环套一环地分下去。这种试验称为巢式试验(nested experiment）。,设一系统分组资料共有l组，每组内又分m个亚组，每一亚组内有n观察值，则该资料共有lmn个观察值，其资料类型如表6.17。,表6.17 二级系统分组资料个观察值的数据结构(i=1，2，l；j=1，2，m；k=1，2，n),表6.17中每一观察值的线性可加模型为：,(625),其中为总体平均；,为同一亚组中各观察值的随机变异，具有N(0，)。,为组效应或处理效

27、应,固定模型(),随机模型 N(0，),为同组中各亚组的效应,固定模型(),随机模型 N(0，),表6.17的任一观察值的总变异可分解为3种来源的变异：（1）组间(或处理间)变异；（2）同一组内亚组间变异；（3）同一亚组内各重复观察值间的变异。其自由度和平方和的估计如下：,(1)总变异自由度,(626),(627),(628),(2)组间(处理间)变异,(629),(3)同一组内亚组间的变异,(630),(4)亚组内的变异,(631),表6.18 二级系统分组资料的方差分析,为测验各亚组间有无不同效应，即测验假设H0：则,(632),为测验各组间有无不同效应，测验假设H0：，或H0：,即H0

28、:，则,(633),在进行组间平均数的多重比较时，单个平均数的标准误为：,(634),若进行组内亚组间平均数的多重比较,则单个平均数标准误为：,(635),例6.12 在温室内以4种培养液(l=4)培养某作物,每种3盆(m=3)，每盆4株(n=4)，一个月后测定其株高生长量(mm)，得结果于表6.19，试作方差分析。,表6.19 4种培养液下的株高增长量(mm),(1)自由度和平方和的分解,总变异自由度 DFT=lmn1=(434)1=47 培养液间自由度 DFt=l-1=41=3 培养液内盆间自由度 DFe1=l(m1)=4(31)=8 盆内株间自由度 DFe2=lm(n1)=43(41)=

29、36,总变异平方和,培养液间平方和,培养液内盆间平方和,盆内株间平方和,(2)F测验,表6.20 表6.19资料的方差分析,盆间差异的F测验，假设H0：，求得：,查表得,v1=8,v2=36时，F0.05=2.22F，故接受H0：。,对培养液间有无不同效应作F测验，假设H0：，求得：,查表得,v1=3,v2=8时，F0.01=7.59F，故否定H0：，接受HA：0.,推断：该试验同一培养液内各盆间的生长量无显著差异；而不同培养液间的生长量有极显著的差异。故前者不需再作多重比较，后者则需进一步测验各平均数间的差异显著性。,(3)各培养液平均数间的比较,根据期望均方，培养液平均数间的比较应用MSe

30、1，求得：,按 v=8，由附表7查得p=2，3，4时的SSR0.05和SSR0.01值，并算得各LSR值列于表6.21。由LSR值对4种培养液植株生长量进行差异显著性测验的结果列于表6.22。,表6.21 4种培养液的LSR值(新复极差测验),表6.22 4种培养液植株生长量(mm)的差异显著性,由表6.22可见，4种培养液对生长量的效应，除C与D、B与A差异不显著外，其余对比均有显著或极显著差异。,第五节两向分组资料的方差分析,两因素试验中若因素A的每个水平与因素B的每个水平均衡相遇(或称正交)，则所得试验数据按两个因素交叉分组称为两向分组资料。,一、组合内只有单个观察值的两向分组资料的方

31、差分析二、组合内有重复观察值的两向分组资料的方差分析,设有A和B两个因素，A因素有a个水平，B因素有b个水平，每一处理组合仅有1个观察值，则全试验共有ab个观察值，其资料类型如表6.23。,一、组合内只有单个观察值的两向分组资料的方差分析,表6.23 完全随机设计的二因素试验每处理组合只有一个观察值的数据结构（i=1，2，a；j=1，2，b）,表6.23中观察值的线性模型为：,(636),上式的为总体平均；和分别为A和B的效应，可以是固定模型(，)或随机模型 N(0，)，N(0，)；相互独立的随机误差服从正态总体N(0，)。,(636)说明表6.23类型资料的总变异()可分解为A因素第i

32、水平效应、B因素第j水平效应和试验误差三个部分。其各项变异来源自由度和平方和的估计及方差分析见表6.24。,表6.24 表6.23类型资料自由度和平方和的分解及方差分析,表6.24中F测验所作假设为H0：；H0：。,例6.13 采用5种生长素处理豌豆，未处理为对照，待种子发芽后，分别每盆中移植4株，每组为6盆，每盆一个处理，试验共有4组24盆，并按组排于温室中，使同组各盆的环境条件一致。当各盆见第一朵花时记录4株豌豆的总节间数，结果列于表6.25，试作方差分析。,表6.25 生长素处理豌豆的试验结果,(1)自由度和平方和的分解,表6.26 表6.25资料的方差分析,(2)F测验,上表对组间

33、有无不同效应作F测验，假设H0：，得：,对处理间有无不同效应作F测验有H0：得：,推断：组间环境条件无显著差异，不同生长素处理间有显著差异。,(3)处理间比较,此例有预先指定的对照，故用LSD法。求得：,(节间),查得=15时，t0.05=2.131，t0.01=2.947，故：,LSD0.05=1.2022.131=2.56(节间)，LSD0.01=1.2022.947=3.54(节间),以LSD测验各生长素处理与对照的差异显著性于表6.27。结果赤霉素的效应最强，吲哚乙酸次之，其余处理皆与对照无显著差异。,表6.27 豌豆生长素处理后始花时的节间数(4株总和),二、组合内有重复观察值的两向

34、分组资料的方差分析,设有A、B两个试验因素，A因素有a个水平，B因素有b个水平，共有ab个处理组合，每一组合有n个观察值，则该资料有abn个观察值。如果试验按完全随机设计，则其资料类型如表6.28。,表6.28 完全随机设计的二因素试验，每处理组合有重复观察值的数据结构(i=1，2，a；j=1,2，b；k=1,2，n),表6.28中观察值的线性模型为：,(637),上式的为总体平均；和分别为因素A和B的效应；为AB互作；为随机误差，遵循分布N(0，)。上式说明表6.28类型资料的总变异()可分解为A因素效应、B因素效应、AB互作和试验误差四个部分。其各变异来源的自由度和平方和估计可见表

35、6.29。,表6.29 表6.28类型资料自由度和平方和的分解(C=T 2/abn),线性模型的假定条件随试验模型而不同。在固定模型时，满足条件：，；对于随机模型时，满足条件：、和都是相互独立的随机变数，遵循正态分布，具平均数0并分别有方差、和。由于有两个试验因素，故在两种模型的基础上可产生第三种模型：混合模型。混合模型的假定是一因素的效应随机，另一因素的效应固定。,例如，若A的效应随机，B的效应固定，则满足条件：,而和皆为相互独立的随机变数，遵循具平均数0，方差分别为和的正态分布。各种模型的期望均方见表6.30。,表6.30 表6.28类型资料各变异来源的期望均方,由表6.30可

36、见，对效应和互作进行F测验的分母需因模型的不同而不同：,在固定模型时，测验H0：，H0：和H0：皆以MSe为分母；在随机模型时，测验H0：以MSe为分母，而测验H0：和H0：需以MSAB为分母；在A随机B固定的混合模型中，测验H0：和H0：以MSe为分母，而测验H0：需以MSAB为分母。,例6.14 施用A1、A2、A3 3种肥料于B1、B2、B3 3种土壤，以小麦为指示作物，每处理组合种3盆，得产量结果(g)于表6.31。试作方差分析。,表6.31 3种肥料施于3种土壤的小麦产量（g）(a=3,b=3,n=3,abn=27),(1)自由度和平方和的分解,表6.32 表6.31资料的方差分析,

37、(2)F测验,以固定模型作F测验。假设H0：,求得F=4.81/0.928=5.18F0.01；假设H0：，求得F=89.69/0.928=96.65F0.01；假设H0：,求得F=1.98/0.928=2.13F0.05。,所以该试验肥类土类的互作和肥类的效应间差异都是极显著的，而土类间无显著差异。,(3)平均数的比较各处理组合平均数的比较：肥类土类的互作显著，说明各处理组合的效应不是各单因素效应的简单相加，而是肥类效应随土类而不同(或反之)；所以宜进一步比较各处理组合的平均数。在此用新复极差测验，求得：,根据 v=18，算得各LSR0.05和LSR0.01的值于表6.33。,表6.33

38、表6.31资料各处理组合平均数的LSR值(新复极差测验),将表6.31的各个Tij.值除以n=3，即得各处理组合的平均数，以表6.33的显著尺度测验各平均数的差异显著性于表6.34。,表6.34 表6.31资料各处理组合平均数的新复极差测验,各肥类平均数的比较：肥类间的F测验极显著，说明 0。求得肥类平均数的标准误：,故有各肥类平均数的LSR值于表6.35，显著性测验结果于表6.36。,表6.35 表6.31资料肥类平均数的LSR值,表6.36 表6.31资料各肥类平均数的新复极差测验,由表6.36可见，肥料A1与A3、A2均有极显著的差异；但A3与A2无显著差异。,综上所述，表6.31试验结

39、果的基本信息是：肥料A1 对小麦的增产效果最好，土类间则无显著差异；但A1施于油砂土(A1B1)却比施于其他土壤上更有突出的增产效果,第六节方差分析的基本假定和数据转换,一、方差分析的基本假定二、数据转换,一、方差分析的基本假定,方差分析是建立在线性可加模型的基础上的。所有进行方差分析的数据都可以分解成几个分量之和，以例6.13资料(样本)采用6生长素处理试验资料为例，该资料具有三类原因或效应：(1)处理(生长素)原因或效应；(2)环境(组)原因或效应；(3)试验误差(这是处理内和环境内的其它非可控因素的变异)。故其线性模型为：,建立这一模型，有如下3个基本假定：,(1)处理效应与环境效应等

40、应该具有“可加性”(additivity)以组合内只有单个观察值的两向分组资料的线性可加模型为例予以说明，如对其取离差式，则,上式两边各取平方求其总和，则得平方和为：,(638),因为三类原因均各自独立，所以右边有三个乘积和，即、和，皆为零值。,当从样本估计时，则为：,或,样本平方和的可加性:,对于非可加性资料，一般需作对数转换或其他转换，使其效应变为可加性，才能符合方差分析的线性模型。,有一种非可加性事例是效应表现为倍加性。将倍加性数据转换为对数尺度，则又表现为可加性模型。如表6.37假设数字(不考虑误差).,表6.37 可加性模型与非可加性模型的比较,(2)试验误差应该是随机的、彼此独立

41、的，具有平均数为零而且作正态分布，即“正态性”（normality）.因为多样本的F测验是假定k个样本从k个正态总体中随机抽取的，所以一定是随机性的。,如果试验误差不作正态分布，则将表现为一个处理的误差趋向于作为处理平均数的一种函数关系。例如，二项分布数据，平均数为p，方差为p(1p)/n，方差与平均数有函数关系。如果这种函数关系是已知的，则可对观察值进行反正弦转换或对数转换、平方根值转换，从而使误差作成近似的正态分布。,(3)所有试验处理必须具有共同的误差方差，即误差同质性(homogeneity)因为方差分析中的误差项方差是将各处理的误差合并而获得一个共同的误差方差的，因此必须假定资料

42、中有这样一个共同的方差存在，即假定各处理的都具有N(0，)的。这就是所谓误差的同质性假定。如果各处理的误差方差具有异质性()，则在假设测验中必然会使某些处理的效应得不到正确的反映。如果不同质()，可将方差特别大或变异特殊的处理从全试验中剔除，或者将试验分成几个部分，使每一部分具有比较同质的误差方差，以作出较为准确的假设测验。,二、数据转换,对于并不符合基本假定的试验资料，在进行方差分析之前，一般可采用以下补救办法：,（1）剔除某些表现“特殊”的观察值、处理或重复。（2）将总的试验误差的方差分裂为几个较为同质的试验误差的方差。（3）针对数据的主要缺陷，采用相应的变数转换；然后用转换后的数据作方

43、差分析。常用的转换方法有：,平方根转换(square root transformation)如果样本平均数与其方差有比例关系，如poisson分布那样，这种资料用平方根转换是有效的。采用平方根转换可获得一个同质的方差，同时也可减小非可加性的影响。一般将原观察值y转换成。这种转换常用于存在稀有现象的计数资料，例如1平方米面积上某种昆虫的头数或某种杂草的株数等资料。如果有些观察值甚小，甚至有零出现，则可用转换。,对数转换(logarithmic transformation)如果数据表现的效应为非可加性，而成倍加性或可乘性，同时样本平均数与其极差或标准差成比例关系，则采用对数转换，可获得一个同

44、质的方差。对于改进非可加性的影响，这一转换比之平方根转换更为有效。一般将y转换为lg y.如观察值中有零而各数值皆不大于10，则可用lg(y+1)转换。,反正弦转换(arcsine transformation)如果资料系成数或百分数，则它将作二项分布，而已知这一分布的方差是决定于其平均数p的。所以，在理论上如果p0.7皆需作反正弦转换，以获得一个比较一致的方差。反正弦转换是将百分数的平方根值取反正弦值，即将p转换成，从而成为角度。附表12为百分数的反正弦转换表，可直接查得p的反正弦值。,采用几个观察值的平均数作方差分析因为平均数比之单个观察值更易做成正态分布，如抽取小样本求得其平均数，再以

45、这些平均数作方差分析，可减小各种不符合基本假定的因素的影响。,例6.15 研究华农2号玉米花粉在不同贮藏条件下的生活力：（1）花粉盛于烧杯内，上盖纱布，藏于冰箱中；（2）花粉盛于烧杯内，置于干燥器中，藏于冰箱内；（3）花粉盛于烧杯内，在室温下贮藏。经贮藏4小时后，在显微镜下检查有生活力花粉的百分数，对照为新鲜花粉。每处理检查了6个视野，其结果如表6.38。试作方差分析。,表6.38 不同处理有生活力花粉的百分数(p),表6.38有不少p值大于70%，故需作反正弦变换。由附表12查得表6.38各个p的反正弦角度值于表6.39。,表6.39 有生活力花粉百分数的反正弦值(),表6.39是n相等的单向分组资料，对其作方差分析可得表6.40。,表6.40 表6.39资料的方差分析,在作多个平均数的比较时，因有共同的对照，故用LSD法。求得：,因而有各处理平均数和对照平均数的比较于表6.41。,表6.41 不同处理生活力比较,测验结果为3个处理的生活力都显著低于对照。将各反正弦平均数转换为百分数（表6.41第4列）可以看出处理(1)比对照降低12.7%，处理(2)降低9.2%，处理(3)降低23.9%。,