[农学]生物统计学 第六章 方差分析.ppt
第六章 方差分析,对于样本平均数的假设检验,u检验或t检验可以对样本平均数与总体平均数的差异及两个样本平均数间的差异进行检验。在实际研究中,常常需要对三个及三个以上的样本平均数进行比较,此时如果仍用u检验或t检验进行两两比较,就会出现检验繁琐、误差估计的精确性与检验的灵敏性降低等问题。使用方差分析就可以避免这些问题。,第六章 方差分析,方差分析(analysis of variance,ANOVA)是用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。,第六章 方差分析,方差分析主要用途:均数差别的显著性检验分离各有关因素并估计其对总变异的作用分析因素间的交互作用方差齐性检验。在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。,第六章 方差分析,通常是比较不同实验条件下样本均值间的差异。例如医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同化学药剂对作物害虫的杀虫效果等,都可以使用方差分析方法去解决。,6.1 方差分析的相关术语,研究马氏珠母贝三亚、印度品系在不同地区的生长差异,选择同一批繁殖的两品系马氏珠母贝的稚贝,分别在海南黎安港、广东流沙港、广西防城港三个海区进行养殖,每个地区每个品系养殖1000个,1年后测定马氏珠母贝壳高与总重,比较生长差异。这里壳高与总重称为试验指标,在试验中常会测定日增重、产仔数、产奶量、产蛋率、瘦肉率、某些生理生化和体型指标(如血糖含量、体高、体重)等,这些都是试验指标,就是我们需要测量的数据。,6.1 方差分析的相关术语,这里品系与地区称为试验因素(experimental factor),是影响试验指标的原因,也称处理因素、因子。试验因素一般用A、B、C等大写字母表示,一个因素的水平用代表该因素的字母添加下标1、2、3等表示,如A1、A2、A3等表示。影响马氏珠母贝生长指标的因素有品系(A)与地区(B)。因素A有2个水平,即三亚种与印度品系,分别表示为A1与A2;因素B有3个水平,即海南黎安港、广东流沙港、广西防城港,分别表示为B1、B2与B3。,6.1 方差分析的相关术语,本例的试验涉及两个因素,称为二因素试验,试验共有23=6个水平组合,即6个处理。每个马氏珠母贝就是一个试验单位,每个地区每个品种养殖1000个,1000称为重复。这里因素A的2个水平三亚品系与印度品系是固定的,特意选择的,因素B的3个养殖海区也是特意选择的,我们在处理时要用固定模型来处理,得到的结论仅仅适用试验所涉及的2个品系与3个海区。比如马氏珠母贝在流沙港、徐闻、大亚湾都有养殖,但我们不能拿流沙港的养殖结果说明徐闻与大亚湾的养殖情况。,6.1 方差分析的相关术语,有时候,因素的水平不是常量,而是由随机因素引起,例如,将引进的美国黑核桃在全国随机选择8个不同纬度种植,观察其在不同地理条件下的适应情况,由于各地气候、土壤肥度等都是无法人为控制的,属于随机因素,就需要用随机模型来处理,试验结论可以推广到随机因素的所有水平。,6.1 方差分析的相关术语,如果试验中的因素既包括固定效应,又包括随机效应,则试验需要用混合模型来处理。例如,为了推断全国67岁男孩的身高发育是否平衡,从所有省(市、自治区)中随机选取5个省,每个省又分为城市与农村两类,各抽取30例数据进行分析。其中城市与农村2个水平组成的地区因素是固定因素,而省份的5个水平是通过抽样确定的,是随机因素。该实验资料就要用混合模型来处理。,6.2 方差分析的原理,方差分析是建立在一定的线性可加模型的基础上的。所谓线性可加模型是指总体每一个变量可按其变异的原因分解成若干个线性组成部分,每一次观察值都包含了总体平均数、因素主效应、随机误差三部分,这些组成部分必须以叠加的方式综合起来,即每一个观察值都可视为这些组成部分的累加和,即:它是方差分析的基础。,6.2 方差分析的原理,方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:(1)随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作,组内自由度。(2)实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作,组间自由度。总偏差平方和。,6.2 方差分析的原理,在单因素方差分析中,有m个水平,总共n个样本,组内平方和除以其自由度n-m 得到组内均方,组间平方和除以其自由度m-1得到组间均方,存在两种情况:一种情况是处理没有作用,即各组样本均来自同一总体,。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,(远远大于)。,6.2 方差分析的原理,如果计算结果的组间均方远远大于组内均方,FF0.05(dft,dfe),p0.05,接受零假设,说明样本来自相同的正态总体,处理间无差异。,6.3 单因素方差分析,例6.1 某水产研究所比较四种不同配方的饲料对鱼的饲养效果,选择了条件相同的鱼20尾,随机分成四组,投喂不同饲料,1个月后,各组鱼的增重(g)资料见下表,试进行方差分析。,6.3 单因素方差分析,DPS 输入数据并选择数据,点击菜单试验统计完全随机设计单因素试验统计分析:,6.3 单因素方差分析,DPS弹出对话框,数据转换方式默认为不转换,不修改;多重比较方式默认为Tukey法,修改为LSD法;各个处理名称选择第一列:,6.3 单因素方差分析,DPS点击确定,即可得到结果:,结果第一部分给出了饲料因素的4个水平下,各处理的平均数、均值、标准差、标准误、95%置信区间。的差异。,结果第二部分是方差分析表,F=7.1320,p=0.00290.01,表明不同饲料对鱼的增重有非常显著的差异。,结果第三部分给出了LSD法多重比较结果,首先是三角法,下三角为均值与统计量,上三角为p值,可以根据p值,判断两个水平间有无显著差异。例如A1与A4之间p=0.04380.05,有显著差异;A1与A2间p=0.00410.01,有非常显著的差异。,6.3 单因素方差分析,字母法表示的多重比较比较简洁。首先根据均值由大到小将A因素的4个水平从上而下排列,均值排在第二列,第三列是5%显著水平,用小写字母a、b、c等表示各因素之间的差异。第四列是1%的显著水平,用大写字母A、B、C等表示。在5%或1%的水平上,无论哪两个水平比较,只要看到有相同字母,就是无显著差异,只有完全不同的字母,才是有显著差异。如在5%显著水平,A1的“a”与A4的“b”,是完全不同的字母,就表示A1与A4之间有显著差异;而在1%的极显著水平,A1的“A”与A4的“AB”,由于含有相同字母“A”,就表示两者没有极显著的差异;而A1的“A”与A2的“B”,就表示两者间有极显著的差异。,6.4 均值间的两两比较,对完全随机设计多组平均水平进行比较时,当资料满足正态性和方差齐性,就可以尝试方差分析,若得到P的结果,不拒绝零假设,认为各组样本来自均数相等的总体,即不同的处理产生的效应居于同一水平,分析到此结束;若方差分析结果P,则拒绝零假设,接受备择假设,认为各处理组的总体均数不等或不全相等,即各个处理组中至少有两组的总体均数居于不同水平。这是一个概括性的结论,研究者往往希望进一步了解具体是哪两组的总体均数居于不同水平,哪两组的总体均数相等,这就需要进一步作两两比较来考察各个组别之间的差别。,6.4 均值间的两两比较,均数间的两两比较根据研究设计的不同分为两种类型:一种常见于探索性研究,在研究设计阶段并不明确哪些组别之间的对比是更为关注的,也不明确哪些组别间的关系已有定论、无需再探究,经方差分析结果提示“概括而言各组均数不相同”后,对每一对样本均数都进行比较,从中寻找有统计学意义的差异;另一种是在设计阶段根据研究目的或专业知识所决定的某些均数间的比较,常见于证实性研究中多个处理组与对照组、施加处理后的不同时间点与处理前比较。最初的设计方案不同,对应选择的检验方法也不同,下面分述两种不同设计均数两两比较的方法选择。,6.4.1 事先计划好的几对均数间的比较,适用于证实性研究。在设计时就设定了要比较的组别,其他组别间不必作比较。常用的方法有:Dunnett检验、LSD检验。这两种方法不管方差分析的结果如何即便对于P稍大于检验水准,也可进行所关心组别间的比较。,6.4.1 事先计划好的几对均数间的比较,(1)LSD法 该法是最小显著差数(Least significant difference)法的简称,是Fisher 1935年提出的,多用于检验某一对或某几对在专业上有特殊探索价值的均数间的两两比较,并且在多组均数的方差分析没有推翻无效假设H0时也可以应用。该方法实质上就是t检验,检验水准无需作任何修正,只是在标准误的计算上充分利用了样本信息,为所有的均数统一估计出一个更为稳健的标准误,因此它一般用于事先就已经明确所要实施对比的具体组别的多重比较。,6.4.1 事先计划好的几对均数间的比较,(1)LSD法例如,在一个单因素4水平试验中,共有A1、A2、A3、A4这4个处理,设计时已确定只是A1与A2、A3与A4(或1与3、2与4;或1与4、2与3)比较,而其它的处理间不进行比较。由于该方法本质思想与t检验相同,所以只适用于两个相互独立的样本均数的比较。LSD 法单次比较的检验水准仍为,因此可以认为该方法是最为灵敏的两两比较方法。,6.4.1 事先计划好的几对均数间的比较,(2)Dunnett法 该法适用于k个处理组与一个对照组的均数差异比较。默认的对照组是最后一组。适用于n-1个试验组与一个对照组均数差别的多重比较,多用于证实性研究。检验时可以选择双侧或单侧检验。要检验实验组的均值是否不等于控制组的均值,就使用双侧检验。要检验实验组的均值是否小于控制组的均值,就选择“控制”。,6.4.2 多个均数的两两事后比较,适用于探索性研究,即各处理组两两间的对比关系都要回答,一般要将各组均数进行两两组合,分别进行检验。常用的方法有:SNK法、Duncan法、Tukey法和Schffe法。值得注意的是,这几种方法对数据有具体的要求和限制。,6.4.2 多个均数的两两事后比较,(3)SNK检验 SNK(Student-Newman-Keuls)检验也称为q检验法。(4)Tukey法 原理与SNK检验基本相同,该方法要求各比较组样本含量相同。这种方法比LSD法有更高的检验效能,具有很好的稳定性,适用于大多数场合下的两两比较,计算简便。但是,Tukey法是基于比较组全部参与比较这一假设下进行的,因此在只比较指定的某几组总体均数时并不适用,建议选择Dunnett法或者是Bonferroni方法,因为这两种方法会给出较高效能的检验结果。如果各组样本含量不等,需要用修正的Tukey法(Tukey-Kramer法),功效高于Bonferroni法、Sidak法或Scheffe法。,6.4.2 多个均数的两两事后比较,(5)Scheff法 与一般的多重比较不同,Scheff法的实质是对多组均数间的线性组合是否为0进行假设检验,多用于对比组样本含量不等的资料。如果用Scheff法进行组平均数的两两比较检定,与Tukey法与Bonferroni法相比,Scheff法最不容易达到显著水平。(6)Duncan法 Duncan是1955年在Newman及Keuls的复极差法(multiple range method)基础上提出,因此也称新复极差法。该法又称为SSR法(shortest significant ranges)。该方法与Tukey法相类似。(7)q检验法 也成为SNK法。,6.4.2 多个均数的两两事后比较,对于LSD法、Duncan法、q检验法,其检验尺度有如下关系:LSD法Duncan法q检验法 当样本的处理数k=2时,取等号;k3时,取小于号。在多重比较中,LSD法的尺度最小,q检验法尺度最大,Duncan法尺度居中。用上述排列顺序前面方法检验显著的差数,用后面方法检验未必显著;用后面方法检验显著的差数,用前面方法检验必然显著。一般地讲,一个试验资料,究竟采用哪一种多重比较方法,主要应根据否定一个正确的H0和接受一个不正确的H0的相对重要性来决定。如果否定正确的H0是事关重大或后果严重的,或对试验要求严格时,用q检验法较为妥当;如果接受一个不正确的H0是事关重大或后果严重的,则宜用Duncan法。,6.4.2 多个均数的两两事后比较,生物试验中,由于试验误差较大,常采用Duncan法;F检验显著后,为了简便,也可采用LSD法。上例中,用LSD法多重比较与q检验法结果是不一样的,如下图:,LSD,q检验法,6.4.3 探索性研究与证实性研究都适用的检验,(7)Bonferroni法 当比较次数不多(如小于10次)时,Bonferroni法的效果较好。比较次数C与处理数k有关,C=k(k-1)/2。随着C增大,Bonferroni法越不容易达到显著水平。(8)Sidak法 根据Sidak的不等式进行校正的t检验法,比Bonferroni法检验更严格,功效更高。,6.4.5 方差不等时的检验,对于不能满足方差相等(有齐性)的资料,需要选择另外的检验方法进行两两比较。主要有:Tamhanes T2、Dunnetts T3、Games-Howell和Dunnetts C。Games-Howell检验适用于样本含量小且方差不齐(轻度方差不齐例外)时的情况。该方法是方差不齐时的一种较好的方法。但如果样本含量相差悬殊,该法也会不精确。Dunnett s C是一种基于学生化极差的适用于方差不齐情况时两两比较方法。,方差检验流程图,SPSS的多重比较,SPSS为LSD、Bonferroni、Sidak、Dunnett、Tamhanes T2、Dunnetts T3、Games-Howell、Dunnetts C进行多重比较,为S-N-K、Tukeyb、Duncan、R-E-G-WF、R-E-G-WQ以及Waller-Duncan进行子集一致性检验,为Tukey、Scheff、Hochbergs GT2、Gabriel既进行多重比较,也进行多范围检验。,在SPSS中,方差相等时有14种多重比较方法,不等时有4种。,进行均值多重比较的方法有红色下划线部分;进行子集一致性检验的有蓝色下划线部分;进行两种检验的有黄色框部分。,6.4 单因素方差分析,SPSS 输入数据,点击菜单分析一般线性模型单变量:,6.4 单因素方差分析,SPSS弹出对话框,将增重选择到因变量中,将饲料选择到固定因子中:,6.4 单因素方差分析,SPSS点击两两比较,跳出子对话框,将饲料选择到两两比较检验,在假定方差齐性下面,勾选LSD、SNK、Tukey、Duncan:,6.4 单因素方差分析,SPSS点击继续返回上级对话框,再点击选项,弹出子对话框,在输出勾选方差齐性检验:,6.4 单因素方差分析,SPSS点击继续返回上级对话框,再点击确定即可得到结果:,结果首先给出了饲料的四个水平的样本数,然后是方差等同性的Levene检验,p=0.295,结果表明方差是有齐性的。接下来就是方差分析表:,6.4 单因素方差分析,方差分析表中,饲料对应的F值为7.132,p=0.0030.01,表明不同饲料对鱼的增重有非常显著的差异。,6.4 单因素方差分析,多重比较结果首先是Tukey法的检验结果,sig值(即p值)小于0.05,就表明对应的两个水平之间的均值有显著差异,均值差值对应的右上角有“*”标记。如A1与A2、A3对应的sig值分别为0.019与0.002,表明A1与A2、A3之间的差异非常显著,对应的差值右上角就有“*”标记,分别是“49.00*”与“64.40*”。,6.4 单因素方差分析,例6.2 用某小麦种子进行切胚乳试验,试验分为三种处理:整理小麦(A1)、切去一半胚乳(A2)、切去全部胚乳(A3),同期播种于条件较一致的花盆内,出苗后每盆选留两株,成熟后进行单株考种,每株粒重(g)结果列于下表,试进行方差分析。,6.4 单因素方差分析,DPS 输入数据,选择数据,点击菜单试验统计方差齐性检验:,6.4 单因素方差分析,DPS 结果如下:,五种方差齐性检验的结果中,所有的p值都是大于0.05,表明方差有齐性,数据无需处理就可进行方差分析。,6.4 单因素方差分析,DPS选择数据,点击菜单试验统计完全随机设计单因素试验统计分析:,6.4 单因素方差分析,DPS弹出对话框,数据转换方式默认为不转换,不作修改;多重比较方法选择LSD法;各个处理名称选择第一列:,6.4 单因素方差分析,DPS点击确定,即可得到结果:,方差分析表中可以看出,p=0.73140.05,表明三种处理的单株粒重无显著差异,无需再进行多重比较。,6.4 单因素方差分析,spss 定义变量,输入数据,选择菜单分析一般线性模型单变量:,6.4 单因素方差分析,spss 弹出单变量对话框,将粒重选择到因变量中,将处理选择到固定因子中:,6.4 单因素方差分析,spss点击两两比较,弹出对话框,选择处理进行两两比较检验,假定方差齐性下面选择LSD:,6.4 单因素方差分析,spss点击继续,返回对话框,点击选项,勾选方差齐性检验:,6.4 单因素方差分析,spss 点击继续返回对话框,点击确定得到结果:,误差方差的同等性检验中,p=0.7060.05,表明方差有齐性。,6.4 单因素方差分析,spss 点击继续返回对话框,点击确定得到结果:,主体间效应的检验中,p=0.7310.05,表明三种处理的单株粒重无显著差异,无需再进行多重比较。,6.5 二因素方差分析,二因素试验的方差分析中,我们需要对因素的主效和因素间的互作进行分析。因素间的互作显著与否,关系到主效的利用价值,有时候互作效应相当大,大到可以忽略主效应。二因素之间是否存在互作同样可以用软件进行分析。,6.5.1 无重复观测值的二因素方差分析,例 将一种生长激素配置成A1、A2、A3、A4、A5五种浓度,并用B1、B2、B3三种时间浸渍某大豆种子,出苗45天后得到各处理的每一植株的平均干物重(g),结果见下表。试作方差分析并进行多重比较。,本例中研究激素和时间的效应,这两个因素为固定因素,因而适用于固定模型。本题用DPS与SPSS两种软件来解题。,6.5 二因素方差分析,DPS 输入数据,选择数据,点击菜单试验统计完全随机设计二因素无重复试验统计分析:,6.5 二因素方差分析,DPS 弹出对话框,选择0.不转换:,6.5 二因素方差分析,DPS 点击OK,弹出下一个对话框:,6.5 二因素方差分析,DPS 点击确定,即可得到结果:,结果中的方差分析表可以看出,因素A对于干物重具有非常显著的影响(p=00.05)。接下来是因素A之间的多重比较:,6.5 二因素方差分析,DPS 点击确定,即可得到结果:,根据Duncan多重比较结果,A1与A2、A5与A3无显著差异,其他激素浓度处理后的差异是非常显著的,但A1、A2的处理效果最好。,6.5 二因素方差分析,SPSS 定义变量后,输入数据,选择菜单分析一般线性模型单变量:,6.5 二因素方差分析,SPSS将干物重选择到因变量中,将处理A、处理B选择到固定因子中:,6.5 二因素方差分析,SPSS 点击模型,弹出对话框,默认的指定模型为全因子,这里要修改为设定。先在因子与协变量下面选中处理A,选择到模型下方;同法将处理B选择到模型下方。其他地方都不作修改:,6.5 二因素方差分析,SPSS点击继续,返回上级对话框。再点击两两比较,弹出对话框,在因子下面点击处理A,将其选择到两两比较检验下方;同法将处理B选择到两两比较下方。其他地方都不作修改。假定方差齐性下面,勾选Duncan:,6.5 二因素方差分析,SPSS点击继续,返回上级对话框,点击确定,即可得到结果:,主体间效应的检验即方差分析表,其中处理A对应的F值为117.189,sig值(即p值)为0.000,表明因素A对于干物重具有非常显著的影响。而因素B对应的sig值为0.3000.05,表明因素B对于干物重具无显著的影响。,6.5 二因素方差分析,在=0.05的水平进行Duncan多重比较,A3与A5、A2与A1无显著差异,其他激素浓度处理后的差异是非常显著的,但从均值看A1、A2的处理效果最好,分别为13.6667与12.3333。因素B各水平之间无显著差异。,6.5.2 有重复观测值的二因素方差分析,6.5.2.1 固定模型例 研究不同温度与不同光照对某昆虫发滞育期的影响,得试验数据如表。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。,6.5.2 有重复观测值的二因素方差分析,DPS 输入数据,选择数据,点击菜单试验统计方差齐性测验:,6.5.2 有重复观测值的二因素方差分析,DPS弹出对话框,选择0.不转换:,6.5.2 有重复观测值的二因素方差分析,DPS点击OK,即可得到结果:,各种检验结果的p都是大于0.05,表明方差有齐性。,6.5.2 有重复观测值的二因素方差分析,DPS 再返回数据页面,选择数据,点击菜单试验统计完全随机设计二因素有重复试验统计分析:,6.5.2 有重复观测值的二因素方差分析,DPS弹出对话框,输入各个处理个数,分别在处理A后面填入3,处理B后面填入3,6.5.2 有重复观测值的二因素方差分析,DPS点击确认,弹出下一个对话框,由于方差有齐性,所以选择0.不转换:,6.5.2 有重复观测值的二因素方差分析,DPS点击OK,弹出多重比较对话框,选择Tukey法:,6.5.2 有重复观测值的二因素方差分析,DPS点击确定,即可得到结果:,结果中看方差分析表(固定模型),因素A、因素B对应的p值都是小于0.01,表明因素A(光照)、因素B(温度)对滞育期有非常显著的影响。AB表示因素A与因素B的交互作用,对应的p=0.4505,表明交互作用不显著。接下来是多重比较:,6.5.2 有重复观测值的二因素方差分析,DPS接下来是多重比较:,因素A1时滞育期最长,均值为102.5833,非常显著地高于A2与A3时的滞育期。A2与A3时的滞育期无显著差异。因素B1时滞育期最长,均值为102.6667,非常显著高于B2与B3时的滞育期。B2与B3时的滞育期无显著差异。,6.5.2 有重复观测值的二因素方差分析,DPSDPS的另外一种解题方法:输入数据与选择数据,点击菜单试验统计一般线性模型一般线性模型方差分析:,6.5.2 有重复观测值的二因素方差分析,DPS弹出对话框,将A、B、A*B一次性选择到右侧空白框中。其余不作修改:,6.5.2 有重复观测值的二因素方差分析,DPS点击确定,即可得到结果:,因素A、因素B对应的p值都是小于0.01,表明因素A(光照)、因素B(温度)对滞育期有非常显著的影响。AB表示因素A与因素B的交互作用,对应的p=0.4505,表明交互作用不显著。,6.5.2 有重复观测值的二因素方差分析,DPS接下来先是因素A的均值与多重比较:,因素A1时滞育期最长,均值为102.5833,非常显著地高于A2与A3时的滞育期。A2与A3时的滞育期无显著差异。,6.5.2 有重复观测值的二因素方差分析,DPS接下来是因素B的多重比较:,因素B1时滞育期最长,均值为102.6667,非常显著高于B2与B3时的滞育期。B2与B3时的滞育期无显著差异。,