《方差分析基础》PPT课件.ppt
第六章 方差分析,方差分析的基本原理单向分组资料的方差分析两向分组资料的方差分析,第一节 方差分析的基本原理,前面所介绍的t检验法和u检验法,适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在生产和科学研究中经常会遇到比较多个处理(k3)优劣的问题,即需进行多个平均数间的差异显著性检验。这时,若仍采用t或u检验法就不适宜了。原因如下:,1、检验过程烦琐 例如,一试验包含5个处理,采用t检验法要进行=10次两两平均数的差异显著性检验;若有k个处理,则要作k(k-1)/2次类似的检验。2、无统一的试验误差,误差估计的精确性和检验的灵敏性低 对同一试验的多个处理进行比较时,应该有一个统一的试验误差的估计值。3、推断的可靠性低,检验的I型错误率大 即使利用资料所提供的全部信息估计了试验误差,若用t检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平均数的秩次问题,因而会增大犯I型错误的概率,降低推断的可靠性。,复习几个常用术语,1、试验指标:为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同,选择的试验指标也不相同。2、试验因素:试验中所研究的影响试验指标的因素叫试验因素。3、因素水平:试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。,复习几个常用术语,4、试验处理:事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。进行单因素试验时,试验因素的一个水平就是一个处理。在多因素试验中,实施在试验单位上的具体项目是各因素的某一水平组合。5、试验单位:在试验中能接受不同试验处理的独立的试验载体叫试验单位。6、重复:在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。,自由度和平方和的分解,总变异是nk个观察值的变异,所以其自由度为nk-1总变异的平方和为:,自由度和平方和的分解,组间(处理)变异由k个yi变异所引起,故其自由度为k-1,组间(处理)平方和为:组内(误差)变异为各观察值与组平均数的变异,所以组内(误差变异自由度为k(n-1),组内平方和为:,自由度和平方和的分解,总自由度DFT组间自由度DFt组内自由度DFe总平方和SST组间平方和SSt+组内平方和SSe总的均方:组间的均方:组内的均方:,自由度和平方和的分解,以、四种药剂处理水稻种子,其中为对照,每处理各得个苗高观察值(cm),其结果列于下表,试分解其平方和与自由度,自由度和平方和的分解,总变异自由度:DFT=(nk-1)=(44)-1=15药剂间自由度:DFt=(k-1)=4-1=3药剂内自由度:DFe=k(n-1)=4(4-1)=12矫正数总的平方和:组间平方和:组内平方和:,二、F分布与F测验,从例题如手,理解方差分析的基本原理:,一小麦品种对比试验,6个品种,4次重复,单因素完全随机设计,得产量结果如下表(单位:kg/小区),从表中的结果可以看出:,24个小区的产量有高有低,存在差异,这种差异称为变异。各处理平均产量之间也有差异,可以直观地看作是小麦不同品种间生产能力的差异。同一品种不同重复之间的产量也不相同,显然这种差异主要不是小麦品种引起的,而是某些不易控制的随机因素的影响,是由随机误差造成的。由于试验误差的存在,不同品种产量之间的差异是纯属随机误差的影响还是反映了不同品种的影响?这就需要对品种效应作进一步考察,分析造差异的原因是什么,以判断试验结果的可靠性和品种产量间差异的显著性。,由此看出:,无论试验条件控制多么严格,在其试验结果中总是掺杂着随机误差等非处理因素的影响,说明试验结果的总变异是由两类原因引起的:由于人为施加试验条件的影响引起试验指标的变异,称处理间(组间)变异。其效应称处理效应。由随机因素的影响引起的变异,称处理内(组内)变异。其效应称非处理效应。即:试验结果总变异处理间变异处理内变异,基本思路:,方差分析就是从试验结果的变异性出发,用方差作为衡量各种变异量的尺度,如用总方差表示总变异,处理间方差表示处理间变异,处理内方差表示处理内变异(可以看作为误差),则哪项方差大,那项因子对试验指标的影响就大,把处理方差和误差方差在一定意义下进行比较,当处理间方差显著地大于误差方差时,表明处理因素对试验指标有显著影响。,方差分析:就是将试验数据的总变异分解为来源不同因素的相应变异,并做出数量估计,从而发现各个因素在总变异中所占的重要程度。即将试验的总变异方差分解成各变因方差,并以其中误差方差作为和其他变因方差比较的标准,以推断其他变因所引起的变异量是否真实的一种统计分析方法。,方差分析的基本步骤,(一)平方和与自由度的分解(二)F检验(三)多重比较详细内容见教材P89-92!,3.平方和的分解及其计算,如何定量地衡量这些变异?,称为总平方和,记为 SST,称为处理平方和,记为 SSt,称为误差平方和,记为 SSe,平方和的简易求法,4.自由度的确定及均方的计算,每个平方和都有一个自由度,自由度确定的经验规则:自由度是计算该平方和时可以自由变化的量的数目,自由度的准确意义是对平方和进行归一化时需要的一个参数,是我们构造假设检验所用统计量的一个组成部分,将上述讨论归纳成方差分析表为,单因素方差分析表,多重比较,为什么要进行多重比较怎样进行多重比较如何表示多重比较的结果如何选择多重比较的方法,统计学上把多个平均数两两间的相互比较称为多重比较。,一、为什么要进行多重比较,为什么要进行多重比较什么叫多重比较多重比较的优点,1.为什么要进行多重比较?,例:水稻不同药剂处理的苗高(cm),经方差分析得下表:,2.什么叫多重比较,多重比较就是指在 F 测验的前提下,对不同处理的平均数之间的现两两互比。,3.多重比较的优点,比较的精确度增大了所得到的结论更全面,更可靠了,多重比较,为什么要进行多重比较怎样进行多重比较如何表示多重比较的结果多重比较方法的选择,二、怎样进行多重比较,常用的有三种方法:最小显著差数法(Least significant difference,LSD法)最小显著极差法(Least significant ranges,LSR法)新复极差测验(SSR法)q测验,1.最小显著差数法(LSD法),LSD法的基本步骤:,解:(1)首先将各处理平均数进行排序编号,列出多重比较表为:,结论:,从多重比较表可以看出:,施尿素的稻谷的平均产量极显著高于对照和氨水2、显著高于施氨水1;,施碳酸氢铵的稻谷的平均产量极显著高于对照、显著高于施氨水2;,施氨水1的稻谷平均产量极显著高于对照;,施氨水2的稻谷平均产量显著高于对照;,其余的不同处理间的稻谷平均产量没有显著差异。,为了克服LSD法的不足,常采用Duncan法进行多重比较(由Duncan于1955年提出),2.Duncan法,Duncan法的特点是根据平均数差数内所包含的处理数(称为秩次距)k 的不同而采取不同的检验临界值。在LSD法里,所有差数采用相同的检验临界值。,2.新复极差检验(SSR法),计算LSR排序比较,LSRa=SESSRa,SSR通过查附表8求得查表时:列为误差自由度行p为测验极差的平均数个数,为了克服LSD法的不足,常采用Duncan法进行多重比较(由Duncan于1955年提出),SSR法又称Duncan法,Duncan法的特点是根据平均数差数内所包含的处理数(称为秩次距)k 的不同而采取不同的检验临界值。在LSD法里,所有差数采用相同的检验临界值。,临界值的计算:,Duncan法的基本步骤:,例二,仍以五种不同施肥方式的稻谷产量的数据为例,采用Duncan法进行多重比较。,解:(1)首先将各处理平均数进行排序编号,列出多重比较表为:,(2)计算临界值,列成表格,关于Duncan法的几点说明:,Duncan法的检验结果可能会和LSD法有差异,LSD法与Duncan法的临界值有如下关系:LSD法Duncan法所以用LSD法检验显著的差数,用Duncan法检验不一定显著。所以Duncan法相对保守稳重,在作业、考试时,除特别说明,多重比较时采用Duncan法。,2.新复极差测验(SSR法),计算LSR排序比较,2.新复极差测验(SSR法),计算LSR排序比较,2.新复极差测验(SSR法),计算LSR排序比较小结,3.q测验,与SSR法相似,唯一区别仅在计算LSRa时,不是查SSRa,而是查qa(附表7),查qa后 LSRa=SEqa所以不再详述。,多重比较,为什么要进行多重比较怎样进行多重比较如何表示多重比较的结果多重比较方法的选择,三、如何表示多重比较的结果,有三种方法:标记字母法列梯形表法划线法,1.标记字母法,例:水稻不同药剂处理的苗高(cm),1.标记字母法,A,B,1.标记字母法,A,B,B,C,C,1.标记字母法,2.列梯形表法,3.划线法,29cm(D)23cm(B)18cm(A)14cm(C),第二节 多重比较,为什么要进行多重比较怎样进行多重比较如何表示多重比较的结果多重比较方法的选择,四、多重比较方法的选择,参考以下几点:试验事先已确定了比较的标准,如所有处理均与对照相比时,用LSDa法;根据试验的侧重点选择。三种方法的显著尺度不相同,LSD法最低,SSR次之,q法最高。故对于试验结论事关重大或有严格要求时,用q测验,一般试验可采用SSR法。,第二节 多重比较,为什么要进行多重比较怎样进行多重比较如何表示多重比较的结果多重比较方法的选择,第二节 多重比较,作业:第120页习题第4题,第三节 单向分组资料的方差分析,一、组内观察值数目相等的单向分组资料的方差分析,例:研究6种氮肥施用法对小麦的效应,每种施肥法种5盆小麦,完全随机设计。最后测定它们的含氮量(mg),试作方差分析,单向分组资料的方差分析,1.自由度和平方和的分解自由度:总变异的自由度=65-1=29处理间的自由度=6-1=5误差的自由度=6(5-1)=24平方和:(按照公式进行计算)SST=45.763 SSt=44.463 SSe=SST-SSt=47.763-44.463=1.3002.F测验(见下表),单向分组资料的方差分析,3.各处理平均数的比较,单向分组资料的方差分析,多重比较结果:,单向分组资料的方差分析,二、组内观察值数目不等的单向分组资料的方差分析,例:某病虫测报站调查四种不同类型的玉米田28块,每块田所得玉米螟的百丛虫口密度列于下表,试问不同类型玉米田的虫口密度是否有显著差异?,单向分组资料的方差分析,方差分析结果:,单向分组资料的方差分析,第四节 两向分组资料的方差分析,一、组合内只有单个观察值的两向分组资料的方差分析,例:用生长素处理豌豆,共6个处理。豌豆种子发芽后,分别在每一箱中移植4株,每组6个木箱,每箱1个处理。试验共有4组24箱,试验时按组排列于温室中,使同组各箱的环境条件一致。然后记录各箱见第一朵花时4株豌豆的总节间数,其结果为:,1 自由度和平方和的分解2 F测验3 各处理平均间比较方差分析结果为:,推断:组间无显著差异,不同生长素处理间有显著差异。因为有预先指定的对照,故用LSD法,,DF=15时,t0.05=2.131,t0.01=2.947,故;LSD0.05=1.2022.131=2.56,Lsd0.01=1.2022.947=3.54,平均数比较的结果为:,两项分组资料的方差分析,二、组内有重复观察值的两向分组资料的方差分析,设有A、B两个因素,A因素有a个水平,B因素有b个水平,共有ab个处理组合,每一组合有n个观察值,则该资料共有abn个观察值。例:施用A1、A2、A33种肥料于B1、B2、B33种土壤,以小麦为批示作物,每处理组合种3盆,得产量结果于下表:,方差分析的结果为:,平均数的比较:()各处理组合数平均数的比较肥料土壤的互作显著,说明各处理组合的效应各不相同,所以应对各处理组合平均数进行比较。用LSR法:,各处理组合平均数比较结果为:,第五节 数 据 转 换,方差分析的基本假定数据转换,方差分析的基本假定,试验误差服从正态分布试验误差随机且相互独立试验误差的方差是同质的处理效应与误差效应是可加的,数 据 转 换,反正弦转换平方根转换对数转换,第二节 单向分组资料方差分析,单向分组资料是指观察值按一个方向分组的资料。组内观察值数目相等的单向分组资料组内观察值数目不等的单向分组资料,组内观察值数目相等的单向分组资料的方差分析,例:在栽培条件一致的情况下,比较5个梨品种产量,每品种随机抽取3个样点(每样点株数相同),结果如下表,进行方差分析。(单位:kg/样点),组内观察值数目不等的单向分组资料的方差分析,例:调查了元帅短枝型1号树和2号树,及普通型与小老树的枝条节间平均长度,各组观察值数目不等,见下表,进行方差分析。表2 元帅不同类型树枝条节间长度(单位:cm),作业:,1 假设有4个小麦新品系,进行完全随机盆栽试验,其结果如下表,试作方差分析。,2 对A、B、C、D、E等5个杂交水稻品种的干物质积累过程进行测定,每次每品种随机取2个样点,每点5株,其中一次的结果如下表,试作方差分析。,练习1:测定4种种植密度下金皇后玉米的千粒重(g)各4次,得结果如下表。试作方差分析。,练习2:以稻草(A1)、麦草(A2)、和花生秸(A3)三种培养基,在28(B1)、32(B2)、36(B3)三种温度下,培养草菇菌种,研究其菌丝生长速度。完全随机设计,每个处理组合培养3瓶。记载从接种到菌发满全瓶的天数。结果如下表,试作方差分析。,两向分组资料的方差分析,两向分组资料是指试验指标同时受两个因素的作用而得到的观测值,又叫交叉分组。按完全随机设计的两因素试验数据,都是两向分组资料,其方差分析按各组合内有无重复观测值分为两种不同情况。,两向分组资料的方差分析,组合内只有单个观察值的两向分组资料的方差分析:完全随机设计的二因素试验每处理组合只有一个观察值的资料:注意方差分析中,不考虑两因素之间的互作(若互作存在,则与误差混淆,无法分析互作,也不能取得合理的试验误差估计。),两向分组资料的方差分析,例:将某经济树种苗木栽在4块不同的苗床上,每块苗床上的苗木又分别使用三种不同的肥料观察肥效差异,一年后于每一苗床的各施肥小区内用重复抽样方式各抽取苗木若干株,测其平均高,得资料如下表。设已知苗高的分布近似正态,等方差。试问不同肥料(A)和不同苗床(B)对苗木高生长有无显著影响?,