《方差分析㈠》PPT课件.ppt
第五章 方差分析(一),第一节 方差分析原理(一个性质、两个分布、三个假定)第二节 单向分组数据(各组观察值个数有相同和不相同之分)第三节 多向分组数据(含两向分组、三向分组实例)第四节 三个假定与数据转换*(正态性、可加性、同质性),第五章要点提示,方差分析是本课程的重点,它与试验研究联系最为密切。学习时要从完全随机设计(单向分组)的试验数据着手,结合显著性检验的知识,深刻理解方差分析原理的全部内涵,即一个性质、两个分布和 三个假定(某些情况下作数据转换的必要性);区分LSR法多重比较与t-test的异同点;重点掌握单因素随机区组和拉丁方试验结果的方差分析法,能熟练地运用字母法标记多重比较结果。涉及教材内容:第六章第一、二、五节,第十二章第五、六、七节。作业布置:教材第六章第四节内容自习;教材P150 T1、T3、T4、T12、T13、T14、T21、T22、T23,教材P325 T7、T8、T13。,第一节 方差分析原理,方差分析(analysis of variance),缩写词原为ANOVA,现在也用AOV。它是对多个样本平均数进行假设测验的方法,因为对三个以上的平均数差异进行比较时,采用只能就一个或两个样本平均数差异进行显著性测验的方法已不敷应用,例如:例5.1 某水产研究所为了比较 k=4种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成4组,投喂不同饲料,一个月后每个处理各得n=5个增重观察值,且T=550.8,=27.54,试予分析。解 本例需要分析两个方面的问题:鱼经不同饲料投喂后增重是否 有显著差异(即存在本质差别)?若有显著差异的话,在哪些饲料之间?,如果按第三章的方法,直接进行显著性检验,就要孤立地对以下6个两两差数做t-test,即:顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 4.9 3.22 A4 27.96 3.22 1.68 A2 26.28 1.54 A3 24.74,第一节 方差分析原理,把一份完整的原始数据部分地撇开,孤立地对两两差数进行t-test,其消极后果佛克伦这样描述过:从同一总体中抽样,每次抽两个样本得1和2后求算 t 值,若指定它超过某值的概率为5%的话,该值就是两尾表中查得的临界值 t0.05 再以相同的样本容量每次抽三个样本,用最大的样本和最小的样本求算 t 值,此时它超过“t0.05”的概率上升到14.3%(即“t0.05”=t0.143)继续以相同的容量每次抽四个样本,仍以最大的和最小的求算t 值,则上升到26.5%(即“t0.05”=t0.265)以此类推5个样本40%以上。,比如本例针对药剂A1与药剂A3的两两差数6.44(最大 最小)进行的t-test:F=S大2/S小2=41.67/415.97/4 F0.05 Se2=(SS1+SS2)/(1+2)=57.64/8 S 1-2=Se2(1/n1+1/n2)=1.70 t=(1-2)(1-2)S1-2=6.44 1.70=3.8“t0.05”=2.306 由于撇开A、B孤立地进行,否定HO的把握不到80%。,第一节 方差分析原理,一、数据整理 根据方差分析的先决条件,在“三个假定”成立的前提下,对右表继续整理:C=T 2/nk=550.8 2/20=15169.03SST=(Y)2=Y 2 C=31.92+28.52 15169=199.67dfT=nk 1=5 4 1=19二、平方和、自由度的分解Y=(Yt)+(t)两边同时平方,得:(Y)2=(Y t)2+(t)2+2(Y t)(t)由同一处理重复观察值的累加:(Y)2=(Yt)2+(t)2+2(t)(Y t)=0(Y)2=(Y t)2+n(t)2,再把全部处理观察值的累加,得:(Y)2=(Yt)2+n(t)2即:SST=(组内)SSe+(组间)SSt 其中 SSt=n(t)2=Tt 2/n C=(155.9 2+131.4 2+123.7 2+139.8 2)/5 15169.03=114.27于是SSe=SST SSt=199.67 114.27=85.4=SS1+SS2+SS3+SS4=41.67+5.43+15.97+22.33 dft=k 1=3 dfe=dfT dft=193=df1+df2+df3+df4=4+4+4+4=16,第一节 方差分析原理,三、列ANOVA表,进行F-test 变异来源 DF SS MS F F 0.01 处理 3 114.27 38.09 7.13*5.29 误差 16 85.4 5.34 总 19 199.67(F值右上角标一个*达到0.05,标两个*达到0.01)这里进行的F-test与第三章(Ho:大2 小2)的相同之处是都做右尾测验,查的是同一张F临界值表;不同之处是固定用误差方差Se 2作分母(Ho:t2 e2),而不论其相对大小。显然,F值越大,说明处理效应引起的数据变异不仅在量的方面所占比重较大,而且相对于误差引起的变异来讲显得越重要、越突出;本例F-test结果显示极显著,表明原始数据的总变异主要由不同的饲料种类引起,各处理之间至少有两个存在着(极)显著差异。,以上一、二、三就是创建的方差分析法,其原理归纳如下:平方和与自由度的可加性;SST 综合了全部观察值的变异量,它汇总了各变异来源(SOV)导致原始数据和全试验平均数()出现差异的分量,包括可控因素分量和误差分量两类;“可加性”证实前者就是观察值按可控因素分组后算得的组间平方和(可控因素可以是试验因素,也可以是象单位组那样的其它系统因素)。试验设计有几个可控因素,数据就会有几种可能的分组方式,也就可以算出几个组间SS,而本属于组内SS的误差分量在平方和分解时总是由SST 减去所有可控因素SS得到,因此它又被称为“剩余平方和”。自由度的剖分与平方和的剖分一一对应。依据F分布进行整体测验;只确定可控因素分量和误差分量的相对重要程度是否达到显著水平。,第一节 方差分析原理,四、多重比较 R.A.Fisher 创建的方差分析法并没有明确(极)显著差异究竟存在于哪些“组平均数”之间,F值(极)显著所包含的信息只有通过对C2n=k(k-1)/2个两两差数进行多次连续性测验才能完全揭露出来,这就是多重比较。多重比较不论用哪一种方法,区别于多 次孤立的 t-test 或者说体现其“连续性”特征之处有两个,一是必须使用同一个共用的标准误,记为“SE”),本例SEMSe/n 5.345=1.033(10g);二是所依据的抽样分布由计算MSe即Se2的自由度dfe决定,并根据两两差数秩次距“k”的不同而有所修正。如本例k=2、3、4,测验时依据dfe=16的 t 分布并在k=3和4时修正为SSR分布如右。,顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 4.9 3.22 A4 27.96 3.22 1.68 A2 26.28 1.54 A3 24.74,=16,k=2 SSR=t2,=16,k=3,=16,k=4,3.23 3.15 3.00,第一节 方差分析原理,附表6 列出了各自由度对应的t 分布曲线再按9 种秩次距修正出来的SSR分布当两尾概率取0.05和0.01时临界值,记为SSR0.05和SSR0.01,其中k=2的那一条因为实际就是 t分布曲线压缩横坐标刻度所得,所以表中列出的SSR0.05和SSR0.01就分别等于附表3所列t0.05 和t0.01的2 倍;其它k3的SSR分布随着P的递增,对 t 分布的修正幅度加大,因此表中列出的SSR0.05和SSR0.01也就随之递增。多重比较测验两两差数的显著性时不是将它除以SE转换成SSR(也是标准化变量!)后再与SSR0.05 和SSR0.01 比大小,而是先将SSR0.05和SSR0.01乘以SE算出“显著尺”LSR,再将它们直接和相应秩次距的两两差数比大小,超过LSR0.05标*,超过LSR0.01 标*。,顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44*4.9*3.22*A4 27.96 3.22 ns 1.68 ns A2 26.28 1.54 ns A3 24.74,=16,k=2 SSR=t2,=16,k=3,=16,k=4,3.23 3.15 3.00,第一节 方差分析原理,按照两两差数在三角梯形表中的排列规律,本例多重比较过程列表如下:LSR0.05=SE SSR0.05 LSR0.01=SE SSR0.01 顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44*4.9*3.22*A4 27.96 3.22 ns 1.68 ns A2 26.28 1.54 ns A3 24.74 SE=1.033,综合包括多重比较在内的方差分析全过程,其原理可归纳为:一个性质(SS、DF的可加性)两个分布(F分布和SSR分布)本例根据SSR分布进行的多重比较叫新复极差测验,简称SSR-test。因为不能缺少 F-test 显著的前提,属于Fishers protected multipe comparisons.此前产生的复极差测验(简称q-test、又称SNK测验)却可以不经过F-test,原因是q-test算LSR时要改查q 值表(附表7),所依据的q分布是按极差抽样分布原理要保证各比较都是同一显著水平,因而对 t 分布修正幅度随秩次距k的递增而加大的速度要比SSR分布快,所以秩次距k3 时q0.05和q0.01 比相应的SSR0.05和SSR0.01大。,第二节 单向分组数据,单向分组数据指观察值仅按一个方向分组的数据。如例5.1中将全部供试单位(试验材料)随机地分成若干组,然后各组给以不同处理,即同组供试单位受相同处理,不同组受不同处理,这样所得的全部观察值在设计上称为完全随机试验数据,而实际研究中下例5.2那样的调查结果也属此类。一、各组观察值个数相等 例5.2 抽测 5个不同品种(k=5)各5头母猪(n=5)的窝产仔数,结果如右表所示,T=265,试检验不同品种的母猪平均窝产仔数差异是否显著。,1、数据整理 C=T 2/nk=265 2/25=2809SST=(Y)2=Y 2 C=82+132+132 2809=136dfT=nk 1=5 5 1=24,第二节 单向分组数据,2、平方和、自由度的分解SSt=n(t)2=Tt 2/n C=73.2=(51 2+41 2+60 2+48 2+65 2)/5 2809于是 SSe=SST SSt=13673.2=62.8 dft=k 1=4 dfe=dfT dft=244=203、列ANOVA表,进行F-test 假设是Ho:t2 e2 而不是Ho:t2=e2(和 Ho:1=2=3=4=5效果一样)SOV DF SS MS F F 0.01 品种 4 73.2 18.3 5.83*4.43 误差 20 62.8 3.14 总 24 1364、多重比较 SE=MSe/n=3.145=0.793,再根据附表6的SSR进而算得显著尺:K SSR0.05 SSR0.01 LSR0.05 LSR0.012.95 4.02 2.339 3.1883.10 4.22 2.458 3.3463.18 4.33 2.522 3.4345 3.25 4.40 2.577 3.489,第二节 单向分组数据,本例的多重比较结果以三角梯形表表述如下:t 0.01 t 8.2 t 9.6 t 10.2 t 12.013.0 A 4.8*3.4*2.8*1.012.0 A 3.8*2.4 1.8 10.2 AB 2.0 0.6 9.6 AB 1.4 8.2 B,t 13.0 12.0 10.2 9.6 8.2,第二节 单向分组数据,本例的多重比较结果以三角梯形表表述如下:t 0.05 t 8.2 t 9.6 t 10.2 t 12.013.0 a 4.8*3.4*2.8*1.012.0 ab 3.8*2.4 1.8 10.2 bc 2.0 0.6 9.6 bc 1.4 8.2 c,t 13.0 12.0 10.2 9.6 8.2,第二节 单向分组数据,单向分组数据的观察值也可以是交叉试验的数据。即在同一试验中给试验单位安排处理时分期进行、交叉反复两次以上所获得的试验结果。这种试验设计方法能较好地消除试验动物个体(即试验单位)以及试验时期间的差异对试验数据影响,特别是能够利用较少的试验动物获得尽可能多的观察值个数。由于系同一批试验动物分期安排不同处理,所得观察值个数必然相等。例5.3 研究新配方饲料对奶牛产奶量(kg)的影响,设置对照饲料A1和和新配方饲料A2两个处理,采用 2 2交叉设计,用条件相近的10头奶牛分两期获得了20个原始数据,并算得二水平差值 d如右表,试完成其方差分析过程。,第二节 单向分组数据,1、数据整理 C=(d)2/nk=1.8 2/10=0.324 SST=d 2C=75.116=(1.7)2+(2.2)2+1.0 20.324 dfT=nk 1=5 2 1=92、平方和、自由度的分解SSt=Tt 2/n C=60.516=(11.4)2+13.2 2/5 0.324SSe=SST SSt=75.11660.516=14.6 dft=k 1=1 dfe=dfT dft=91=83、列ANOVA表,进行F-testSOV DF SS MS F F 0.01 处理 1 60.516 60.52 33.16*4.43 误差 8 14.600 1.83 总 9 75.116,第二节 单向分组数据,例5.4 研究饲喂尿素对奶牛产奶量(kg)的影响,设置尿素配合饲料A1和和对照饲料A2两个处理,采用 2 3交叉设计,用条件相近的6头奶牛分三期获得了18个原始数据,并算得二水平差值 d如右表,完成其方差分析的结果如下。(和例5.3一样,无需多重比较)ANOVA表:SOV DF SS MS F F 0.01 处理 1 1.6748 1.6748 1.60ns 7.71 误差 4 4.1727 1.0432 总 5 17.72,第二节 单向分组数据,二、各组观察值个数不相等 例5.5 5个不同品种猪的育肥试验,后期30天增重(kg)分别得到6、6、5、4、4个共25头猪的观察值(如下表),试比较不同品种间的增重有无显著性差异。1、数据整理 k=5 T=460.5 ni=25 C=T 2/ni=460.5 2/25=8482.41,SST=(Y)2=Y 2 C=21.52+16.02 8482.41=85.34 dfT=ni 1=25 1=24可加性原理与前面例5.1、例5.2一样:SST=组间 SS t+组内 SS e dfT=组间 df t+组内 df e 由于各组观察值个数 ni 不全相等,方差分析过程部分计算公式随之改变,须注意其与前面例5.1、例5.2的区别!,第二节 单向分组数据,2、平方和、自由度的分解SSt=(Tt 2/ni)C=46.5=(1212/6+103 2/6+91.5 2/5+78.5 2/4+66.5 2/4)8482.41于是 SSe=SST SSt=85.3446.5=38.84 dft=k 1=4 dfe=dfT dft=244=203、列ANOVA表,进行F-test 假设是Ho:t2 e2 而不是Ho:t2=e2(和 Ho:1=2=3=4=5效果一样)SOV DF SS MS F F 0.01 品种 4 46.5 11.63 5.99*4.43 误差 20 38.84 1.94 总 24 85.344、多重比较 SE=MSe/no=1.944.96=0.625,按dfe=20查得SSR临界值后比较如下:P LSR 顺序 t 0.05 0.01 0.05 0.01 B1 20.2 a A2.95 4.02 B4 19.6 a AB3.10 4.22 B3 18.3 ab ABC3.18 4.33 B2 17.2 b BC5 3.25 4.40 B5 16.6 b C,第二节 单向分组数据,组次数平均数 no 的另一种计算公式:6(6+5+4+4)6(6+5+4+4)5(6+6+4+4)4(6+6+5+4)4(6+6+5+4)4 4 4 4 4 no=4.96 6+6+5+4+4 本例说明取样调查得到的数据观察结果可按单向分组数据的模型进行方差分析,而不论各组取样获得的观察值个数是否相同(参见例5.1)。实际应用中,某些完全随机试验设计即使各处理的小区个数相同,但因为自然条件限制或其它原因导致个别小区无法得到观察值时,就可以参照本例按各组观察值个数不同的数据结构进行分析。由于取样观察所依据的原理是以概率论中定义的“随机试验”为出发点,因此,试验统计中讲授取样调查结果决不算“离题”,也就是说,对教材名称中的“试验”一词要全面理解,这是本课程简称“试验统计”比简称“生物统计”好的理由之一。至于动物试验研究中按交叉设计得到的数据,其方差分析因为是用二水平差值 d 进行的,分析模型的数据结构也属于单向分组数据模式。,第三节 多向分组数据,试验统计过程中,象前面三例那样只需按不同试验处理(即一个可控因素)对数据进行分组是很不够的,因为农业及生物学领域所进行的试验研究由于受自然条件的制约,导致试验所得各观察值出现差异的可控因素决不仅仅局限于试验因素。如在实施了局部控制的试验方案设计中,各单位组之间的差别就反映了系统因素效应,此时的试验数据除了要按不同试验处理分组之外,还必须按不同的单位组进行分组。由于区组可以不止一个方向,这就产生了两向甚至三向分组数据的分析问题,前者最典型的是随机区组试验数据,后者则以拉丁方试验结果为代表,两者都是经典试验设计与统计分析内容;并且和完全随机试验一样,可以是单因素试验,也可以是复因素试验。鉴于复因素试验要专门安排一章来讲授,本节只介绍单因素随机区组和拉丁方试验数据的方差分析。例5.6 为了比较5种不同中草药饲料添加剂对猪增重的效果,从4头母猪所产仔猪中,每窝选出性别相同、体重相近的仔猪各5头,共20头,组成4个单位组,各单位组的每头仔猪随机饲喂不同的饲料添加剂。观察值为平均日增重(g),其结果如下表,试进行方差分析。,第三节 多向分组数据,SST=处理 SS t+区组 SS r+剩余 SS e dfT=处理 df t+区组 df r+剩余 df e SSt=Tt 2/n C=(825 2+925 2+1065 2+737 2+1137 2)/4 C=27267.2 SSr=Tr 2/kC=(1152 2+1047 2+1267 2+1223 2)/5 C=5530.15 SSe=SST SSt SSr=35890.9527267.2 5530.15=3093.6 dft=k 1=4 dfr=4 1=3 dfe=dfT dft dfr=194 3=12,一、数据整理 n=4 k=5 nk=20(随机单位组)C=T 2/nk=4689 2/20=1099336.05 SST=(Y)2=Y 2 C=2052+1682+2822 1099336.05=35890.95dfT=nk 1=4 5 1=19 二、SST、dfT 的分解,第三节 多向分组数据,三、列ANOVA表,进行F-test(假设是Ho:t2 e2 而不是Ho:t2=e2)SOV DF SS MS F F 0.01区组 3 5530.15 1843.38 7.15*5.95处理 4 27267.2 6816.8 26.44*5.41误差 12 3093.6 257.8 总 19 35890.95 总有人用单位组SS、DF算MS并进行F-test,这样做不妥当:单位组之间的差异是试验设计时实行局部控制、转化系统因素效应收到的效果,只参与SST、dfT 的分解以控制试验误差;一个单位组安排了试验方案的一个完整重复,单位组数就是重复次数,但“重复区组”只是构成了估计抽样误差的必要条件,不能提供其自身(区组之间)差异是否显著的信息。,四、多重比较 SE=MSe/n=257.84=8.028 再根据附表5的q进而算得显著尺:k 2 3 4 5q0.05 3.08 3.77 4.20 4.51q0.01 4.32 5.04 5.50 5.84LSR0.05 24.73 30.27 33.72 36.21LSR0.01 34.68 40.64 44.15 46.88 顺序 t 0.05 0.01 A5 284.25 a A A3 266.25 a A A2 231.25 b B A1 206.25 c BC A4 184.25 c C,第三节 多向分组数据,例5.7 为了研究5种不同温度对蛋鸡产蛋量的影响,将5栋鸡舍的温度分别设为A、B、C、D、E,把各栋鸡舍鸡群(5群),每群产蛋期(5期)分别设置成单位组,采用55拉丁方设计,其试验结果(个)如下,试予分析。解 拉丁方试验在两个方向都应用了局部控制,使得纵横两向皆成区组。其结果的分解原理构成三向分组:SST=SS t+SS r+SS c+SS e 即包括了三个可控因素,比随机区组法:SST=SS t+SS r+SS e 多一个可控因素;比完全随机法多两个:SST=SS t+SS e。自由度的分解也是如此。,第三节 多向分组数据,一、数据整理 n=k=5 nk=25 C=T 2/nk=549 2/25=12056.04 SST=Y 2 C=100.96=232+212+19212056.04 dfT=nk 1=5 5 1=24 三、列ANOVA表,进行F-testSOV DF SS MS F F 0.01行 4 27.36列 4 22.16温度 4 33.36 8.34 5.56*5.41误差 12 18.08 1.50 总 24 100.96 不要试图对横行区组(行)或纵行区组(列)进行F-test!,二、SST、dfT 的分解 SSt=Tt 2/n C=33.36=(116 2+114 2+105 2+113 2+101 2)/5 C SSr=Tr 2/kC=27.36=(108 2+105 2+116 2+116 2+104 2)/5 C SSc=Tc 2/kC=22.16=(109 2+108 2+119 2+107 2+106 2)/5 CSSe=SST SSt SSr SSc=18.08=100.96 33.3627.36 22.16 dft=k 1=dfr=dfc=n 1=4 dfe=dfT dft dfr dfc=244 4 4=12,第三节 多向分组数据,四、多重比较 SE=MSe/n=1.505=0.55 再根据附表5的q进而算得显著尺:k 2 3 4 5q0.05 3.08 3.77 4.20 4.51q0.01 4.32 5.04 5.50 5.84LSR0.05 1.69 2.07 2.31 2.48LSR0.01 2.38 2.77 3.03 3.21 顺序 t 0.05 0.01 A 23.2 a A B 22.8 a A D 22.6 a A C 21.0 ab A E 20.2 b A,多向分组数据不能象单向分组数据那样有各组观察值个数相同和各组观察值个数不相同两种数据结构,因为试验设计决定了其数据中各组观察值个数必须相同。即使试验实施后因为不可抗拒的原因使得个别小区观察值缺失而导致该组观察值个数少于其它组,也要按“最小二乘法”在却失小区算出一个估计值补进去才能进行方差分析,此时的“缺区估计”值无任何实际意义,纯粹是为了使方差分析时获得的误差平方和取最小值而确定的算术值,换句话说,没有获得观察值的小区只有用缺区估计值参与方差分析才能使算出的误差平方和为最小值。,第四节 三个假定与数据转换,在显著性检验一章知,针对两个小样本的平均数进行 t-est 时,只有方差同质(即两个样本方差 S2 经F-test不显著)的情形才能合并方差进而求算 t 值。在例5.1中介绍SS、df 的可加性时,对组内SSe、dfe进行分析,知其实质就是多个样本的合并方差,既然方差分析说到底依然是对多个样本平均数的两两差数做若干次连续的显著性检验(SSR-test或q-test),自然也应该在多个样本的方差合并之前证实它们同质才行,这可是方差分析的条件问题!即使是多元统计分析中建立生产过程的回归模型(现代生物统计技术)也少不得这个前提。但本章从例5.1讲到例5.5,也并没有明示上述前提条件是否存在,这是因为这些例题所用的原始数据已从其来源和性质进行“把关”,并根据其变化特点予以“把握”,使方差的同质(也叫“齐性”)有了一个基本的保证,具体有三条:根据数据的来源和性质,判断其是否符合方差分析的正态性假定;根据数据各组观察值的变化特点看是否符合方差分析的可加性假定;根据Bartlett-test的结果看多个样本方差是否符合方差分析的同质性假定。,第四节 三个假定与数据转换,一、正态性 指数据的各组观察值必须围绕其相应的平均数作正态分布。因为对多个样本的平均数进行方差分析时所作的F-test是假定这些样本皆从各自的正态总体中抽出的前提下进行的,以完全随机设计为例:Y11、Y12、Y13、Y1n 1 S12 N1(1,12)Y21、Y22、Y23、Y2n 2 S2 2 N2(2,22)Yi1、Yi2、Yi3、Yin i Si 2 Ni(i,i2)Yk1、Yk2、Yk3、Ykn k Sk 2 Nk(k,k2)换一种说法,就是所得数据的来源和性质须满足以下两点要求:各组观察值必须是用随机方法获得的;各正态总体的i与i2无任何函数关系,或者说i与i2彼此独立。,第四节 三个假定与数据转换,各组观察值必须是用随机方法获得的;各正态总体的i与i2无任何函数关系,或者说i与i2彼此独立。因此,首先务必明确方差分析只能用于经过随机排列(分组)设计获得的试验数据,或者是通过随机取样得到的调查结果,不能用于顺序排列(分组)设计获得的试验数据或者未经随机取样得到的调查结果。二项资料的百分数或统计次数,其实质乃二项总体抽样所得,这类总体的方差是平均数的函数,即i2=piqi=i(1i),服从的是二项分布;稀有现象的次数数据,如单位面积内的某种杂草的株数或者昆虫的头数,某块载玻片上细菌群落的计数,每毫升溶液中某种微生物个体数,每个显微镜视野中某种细胞个数等等,它们所属的总体平均数和方差几乎相等i=i2,可视其为来自Poisson总体,服从的是泊松分布。以上两类数据因为不符合正态性假定的第点要求,原则上都不能直接进行方差分析,必须通过数据转换恢复正态性之后才能做方差分析,前者通常进行百分数的反正弦转换,后者通常进行统计次数的平方根转换或者对数转换。,第四节 三个假定与数据转换,例5.8 研究甲、乙、丙三个地区乳牛隐性乳房炎阳性率,其结果如下表,试对该资料进行方差分析。二项资料百分数的反正弦转换就是将成数p的平方根视为三角函数之正弦值,反过来求其反正弦值,也就是转化为0 90的角度数,教材有附表供查阅。如果所有的百分数都介于30%70%之间,则因为p与q相差不悬殊,所服从的二项分布很接近正态分布,因此可不做反正弦转换,直接进行方差分析。本例的百分数有许多70%的,和30%一样,必须进行数据转换。,第四节 三个假定与数据转换,将转换后的 sin1 p 列表进行F-testSOV DF SS MS F F 0.01地区 2 2461.823 1230.911 14.03*6.01误差 18 1579.493 87.75 总 20 4041.316 SE=87.757=3.54 多重比较结果作为文献交流时,各处理反正弦值的平均数 t 必须由其反转换得到的百分数(即反转%)替换下来,这样在专业含义上才便于解释,为记牢这一特点,不妨称之为“过河拆桥”或者“上屋抽梯”。,按dfe=18查得SSR再算LSR值后比较如下:k LSR 顺序 t 反转%0.05 0.01 0.05 0.01 甲 53.27 64.2 a A10.51 14.41 乙 32.58 29.0 b B11.04 15.12 丙 28.56 22.8 b B,第四节 三个假定与数据转换,二、可加性 指处理效应与区组效应具有可加性,即:总SST误差SSe=处理SSt区组SSr 这一通式几乎囊括所有数据结构的平方和SS的分解过程,现令其SSe=0讨论如下:线性数据SST=152+52+52+152=500SSt=2(102+102)=400SSr=2(52+52)=100故 SSt SSr SST倍性数据SST=202+102+302=1400SSt=2(152+152)=900SSr=2(102+102)=400故 SSt SSr SST 实际操作时,SST SSt SSr 100必然被不合理地遗漏到SSe中,效应遭到误判。,转换数据取的对数:SST 0.32SSt 0.23SSr 0.09故又有:SSt SSr SST 说明对数转换YlgY恢复了可加性。用这种转换后的数据进行方差分析,多重比较显示的处理之间的差异显著性实际等同于检验出了原始数据处理之间倍数关系的显著性,其意义非同小可。换句话说,原始数据各处理之间呈倍性变化时,直接做方差分析因为有部分试验处理效应要被曲解为误差,会使本来属于倍数关系可能显著的原始数据却只能作出差数关系显著的结论。,第四节 三个假定与数据转换,方差分析的可加性假定表明例5.1中平方和的可加性不能只局限于处理SSt和误差SSe 的可加性,即 SST SSt SSe,还应进一步扩展到试验处理效应SSt 与其它可控因素效应如区组效应 SSr 的可加性可控因素内部各分量的可加性上,即可控因素总 SS SSt SSr。三、同质性 符合上述正态性假定和可加性假定的数据必然表现为平均数i与各样本均方 Si2 都是独立的统计量,即不存在函数关系,分别服从正态分布和卡方分布(指2=S 2/2)。归结到一点就是多个样本平均数i 可视为来自总体i2 相同而i 不同的总体,这就是方差分析的同质性(齐性)假定。实际研究得到的数据,非线性关系并不象上述假定数据的倍性关系那样容易判别,这时它是否符合可加性假定要用一种特殊的2 检验Bartlett-test。例5.9 假定有k=3个样本均方S12=4.2,S22=6,S32=3.1;各具自由度1=4,2=5,3=11。试作同质性测验。解 1、Ho:12 22 32 HA:12、22、32 不全相等。,第四节 三个假定与数据转换,2、列表计算c2值 Sp2 i Si2i 80.9204.045(i)ln Sp220ln4.04527.952(i)ln Sp2 i ln Si2 27.95 27.14 0.81C1(1/i 1/i)/3(k-1)1.08 1(1/4+1/5+1/111/20)(32)c2 2/C0.811.080.75 3、按df=k-1 查得20.05=5.99 4、c2 20.05 Ho成立:Sp2 Se2,和其它2 test一样,Bartlett-test也是整体测验,如测验结果发现方差不同质,可采取以下两种补救办法进行分析:剔除某些特殊的观察值、处理乃至重复,即剔除 Si2 特别大的处理,再作Bartlett-test;将全部试验处理按方差悬殊情况分为几个较为同质的部分再分别进行显著性检验。上述第类办法因为有可能失掉重要的信息,在决定 Si2 特别大的处理剔除之前有必要作Cohran测验,方法是先算出一个比值C=大Si2/Si2,再从专著中查得临界C0.05值,如果C C0.05才决定剔除;若C C0.05,就只能按上述第类办法处理。综上所述,“三个假定”表明方差分析并不是无条件的,不考虑条件是否具备就滥用方差分析只会歪曲甚至误解试验或调查数据蕴藏的真实信息。,