第六章 方差分析1 单向分类课件.ppt
第六章 方差分析,单项分类资料方差分析,Z检验:总体方差已知,总体方差未知相等,总体方差未知不等,上次课内容小结,两个总体平均数比较:z 检验和 t 检验。,3个或3个以上总体平均数如何比较呢?,如果用t检验方法:需要对多个平均数进行两两比较(1)3个平均数:比较3次,(2)4个平均数:比较6次,(3)K个平均数:,缺点:增加了犯型错误的概率。型错误:原假设实际为正确,但做出了拒绝原假设的判 断犯型错误的概率等于显著性水平。设每次比较的显著性水平为0.05,则,犯型错误的概率为0.05,或者说不犯型错误 的概 率为10.050.95。c次检验均不犯型错误的概率为0.95c 或者说,c次检验犯型错误的总概率为10.95c,例:欲比较4种饲料对仔猪增重效果的优劣,随机选取了性 别、年龄、体重相同,无亲缘关系的20头猪,随机分为4 组,每组5头,分别饲喂一种饲料,所得增重数据如下表,用t检验进行平均数间的两两比较要进行4(4-1)/2=6 次比较检验若每次检验的显著性水平为5%,则总的犯一型错误的概率为,因此,不能简单地用t 检验方法对3 个或3个以上的总体平均数进行两两比较。方差分析方法可以有效地解决这个问题。,将数据之间的变异分解为组间变异和组内变异。所谓的组:指样本,不同的组来自不同的总体,接受不同的处理。(1)组内变异:由于同组内的个体来自同一总体(接受同一处理),因此组内变异仅仅是由于个体之间的随机误差造成的。(2)组间变异:不同组个体间的变异,除了个体之间的随机误差以外,还包括不同处理(不同的组来自不用总体)所造成的差异。,方差分析的基本思想:,方差分析法的基本思想:,比较组间变异和组内变异,如果组间变异显著大于组内变异,表明不同的处理之间确实存在差异,或者说不同的总体平均数之间存在差异;反之,则没有差异。,6.1 单向分类资料的数据结构,一、单向分类资料的概念 指资料以一个标志来分类(或者称为分组)。标志:指不同的水平,或者称为不同的处理。例如:不同品种、不同饲料配方、不同的药物 等。二、研究目的 比较不同的处理对所考察的指标(性状)的影响有无差异,或者是比较各处理所代表的总体的平均数有无差异。,三、数据结构 设有k 个组,每组的观察值数据是来自该组的处理所代表的总体的一个样本。全部数据的结构如下:,本章所介绍的数学模型为线性模型,指将观测值表示为影响观测值大小的各个因素的效应的线性组合。对于单向分类资料而言,影响观测值大小的因素分为两种:(1)处理:对各组实施不同的处理,即它们来自不同的总体;另一方面,同组个体接受的处理是相同的。(2)随机误差(随机残差):对每个个体的影响都不同。,因此,将观测值用以下线性模型表示为:,i:第i 个处理的总体平均数(第i组所来自总体的总体平 均数)eij:随机误差,假设:(1),(2)各个eij彼此独立,6.2 数学模型,令=(1+2+k)/k,第i个处理的效应,总平均,称为总平均,即各个总体平均数的平均,表示为 i=+ai,i 与 的离差,也称为第i个处理的效应,观测值变异的分解通过对总平方和与自由度的剖分来完成,6.3.1 平方和的剖分,(1)先将离均差平方和改写为:,因为:,(3)再求一个组内的离均差平方和相加得:,离均差之和为0,组内平方和,组间平方和,(4)最后,将k 个组的离均差平方和相加得:,组内离均差平方和,简称组内平方和:度量了组内的变异。由于组内变异与处理无关,是由于个体间的随机误差造成的,所以又称为误差平方和。,组间离均差平方和,简称组间平方和:度量了组间的变异。由于组间的差异除了随机误差以外,还包括不同处理造成的差异,所以又称为处理平方和。,平方和的计算,6.3.3均方和均方的期望,均方:将组内平方和和组间平方和分别除以它们相应的自 由度,得到的统计量分别称为组内均方(误差均方)和组间均方(处理均方)。,不称方差,而称为均方,均方的期望为:,误差方差,处理效应,检验各组所代表的总体的平均数,即各个i之间是否存在差异(1)假设H0:1=2=k 或 a1=a2=ak=0HA:至少有两个均数不等 或 至少有一个 a 0,6.4 假设检验,(2)检验统计量,MSA:组间均方,MSE:组内均方,当 H0 成立时,,当 H0 不成立时,,当H0不成立时,值只应该落在分布的一侧,即右侧。所以为单侧检验,()统计推断,显著或极显著:至少有两个平均数间存在差异或极显著差异。,选取显著性水平(0.05或0.01)查附表9(P.483),找到F(dfA,dfE)的值比较计算的 F 值与查表的F(dfA,dfE)值,方差分析表,例(续),假设H0:1=2=3=4 HA:至少有两个均数不等,6.3.2 自由度的剖分,计算自由度,方差分析表,统计推断取显著性水平=0.01查附表9得F0.01(3,16)=5.29 F=10.22 5.29,否定原假设,不同饲料对仔猪增重的效果差异极显著。,6.5 t 检验和F检验的关系,在单项分类资料中,如果只有两个组,用t 检验和F 检验都可以。举例说明二者之间的关系。例:性激素对小公鸡的第二性征的影响实验。随机抽取体重相近的小公鸡22只,随机分为两组,一组接受激素A,一组接受激素C。在相同的环境下饲养,接受激素处理15天后取鸡冠称重,数据如下表。试检验两种激素对小公鸡鸡冠重的影响有无差异。,分别用t 检验和F 检验进行检验。一、t检验(1)(2)计算检验统计量 两样本合并的平方和为:,均数差异标准误为:,检验统计量为:,(3)统计推断 因为:t3.38 t0.01(11)2.845,所以,否定原假设,接受备择假设。两种激素对小公鸡第二性征的影响有着极显著的差异。,二、F 检验(1)(2)计算平方和与自由度,(3)计算自由度,(4)建立方差分析表,(5)统计推断:因为,F 11.40F0.01(1,20)8.10,所以,否定原假设,接受备择假设。两种激素对小公鸡第二性征的影响有着极显著的差异。,可以看出:,当F分布的分子的自由度为1,分母自由度等于t 分布的自由度时。t检验可以认为是 k=2,重复为 n 的方差分析。,目的:在存在差异的多个平均数中,找出具体有差异的平均数。只能对多个平均数进行两两比较。但是又不能采用 t检验,而是采用多重比较方法。Bonferroni t 检验Duncans 多重极差检验 无论采用哪种多重比较方法,必须在方差分析的基础上进行,如方差分析结果为差异不显著,则无需进行多重比较!,6.6 多重比较,最小显著差数法(LSD法,least significant difference):在F检验显著的前提下,先计算出显著水平为的最小显著差数,然后将任意两个处理平均数的差数的绝对值 与其比较。若 LSDa时,则 与 在水平上差异显著;反之,则在水平上差异不显著。,6.6.1 LSD法,利用LSD法进行多重比较时,可按如下步骤进行:(1)列出平均数的多重比较表,比较表中各处理按其平均数从大到小自上而下排列;(2)计算最小显著差数LSD0.05和LSD0.01;(3)将平均数多重比较表中两两平均数的差数与LSD0.05、LSD0.01比较,作出统计推断。,(1)假设:H0:i=j,HA:i j,(2)计算检验统计量:,(3)计算LSD并做统计推断:,已知:,n1=n1=n1=n1=5,MSE=96.88 dfE=16,说明第一种饲料的增重效果极显著的好于其他3种饲料,对各个平均数进行两两比较:也是一种t检验假设:H0:i=j,HA:i j检验统计量:,df=dfE=N-k,显著性水平:,总的一型错误概率,需要比较的次数,6.6.2 Bonferroni t 检验,误差均方,一次比较中犯一型错误概率:,一次比较中不犯一型错误概率:1-,c 次比较中不犯一型错误概率:(1-)c,c 次比较中犯一型错误概率:=1-(1-)c,显著性水平的确定:,例(续):,例(续):比较1:H0:1=2,HA:1 2,差异显著,例(续):比较2:H0:1=3,HA:1 3,差异极显著,比较3:H0:1=4,HA:1 4,差异极显著,例(续):比较4:H0:2=3,HA:2 3,差异不显著,比较5:H0:2=4,HA:2 4,差异不显著,例(续):比较6:H0:3=4,HA:3 4,差异不显著,对两个平均数按其包含的范围给定一个最小显著极差将样本平均数由大到小排序 对于每一种范围,计算最小显著极差,当,,否定 H0:i=j,k=范围=两个平均数间包含的平均数个数(含),查附表11(P.495)获得,6.6.3 Duncans 复极差检验,例(续),例(续),对于=0.05 和 0.01,,范围,2 3 4,SSR 3.00 4.13 3.15 4.34 3.23 4.45,LSR 13.21 18.18 13.87 19.10 14.22 19.59,0.05 0.01 0.05 0.01 0.05 0.01,例(续),平均数,32*27*21*,11 6,5,6.7数据转换,方差分析的数学模型 假设:随机误差都服从正态分布,且彼此独立。随机误差的独立性、正态性和等方差性(或称方差同质性)。从观测值的角度,也可将这些假设表述为:(1)独立性:每组(或水平组合)内的个体彼此间是 独立的;(2)正态性:每组(或水平组合)所代表的总体服从 正态分布;(3)等方差性:每个正态总体的方差是相等的。,这些假设是方差分析的基本假设,如果这些假设不满足,检验统计量F就不服从F分布,F检验的可靠性就会受到影响。所以在进行方差分析前,首先要考察这些假设能否满足或近似满足。独立性:应通过合理的试验设计来保证。正态性和等方差性:往往取决于观测值本身的性质。因而,对于已经获得的数据,我们主要考察它们是否满足正态性和等方差性的要求,如果相差太远,就要考虑采取适当的处理措施。数据转换就是可采取的措施之一。通过对数据进行某种转换,可使转换后的数据近似满足这些假设。,数据的非正态性和和方差的不同质 二者经常相伴出现,因为往往是数据的非正态性导致了方差的不同质,此时我们可以仅考虑利用某种转换使得变换后的数据具有等方差性,而非正态性的缺陷也同时得到了改善。主要内容:(1)方差的同质性检验。(2)常用的方差同质性转换方法。用变换后的资料进行方差分析后,为解释所得到的结果,往往需要将结果再转换到原来的尺度。,6.7.1方差的同质性检验,1.Hartley F检验,只适用于所有样本的含量均相等的情况。(1)假设 H0:;HA:至少有两个方差不等 其中,是第i个样本所代表的总体的方差,k是样本数。(2)检验统计量,分别为最大、最小的样本方差。:分布由样本数k和各样本的df决定df:每个样本的样本含量1临界值查(附表7)。,适用于当某个样本方差明显大于其他样本方差时 1)假设:同Hartley F检验 2)检验统计量:,2.Cochran检验,其中:是第i个样本的方差,是最大的样本方差。G 的分布也取决于样本的个数k和df。如各样本含量相等都为n,df=n-1;如各样本含量不等但差别不大,其中,是各样本含量的调和平均数。查附表8,得到临界值。,3.Bartlett 检验 适用于检验不同正态总体的方差的同质性,它可用于样本含量不等的情形。,6.7.2 方差稳定性转换,1.方差稳定性转换的一般原理 如果经过检验判定总体方差是不同质的,在很多情况下可以对数据进行转换,使转换后的数据的方差近似同质,故而称这种数据转换为方差的稳定性转换。在很多情况下方差的异质性表现为方差的大小随着平均数的大小而变化,即方差是平均数的函数,因而当不同总体的平均数有差异时,总体方差也随之出现差异。,2.平方根转换如果资料具有方差与均数成正比的特征,在方差分析前,应该对每个观测值进行平方根变换。典型例子有:显微镜视野下计数的细菌数;一定面积范围内的某种植物的数目或某种昆虫的数目等等。此类资料通常服从普哇松分布,而普哇松分布的基本特征是总体平均数等于总体方差。如果X的值较小,也有人建议用下式:,3.对数转换 如果数据具有标准差和均数成正比的趋势,则做对数变换。Y=logX 或 Y=lnX。如果数据中含有0值,则用Y=log(X+1)。对数变换主要用于各样本的方差差异较大,但变异系数相近 的资料。,一般用于服从二项分布的百分率资料。如果在n次独立试验中,具有性质A的事件发生r次,则r服从二项分布B(n,P),其中P为在一次试验中A事件发生的概率。当百分率都在30%70%之间时可以不做转换,因为变换后的数据与变换前相差不大。这种变换是使两端的率向中间接50%靠近,使数据的差异幅度变小。,4.反正弦转换,反正弦变换,又称为角变换。,5.倒数转换,倒数转换常用于以反应时间为指标的数据,例如某疾病患者的生存时间。,