多个样本均数比较.ppt
第四章 多个样本均数比较 的方差分析,Analysis of Variance,ANOVA 邹莉玲,Content1.Basal ideal and application conditions2.ANOVA of completely random designed data 3.ANOVA of randomized block designed data4.ANOVA of latin square designed data 5.ANOVA of cross-over designed data(自学)6.Multiple comparison of sample means7.Bartlett test and Levene test(自学),第一节 方差分析的基本思想及其应用条件,目的:推断多个总体均数是否有差别。也可用于两个 方法:方差分析,即多个样本均数比较 的F检验。基本思想:根据资料设计的类型及研究目的,可将总变异分解为两个或多个部分,每个部分的变异可由某因素的作用来解释。通过比较可能由某因素所至的变异与随机误差,即可了解该因素对测定结果有无影响。,应用条件:1)各样本:相互独立的随机样本,均来自正态分布总体。(独立随机同分布)2)各样本的总体方差相等(方差齐)。本章涉及的设计类型:完全随机设计资料的方差分析随机区组设计资料的方差分析拉丁方设计资料的方差分析两阶段交叉设计资料的方差分析(自学),完全随机设计资料的方差分析基本思想,合计 N S:第i个处理组第j个观察结果,记总均数为,各处理组均数为,总例数为Nnl+n2+ng,g为处理组数。,1.总变异:全部测量值大小不同,这种变异称为总变异。总变异的大小可以用离均差平方和(sum of squares of deviations from mean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。总变异SS总反映了所有测量值之间总的变异程度。,计算公式为,其中:,2组间变异:各处理组由于接受处理的水平不同,各组的样本均数(i1,2,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间。,计算公式为,3组内变异:在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异(误差)。组内变异可用组内各测量值Xij与其所在组的均数的差值的平方和表示,记为SS组内,表示随机误差的影响。,三种变异的关系:,均方差,均方(mean square,MS)。,检验统计量:,如果,说明各样本来自相同总体,处理因素不起作用,则组间变异与组内变异一样,只反映随机误差的作用大小,计算得到F值应接近于1。反之,如果 不全相等,F值将远大于1。用F界值表(P806,单侧界值)确定P值。,第二节,完全随机设计资料的方差分析(ANOVA of completely random designed data),(completely random design)是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。,一、完全随机设计,例4-1 某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名患者,采用完全随机设计方法将患者等分为4组进行双盲试验。问如何进行分组?,(1)完全随机分组方法:,1.编号:120名高血脂患者从1开始到120编号,见表4-2第1行(P72);2.取随机数字:从附表15中的任一行任一列开始,如第5行第7列开始,依次读取三位数作为一个随机数录于编号下,见表4-2第2行;,3.编序号:将全部随机数字从小到大(数据相同则按先后顺序)编序号,见表4-2第3行。4.事先规定:序号1-30为甲组,序号31-60为乙组,序号61-90为丙组,序号91-120为丁组,见表4-2第四行。,(2)统计分析方法选择:,1.对于正态分布且方差齐同的资料,常采用完全随机设计的单因素方差分析(one-way ANOVA)或成组资料的 t 检验(g=2);2.对于非正态分布或方差不齐的资料,可进行数据变换或采用Wilcoxon秩和检验。,二、变异分解,例4-2 某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名高血脂患者,采用完全随机设计方法将患者等分为4组(具体分组方法见例4-1),进行双盲试验。6周后测得低密度脂蛋白作为试验结果,见表4-3。问4个处理组患者的低密度脂蛋白含量总体均数有无差别?,表4-3 4个处理组低密度脂蛋白测量值(mmol/L),三、分析步骤,H0:即4个试验组总体均数相等 H1:4个试验组总体均数不等或不全相等,2.计算检验统计量:,1.建立检验假设,确定检验水准:,表4-5 完全随机设计方差分析表,列方差分析表,3.确定P值,作出推断结论:按 水准,拒绝H0,接受H1,认为4个试验组ldl-c总体均数不等或不全相等,即不同剂量药物对血脂中ldl-c降低有影响。,注意:,方差分析的结果拒绝H0,接受H1,不能说明各组总体均数间两两都有差别。如果要分析哪些两组间有差别,可进行多个均数间的多重比较(见本章第六节)。当g=2时,完全随机设计方差分析与成组设计资料的t 检验等价,有。,第三节随机区组设计资料的方差分析(ANOVA of randomized block designed data),一、随机区组设计(randomized block design),随机区组设计(randomized block design)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。,(1)随机分组方法:,(2)随机区组设计的特点,随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同。区组内均衡。在进行统计分析时,将区组变异离均差平方和从完全随机设计的组内离均差平和中分离出来,从而减小组内离均差平方和(误差平方和),提高了统计检验效率。,例4-3 如何按随机区组设计,分配5个区组的15只小白鼠接受甲、乙、丙三种抗癌药物?,分组方法:先将小白鼠按体重编号,体重相近的3只小白鼠配成一个区组,见表4-6。在随机数字表中任选一行一列开始的2位数作为1个随机数,如从第8行第3列开始纪录,见表4-6;在每个区组内将随机数按大小排序;各区组中内序号为1的接受甲药、序号为2的接受乙药、序号为3的接受丙药,分配结果见表4-6。,(3)统计方法选择:,1.正态分布且方差齐同的资料,应采用两因素(处理、配伍)方差分析(two-way ANOVA)或配对t检验(g=2);2.当不满足方差分析和t检验条件时,可对数据进行变换或采用随机区组设计资料的Friedman M检验。,表4-7 随机区组设计的试验结果,二、变异分解,(1)总变异:反映所有观察值之间的变异,记为SS总。(2)处理间变异:由处理因素的不同水平作用和随机误差产生的变异,记为SS处理。(3)区组间变异:由不同区组作用和随机误差产生的变异,记为SS区组.(4)误差变异:完全由随机误差产生的变异,记为SS误差。对总离均差平方和及其自由度的分解,有:,表4-8 随机区组设计资料的方差分析表,三、分析步骤,例4-4 某研究者采用随机区组设计进行实验,比较三种抗癌药物对小白鼠肉瘤抑瘤效果,先将15只染有肉瘤小白鼠按体重大小配成5个区组,每个区组内3只小白鼠随机接受三种抗癌药物(具体分配方法见例4-3),以肉瘤的重量为指标,试验结果见表4-9。问三种不同的药物的抑瘤效果有无差别?,表4-9 不同药物作用后小白鼠肉瘤重量(g),H0:,即三种不同药物作用后 小白鼠肉瘤重量的总体均数相等 H1:三种不同药物作用后小白鼠肉瘤重 量的总体均数不等或不全相等,据1=2、2=8查附表3的F界值表,得 在=0.05的水准上,拒绝H0,接受H1,认为三种不同药物作用后小白鼠肉瘤重量的总体均数不全相等,即不同药物的抑瘤效果有差别。同理可对区组间的差别进行检验。,注意:,方差分析的结果拒绝H0,接受H1,不能说明各组总体均数间两两都有差别。如果要分析哪些两组间有差别,可进行多个均数间的多重比较(见本章第六节)。当g=2时,随机区组设计方差分析与配对设计资料的t 检验等价,有。,随机区组设计确定区组因素应是对试验结果有影响的非处理因素。区组内各试验对象应均衡,区组之间试验对象具有较大的差异为好,这样利用区组控制非处理因素的影响,并在方差分析时将区组间的变异从组内变异中分解出来。因此,当区组间差别有统计学意义时,这种设计的误差比完全随机设计小,试验效率得以提高。,第四节,拉丁方设计资料的方差分析(ANOVA of latin square designed data),基本概念,欲比较一个处理因素中K个水平的各均数,同时要控制另外两个因素(控制因素)的作用,且每个因素类或水平数相等时,可用拉丁方设计。用K个拉丁字母排列成K行K列的方阵,将两个控制因素分别安排在拉丁方设计的行和列上。使每行、每列中每个字母仅出现1次,这样的方阵称为拉丁方。,拉丁方举例,例如:22拉丁方 33拉丁方 A B A B C B A C A B B C A 44拉丁方 55拉丁方 A B C D A B C D E B C D A B E D A C D A B C C A E B D C D A E D C A E B E D B C A 拉丁方的行和行,或列和列交换,仍为拉丁方。,基本步骤,拉丁方设计实际上是一种特殊类型的三因素试验设计,三个因素的水平数必须相同。基本步骤:(1)首先根据水平数选定拉丁方。(2)再随机交换拉丁方的行或列。(3)然后将三个因素分别放置于拉丁方的行、列 及字母上面,主要考察因素(处理因素)放置于 字母上。(4)根据设计进行试验,把试验结果记入相应位置。(5)进行方差分析,得出结论。,实例分析,例1:五种防护服,由五人各在不同的五天中穿着测定脉搏数(如表1)。试比较五种防护服对脉搏数有无不同。表1 比较5种防护服对脉搏数有无影响,总变异的分解,字母间(处理间)总变异 行间 列间 误差拉丁方设计是在随机区组设计的基础上,多安排了一个已知的对试验结果有影响的非处理因素。相对于随机区组设计,总变异分解更细,误差更小,效率也更高。,拉丁方设计的方差分析基本步骤,一、建立检验假设,确定检验水准:(1)H0:各种防护服的平均脉搏数相同;H1:各种防护服的平均脉搏数不全相同;F1=MS防护服间/MS误差(2)H0:各个受试者的平均脉搏数相同;H1:各个受试者的平均脉搏数不全相同;F2=MS受试者间/MS误差(3)H0:不同日期的平均脉搏数相同;H1:不同日期的平均脉搏数不全相同。F3=MS日期间/MS误差,二、计算检验统计量(F值),例1的方差分析表变异来源 SS DF MS F P 总变异 4105.91 24 日期间 508.07 4 127.01 2.89 0.05 受试者间 2853.67 4 713.41 16.27 0.05 误差 526.14 12 43.84 F0.05(4,12)=3.26,F0.01(4,12)=5.41三、确定P值,作出推论。,第五节,两阶段交叉设计资料的方差分析(自学),第六节,多个样本均数间的多重比较(multiple comparison),多重比较不能采用多次的两样本均数间比较的t检验!,若用多次两样本均数比较的t 检验进行多重比较,将会加大犯类错误(把本无差别的两个总体均数判为有差别)的概率。,例如,有4个样本均数,两两组合数为,若用 t 检验做6次比较,且每次比较的检验水准定为=0.05,则每次比较不犯类错误的概率为(10.05),6次均不犯类错误的概率为,这时,总的检验水准变为,远比0.05大。因此,样本均数间的多重比较不能用两样本均数比较的 t 检验。,适用条件:,当方差分析的结果为拒绝H0,接受H1时,只说明g个总体均数不全相等。若想进一步了解哪些两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较。,一、LSD-t检验(least significant difference),适用范围:一对或几对在专业上有特殊 意义的样本均数间的比较。,检验统计量t的计算公式为,式中,注意:,例4-7 对例4-2资料,问高血脂患者的降血脂新药2.4g组、4.8g组、7.2g组与安慰剂组的低密度脂蛋白含量总体均数有无差别?,,即降血脂新药2.4g组与安慰剂 组的低密度脂蛋白含量总体均数相等,即降血脂新药2.4g组与安慰剂 组的低密度脂蛋白含量总体均数不等=0.05,降血脂新药2.4g组与安慰剂组的比较:,新药4.8g组VS安慰剂组:LSD-t为-4.29 7.2g组VS安慰剂组:LSD-t 为-8.59。同理:按 水准,降血脂新药4.8g组、7.2g组与安慰剂组间差别有统计学意义。,二、Dunnett-t 检验,适用条件:g-1个实验组与一个对照组均数差别的多重比较,检验统计量为t,亦称t检验。,式中,计算公式为:,Dunnett-,例4-8 对例4-2资料,问高血脂患者的三个不同剂量降血脂新药组与安慰剂组的低密度脂蛋白含量总体均数是否有差别?,H0:i=0,即各实验组与安慰剂组的低密度 脂蛋白含 量总体均数相等H1:i 0,即各实验组与安慰剂组的低密度 脂蛋白含量总体均数不等=0.05,Dunnett-,Dunnett-,Dunnett-,三、SNK-q检验(Student-Newman-Keuls),适用于多个样本均数两两之间的全面比较。,检验统计量q的计算公式为,例4-9 对例4-4资料,问三种不同药物的抑瘤效果两两之间是否有差别?,H0:A=B,即任两对比较组的总体均数相等H1:AB,即任两对比较组的总体均数不相等=0.05,将三个样本均数由小到大排列,并编组次:,列出对比组,并计算两对比组的均数之差,写出两对比组包含的组数a。已知=8和a,查附表4的q界值,得出相应的q界值。以实际的q值和相应的q界值作比较,确定对应的P值。,表4-15 多个均数两两比较值,结论:可认为A药和B药、C药的抑瘤 效果有差别,还不能认为B药和C药的抑瘤效果有差别。,第七节,多样本方差比较的Bartlett检验和Levene检验(自学),课后练习题1、最佳选择题:全部2、分析计算题:第1、2、3、7题,The end!Thanks!,