多个样本均数比较方差分析ppt课件.ppt
2022/12/24,医学统计学供研究生用,1,第四章 多个样本均数比较的方差分析,Analysis of variance(ANOVA),2,方差分析,方差分析的基本思想完全随机设计的单因素 随机区组设计的两因素方差分析交叉设计的方差分析多个样本均数间的多重比较,3,第一节 方差分析的基本思想,用途:检验3组及以上总体均数是否相等。通过分析处理组均数之间的差别,推论它们所代表的k个总体均数间是否存在差别,或k个处理组间的差别是否具有统计学意义。,4,总变异 = 组间变异 + 组内变异,X=110.3,5,全部实验结果存在三种不同的变异,总变异:全部实验数据大小不等。变异的大小用观察值与总均数的离均差平方和表示,记为SS总,组间变异:各处理组的样本均数也大小不等,变异的大小用各组均数与总体均数的离均差平方和表示,记为SS组间。,组内变异:各处理组内部观察值也大小不等,可用各处理组内部每个观察值与组均数的离均差平方和表示。记为SS组内。,6,总变异 = 组间变异 + 组内变异,7,F= MS组间 / MS组内,如果:各样本均数来自同一总体(0: m1=m2 =mk),即各组均数之间无差别。则:组间变异与组内变异均只能反映随机误差,此时:F 值应接近1。反之,若各样本均数不是来自同一总体,组间变异应较大, F 值将明显大于1,则不能认为组间的变异仅反映随机误差,也就是认为处理因素有作用。,8,F值要到多大才有统计学意义呢?,在各样本来自正态总体,各样本所来自的总体方差相等的假定之下,当H0成立时,检验统计量F 服从自由度 组间=k-1, 组内=N-k的F 分布,表示为: F F (组间, 组内)可由F界值表查出在某一 水准下F分布的单尾界值F 。当F 。,9,方差分析的基本思想,根据资料的设计类型,将全部观察值总的离均差平方和及自由度分解为两个或多个部分,除随机误差(如SS组内)外,其余每个部分的变异(如SS组间)可由某个因素的作用(或某几个因素的交互作用,如A因素B因素)加以解释。通过比较不同变异来源的均方,借助F分布作出统计推断,从而了解该因素对观测指标有无影响。,10,方差分析对数据的基本假设(方差分析的应用条件),任何两个观察值之间均不相关每一水平下的观察值均来自正态总体各总体方差相等,即方差齐性(homogeneity of variance),11,第二节 完全随机设计资料的单因素方差分析,在实验研究中,将受试对象随机分配到一个研究因素的多个水平中去,然后观察实验效应。在观察研究中,按某个因素的不同水平分组,比较该因素的效应。如比较糖尿病患者,IGT异常和正常人的载脂蛋白有无差别(人群这个研究因素分为3个水平)。如将30名乙型脑炎患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗(药物这个研究因素分为3个水平),观察治疗后的退热时间。,12,一、完全随机设计,如何随机分组? 如欲将24只小白鼠随机分为3组。方法如下:首先,将小白鼠124编号利用随机数字表(附表15,p832)依次读取两位数作为一个随机数字录于编号下,将全部随机数从小到大编序号规定序号:18 甲组;916 乙组;1724为丙组,13,二、变异分解 :,例:某社区随机抽取了30名糖尿病患者(11例),IGT异常(9例)和正常人(10例)进行载脂蛋白(mg/dL)测定,问三种人的载脂蛋白有无差别?,14,1. 完全随机设计方差分析中变异的分解 总变异 = 组间变异 + 组内变异,X=110.3,15,2. 分析计算步骤,建立检验假设和确定检验水准H0: 三种人载脂蛋白的总体均数相等,即 m1 =m2 =m3H1: 三种人载脂蛋白的总体均数不全相等=0.05计算检验统计量F值,16,17,C=3309.52/30=365093 (校正数)SS总= 372974.87-365093=7881.87 SS组间=11602/11+921.52/9+12282/10-365093 =2384.03SS组内= SS总- SS组间=7881.87-2384.03=5497.84,18,表 完全随机设计资料的方差分析表,19,确定P值和作出推断结论查附表3 F界值表( P806),1 = 2, 2 = 27F0.05(2,27)=3.35, F0.01(2,27)=5.49本例F=5.85 F0.01(2,27) ,故P0.01。可认为三种人的载脂蛋白不同。,20,以上结论表明,总的来说三种人的载脂蛋白有差别,但并不表明任何两种人的载脂蛋白均有差别。要了解哪些组均数间有差别,需进一步作两两比较。当k=2时,对同一资料, F=t2 。,21,SPSS操作与结果解释,完全随机设计的单因素方差分析,22,建立SPSS数据工作表g:分组(1:糖尿病;2:IGT; 3:正常人)X:载脂蛋白,一、完全随机设计方差分析的SPSS,23,2. 选用SPSS过程,24,One-way ANVOA 对话框将 x选入Dependent List栏, g选入Factor栏,25,单击Options按钮,26,选择Descriptive,Homogeneity单击Continue 返回,单击Post Hoc按钮,27,单击OK按钮运行ANOVA过程,28,3. 结果解释 三组均数(mg/dL)依次为: 正常人(122.80 )、糖尿病患者 (105.46 ) 和IGT患者 (102.39 )。,29,经方差齐性检验,P=0.548,按=0.05水准,还不能认为3个总体方差不等。,30,经完全随机设计的单因素方差分析,F=5.85, P=0.008, 可认为三种人的载脂蛋白不同。,31,第三节 随机区组设计的方差分析(randomized block design,two-way ANOVA),亦称配伍组设计,是配对设计的扩大。例 对小白鼠喂以A、B、C三种不同的营养素,目的是了解不同营养素增重的效果。采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。现将同品系同体重的24只小白鼠分为8个区组,每个区组3只小白鼠。三周后体重增量结果(克)列于下表。问小白鼠经三种不同营养素喂养后所增体重有无差别?,32,一、随机区组设计,如何分组:,先将全部受试对象按某种或某些特征分为若干个区组(block),使每个区组内的观察对象随机地接受研究因素某一水平的处理。由于区组内的个体特征比较一致,减少了个体差异对结果的影响。,33,表 A、B、C三种营养素喂养小白鼠所增体重,34,二、变异分解,随机区组设计方差分析中 变异的分解:SS总=SS处理+SS区组+SS误差,35,SS总=SS处理+SS区组+SS误差,36,2. 分析计算步骤,建立检验假设和确定检验水准H0: 三种营养素喂养的小白鼠体重增量相等,即 m1 =m2 =m3H1:三种营养素喂养的小白鼠体重增量不全相等=0.05计算检验统计量F值,37,表 随机区组设计方差分析的计算公式,38,表 方差分析结果,39,确定P值和作出推断结论:,F0.05(2,14)=3.74,P0.05。尚不能认为三种营养素喂养的小白鼠体重增量有差别。 F0.01(7,14)=4.28, P0.01。可认为8个区组的小白鼠体重增量有差别,即遗传因素对小白鼠体重增量有影响(但一般更关注处理组间差别的假设检验)。,40,一般而言,随机区组设计较成组设计更容易检验出处理组间的差别,提高了研究效率。但不是在任何情况下都能提高研究效率。,区组效应是否具有统计学意义是 重要的,它表明区组的划分是否成功,即达到:区组内各实验单位很均匀,而不同区组内的实验单位具有很大差异。如果区组效应无统计学意义,则并不能提高研究效率,甚至会降低研究效率。(如果MS区组 MS误差)若没有足够理由显示不同区组间的差别确有统计学意义,则宁可不分区组。,41,SPSS操作与结果解释,随机区组设计的两因素方差分析,42,二、随机区组设计的两因素方差分析,例题在不同的室温下测定家兔的血糖浓度。室温分七组,家兔分四个种属,每一种属七只。问不同温度的血糖浓度有无差别及不同水平血糖浓度均数的变化趋势?,43,1. 建立SPSS数据工作表,44,1. 选用SPSS过程: Analyze General Linear Model Univariate,45,在Univariate对话框,将血糖浓度选入Dependent Variable栏;将室温选入 Fix factors栏;将家兔种属选入Random factors栏,46,单击Model按钮,47,选择Custom,48,将室温和家兔种属选入Model栏,从下拉菜单选择Main effents(因不能分析交互作用)。单击Continue返回。,49,3. SPSS结果解释:,50,经随机区组设计的两因素方差分析:,不同室温血糖浓度的差别有统计学意义(F=19.12,P=0.000),不同家兔种属血糖浓度的差别也有统计学意义(F=10.02,P=0.000),51,第四节交叉设计资料的方差分析,在医学研究中,将A、B两种处理先后施加于同一批受试对象,先随机的将一半的受试对象接受A后接受B,而另外一半则相反,先接受B再接受A,将两种处理因素在全部试验过程中交叉进行,故称之为交叉设计(crossover design)。,52,交叉设计,是一种特殊的自身对照设计克服了试验前后自身对照由于观察期间各种非试验因素对试验结果的影响所造成的偏移。,53,交叉设计的优点:,1.节约样本含量2.控制了时间因素以及个体差异对处理方式的影响3.每一个试验对象同时接受试验因素和对照,从医德的观点出发,均等考虑了每一个患者的利益,54,交叉设计的缺点:,不允许有病人失访,否则会造成该个体已有的数据完全浪费不适用于病程较短的急性病治疗效果的研究,55,交叉设计的限制条件,前一个试验阶段的处理效应不能持续作用到下一个试验阶段洗脱时间(washout time):目的是消除残留效应(carry-over effect),56,例题,为了研究12名高血压病人用A、B两种治疗方案疗效的差别,随机的让其中6名病人先以A法治疗,后以B法治疗,而另外一半的6名病人则先用B法,后用A法,记录治疗后血压的下降值(KPa),请分析A、B两方案疗效有无差别。,57,二阶段交叉设计变异的来源:,1.处理(药物)效应2.阶段效应3.顺序效应和个体差异 其中处理效应是希望研究的因素,而顺序效应则在目前常用的统计分析中被忽略,因为这是交叉设计能够实施的前提条件。 保证顺序效应忽略的办法,就是消除残留效应。4.误差,58,例:12例高血压病人交叉设计资料,59,第五节 拉丁方设计(latin square design),拉丁方设计是将三个因素(一个处理因素两个控制因素)按水平数r排列成一个rr的随机方阵。如33、44拉丁方。,60,常用拉丁方表,将两个控制因素分别安排在拉丁方设计的行和列上,需对基本拉丁方表作行列变换。,61,拉丁方设计的优点:,与随机区组相比较,可以多安排一个控制因素,增加了均衡性,减少了误差,提高了效率。,62,例4-5,比较A、B、C、D、E、F 6种药物给家兔注射后产生的皮肤疱疹大小(mm2),研究者选用6只家兔、并在每只家兔的6个不同部位进行注射。 试验结果见下表,试做拉丁方设计和方差分析。,63,拉丁方设计与试验结果(皮肤疱疹大小,mm2),拉丁方设计与随机区组区别,64,拉丁方设计变异的来源:,1.处理组变异2.行区组变异3.列区组变异4.误差 其中处理效应是希望研究的因素。,65,第四节多个样本均数间的多重比较 multiple comparison,概念无效假设的两种情况常用方法,66,一、概念,指出哪几组均数之间的差别具有或不具有统计学意义。当对比组数大于2时,为什么不能用t检验?因为会增加第一类错误的概率,使本来无无差别的两总体均数判为有差别。如有5个样本均数,可作10次t检验。每次不犯第一类错误的概率为1-0.05=0.95。每次比较均不犯第一类错误的概率仅为0.9510=0.5987,每次犯第一类错误的概率为1-0.5987=0.4013,明显增加了犯第一类错误的概率。,67,二、无效假设的两种情况,检验某几个特定总体均数是否相等,其无效假设称为部分无效假设。比如:多个处理组与对照组比较; 处理后不同时间与处理前比较; 几个特定的处理组间比较检验全部k个总体均数是否相等,其无效假设称为完全无效假设。比如一般涉及到每两个均数的两两比较。,68,三、常用方法,BonferroniTukeyDunnett-t检验Tamhanes T2 LSD-t 检验(least significant difference)SNK- q检验(Student-Newman-Keuls),69,SPSS统计软件中的两两比较方法,70,1. LSD-t检验,Least significant difference t test,最小有意义差异,比较k组中一对或几对在专业上有特殊意义的均数差值的总体均数是否为“0”;,71,LSD-t 检验公式,以误差自由度误差(或组内)和检验水准查t界值表缺点:没有调整多重比较的检验水准,比较的次数愈多,犯I类错误的可能性愈大。,72,2. Dunnett-t,k1个实验组与一个对照组均数差别的多重比较。根据算得的t值,误差自由度误差 ,试验组数k-1,以及检验水准查Dunnett-t 界值表,作出推断结论。,73,3. SNK - q检验,Student-Newman-Keuls,q检验一般在方差分析结果拒绝H0时,再用q检验进行多重比较缺点:没有调整多重比较的检验水准,比较的次数愈多,犯I类错误的可能性愈大。,74,4. Bonferroni,样本组数不宜过多,样本数一般4,这时的检验效率高于Tukey法。调整了多重比较时的检验水准: = / 比较的总次数,当计算所得的tt(,)时,则以P 称所比较的两组均数的差别有统计学意义。是SPSS统计软件推荐的方法,75,5. Tukey,当比较的样本数大于 5时,检验效率高于Bonferroni。当样本数为5时,要作10次两两比较;当样本数为6时,要作15次两两比较调整了多重比较时的检验水准,是SPSS统计软件推荐的方法,76,Bonferroni and Tukey,The Bonferroni and Tukeys honestly significant difference tests are commonly used multiple comparison tests.,77,Bonferroni,For a small number of pairs, Bonferroni is more powerful.,78,Tukey,When testing a large number of pairs of means, Tukey s honestly significant difference test is more powerful than the Bonferroni test.,79,容易得出有统计学意义结论的,依次为:,LSD(最容易)SNKTukeybonferroni (最不容易),80,6.方差不齐时的两两比较,Tamhanes T2法: Conservative pairwise comparisons test (保守的两两比较检验,I类错误小) based on a t test. This test is appropriate when the variances are unequal.Dunnetts T3GamesHow UDunnetts C,81,多个方差的齐性检验Levene Test,A homogeneity-of-variance test that is less dependent on the assumption of normality than most tests. For each case, it computes the absolute difference between the value of that case and its cell mean and performs a one-way analysis of variance on those differences.,82,SPSS操作与结果解释,方差分析,83,建立SPSS数据工作表g:分组(1:糖尿病;2:IGT; 3:正常人)X:载脂蛋白,一、完全随机设计方差分析的SPSS,84,2. 选用SPSS过程,85,One-way ANVOA 对话框将 x选入Dependent List栏, g选入Factor栏,86,单击Post Hoc按钮,87,选择Bonferroni,单击Continue返回,88,选择Descriptive,Homogeneity单击Continue 返回,89,单击OK按钮运行ANOVA过程,90,3. 结果解释 三组均数(mg/dL)依次为: 正常人(122.80 )、糖尿病患者 (105.46 ) 和IGT患者 (102.39 )。,91,经方差齐性检验,P=0.548,按=0.05水准,还不能认为3个总体方差不等。,92,经完全随机设计的单因素方差分析,F=5.85, P=0.008, 可认为三种人的载脂蛋白不同。,93,经Bonferroni检验,正常人与糖尿病患者(P=0.029)、正常人与IGT患者(P=0.013)载脂蛋白的差别有统计学意义,94,二、随机区组设计的两因素方差分析,在不同的室温下测定家兔的血糖浓度。室温分七组,家兔分四个种属,每一种属七只。问不同温度的血糖浓度有无差别及不同水平血糖浓度均数的变化趋势?,95,1. 建立SPSS数据工作表,96,随机区组设计方差分析的Spss过程,Analyze General Lineal Model Univariate Dependent list :血糖浓度 Fixed Factor 框 :室温Random Factor 框:家兔种属 Model Custom Build Terms 下拉: Main effects Model 框:室温、家兔种属OK,97,单击Post Hoc按钮,98,将变量:室温选入Post Hoc Tests for 栏,以便进行两两比较。由于组数多,选择Tukey进行两两比较。单击Continue 按钮返回,99,单击OK按钮,100,3. SPSS结果解释:Means过程显示不同室温的均值:可见从5分钟(130.0 mg%)到20分钟(89.3 mg%) ,血糖均值由高逐渐降低;从20分钟(89.3 mg%)到35分钟(147.5 mg%) ,血糖均值由低逐渐升高。,101,3. SPSS结果解释,102,经随机区组设计的两因素方差分析:,不同室温血糖浓度的差别有统计学意义(F=19.12,P=0.000)不同家兔种属血糖浓度的差别也有统计学意义(F=10.02,P=0.000),103,期望均方表(可不看该结果),104,Tukey检验结果(1),105,Tukey检验结果(2),106,Tukey法的均衡子集表,107,三、交叉设计方差分析的SPSS,例4-6 分析 A、B两种闪烁液测定血浆中3H-cGMP的交叉试验结果。第I阶段1、3、4、7、9号用A测定,2、5、6、8、10号用B测定;第II阶段1、3、4、7、9号用B测定,2、5、6、8、10号用A测定。试对交叉试验结果进行方差分析。,108,1.建立数据库,109,交叉设计方差分析的Spss过程,Analyze General Lineal Model Univariate Dependent list :X Fixed Factor 框 :treat phaseRandom Factor 框 person Model Custom Build Terms 下拉: Main effects Model 框: treat、 phase、 personOK,110,四、拉丁方设计方差分析的SPSS,例4-5比较A、B、C、D、E、F 6种药物给家兔注射后产生的皮肤疱疹大小(mm2),研究者选用6只家兔、并在每只家兔的6个不同部位进行注射, 试做拉丁方设计和方差分析。,111,1.建立数据库,112,拉丁方设计方差分析的Spss过程,Analyze General Lineal Model Univariate Dependent list :area Fixed Factor 框 :no、part、 drug Model Custom Build Terms 下拉: Main effects Model 框: no、 part、 drugOK,113,方差分析要点,掌握方差分析的基本思想;方差分析变异的分解。熟悉One-Way ANOVA过程和GLM- General Linear Model 过程的操作;并能对计算结果进行正确的分析(包括两两比较的结果选择)。,114,1、完全随机设计的单因素方差分析,单因素方差分析的总变异分几部分?F值是 与 的比值?如各样本均数来自同一总体,则F值理论上等于 。若各样本均数不是来自同一总体,则 变异会增大,F值将明显 于1 。,115,2、随机区组设计的两因素方差分析,随机区组设计的两因素方差分析的总变异分为几部分?由于从总变异中多分离出区组变异, 使误差更能反映随机误差的大小,因而提高了检验效率。前提:区组效应具有统计学意义,116,3、多个样本均数每两个均数间的两两比较,多个样本均数每两个均数间的两两比较常用的统计方法是:Bonferroni(组数少),Tukey (组数多) ,Tamhanes T2(方差不齐,结论较保守) 。多个实验组与一个对照组均数间的两两比较常用的统计方法是Dunnett - t 。比较G组中某一对或几对在专业上有特殊意义的均数差值的总体均数是否为“0”,较常用的统计方法是 LSD 。,117,作业 (p9497),三、计算分析题题2、3 5 6如果差异有统计学意义,须作方差齐性检验,并进行多重比较。,118,研究生课件网址:,http:/,