统计学-第四章多个样本均数比较的方差分析.ppt
《统计学-第四章多个样本均数比较的方差分析.ppt》由会员分享,可在线阅读,更多相关《统计学-第四章多个样本均数比较的方差分析.ppt(108页珍藏版)》请在三一办公上搜索。
1、2023/9/18,医学统计学供研究生用,1,第四章 多个样本均数比较的方差分析,Analysis of variance(ANOVA),2,方差分析,方差分析的基本思想完全随机设计的单因素 随机区组设计的两因素方差分析交叉设计的方差分析多个样本均数间的多重比较,3,第一节 方差分析的基本思想,用途:检验3组及以上总体均数是否相等。通过分析处理组均数之间的差别,推论它们所代表的k个总体均数间是否存在差别,或k个处理组间的差别是否具有统计学意义。,4,总变异=组间变异+组内变异,X=110.3,5,全部实验结果存在三种不同的变异,总变异:全部实验数据大小不等。变异的大小用观察值与总均数的离均差平
2、方和表示,记为SS总,组间变异:各处理组的样本均数也大小不等,变异的大小用各组均数与总体均数的离均差平方和表示,记为SS组间。,组内变异:各处理组内部观察值也大小不等,可用各处理组内部每个观察值与组均数的离均差平方和表示。记为SS组内。,6,总变异=组间变异+组内变异,7,F=MS组间/MS组内,如果:各样本均数来自同一总体(0:m1=m2=mk),即各组均数之间无差别。则:组间变异与组内变异均只能反映随机误差,此时:F 值应接近1。反之,若各样本均数不是来自同一总体,组间变异应较大,F 值将明显大于1,则不能认为组间的变异仅反映随机误差,也就是认为处理因素有作用。,8,F值要到多大才有统计学
3、意义呢?,在各样本来自正态总体,各样本所来自的总体方差相等的假定之下,当H0成立时,检验统计量F 服从自由度 组间=k-1,组内=N-k的F 分布,表示为:F F(组间,组内)可由F界值表查出在某一 水准下F分布的单尾界值F。当F。,9,方差分析的基本思想,根据资料的设计类型,将全部观察值总的离均差平方和及自由度分解为两个或多个部分,除随机误差(如SS组内)外,其余每个部分的变异(如SS组间)可由某个因素的作用(或某几个因素的交互作用,如A因素B因素)加以解释。通过比较不同变异来源的均方,借助F分布作出统计推断,从而了解该因素对观测指标有无影响。,10,方差分析对数据的基本假设(方差分析的应用
4、条件),任何两个观察值之间均不相关每一水平下的观察值均来自正态总体各总体方差相等,即方差齐性(homogeneity of variance),11,第二节 完全随机设计资料的单因素方差分析,在实验研究中,将受试对象随机分配到一个研究因素的多个水平中去,然后观察实验效应。在观察研究中,按某个因素的不同水平分组,比较该因素的效应。如比较糖尿病患者,IGT异常和正常人的载脂蛋白有无差别(人群这个研究因素分为3个水平)。如将30名乙型脑炎患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗(药物这个研究因素分为3个水平),观察治疗后的退热时间。,12,一、完全随机设计,如何随机分组?如欲
5、将24只小白鼠随机分为3组。方法如下:首先,将小白鼠124编号利用随机数字表(附表15,p832)依次读取两位数作为一个随机数字录于编号下,将全部随机数从小到大编序号规定序号:18 甲组;916 乙组;1724为丙组,13,二、变异分解:,例:某社区随机抽取了30名糖尿病患者(11例),IGT异常(9例)和正常人(10例)进行载脂蛋白(mg/dL)测定,问三种人的载脂蛋白有无差别?,14,1.完全随机设计方差分析中变异的分解 总变异=组间变异+组内变异,X=110.3,15,2.分析计算步骤,建立检验假设和确定检验水准H0:三种人载脂蛋白的总体均数相等,即 m1=m2=m3H1:三种人载脂蛋白
6、的总体均数不全相等=0.05计算检验统计量F值,16,17,C=3309.52/30=365093(校正数)SS总=372974.87-365093=7881.87 SS组间=11602/11+921.52/9+12282/10-365093=2384.03SS组内=SS总-SS组间=7881.87-2384.03=5497.84,18,确定P值和作出推断结论查附表3 F界值表(P522),1=2,2=27F0.05(2,27)=3.35,F0.01(2,27)=5.49本例F=5.85 F0.01(2,27),故P0.01。可认为三种人的载脂蛋白不同。,19,以上结论表明,总的来说三种人的载
7、脂蛋白有差别,但并不表明任何两种人的载脂蛋白均有差别。要了解哪些组均数间有差别,需进一步作两两比较。当k=2时,对同一资料,F=t2。,20,第三节 随机区组设计的方差分析(randomized block design,two-way ANOVA),亦称配伍组设计,是配对设计的扩大。例 对小白鼠喂以A、B、C三种不同的营养素,目的是了解不同营养素增重的效果。采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。现将同品系同体重的24只小白鼠分为8个区组,每个区组3只小白鼠。三周后体重增量结果(克)列于下表。问小白鼠经三种不同营养素喂养后所增体重有无差别?,21,一、
8、随机区组设计,如何分组:,先将全部受试对象按某种或某些特征分为若干个区组(block),使每个区组内的观察对象随机地接受研究因素某一水平的处理。由于区组内的个体特征比较一致,减少了个体差异对结果的影响。,22,表 A、B、C三种营养素喂养小白鼠所增体重,23,二、变异分解,随机区组设计方差分析中 变异的分解:SS总=SS处理+SS区组+SS误差,24,SS总=SS处理+SS区组+SS误差,25,2.分析计算步骤,建立检验假设和确定检验水准H0:三种营养素喂养的小白鼠体重增量相等,即 m1=m2=m3H1:三种营养素喂养的小白鼠体重增量不全相等=0.05计算检验统计量F值,26,表 随机区组设计
9、方差分析的计算公式,27,表 方差分析结果,28,确定P值和作出推断结论:,F0.05(2,14)=3.74,P0.05。尚不能认为三种营养素喂养的小白鼠体重增量有差别。F0.01(7,14)=4.28,P0.01。可认为8个区组的小白鼠体重增量有差别,即遗传因素对小白鼠体重增量有影响(但一般更关注处理组间差别的假设检验)。,29,一般而言,随机区组设计较成组设计更容易检验出处理组间的差别,提高了研究效率。但不是在任何情况下都能提高研究效率。,区组效应是否具有统计学意义是 重要的,它表明区组的划分是否成功,即达到:区组内各实验单位很均匀,而不同区组内的实验单位具有很大差异。如果区组效应无统计学
10、意义,则并不能提高研究效率,甚至会降低研究效率。(如果MS区组 MS误差)若没有足够理由显示不同区组间的差别确有统计学意义,则宁可不分区组。,30,第四节交叉设计资料的方差分析,在医学研究中,将A、B两种处理先后施加于同一批受试对象,先随机的将一半的受试对象接受A后接受B,而另外一半则相反,先接受B再接受A,将两种处理因素在全部试验过程中交叉进行,故称之为交叉设计(crossover design)。,31,交叉设计,是一种特殊的自身对照设计克服了试验前后自身对照由于观察期间各种非试验因素对试验结果的影响所造成的偏移。,32,交叉设计的优点:,1.节约样本含量2.控制了时间因素以及个体差异对处
11、理方式的影响3.每一个试验对象同时接受试验因素和对照,从医德的观点出发,均等考虑了每一个患者的利益,33,交叉设计的缺点:,不允许有病人失访,否则会造成该个体已有的数据完全浪费不适用于病程较短的急性病治疗效果的研究,34,交叉设计的限制条件,前一个试验阶段的处理效应不能持续作用到下一个试验阶段洗脱时间(washout time):目的是消除残留效应(carry-over effect),35,例题,为了研究12名高血压病人用A、B两种治疗方案疗效的差别,随机的让其中6名病人先以A法治疗,后以B法治疗,而另外一半的6名病人则先用B法,后用A法,记录治疗后血压的下降值(KPa),请分析A、B两方案
12、疗效有无差别。,36,二阶段交叉设计变异的来源:,1.处理(药物)效应2.阶段效应3.顺序效应和个体差异 其中处理效应是希望研究的因素,而顺序效应则在目前常用的统计分析中被忽略,因为这是交叉设计能够实施的前提条件。保证顺序效应忽略的办法,就是消除残留效应。4.误差,37,例:12例高血压病人交叉设计资料,38,第五节 拉丁方设计(latin square design),拉丁方设计是将三个因素(一个处理因素两个控制因素)按水平数r排列成一个rr的随机方阵。如33、44拉丁方。,39,常用拉丁方表,将两个控制因素分别安排在拉丁方设计的行和列上,需对基本拉丁方表作行列变换。,40,拉丁方设计的优点
13、:,与随机区组相比较,可以多安排一个控制因素,增加了均衡性,减少了误差,提高了效率。,41,例4-5,比较A、B、C、D、E、F 6种药物给家兔注射后产生的皮肤疱疹大小(mm2),研究者选用6只家兔、并在每只家兔的6个不同部位进行注射。试验结果见下表,试做拉丁方设计和方差分析。,42,拉丁方设计与试验结果(皮肤疱疹大小,mm2),拉丁方设计与随机区组区别,43,拉丁方设计变异的来源:,1.处理组变异2.行区组变异3.列区组变异4.误差 其中处理效应是希望研究的因素。,44,第四节多个样本均数间的多重比较 multiple comparison,概念无效假设的两种情况常用方法,45,一、概念,指
14、出哪几组均数之间的差别具有或不具有统计学意义。当对比组数大于2时,为什么不能用t检验?因为会增加第一类错误的概率,使本来无无差别的两总体均数判为有差别。如有5个样本均数,可作10次t检验。每次不犯第一类错误的概率为1-0.05=0.95。每次比较均不犯第一类错误的概率仅为0.9510=0.5987,每次犯第一类错误的概率为1-0.5987=0.4013,明显增加了犯第一类错误的概率。,46,二、无效假设的两种情况,检验某几个特定总体均数是否相等,其无效假设称为部分无效假设。检验全部k个总体均数是否相等,其无效假设称为完全无效假设。,47,1.检验某几个特定总体均数是否相等,H0:i=j(ij)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第四 章多个 样本 比较 方差分析

链接地址:https://www.31ppt.com/p-6056644.html