【教学课件】第五节方差分析.ppt
第五节 方差分析,2023/5/21,2,第五节 方差分析,一 方差分析的基本思想二 完全随机设计的多个样本均数比较三 随机区组组设计的多个样本均数比较四 多个样本均数间的两两比较的q检验,2023/5/21,3,1、来自正态分布总体 2、各样本所来自的总体方差相等3、各样本为相互独立的随机样本,方差分析应用条件,2023/5/21,4,如有4个样本均数,两两组合数为6,若用t检验需作C42=6次比较,且每次比较的检验水准为0.05,则每次比较不犯类错误的概率为(1-0.05)=0.95,6次均不犯类错误的概率为0.956,这时总的检验水准为1-0.956=0.26,比0.05大多了,因此多组比较不能用两样本均数比较的t检验。,两组以上比较不能用t检验,2023/5/21,5,例15-10 某研究者将27只雄性大鼠随机分成三组,给予不同处理后3周,测定血清中的SOD 活性。结果见表15-7。问三组的SOD活性是否不同?,完全随机设计的多个样本均数比较,2023/5/21,6,表15-7 三组大鼠血清中SOD活性(mol/L),总变异的分解,组间变异,组内变异,组内变异是随机误差的作用,组间变异处理因素+随机误差,抽样误差随机误差 个体变异 随机测量误差,总变异,2023/5/21,8,1总变异:反映所有测量值之间总的变异程度;其大小用离均差平方和(sum of squares of deviations from mean,SS)表示,即各测量值与总均数差值的平方和。,2023/5/21,9,2组间变异 各处理组由于接受处理的水平不同,各组的样本均数也大小不等,这种变异称为组间变异。其大小用各组均数与总均数的离均差平方和表示。,组间变异反映各组均数之间的变异程度,组间变异随机误差+处理因素效应 SS组间越大,表示各处理水平反应可能不相同。,2023/5/21,10,3组内变异 在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,变异称为组内变异(误差)。组内变异用组内各测量值与其所在组的均数的差值的平方和表示,表示随机误差的影响。,反映在组内数据的变异(随机误差)大小。,2023/5/21,11,满足如下关系:,2023/5/21,12,变异估计量均方(mean square,MS),2023/5/21,13,=总例数-组数=N-k,变异估计量均方(Mean square,MS),=组数-1=k-1,MS组间反映处理因素的不同水平对各试验组的作用,MS组内作为实验的随机误差估计,2023/5/21,14,统计量F 值 即可知处理因素是否有作用,2023/5/21,15,F 分布曲线,F分布是一种偏态分布。它的分布曲线由分子与分母两个自 由度决定。,2023/5/21,16,F值与F分布,2023/5/21,17,F 界值表,附表15-2(P228)F界值表(方差分析用,单侧界值)上行:P=0.05 下行:P=0.01,附表2,2023/5/21,18,单因素方差分析表,SS组间 组间,SS组内 组内,MS组间MS组内,2023/5/21,19,1.建立假设、确定检验水准:H0:1=2=3,H1:1、2、3不等或不全相等,=0.052.选定检验方法和计算检验统计量:F=MS组间/MS组内,假设检验的步骤,2023/5/21,20,2023/5/21,21,表15-8 例15-10的方差分析表,24,5062.01,组内,1867.60,2,3735.18,组间,0.01,8.855,26,总变异,P,F,MS,v,SS,变异来源,8797.19,210.92,2023/5/21,23,3.确定概率P值、做出推断结论:根据v组间为v1、v组内为v2,查F界值表,先查横标目分子自由度v1=2,再查分母自由度v2=24,(P228)在两点交叉处为F界值上行为P=0.05,下行P=0.01,即F0.05(2,20)=4.49,F0.01(2,20)=5.85,由于8.8555.58,故P0.01,按=0.05的检验水准,拒绝H0,接受H1,差异有统计学意义,可认为3个处理组SOD总体均数不全相等。,2023/5/21,24,一、方差分析的基本思想,按分析目的和设计把全部数据之间的总变异分成两部分或更多部分,然后借助F分布做出统计推断。,方差分析的基本思想*,2023/5/21,25,方差分析与t检验的关系,当比较两个均数时,从同一资料算得之 F 值与t值有如下关系:,可见在两组均数比较时,方差分析与t检验的效果是完全一样的。,F=t2 或,(randomized block design),又称为配伍组设计,是配对设计的扩展,也可看成是1:m匹配设计。对其分析又称两因素方差分析。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)相同或相近,将受试对象配成b个区组(block,配伍组),再分别将各区组内的k个受试对象随机分配到各处理或对照组。其区组因素可以是第二个处理因素,也可以是一种非处理因素。,三 随机区组设计的多个样本均数比较,随机区组设计的三种情况,1、区组设计资料2、同一个对象的K个部位测定同一指标(如教室的不同位置侧粉尘数)3、同一样品用多种方法测定某一指标。,优点:每个区组内的k个受试对象有较好的同质性,组间均衡性也较好。比完全随机设计减少了误差,因而更容易察觉处理组间的差别,提高了实验效率。缺点:要求区组内受试对象数与处理数相等,实验结果中若有数据缺失,统计分析较麻烦。,例15-11 按性别相同、年龄相近、病情相近把33例某病患者配成11个区组,每区组3个患者,分别给予A、B、C药治疗。治疗后患者血浆中的IGA含量见表15-10。问经三种不同药物治疗后该病患者血浆中IGA含量有无差别?,总变异的分解,处理变异(纵向3组间差异)=处理作用+随机误差总变异 区组变异(横向11组间差异)=区组作用+随机误差 随机误差数理统计证明:,变异来源,处理组,区组,误差,总,SS,df,k1,b1,(k1)(b-1),N1,随机区组设计资料方差分析的基本步骤,1、建立检验假设,确定检验水准 对于处理间:H0:多个处理组的总体均数相等,即三种方案的效果相同 H1:多个处理组的总体均数不等或不全相等,即三种方案的效果不全相同。对于配伍间:H0:多个配伍组的总体均数相等。H1:多个配伍组的总体均数不等或不全相等。均取,2、计算统计量F值 F处理=MS处理/MS误差,自由度为:k-1 F区组=MS区组/MS误差,自由度为:n-1,3.确定P值,作出统计推断:关于处理效应,在=0.05水平上不拒绝H0,差异无统计学意义;关于区组:在=0.05水平上拒绝H0,接受H1,可认为区组间差别有统计学意义;专业结论:尚不能认为三个处理组间有差别,2023/5/21,38,四、多个样本均数间两两比较的q检验,完全随机设计或随机区组设计资料经方差分析后各组均数间的差别有统计学意义时,只说明几个组的总体均数不同或不全相同。若要进一步了解哪两个组间的总体均数不同,应进行多个样本均数间的两两比较又称多重比较(multiple comparison)。多个样本均数间的两两比较不能直接用两均数比较的t检验,因其会增加类错误的概率。,2023/5/21,39,多个样本均数间两两比较的方法有:LSD-t检验:适用于一对或几对专业上有特殊意义的两组间比较Dunnett-t检验:适用于多个实验组与一个对照组的两组间比较SNK-q检验:适用于任意两组间的两两比较,SNK-q检验,例15.12 对例15.10资料作两两比较H0:A=BH1:AB=0.051)、将三个样本均数从小到大排列,2)、列出两两比较计算表 三个样本均数比较的q检验,练习1 某地区随机抽取12名贫血儿童的家庭,实行健康教育干预三个月,干预前后儿童的血红蛋白(%)测量结果如表所示,试问:干预前后该地区贫血儿童血红蛋白(%)平均水平有无变化?,练习2,某妇产医院研究者欲探索孕妇在孕期补充钙剂对血清骨钙素的影响,选取孕妇的年龄、基础骨钙素值接近,孕周在26-28周的30名孕妇,随机分成两组,每组15人。试验组:补充某种钙制剂对照组:传统膳食 产后40-50天测定骨钙素的改变值。问孕期补钙和传统膳食的产妇骨钙素改变值的总体均数有无差别?,试验组:10.2,8.9,10.1,9.2,-0.8,10.6,6.5,11.2,9.3,8.0,10.7,9.5,12.7,14.4,11.9对照组:5.0,6.7,-1.4,4.0,7.1,-0.6,2.8,4.3,3.7,5.8,4.6,6.0,4.1,5.1,4.7 经检验,两组骨钙素改变值服从正态分布,具有方差齐性。,分析步骤:,(1)建立检验假设,确定检验水准 H0:12,两组产妇骨钙素改变值的总体均数相等;H1:12,两组产妇骨钙素改变值的总体均数不等。0.05。(2)计算检验统计量 t,(3)确定P值,作出推断。查表得,t0.05/2,28=2.048,t0.001/2,28=3.674,P 0.001,按0.05水准,拒绝H0,接受H1,差别有统计学意义,可以认为孕期补钙和传统膳食的产妇骨钙素改变值的总体均数有差异,且孕期补钙者骨钙素改变值较大。,分析策略:差值均数与0比较,(1)建立检验假设,确定检验水准 H0:d0,即干预前后血红蛋白(%)差值的总体均数为0;H1:d0。0.05。(2)计算检验统计量 t,确定P值,作出推断。查表得,(t0.05/2,11=2.201),本例t=3.305 t0.05/2,11=2.201,故p0.05,且0.005p0.01。作结论:在a=0.05的水准上,拒绝H0,差别有统计学意义,可以认为健康干预前后该地区贫血儿童血红蛋白(%)平均水平有变化,且干预后血红蛋白有所增加。,2023年5月21日星期日,52,第六节 假设检验时应注意的事项,(一)假设检验应注意资料的可比性 可比性指各组间除了要比较的主要因素不同外,其他影响结果的因素应尽可能相同或基本相近。方法必须要有严密的抽样设计,2023年5月21日星期日,53,(二)要注意选用的假设检验方法的应用条件,完全随机设计两样本计量资料:小样本(任一ni60)若方差齐,两样本t检验 若方差不齐,近似t检验大样本(所有ni60),u检验。,计量资料:t/u检验、方差分析、非参数检验计数资料:2 检验、非参数检验,假设检验时应注意的事项,2023年5月21日星期日,54,(三)结论不能绝对化 由于统计结论具有概率性质,判定的界限是人为规定的,是相对的,如按检验水准=0.05,不拒绝H0,差别有统计学意义,如此判定的时候可能会冒犯5%假阳性错误的风险,所以结论的判断不能绝对化。故“肯定”、“一定”、“必定”等词不要使用。,假设检验时应注意的事项,假设检验统计结论的正确性是以概率作保证的,作统计结论时不能绝对化。1)检验水准变化时,可能按=0.01,不拒绝H0,按=0.05,拒绝H0 2)检验水准确定后,随着样本含量的增加,结论可能从小样本的不拒绝H0变为大样本时的拒绝H0 3)对同一份资料,可能双侧检验不拒绝H0,单侧检验拒绝H0 在报告结论时,要列出概率P 的确切数值或给出P值的范围,如写成0.02P0.05。同时应注明采用的是单侧检验还是双侧检验,样本量的大小,以便读者与同类研究进行比较。当 P 接近临界值时,下结论应慎重。,2023年5月21日星期日,56,(四)正确区分差别有无统计学意义与有无专业上的实际意义 差别有统计学意义指根据这样的样本差别可拒绝无效假设,只说明有差别,并不说明差别的大小。也不能说明专业上是否有实际意义,要结合专业知识。,2023年5月21日星期日,57,例:美国的婴儿平均出生体重为120盎司。某医院产科病房中收集正常分娩的10000例活婴的出生体重,其均值为119盎司,标准差为24盎司,能否说此医院的婴儿平均出生体重低于全美国平均水平?,|u|=4.17,u0.05=1.645,P0.05。认为差异有统计学意义。但由于两者仅相差1盎司,因此缺乏专业意义。,P=0.000.001又如何?哼!缺乏专业意义是个大问题。,SPSS软件,谢谢,