《非参数检验 》PPT课件.ppt
第十一章 非参数检验,第一节 符号检验 第二节 秩和检验 第三节 等级相关分析,非参数检验是一种与总体分布状况无关的检验方法,它主要是利用样本数据之间的大小比较及大小顺序,对样本及其所属总体作差别检验,而不对总体分布的参数如平均数、标准差等进行估计推断。优点计算简便、直观,易于掌握,检验速度较快 缺点降低了检验的准确性,效率一般要低于参数检验方法,本章只介绍常用的 符号检验(sign test)秩和检验(rank-sum test)等级相关分析(rank correlation analysis),第一节 符号检验,一、配对资料的符号检验二、样本中位数与总体中位数比较的符号检验,一、配对资料的符号检验,1、建立假设 无效假设HO:两处理差值d总体中位数=0 备择假设HA:两处理差值d总体中位数0 或d总体中位数0(一尾检验)或d总体中位数0(一尾检验),2、计算差值并赋予符号d0者记为“+”,总个数记为n+d0者记为“”,总个数记为n-d=0记为“0”,总个数记为n0n=n+n-检验的统计量为K 为n+、n-中的较小者,3、统计推断,由n查附表15得临界值K0.05(n),K0.01(n),作统计推断:如果KK0.05(n),P0.05,则不能否定HO,两个试验处理差异不显著;如果K0.01(n)KK0.05(n),0.01P0.05,则否定HO,接受HA,两个试验处理差异显著;如果KK0.01(n),P0.01,则否定HO,接受HA,两个试验处理差异极显著。,【例11.1】某研究测定了噪声刺激前后15头猪的心率,结果见表11-1。问噪声对猪的心率有无影响?,表11-1 猪噪声刺激前后的心率(次/分钟),1、提出无效假设与备择假设 HO:噪声刺激前后猪的心率差值d总体中位数=0;HA:噪声刺激前后猪的心率差值d总体中位数 0。2、计算差值并赋予符号 噪声刺激前后的差值符号列于表11-1第4行和第5行,从而得n+=2,n-=13,n=2+13=15,K=min n+,n-=n+=2。3、统计推断 当n=15时,查附表11 得 临 界 值K0.05(15)=3,K0.01(15)=2,因 为 K=2=K0.01(15),P0.01,表明噪声刺激对猪的心率影响极显著。,二、样本中位数与总体中位数比较的符号检验,1、建立假设 HO:样本所在的总体中位数=已知总体中位数;HA:样本所在的总体中位数已知总体中位数。(若将备择假设HA中的“”改为“”或“”,则进行一尾检验),2、计算差值、确定符号及其个数 统计样本观察值与已知总体中位数的差值的符号,n=n+n-检验的统计量K 为n+、n-中的较小者。,3、统计推断(同配对资料的符号检验)注意:样本的配对数少于6对时,不能检验出差别,在712对时也不敏感,在20对以上则比较有用。,【例11.2】已知某品种成年公黄牛胸围平均数为140厘米,今在某地随机抽取10头该品种成年公黄牛,测得一组胸围数字:128.1,144.4,150.3,146.2,140.6,139.7,134.1,124.3,147.9,143.0(cm)。问该地成年公黄牛胸围与该品种胸围平均数是否有显著差异?,表11-2 成年公黄牛胸围测定值符号检验表,1、提出无效假设与备择假设 HO:该地成年公黄牛胸围的平均数=140厘米,HA:该地成年公黄牛胸围的平均数140厘米。2、计算差值、确定符号及其个数 样本各观测值与总体平均数的差值及其符号列于表11-2,并由此得 n+=6,n-=4,n=6+4=10,K=min n+,n-=n-=4。3、统计推断 由 n=10,查 附 表 11,得K0.05(10)=1,KK0.05(10),P0.05,不能否定HO,表明样本平均数与总体平均数差异不显著,可以认为该地成年公黄牛胸围的平均数与该品种胸围总体平均数相同。,第二节 秩和检验,秩和检验也叫做符号秩和检验(signed rank-sum test),或称Wilcoxon检验,其统计效率远较符号检验为高。秩和检验与符号检验法不同,要求差数来自某些对称分布的总体,但并不要求每一差数来自相同的分布。方法:将观察值按由小到大的次序排列,编定秩次,求出秩和进行假设检验。,一、配对试验资料的符号秩和检验二、非配对试验资料的秩和检验三、多个样本比较的秩和检验四、多个样本两两比较的秩和检验,一、配对试验资料的符号秩和检验(Wilcoxon配对法),1、建立假设 HO:差值d总体的中位数=0;HA:差值d总体的中位数0。2、秩次和符号 求配对数据的差值d;按d绝对值从小到大编秩次;根据原差值正负在各秩次前标上正负号,3、统计量T 分别计算正秩次及负秩次的和,以绝对值较小的秩和绝对值为检验的统计量T。4、统计推断 根据n(正、负差值的总个数为n)查附表14(1)符号秩和检验用T临界值表,得T0.05(n),T0.01(n)。如果TT0.05(n),P0.05,则不能否定HO,表明两个试验处理差异不显著;如果T0.01(n)TT0.05(n),0.01P0.05,则否定HO,接受HA,表明两个试验处理差异显著;如果TT0.01(n),P0.01,则否定HO,接受HA,表明两个试验处理差异极显著,【例11.3】某试验用大白鼠研究饲料维生素E缺乏与肝脏中维生素A含量的关系,先将大白鼠按性别、月龄、体重等配为10对,再把每对中的两只大白鼠随机分配到正常饲料组和维生素E缺乏饲料组,试验结束后测定大白鼠肝中维生素A的含量如表11-4。试检验两组大白鼠肝中维生素A的含量是否有显著差异。,表11-3 不同饲料鼠肝维生素A含量资料(国际单位/克),1、提出无效假设与备择假设 HO:差值d总体的中位数=0;HA:差值d总体的中位数0。2、编秩次、定符号 计算表11-3中配对数据差值di,将d=0的舍去,共有差值n=8 个。按绝对值从小到大排列秩次并标上相应的符号,差值绝对值为750的有两个,它们的秩次为3和4,所以其平均秩次为(3+4)/2=3.5,结果见表11-3。,3、确定统计量T 此例,正号有7个,其秩次为2,3.5,3.5,5,6,7,8,秩次和为:2+3.5+3.5+5+6+7=35;负号只有1个,其秩次为1,秩次和等于1。负号秩次和较小,所以T=1。4、统计推断 由n=8查附表10(1)得,T0.05(8)=3,T0.01(n)=0,因为T0.01(8)TT0.05(8),0.01P0.05,否定HO,接受HA,表明两个试验处理差异显著。,二、非配对试验资料的秩和检验(Wilcoxon非配对法),1、建立假设 HO:甲样本所在的总体的中位数=乙样本所在的总体的中位数;HA:甲样本所在的总体的中位数乙样本所在的总体的中位数。2、求两个样本合并数据的秩次 将两样本合并后的数据按从小到大的顺序排列,与每个数据对应的序号即为该数据的秩次,最小数值的秩次为“1”,最大数值的秩次为“n1+n2”。,3、确定统计量T 将两个样本重新分开,计算各自的秩和。将较小的样本含量作为n1,其秩和作为检验的统计量T。若n1=n2,则任取一组的秩和为T。4、统计推断 由n1、(n2n1)查附表14(2),得接受区域T0.05T0.05,T0.01-T0.01。若T 在T0.05T0.05之内,P0.05,则不能否定HO,若T在T0.05T0.05之外但在T0.01T0.01之内,0.01P0.05,则否定HO,接受HA;若T在T0.01T0.01之外,P0.01,则否定HO,接受HA,,【例11.4】研究两种不同能量水平饲料对5-6周龄肉仔鸡增重(克)的影响,资料如表11-4所示。问两种不同能量水平的饲料对肉仔鸡增重的影响有无差异?,表11-4 两种不同能量水平饲料的肉仔鸡增重及秩和检验,1、提出无效假设与备择假设 HO:高能量饲料增重总体的中位数=低能量饲料增重总体的中位数;HA:高能量饲料增重总体的中位数低能量饲料增重总体的中位数。2、编秩次 将两组数据混合从小到大排列为秩次。在低能量组有两个“512”,不求平均秩次,其;在高、低两组有一对数据为“585”,需求它们的平均秩次:(8+9)/2=8.5。结果见表11-4。,3、确定统计量T 以较小样本的秩次和为统计量T,即T=73.5。4、统计推断 由n1=6,n2-n1=9-6=3查附表10(2)得,为3165,为2670。T=73.5在,即2670之外,P0.01,否定HO,接受HA,表明饲料能量高低对肉仔鸡增重的影响差异极显著。,三、多个样本比较的秩和检验(Kruskal-Wallis法,H法),1、提出无效假设与备择假设,HO:各个样本所分别代表的各总体分布位置相同;HA:各个样本所分别代表的各总体分布位置不完全相同。,2、编秩次、求秩和,将各个样本的所有观测值混合后,按照由小到大的顺序排成1,2,n个秩次。不同样本的相同观测值,取平均秩次;一个样本内的相同观测值,不求平均秩次。按样本把每个观测值的秩次一一相加,求出各样本的秩和。,3、求H值,式中,Ri为第i个样本的秩次之和;ni为第i个样本的含量;n=ni,4、统计推断,根据n,ni查附表10(3),得临界值:H0.05,H0.01。若HH0.05,P0.05,不能否定HO,可以认为各样本代表的各总体分布位置相同;若H0.05HH0.01,0.01P0.05,否定HO,接受HA,表明各样本所代表的各总体分布位置显著不同;若HH0.01,P0.01,表明各样本所代表的各总体分布位置极显著不同。,当样本数k3,ni5时,不能从附表10(3)中查得H值。这时H近似地呈自由度为k1的分布,可对H进行检验。当相同的秩次较多时,按(11-1)式计算的H值常常偏低,此时应按(11-2)式求校正的H值HC:式中,tj表示某个数重复的次数。,【例11.5】某试验研究三种不同制剂治疗钩虫的效果,用11只大白鼠做试验,分为三组。每只鼠先人工感染500条钩蚴,感染后第8天,三组分别给服用甲、乙、丙三种制剂,第10天全部解剖检查各鼠体内活虫数,试验结果如表11-5所示。试检验三种制剂杀灭钩虫的效果有无差异。,表11-7 三种制剂杀灭钩虫效果及秩和检验,1、提出无效假设与备择假设 HO:三种制剂活虫数总体分布位置相同;HA:三种制剂活虫数总体分布位置不完全相同。2、编秩次、求秩和 三个组观测值混合后的秩次如表11-5所示,最后一行为各组秩次之和。,3、求H值 由(11-1)式,得 4、统计推断 当n=11,n1=5,n2=3,n3=3时,查附表10(3),得H0.05=5.65。因为HH0.05,P0.05,不能否定HO,表明三种制剂杀灭钩虫的效果差异不显著。,【例11.6】对某种疾病采用一穴、二穴、三穴作针刺治疗,治疗效果分为控制、显效、有效、无效4级。治疗结果见表11-6第(2)、(3)、(4)栏。问3种针刺治疗方式疗效有无显著差异?,表11-6 3种针刺方式治疗效果及秩和检验,1、提出无效假设与备择假设 HO:三种针刺方式治疗效果相同;HA:三种针刺方式治疗效果不完全相同。2、编秩次、求秩和 秩次、秩和等的计算结果列于表11-6。其中的合计栏(5)=(2)+(3)+(4)栏;秩次范围栏(6)为每一等级组应占的秩次;平均秩次栏(7),是因为同一组所包含的秩次同属一个等级,不能分列出高低,故一律以其平均秩次为代表,平均秩次等于各等级组秩次下限与上限之和的平均;各组秩和R1、R2、R3分别等于第(2)、(3)、(4)栏乘以第(7)栏所得第(8)、(9)、(10)栏各自的和。,3、求H值 因为各等级组段均以平均秩次作为代表,视为相同秩次,其相同秩次的个数等于各自的秩次合计,见第(5)栏。显然相同秩次较多,宜用(11-2)式求HC。先按(11-1)式计算H值:,而 于是利用(11-2)式,得:此试验处理数为3,所以df=31=2,查值表得。因为,P0.01,表明3种针刺方式的治疗效果差异极显著。,四、多个样本两两比较的秩和检验(Nemenyi-Wilcoxson-Wilcox法),当多组计量资料或等级资料经多个样本比较的秩和检验,认为各总体的分布位置不完全相同时,常需要进一步作两两比较的秩和检验,以推断哪两个总体的分布位置不同,哪两个总体分布位置并无不同。,这个方法类似方差分析中的多重比较,常用q法:式中,为秩和差异标准误,计算公式为:n为样本含量即处理的重复数;k为比较的两秩和差数范围内所包含的处理数。可见,这里的q法只适用于重复数相等的试验资料。计算q值后,以df=和k查附表5,得临界值,作出统计推断。,【例11.7】某种激素4种剂量对大白鼠耻骨间隙宽度增加量的影响试验,结果见表11-7。问4种剂量大白鼠耻骨间隙的增加量是否有显著差异?,表11-7 四种剂量大白鼠耻骨间隙增加量及秩和检验,1、提出无效假设与备择假设 HO:四种剂量大白鼠耻骨间隙宽度增加量的总体分布位置相同;HA:四种剂量大白鼠耻骨间隙宽度增加量的总体分布位置不全相同。2、编秩次、求秩和 将 四 组 观测值混合,由 小 到大编秩次,见表 11-7 括 号 内 数字。不同组的相同观测值取平均秩次,如第2、3组各有一个1.20,取它们原来秩次 6 和 7的平均6.5,余此类推;同一组内相同观测值不求平均秩次。各组 秩 和 见 表11-7最后一栏。,3、求H值 因为本例有2个1.20,2个1.40,2个2.20,2个2.50,所以用(11-1)式求校正HC。先按(11-2)式计算H。而所以,4、统计推断 本例k=4,超出附表10(3)的范围,故用值(附表7)进行统计推断。当df=41=3时,查附表7,得。因为,P0.01,表明用4种剂量的大白鼠耻骨间隙宽度的增加量差异极显著。,5、多个样本的两两比较 列出两两比较表(表11-8)。表11-8 4种剂量大白鼠耻骨间隙宽度增加量秩和两两比较,第三节 等级相关分析,等级相关程度的大小和相关方向用等级相关系数(coefficient of rank correlation)表示,亦称为秩相关系数。样本等级相关系数记为rs,rs的性质:值介于-1与1之间,rs为正表示正相关,rs为负表示负相关,rs等于零为零相关,根据rs绝对值的大小区分为强相关、中等程度相关和弱相关。,1、建立假设 HO:s=0 HA:s0 2、列出变量的等级 将变量x、y分别由小到大列出等级,相邻两数相同时,取平均等级。3、求每对观察值的秩次之差d 4、计算等级相关系数 用公式(11-9)计算等级相关系数:,5、rs的显著性检验 根据n查附表13,得临界值r0.05,r0.01。若rs r0.05,P0.05,表明两变量x、y等级相关不显著;若r0.05 rs r0.01,0.01P0.05,表明两变量x、y等级相关显著;若rs r0.01,P0.01,表明两变量x、y等级相关极显著。,【例11.8】研究含有必需氨基酸添加剂的某种饲料的营养价值时,用大白鼠做试验获得了关于进食量(x)和增重(y)的 数据,见表11-9。试分析大白鼠的进食量与增重之间有无相关。,表11-9 大白鼠进食量与增重结果及等级相关分析表,1、计算等级相关系数rs,对表11-9中各个试验数据分别按进食量与增重从小到大,排列秩次,对数值相同的数据则取平均秩次,如进食量820克的平均秩次为(7+8)/2=7.5。求出进食量的秩次与增重的秩次之差d和秩次差平方d2。利用(11-5)式,得,2、rs的显著性检验,此例n=10,查附表12,得rs(0.01)=0.794,因为rsrs(0.01),P0.01,等级相关极显著,表明大白鼠的进食量与增重之间存在着极显著正相关。,