非参数统计讲义三两样本检验ppt课件.ppt
非参数统计,复习两个总体参数检验,设 X N ( 1 1 2 ), Y N ( 2 2 2 ) 两总体X , Y 相互独立, 样本 (X1, X2 , Xn ), ( Y1, Y2 , Ym ) 样本值 ( x1, x2 , xn ), ( y1, y2 , ym )显著性水平,两个正态总体的假设检验,1 2 = ,( 12,22 已知),关于均值差 1 2 的检验,1 2 ,1 2 ,1 2 ,1 2 ,1 2 ,1 2 = ,1 2 ,1 2 ,1 2 ,1 2 ,1 2 ,其中,假定甲、乙两机床截下的长度方差相等,问长度的期望值是否一样?,例88从两台切断机所截下的坯料(长度按正态分布)中,分别抽取个和个产品,测得长度如下(单位:mm):,甲:150, 145, 152, 155, 148, 151, 152, 148,乙:152, 150, 148, 152, 150, 150, 148, 151, 148,设甲床截下的长度为X;乙床截下,的长度为Y,由假定知21=22=2,检验假设,解,对,查表得,拒绝域为,所以应接受,两样本位置和尺度检验,样本之间相互独立, 为位置参数, 称为尺度参数。,假设样本: (X1, X2, ,Xn)i.i.d.F1,(Y1, Y2, ,Yn)i.i.d.F2,Brown-Mood中位数检验,Moses方法,Mood检验,Mann-Whitney秩和检验。,两个样本检验,两个独立样本,两个成对相关样本,MINITAB非参数统计界面与功能,两个独立样本检验,Brown-Mood中位数检验,统计思想:用于检验两个总体抽取的样本的中位数是否相同。,Brown-Mood中位数检验,原理:在零假设成立时,如果数据有相同中位数,那么混合样本的中位数应该和混合前的项等。,假设(X1, X2, ,Xn)i.i.d.F(x ) , (Y1, Y2, ,Yn)i.i.d.F(x - ),样本来自两个相互独立总体。,首先将两个样本混合,找出混合样本中位数 ,将X和 Y按照在 两侧分类计数,即:,在给定m,n和t的时候,在零假设成立时,A的分布服从超几何分布:,当A值太大时,考虑拒绝零假设。,计算和例子,HYPGEOMDIST(a,m,a+b,m+n),从M+N=30个中抽出A+B=15个,成功A=11个,M=12,N=18,例:全国30个省人均GDP,中位数4690,检验沿海省X与非沿海省Y的中位数是否有差异?,P(A=11)=0.000236724,拒绝H0,认为沿海省与非沿海省的中位数有显著差异。,检验基本内容,P-值,检验统计量,对于水平 ,如果p-值小于 ,那么拒绝零假设,HYPGEOMDIST(2,9,8,16)=0.01958HYPGEOMDIST(1,9,8,16)=0.00699,0.02028,拒绝H0,认为两品牌的价格有显著差异,大样本检验,大样本卡方分布近似,2008年全国经济数据,例:比较两个企业的收入,Data moodtest;Do g=1,2;Input n;Do i=1 to n;Input x ;Output;End;End;Datalines;19111 107 100 99 102 106 109 108 104 99 101 96 97 107 113 116 113 110 98 20107 108 106 98 105 103 110 105 104 100 96 108 103 104 114 114 113 108 106 99 ;proc npar1way median data=moodtest;class g;var x;run;,The NPAR1WAY Procedure Median Scores (Number of Points Above Median) for Variable x Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score - 1 19 9.666667 9.256410 1.525587 0.508772 2 20 9.333333 9.743590 1.525587 0.466667 Average scores were used for ties. Median Two-Sample Test Statistic 9.6667 Z 0.2689 One-Sided Pr Z 0.3940 Two-Sided Pr |Z| 0.7880 Median One-Way Analysis Chi-Square 0.0723 DF 1 Pr Chi-Square 0.7880,Mood Scores for Variable x Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score - 1 19 2789.83333 2406.66667 355.433586 146.833333 2 20 2150.16667 2533.33333 355.433586 107.508333 Average scores were used for ties. Mood Two-Sample Test Statistic 2789.8333 Z 1.0780 One-Sided Pr Z 0.1405 Two-Sided Pr |Z| 0.2810 Mood One-Way Analysis Chi-Square 1.1621 DF 1 Pr Chi-Square 0.2810,Wilcoxon (或称Mann-Whitney)秩和检验。是一种比较两个独立总体的均值的非参数检验方法。与参数统计的T检验相对应。,由Henry.B.Mann和D.R.Whitney 1947年提出。(Mann,Whitney和Wilcoxon三人共同设计的一种检验,有时也称为Wilcoxon秩和检验 ),如果总体服从正态分布的假设不成立,或是定序数据,不能用T检验,要用Mann-Whitney 检验,we think it is not gaussian (to check ot, look at a quantile-quantile plot or perform a ShapiroWilk test) otherwise, we would use Students T test, that is more powerful.,Mann-Whitney 检验的假设条件,1、样本独立2、数据至少为定序尺度,检验假设:H0:两总体相同H1:两总体不同,两独立样本非参数检验含义:由样本数据推断两独立总体的分布是否存在显著差异(或两样本是否来自同一总体)基本假设:H0:两总体分布无显著差异(两样本来自同一总体)将两样本混合并按升序排序分别计算两个样本秩的累计频数和累计频率两个累计频率相减.如果差距较小,则认为两总体分布无显著差异应保证有较大的样本数(大于40)应用举例 不同工艺产品寿命分布一致吗? 城镇和农村的存(取)款分布一致吗?,Wilcoxon (Mann-Whitney)秩和检验,它的原理:假定第一个样本有m个观测值,第二个有n个观测值。把两个样本混合之后把这m+n个观测值升幂排序,记下每个观测值在混合排序下面的秩。之后分别把两个样本所得到的秩相加。记第一个样本观测值的秩的和为WX而第二个样本秩的和为WY。这两个值可以互相推算,称为Wilcoxon统计量。,该统计量的分布和两个总体分布无关。由此分布可以得到p-值。直观上看,如果WX与WY之中有一个显著地大,则可以选择拒绝零假设。该检验需要的唯一假定就是两个总体的分布有类似的形状(不一定对称)。,设两个独立样本为:第一个的样本X容量为N1,第二个样本y容量为N2,在容量为N=N1+N2的混合样本(第一个和第二个)中,x样本的秩和为WX,Y样本的秩和为WY,Mann-Whitney秩和检验,假设样 本来 自于 , 来自于 并且独立。假设检验问题:,将两个样本混合, 在混合样本中的秩 ;,定义 ,同样可定义 ,称为Wilcoxon秩和统计量。,W-M-W统计量,称为Man-Whitney统计量:,在零假设情况下, 和 独立同分布, 并且和Wilcoxon秩和统计量 等价。当统计量偏小的时候,考虑拒绝零假设。,例:某高中学生主要来自A,B校两个初中生,研究一个问题,是否来自A初中的学生的总体 与来自B初中的学生的总体在学术潜力上是相同的。假设;H0:两个学校在学习潜力上是相同的 ,H1:两个学校在学习潜力上是不相同的,从高中生中抽4名在A校上学的学生,抽5名在B校上学的学生。研究中使用的9名学生现今的高中班级名次。,解:N14,N25,NN1+N29,分开学校的学生,计算各校学生的秩和。,WX11,WY34W1WX-N1*(N1+1)=11-10=1W2=WY-N2*(N2+1)=34-15=29若A校学生均取到最前(小)名次,XL=N1(N1+1)/2=10若A校学生均取到最后(高)名次,XU=N2(N2+1)/2=9*(9+1)-5*(5+1)/2=(90-30)/2=30如果两个学校的学生学习能力相同的话,XL与XU应接近平均值(30+10)/2=20查表得到临界点值,n1=4,n2=5,a=0.05,得到临界值下限TL=12,上限TU=n1(n1+n2+1)-TL=4*(4+5+1)-12=28A校学生XL1012,所以拒绝原假设,两校学生有差异。,典型例题,例题解答,Wilcoxons U test,Here is another method of computing this:Contatenate the two samples, rank themR1 = sum of the ranks on the first sampleR2 = sum of the ranks on the second sampleU2 = n1*n2 + n1(n1+1)/2 - R1U1 = n1*n2 + n2(n2+1)/2 - R2U = min(U1, U2),大样本正态近似,Data wmwtest;Do g=1,2;Input n;Do i=1 to n;Input x ;Output;End;End;Datalines;1213414610411912416111283113129971237701181018510713294;proc npar1way wilcoxon data=wmwtest;class g;var x;run;,The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable x Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score - 1 12 141.0 120.0 11.832160 11.750 2 7 49.0 70.0 11.832160 7.000 Wilcoxon Two-Sample Test Statistic 49.0000 Normal Approximation Z -1.7326 One-Sided Pr |Z| 0.0832 t Approximation One-Sided Pr |Z| 0.1003 Z includes a continuity correction of 0.5.,R程序,x1-c(34,146,104,119,124,161,112,83,113,129,97,123)x2-c(70,118,101,85,107,132,94)x-c(x1,x2)xshapiro.test(x)$p.valueshapiro.test(x2)$p.valuewilcox.test(x1, x2),ShapiroWilk test,This test check if a random variable is gaussian.,正态性检验P 0.6779109,说明数据呈正态性。,Wilcoxon rank sum testdata: x1 and x2 W = 56, p-value = 0.2614alternative hypothesis: true location shift is not equal to 0,不能拒绝H0.,t.test(x1,x2) Welch Two Sample t-testdata: x1 and x2 t = 0.9143, df = 16.731, p-value = 0.3735alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -14.52256 36.68923 sample estimates:mean of x mean of y 112.0833 101.0000,Mann-Whitney秩和检验,下面数据是地区1的十个城市和地区2的15个城市的人均GDP(元)。现在要想以此作为两个样本来检验两个地区的人均GDP的中位数m1和m2是否一样,即双尾检验H0: m1=m2对Ha: m1m2。,由于地区2的人均GDP的中位数大于地区1的中位数,因此也可以做单尾检验H0: m1=m2对Ha: m1m2。地区1:3223452638362781598232164710562823034618地区2:539139834076594147484600632545345526569970085403667855375257由SPSS的输出可以得到下面结果:,Wilcoxon (Mann-Whitney)秩和检验,该结果头两行显示了Mann-Whitney和Wilcoxon统计量的值。另外和我们需要结果的相关部分为:对于双尾检验H0: m1=m2对Ha: m1m2,p-值为0.016(见“Exact Sig. (2-tailed)”);而对于单尾检验H0: m1=m2对Ha: m1m2(见“Exact Sig. (1-tailed)”),p-值为0.008。这两个结果是精确计算的。,通常在样本量大的时候利用近似方法得到渐近分布的p-值(见“Asymp. Sig. (2-tailed)”),它只给了双尾检验的近似p-值0.017,和精确值差别不大。注意单尾检验的p-值是双尾检验的p-值的一半。这个例子的结果表明,可以拒绝原假设,即有理由认为地区2的人均GDP的中位数要高一些。,SPSS软件使用说明,选项为AnalyzeNonparametric Tests2 Independent Samples。把变量(gdp)选入Test Variable List;再把用1和2分类的变量area输入进Grouping Variable,在Define Groups输入1和2。在Test Type选中MannWhitney。在点Exact时打开的对话框中可以选择精确方法(Exact),Monte Carlo抽样方法(Monte Carlo)或用于大样本的渐近方法(Asymptotic only)。最后OK即可,性质和检验,定理4.2 在零假设下:若 ,且 ,时:,在检验时 , ,其中a,b值由前面定理确定。在水平为拒绝域为:,其中k是使式子成立的最大值。对于打结的情况需要使用修正的公式。,亚特兰大(,芝加哥(,某航空公司的CEO注意到飞离亚特兰大的飞机放弃预定座位的旅客人数在增加,他特别有兴趣想知道,是否从亚特兰大起飞的飞机比从芝加哥起飞的飞机有更多的放弃预定座位的旅客。获得一个从亚特兰大起飞的9次航班和从芝加哥起飞的8次航班上放弃预定座位的旅客人数样本,见表中的第2列和第4列所示。,最小值是8秩值为1,最大值是25秩值为17,有两个结值10和11,两个10平均分享秩值3和4为3.5,两个11平均分享秩值5和6为5.5。 有节时需要对公式进行修正。结值的存在将使原方差变小,,这里为节的个数,如果设定显著水平0.1,我们知道标准正态分布在0.1显著水平时,上临界值为1.645,下临界值为1.645,由于1.4451.645,所以不能拒绝原假设。,SAS程序如下:data noshows ;do group=1 to 2;input n; do i=1 to n; input x ; output;end;end; datalines;9 11 15 10 18 11 20 24 22 258 13 14 10 8 16 9 17 21;proc npar1way data=noshows wilcoxon; class group;var x;run;,1.5,WALD-WOLFOWITZ检验,Wald-Wolfowitz检验是对游程检验的扩展,用于确定两个总体是否具有相同的分布。,H0:两个总体分布相同H1:两个总体分布不同,假设:两个样本独立,将两个样本的值按升序排成一列,不考虑来自哪个总体,用符号表示每一个值来自哪个总体,这样就构成由两个符号表示的一个序列。可以计算游程个数值R。,统计思想:若两个总体分布相同,那么两种符号的交迭率较高,否则,如果两个总体的分布不同,符号就会堆积。较小的游程就可能拒绝原假设H0,例:某光盘公司的老板要检验两个售货员的效率是否相同,获得每个售货员日销售量的下列样本数据,NPAR TESTS /W-W= X BY G(1 2) /MISSING ANALYSIS.,拒绝H0,1、两个售货员无法作为同一天发生数据进行配对2、Wald-Wolfowitz是一个弱的检验。两个样本独立,例:比较两种广告的吸引力,随机选择8名顾客记录他们对广告一的评分,随机选择另外9名顾客展示广告2,并记录得分。数据如下,例:比较两个行业的老板薪水。单位千美元。,是否能用统计方法证明哪种广告好,柯尔莫哥洛夫-斯米尔诺夫检验 KOLMOGOROV-SMIRNOV 检验,即两个独立样本的K-S检验(Kolmogorov-Smirnov Z)。 基本思想:检验两组样本是否来自同一总体K-S (alias KOLMOGOROV-SMIRNOV) tests whether the distribution of a variable is the same in two independent samples that are dened by a grouping variable.两个独立样本的K-S检验的基本思想与前面讨论的单样本K-S检验的基本思路是一致的,差别在于这里处理的是观察值的秩,而非观察值本身。,一,将两组样本混合并按升序排序;二,分别计算两组样本秩的累计频数和每个点上的累计频率;三,将两个累计频率相减,得到差值序列数据。两独立样本的K-S检验仍然关注差值序列,系统将自动计算K-S Z 统计量,并依据正态分布表给出的显著性。如果显著性小于或等于用户心中的显著性水平,则拒绝零假设,认为样本来自的两个独立总体的分布有显著差异。,KS检验比较两个样本的累计频数分布曲线,特点:这个检验对两个样本的中位数,离散程度,偏度差异较敏感 The test is sensitive to any differencein median, dispersion, skewness, and so forth, between the two distributions.,比较两个售货员的业绩是否存在差异,NPAR TESTS KENDALL=ALL.NPAR TESTS /K-S= X BY G(1 2) /MISSING ANALYSIS.,data ks;input x g ;datalines;291351391441481491501601661751212232242272282322332332462;proc npar1way data=ks d;class g;var x;run;,The NPAR1WAY Procedure Kolmogorov-Smirnov Test for Variable x Classified by Variable g EDF at Deviation from Mean g N Maximum at Maximum - 1 10 0.100000 -1.181693 2 9 0.888889 1.245614 Total 19 0.473684 Maximum Deviation Occurred at Observation 18 Value of x at Maximum = 33.0 KS 0.3939 KSa 1.7170 Kolmogorov-Smirnov Two-Sample Test (Asymptotic) D = max |F1 - F2| 0.7889 Pr D 0.0055 D+ = max (F1 - F2) 0.0000 Pr D+ 1.0000 D- = max (F2 - F1) 0.7889 Pr D- 0.0028,Cramer-von Mises Test for Variable x Classified by Variable g Summed Deviation g N from Mean - 1 10 0.522292 2 9 0.580324 Cramer-von Mises Statistics (Asymptotic) CM 0.058032 CMa 1.102616 Kuiper Test for Variable x Classified by Variable g Deviation g N from Mean - 1 10 0.000000 2 9 0.788889 Kuiper Two-Sample Test (Asymptotic) K 0.788889 Ka 1.716960 Pr Ka 0.0594,Moses方差检验,原理及计算过程:不用假定均值相等, 设来自方差为 的独立同分布样本; 来自方差为 的独立同分布样本。假设检验问题:,莫斯检验:即两个独立样本的极端反应检验(Moses Extreme Reaction)。,基本思想两独立样本的极端反应检验(Moses Extreme Reaction),也是一种检验样本来自的两总体分布是否存在显著差异的检验,它将一个样本作为控制样本,另一个样本作为实验样本。以控制样本作为对照,检验实验样本是否存在极端反应。如果实验样本不存在极端反应,则认为两独立总体分布无显著性差异。相反,如果实验样本存在极端反应,则认为两独立总体分布存在显著差异。,Moses方差检验统计量计算,1.将 随机分为 组,每组k个观测,记为 ;将 随机分为 组,每组k个观测,记为,2.求每组内样本偏差平方和:,首先,将两组样本混合并按升序排序;然后,找出控制样本最低秩和最高秩之间包含的观察个数,称为跨度。为控制极端值对分析结果的影响,也可先去掉控制样本两个最极端的观察值后再求跨度,这个跨度称为截头跨度。本系统自动计算跨度和截头跨度后,会依据分布表给出对应的相伴概率值。如果相伴概率值小于或等于用户心中的显著性水平,则拒绝零假设,认为样本来自的两个独立总体的分布存在显著差异。,Moses方差检验统计量计算,3. 将 , 混合,并求出在混合样本中对应的秩.,4.求第1组样本 对应的秩和,构造Moses统计量:如果 值很大,那么就考虑拒绝零假设。实际检验时可以查分布表。,各组秩和SY=6,秩和Sx=22,S=min(6,22),两个相关样本的检验,配对样本的WILCOXON检验,对比较配对样本观测值的两个总体用WILCOXON检验。对相关样本的检验用WILCOXON检验,统计量,例:太阳镜有紫色和粉红两种颜色,相知道销量是否有差异,16个商店销售数据。,例 某制造商想要比较两种不同的生产方法所花费的生产时间是否有差异。随机地选取了11个工人,每一个工人都分别使用两种不同的生产方法来完成一项相同的任务,每一个工人开始选用的生产方法是随机的,即可以先使用生产方法1再使用生产方法2,也可以先用生产方法2再使用生产方法1。这样,在样本中的每一个工人都提供了一个配对观察。数据见表所示。任务完成时间的正差值表示生产方法1需要更多的时间,负差值表示生产方法2需要更多的时间。,两种方法生产时间比较,符号检验sign基本思想两个相关样本的符号检验利用正、负符号个数的多少进行检验。首先,分别将第二组样本的各个观察值减去第一组样本的各个观察值,差值为正,则记为正号,差值为负,则记为负号,然后用S和S-统计正负的个数。如果正负的个数大致相当,则两配对样本数据分布差距较小;若正负的个数相差较多,则两配对样本数据分布差距较大。因为在零假设前提下,两个相关样本中的S 和S 的分布时概率值为0.5的二项分布,为精确计算,系统自动根据S 、S和n计算实际的概率值,如果该概率值小于或等于用户心中的显著性水平,则不能拒绝H0,认为样本来自的两个配对总体的分布无显著差异。,正负符号检验(sign) 将样本2的各样本值减去样本1的各样本值.如果差值为正,则记为正号;如果差值为负,则记为负号如果正号的个数与负号的个数相当,则认为无显著变化.否则,认为有显著变化,两种方法生产时间比较,麦克尼马尔检验McNemar基本思想麦克尼马尔变化显著性检验将研究对象自身作为对照者,采用二项分布检验,通过研究其“前后”的变化,计算二项分布概率值。如果概率值小于或等于用户心中的显著性水平,则拒绝H0,认为样本来自的两个配对样本总体的分布有显著性差异。,X-c(49, 21, 25, 107); dim(X)-c(2,2) mcnemar.test(X,correct=FALSE),Spss有两种方法求mcnemar检验结果,对两种饮料的口味评价结果如下表,两种饮料没有显著差异,NPAR TEST /MCNEMAR= Y1 WITH Y2 (PAIRED) /MISSING ANALYSIS.,CROSSTABS /TABLES=Y1 BY Y2 /FORMAT= AVALUE TABLES /STATISTIC=MCNEMAR /CELLS= COUNT /COUNT ROUND CELL .,Marginal Homogeneity检验两个相关的有序变量,扩展了MCNemar检验,从两个响应到多个响应,多个响应用卡方分布,用于检验响应变量在实验前后的改变A nonparametric test for two related ordinal variables. This test is an extension of the McNemar test from binary response to multinomial response. It tests for changes in responses using the chi-square distribution. It is useful for detecting changes in responses due to experimental intervention in before-and-after designs.,两样本尺度检验,Mood方差检验,检验问题以及原理假定两分布位置参数相等,设 ,独立,检验问题:,令 表示 在混合样本之中的秩,在零假设成立的情况下,有:,考虑Mood秩统计量:如果X的方差偏大,那么M的值也应该偏大,对于大的M可以考虑拒绝零假设。,Mood Two-Sample Test of ScaleDescription:检验两个样本尺度参数数据差异 Performs Moods two-sample test for a difference in scale parameters.,In the case of ties, the formulation of Mielke (1967) is employed.,大样本近似,在 ,且 , 的时候,可以采用大样本近似:其中 对于打结情况可以考虑用修正公式.,R程序,The underlying model is that the two samples are drawn from f(x-l) and f(x-l)/s)/s, respectively, where l is a common location parameter and s is a scale parameter. The null hypothesis is s = 1. There are more useful tests for this problem.,R程序,A-c(4.5,6.5,7,10,12)B-c(6,7.2,8,9,9.8)s-mood.test(A, B)s,Mood two-sample test of scaledata: A and B Z = 1.6514, p-value = 0.09865alternative hypothesis: two.sided,A-c(698,688,675,656,655,648,640,639,620)B-c(780,754,740,712,693,680,621)mood.test(A, B),Mood two-sample test of scaledata: A and B Z = -1.2654, p-value = 0.2057alternative hypothesis: two.sided,单侧检验mood.test(A, B,alt=less),R程序,P0.1029,不能拒绝H0,ramsay - c(111, 107, 100, 99, 102, 106, 109, 108, 104, 99, 101, 96, 97, 102, 107, 113, 116, 113, 110, 98) jung.parekh - c(107, 108, 106, 98, 105, 103, 110, 105, 104, 100, 96, 108, 103, 104, 114, 114, 113, 108, 106, 99)mood.test(ramsay, jung.parekh),R程序,Mood two-sample test of scaledata: ramsay and jung.parekh Z = 1.0371, p-value = 0.2997alternative hypothesis: two.sided,谢谢!,