《第七章 SPSS非参数检验ppt课件.ppt》由会员分享,可在线阅读,更多相关《第七章 SPSS非参数检验ppt课件.ppt(83页珍藏版)》请在三一办公上搜索。
1、第七章,SPSS非参数检验,本章内容,7.1 单样本的非参数检验7.2 两独立样本的非参数检验7.3 多独立样本的非参数检验7.4 两配对样本的非参数检验7.5 多配对样本的非参数检验,非参数检验,非参数检验: (1)在总体分布未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。 (2)推断过程中不涉及有关总体分布的参数。,7.1 单样本的非参数检验,1.目的:样本来自总体的分布是否与某个已知的分布相吻合?绘制样本数据的直方图、pp图、QQ图判断粗略通过非参数检验精确2.单样本非参数检验(1)对单个总体的分布形态等进行推断(2)方法:卡方检验、二项分布检验、K-S检验、变量值随
2、机性检验等。,7.1.1总体分布的卡方检验,1、基本思想的理论依据: 如果从一个随机变量X中随机抽取若干个观察样本,这些观察样本落在X的k个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k趋于无穷时近似服从卡方分布。基于这一思想,对变量X总体分布的检验可从对各个观察频数的分析入手。,7.1.1总体分布的卡方检验,1.基本思想-吻合性检验 (1)原假设:样本来自的总体分布与期望分布无显著差异。 变量值落入第i个子集中的理论概率为 ,相应的期望频率为,二.总体分布卡方检验的应用实例: SPSS总体分布的卡方检验对数据存放,需要定义一个存放变量值的SPSS变量和一个存放各变量值观测频数的
3、变量,并指定该变量为加权变量。,2.实现步骤Analyze-Nonparametric Tests-Chi-Square,(1)选定待检验的变量到Test Variable list(2)在Expected Range中确定参与分析的观测值的范围:Get from data:所有观测数据都参与分析use specified range:只在该取值范围内的观测数据才参与分析。(3)Expected values给出各理论值All categories equal:所有子集的频数都相同value:依次输入值,通过add、change、remove进行增加、修改和删除。(4)单击Options按钮,
4、在Statistics栏中选择输出统计量。Descriptive 复选项,指定输出变量的均值、标准差、最大值、最小值、非缺失个体的数量。,Quartiles复选项,输出四分位数。(2)Missing Values 栏中选择对缺失值的处理方式。Exclude case test-by-test 选项,将参与对比中的缺失值排除。Exclude cases listwise 选项,剔除任何变量中所有含缺失值的样品。,3.应用案例,医学研究表明心脏病人猝死人数与日期的关系为:一周内,星期一猝死者较多,其他日子基本相当,各天的比例近似为:2.8:1:1:1:1:1:1 根据“心脏病猝死”数据,推断总体分
5、布是否与理论分布相吻合。分析:利用总体分布卡方检验实现。,4.应用练习,掷一颗六面体300次,用数字型数据1、2、3、4、5、6分别代表六面的六个点,试问这颗六面体是否均匀。,7.1.2二项分布检验,在现实生活中有很多数据的取值是二值的,例如,人群可以分为男性和女性,产品可以分为合格和不合格,学生可以分为三好学生和非三好学生。通常将这样的二值分别用1和0表示。如果进行n次相同的实验,则出现两类(1或0)的次数可以用离散型随机变量来描述。如果随机变量值为1代表成功,其概率设为p,则随机变量值为0的概率q便等于1-p,则成功次数变量X的分布为二项分布。,7.1.2二项分布检验,1.基本思想(1)通
6、过样本数据检验样本来自的总体是否服从指定概率p的二项分布。(2)小样本-精确检验:计算n次试验中某类出现的次数小于等于x次的概率:大样本-近似检验,2.实现步骤,Analyze-Nonparametric Tests-Binomial,(1)选定待检验的变量到Test Variable list(2)define dichotomy中指定如何分类get from data:检验变量为二值变量cut point:输入具体数值,小于等于该值的为第一组,大于该组的为第二组(3)Test proportion:输入二项分布的检验概率值,3.应用案例,利用“产品合格率”数据,推断该批产品的一级品率是否为
7、90%。分析: 产品合格与否属于二值变量,可以通过二项分布检验实现。,3.应用练习,1.掷一枚硬币31次,出现正面和反面在上的结果见下表,试问这枚硬币是否均匀。2.根据居民储蓄存款的数据,分析储户对未来收入的看法,检验储户总体对收入持保守或悲观态度的比例是否与0.4有显著性差异。,7.1.3单样本K-S检验,1.基本思想(1)以俄罗斯数学家柯尔莫哥和斯米诺夫名字命名(2)利用样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优度的检验方法,适用于探索连续型随机变量的分布(3)步骤计算各样本观测值在理论分布中出现的理论累计概率值F(x)计算各样本观测值的实际累计概率值S(x) 计算理论累
8、计概率值与实际累计概率值的差D(x)计算差值序列中最大绝对差值D,(4)原假设成立时:小样本下:Dkolmogorov分布大样本下: 近似服从K(x)分布SPSS仅给出大样本下的 和对应的p值(5)决策D统计量的p值显著性水平,不拒绝原假设,样本来自的总体与指定分布无显著差异,2.实现步骤,Analyze-Nonparametric Tests-1-sample K-S,(1)选定待检验的变量到Test Variable list(2)Test distribution:选择理论分布normal:正态分布uniform:均匀分布poisson:泊松分布exponential:指数分布,3.应用
9、案例,利用“儿童身高”数据分析周岁儿童身高总体是否服从正态分布。分析:可以通过单样本K-S检验实现。,3.应用练习,1、利用存款储蓄调查数据,分析储户一次存款金额的总体是否服从正态分布,并结合存款金额的pp图和qq图来分析。,7.1.4 变量值随机性检验,1.基本思想(1)通过对样本变量值的分析,实现对总体的变量值出现是否随机进行检验。(2)原假设:总体变量值出现是随机的。 检验依据:游程-样本序列中连续出现相同的变量值的次数。 游程数太大或太小都表明变量值存在不随机的现象,关于随机性的游程检验(run test),游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。假定下面是由
10、0和1组成的一个这种变量的样本:0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。,(3)检验统计量(4)决策:Z统计量的p值显著性水平,不拒绝原假设,变量值的出现是随机的。,关于随机性的游程检验(run test),例 (run2.sav): 从某装瓶机出来的30盒化妆品的重量如下(单位克) 当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小
11、于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题。看下面例子。71.6 71.0 71.8 70.3 70.5 72.9 71.0 71.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6 68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。,关于随机性的游程检验(run test),如果把小于中位数的记为0,否则记为1,上面数据变成下面的01序列1 1
12、 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 这就归为上面的问题。当然这里进行这种变换只是为了易于理解。实际计算时,用不着这种变换,计算机会自动处理这个问题的。直接利用这个数据,通过SPSS,得到下面游程检验结果的输出。,2.实现步骤,Analyze-Nonparametric Tests-Runs,(1)选定待检验的变量到Test Variable list(2)cut point:计算游程数的分界值median:样本中位数为分界值mode:样本众数为分界值mean:样本均值为分界值custom:以用户输入的值为分界值,SP
13、SS将小于该分界值的所有变量作为一组,大于或等于该分界值的所有变量作为一组,计算游程。,3.应用案例,利用“电缆数据”推断耐压设备的工作是否正常。分析:若耐压数据的变动是随机的-则设备工作正常若耐压数据的变动不是随机的-则设备工作存在不正常可以通过变量值随机性检验实现。,4.应用练习,掷硬币20次得到的实验数据,试问硬币实验是否是随机的。,7.2两独立样本的非参数检验,(1)独立样本:在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。(2)推断样本来自的两个总体的分布等是否存在显著差异。(3)方法:曼-惠特尼U检验、K-S检验、W-W游程检验、极端反应检验等。,秩(ra
14、nk),非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。例如我们有下面数据.,这下面一行(记为Ri)就是上面一行数据Xi的秩。,秩(rank),利用秩的大小进行推断就避免了不知道背景分布的困难。这也是非参数检验的优点。多数非参数检验明显地或隐含地利用了秩的性质;但也有一些非参数方法没有涉及秩的性质。,7.2.1两独立样本的曼-惠特尼U检验,1.基本思想(1)原假设:两组独立样本来自的两总体分布无显著差异。(2)通过两组样本平均秩的研究实现推断 秩-变量值排序的名次,变量值有几个,对应的秩便有几个。(3)检验步骤 将两组样本混合并升
15、序排列,得每个数据的秩 分别对样本X和Y的秩求平均,得平均秩 和 计算样本X优于样本Y秩的个数 和样本Y优于样本X秩的个数 依据 和 计算WilcoxonW统计量和曼-惠特尼U统计量。,WilcoxonW统计量:曼-惠特尼统计量U为:大样本下,U近似服从正态分布,7.2.2两独立样本的K-S检验,1.基本思想(1)原假设:两组独立样本来自的两总体的分布无显著差异。(2)与单样本K-S检验的基本思路大体一致,差别在于:以变量值的秩为分析对象,而非变量值本身。(3)检验步骤将两组样本混合并按升序排列分别计算两组样本秩的累计频数和累计频率计算两组累计频率的差,得秩的差值序列及D统计量,SPSS计算大
16、样本下的 和对应的p值(3)决策: :拒绝原假设,两总体的分布有显著差异 :不拒绝原假设,两总体的分布无显著差异,2.k-s检验将两样本混合并按升序排序分别计算两个样本在相同点上的累计频数和累计频率两个累计频率相减.如果差距较小,则认为两总体分布无显著差异应保证有较大的样本数,7.2.3两独立样本的游程检验,1.基本思想(1)原假设:两组独立样本来自的两总体的分布无显著差异。(2)检验步骤将两组样本混合并按升序排列,组标记值也随之重新排列计算组标记值序列的游程数,如果游程数较大,则说明是由于两类样本数据充分混合的结果,即:认为两总体分布无显著差异.根据游程数计算Z统计量,Z统计量近似服从正态分
17、布(3)决策: :拒绝原假设,两总体的分布有显著差异 :不拒绝原假设,两总体的分布无显著差异,7.2.4极端反应检验,1.基本思想(1)原假设:两独立样本来自的两个总体的分布无显著差异。(2)一组样本为控制样本,一组样本为实验样本,看实验样本相对于控制样本是否出现了极端反应。(3)检验步骤两组样本混合按升序排列求控制样本的最小秩 和最大秩 计算跨度 为了消除样本数据中的极端值,计算跨度前可按比例(通常5%)去除控制样本中靠近两端的样本值,再求跨度,得截头跨度针对跨度或截头跨度计算H统计量:,小样本下,H服从Hollander分布,大样本下,H近似服从正态分布,(4)决策:H统计量的p值显著性水
18、平,不拒绝原假设,两独立样本来自的总体分布不存在显著差异,7.2.5两独立样本非参数检验的步骤,Analyze-Nonparametric Tests-2 independent samples(1)选择待检验的变量到Test variable list(2)grouping variable:存放组标志的变量,并通过define groups给出两组的标志值。(3)test type:选择相应的检验方法,7.2.6两独立样本非参数检验的方法比较,不同的分析方法对同批数据的分析,其结论可能不尽相同。一方面说明分析过程中对数据进行反复探索是极为必要的,另一方面也注意不同方法本身侧重点的差异性。1
19、、曼-惠特尼U检验注重对分布的中心位置(平均水平)作检验,实际上是检验:两样本所对应的总体具有相同的中心位置(中位数)。若不能明确两总体分布的形状是否相同,则不宜单独使用此方法。2、K-S检验用于两总体分布是否存在显著差异性,对两总体的全貌作检查,即位置和分布形状的差异性的检验。3、游程检验与K-S检验相似,也是对全貌作检验,但其功效不如K-S检验。4、极端反应检验注重对分布范围(变异程度)作检验,实际上是检验两样本所对应的总体具有相同的分布范围,要求样本足够大。,7.2.7应用案例,利用“使用寿命”数据,判断两种工艺下产品的使用寿命的分布是否存在显著差异,进而对两个工艺的优劣进行判断。分析:
20、 两个工艺产品的使用寿命可看作两独立样本,可以通过曼-惠特尼U检验、K-S检验、W-W游程检验、极端反应检验实现。,7.2.8应用练习,1、设有甲、乙两种安眠药,考虑比较它们的治疗效果,独立观察20名患者。10人服甲药,令10人服乙药,睡眠延长的时数见下表。试问这两种药物的疗效有无显著性差异。2、利用居民储蓄调查数据,对城镇和农村储户的存款金额的分布进行比较分析。,7.3多独立样本的非参数检验,1.通过分析多组独立样本数据,推断样本来自的多个总体的中位数或分布是否存在显著差异。2.方法:中位数检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验。,7.3.1中位数
21、检验,1.基本思想(1)原假设:多个独立样本来自的多个总体的中位数无显著差异。(2)检验步骤将多组样本混合升序排列,求混合样本的中位数分别计算各组样本中大于和小于中位数的样本个数,形成列联表(p230 表7-13)利用卡方检验分析各组样本来自的总体对中位数的分布是否一致。,(3)决策卡方统计量的p值显著性水平,不拒绝原假设,多个独立样本来自的总体的中位数不存在显著差异。,7.3.2多独立样本的Kruskal-Wallis检验,1.基本思想(1)原假设:多个独立样本来自的多个总体的分布无显著差异。(2)是两独立样本曼-惠特尼U检验的推广(3)检验步骤将多组样本数据混合并升序排列,求各变量的秩考察
22、各组秩的均值是否有显著差异各组秩的差异借助方差分析:秩的变差分解为:组间差和组内差 a若秩的总变差大部分可由组间差解释,则各样本组的总体分布存在显著差异 b若秩的总变差大部分不能由组间差解释,则各样本组的总体分布无显著差异,构造K-W统计量(4)决策:SPSS自动计算K-W统计量和对应的p值 p值显著性水平,不拒绝原假设,多个独立样本来自的多个总体分布无显著差异。,7.3.3多独立样本的Jonckheere-Terpstra检验,1.基本思想(1)原假设:多个独立样本来自的多个总体的分布无显著差异(2)J-T统计量,(3)决策:SPSS自动计算J-T统计量,Z统计量和对应的p值 p值显著性水平
23、,不拒绝原假设,多个独立样本来自的多个总体分布无显著差异。,7.3.4多独立样本非参数检验的步骤,1.按规定的格式组织数据:设置两个变量分别存放样本值和组标记值2.菜单:Analyze-Nonparametric Tests-K independent samples(1)选择待检验的变量到Test variable list(2)grouping variable:存放组标志的变量,并通过define groups给出标志值的取值范围。(3)test type:选择相应的检验方法,7.3.5 应用案例,利用“多城市儿童身高”数据,对北京、上海、成都、广州四城市的周岁儿童身高进行比较分析,推断
24、四城市周岁儿童身高是否存在显著差异。分析:(1)对身高分布无确切把握,涉及多个独立样本采采用多独立样非参数检验(2)分别用中位数检验、多独立样本的Kruskal-Wallis检验、多独立样本的Jonckheere-Terpstra检验实现。,7.4两配对样本的非参数检验,1.通过两配对样本推断样本来自的两个总体的分布是否存在显著差异。2.方法:McNemar检验、符号检验、Wilcoxon符号秩检验。,7.4.1两配对样本的McNemar检验,1.基本思想(1) McNemar检验是一种变化显著性检验,将研究对象自身作为对照者检验其“前后”的变化是否显著。(2)原假设:两配对样本来自的两总体的
25、分布无显著差异。(3)分析的变量是二值变量,若不是二值变量,应现将数据转换后再使用。导致该方法的应用范围具有局限性。(4) McNemar检验采用二项分布检验方法,小样本下计算二项分布的累计精确概率,大样本下采用修正的Z统计量。(5)SPSS自动计算Z统计量和对应的p值 p值显著性水平,不拒绝原假设,两配对样本来自的两总体分布无显著差异,7.4.2两配对样本的符号检验,1.基本思想(1)原假设:两配对样本来自的两总体的分布无显著差异。(2)利用正负符号的个数实现检验。(3)检验步骤分别用第二组样本的各观察值减第一组对应样本观察值,差值为正记为+,差值为负记为-将+的个数与-的个数进行比较:采用
26、二项分布检验法,对正负符号变量进行单样本二项分布检验。小样本下计算二项分布的累计精确概率,大样本下采用修正的Z统计量(4)SPSS自动计算Z统计量和对应的p值 p值显著性水平,不拒绝原假设,两配对样本来自的两总体分布无显著差异(4)缺陷:两配对样本的符号检验注重对变化方向的分析,只考虑了数据变化的性质,没有考虑变化的幅度,对数据的利用不够充分。,7.4.3两配对样本Wilcoxon符号秩检验,1.基本思想(1)原假设:两配对样本来自的两总体的分布无显著差异。(2)检验步骤分别用第二组样本的各观察值减第一组对应样本观察值,差值为正记为+,差值为负记为-,并保持差值数据将差值变量按升序排列,并求差
27、值变量的秩分别计算正号秩总和 负号秩总和 统计量,(3)决策:SPSS自动计算Z统计量和对应的p值 p值显著性水平,不拒绝原假设,两配对样本来自的两总体分布无显著差异,7.4.4两配对样本非参数检验的步骤,1.按规定的格式组织数据:设置两个变量分别存放两组样本的样本值2.菜单:Analyze-Nonparametric Tests-2 related samples(1)选择待检验的两个配对变量到Test pairs list(2)test type:选择相应的检验方法,7.4.5应用案例,1.利用“统计学习”数据,分析学生在学习“统计学”课程前后对统计学重要性的认知程度是否发生了显著改变。分
28、析:(1)统计学习前后,属于配对样本(2)认知程度属二值变量(3)可以采用两配对样本McNemar检验,2.利用“训练成绩”数据,分析新训练方法是否有助于提高跳远运动员的成绩。分析: (1)新训练方法使用前后,属于配对样本 (2)可采用两配对样本的符号检验、两配对样本Wilcoxon符号秩检验实现。,7.5多配对样本的非参数检验,1.通过多组配对样本推断样本来自的多个总体的中位数或分布是否存在显著差异。2.方法:Friedman检验、Cochran Q检验、Kendall协同系数检验。,7.5.1多配对样本的Friedman检验,1.基本思想(1)原假设:多个配对样本来自的多个总体的分布无显著
29、差异。(2)原理利用秩,通过类似方差分析的方法实现检验若不同样本下的秩不存在显著差异,则秩的组间差在秩的总平均变差中占较小的比例。(3)检验步骤以行为单位将数据升序排列,并求各变量在各自行中的秩分别计算各组样本下的秩总和的平均秩,计算Frideman检验统计量Frideman检验统计量与多独立样本的Kruskal-Wallis检验中的K-W统计量相似,区别在于:K-W统计量中的秩是全体数据排序后得到的,Frideman检验统计量的秩是在各区组内分别独立排序得到的。,(4)决策:SPSS自动计算Frideman统计量和对应的p值 p值显著性水平,不拒绝原假设,多配对样本来自的多个总体分布无显著差
30、异(5)适用于定距型数据,7.5.2多配对样本Cochran Q检验,1.基本思想(1)原假设:多个配对样本来自的多个总体的分布无显著差异(2)适用于对二值品质型数据进行检验。(3) Cochran Q检验统计量,(4)SPSS自动计算Cochran Q统计量和对应的p值 p值显著性水平,不拒绝原假设,多配对样本来自的多个总体分布无显著差异,7.5.3多配对样本Kendall协同系数检验,1.基本思想(1)该方法与Frideman检验相结合,可实现对评判者评判标准是否一致进行分析。(2)原假设:评判者的评判标准不一致。(3)通过协同系数W对评分的一致性进行分析,(4)决策:SPSS自动计算协同
31、系数W和对应的p值 p值显著性水平,不拒绝原假设,评判者的评判标准不一致,7.5.4多配对样本非参数检验步骤,1.按规定的格式组织数据:有多少组样本就设置多少个变量分别存放各组样本的样本值2.菜单:Analyze-Nonparametric Tests-K related samples(1)选择待检验的若干配对变量到Test pairs list(2)test type:选择相应的检验方法,7.5.5应用案例1,利用“促销方式”数据,推断不同促销方式下销售额数据的分布是否存在显著差异分析:(1)三种促销方式可看作三个配对样本(2)销售额属于定距型数据,可通过多配对样本的Friedman检验实现,7.5.5应用案例2,利用“航空公司”数据,推断三家航空公司的服务水平是否有差异。分析:(1)三家航空公司数据可看作三个配对样本(2)乘客对其的满意数据属于二值品质数据,可通过多配对样本Cochran Q检验实现。,7.5.5应用案例3,利用“评委打分”数据,推断四个评委的评分标准是否一致分析:(1)属于对评判者评判标准是否一致进行推断(2)可通过多配对样本Kendall协同系数检验实现,7.5.5应用案例3,某村20个村民对四个候选人的赞同与否的调查,试用恰当的方法检验村民是否对这四个候选人有不同的看法。,
链接地址:https://www.31ppt.com/p-1429668.html