列联表的独立性检验课件.ppt
2.5 列联表的独立性检验,一、二维 列联表,列表如下:,令:,为了调查吸烟是否对肺癌有影响,对63位肺癌患者及43位非患者(对照组)调查了其中的吸烟人数.,22列联表,二、二维 列联表的独立性检验,列表如下:,检验统计量,例1 随机抽取某校男生35名,女生31,进行体育达标考核,结果如下表 问体育达标水平是否与性别有关?,体育达标考核情况表,体育达标水平与性别无关,体育达标水平与性别有关,(1)建立假设,其结论为:体育达标水平与性别无关.,因此在0.05显著性水平下,接受原假设.,R函数chisq.test ( ),xchisq.test(x, correct=F),R程序如下,输出结果为,Pearsons Chi-squared testdata: x X-squared = 0.0057, df = 1, p-value = 0.9397,因此在0.05显著性水平下,接受原假设.,92页例2.14自己看,2.5.2 Fisher精确检验,不满足时, 用Pearson近似效果很差, 一般采用Fisher精确检验.,在使用Pearson 独立性检验时, 要注意格子,的期望频数小于5的格子数不超过总格子数的20%,且没有一个格子的期望频数小于1,Fisher精确检验对于单元频数小的表格特别适用,四表格的Fisher精确检验,频数四表格,合计,对应的概率四表格,合计,分别服从二项分布,表示有属性A的个体中有属性B的条件概率,表示没有属性A的个体中有属性B的条件概率,则属性A和属性B相互独立,即有属性A的个体中有属性B的个体的频率与没有属性A的个体中有属性B的个体的频率应该没有显著的差异.,即有,表示有属性A的个体中有属性B的比例高,表示有属性A的个体中有属性B的比例低,即,即,四表格的检验问题, 即属性A和B的独立性检验问题有,Fisher精确检验的统计量,事实上, 确定了, 其它三个值也就确定了,则 有下面四种取值,2 3 3 2 4 1 5 03 0 2 1 1 2 0 3,利用公式可以计算出 取2, 3, 4, 5的概率,在独立的原假设下, 取这些值的概率是不同的, 但各种取值都不会是小概率事件,过大或过小都可能拒绝原假设,拒绝域形式为,Fisher精确检验的计算比较复杂, 所以一般用于n比较小的四表格.,例:为了解某种新药的疗效是否提高, 将42位病人随机分组注射两种药物, 试验结果如下表所示,R程序如下,新药疗效没有提高,新药疗效有提高,xfisher.test(x, alternative = greater),输出结果为,Fishers Exact Test for Count Data data: x p-value = 0.04849 alternative hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 1.010589 Inf sample estimates: odds ratio 4.950963,拒绝原假设,认为备则假设成立.,优势比,优势比:,属性A时,有属性B与没有属性B的优势.,为当个体没有属性A时, 有属性B与没有属性B的优势,称这两个优势的比为优势比,下列结论成立:,如果在有属性A的个体中有B的比例高, 则优比OR1;如果在有属性A的个体中有B的比例低,则优比OR1如果属性A和属性B相互独立, 则优比OR=1.,优势比大于1与新药较旧药疗效有提高等价.,三、三维 列联表,关于某项政策调查所得结果,大致可以看出女性赞成的多,低收入赞成的多,三维 列联表,是,是,否,否,收入的“低”、“中”、“高”用代码1、2、3代表;性别的“女”、“男”用代码0、1代表;观点“赞成”和“不赞成”用1、0代表。有些计算机数据对于这些代码的形式不限(可以是数字,也可以是字符串)。,七.在SPSS数据表中的形式,表是二维的,用变量和样本值表示,先将定性变量数量化:,小 结,1. 非参数检验在假设检验中不对参数作明确的推断,也不涉及样本取自何种分布的总体。它的适用范围较广。常用的非参方法较为简便。易于理解掌握。当资料适用参数检验方法时,用非参常会损失部分信息,降低检验效能。 2. 秩和检验是通过对数据依小到大排列秩次,求秩和来进行假设检验的方法,可用于两独立样本比较、配对资料比较、多个独立样本比较、分组设计的比较等。,