计数资料的统计描述与卡方检验.ppt
计数资料的统计描述与卡方检验,四川大学华西医院康德英,临床研究中计数资料来源、分类,本身设置为分类变量(PI/ECOT)从计量资料转化而来:,如评价降压疗效时,将舒张压降低值分为三类:5mmHg 无效 5-10mmHg 有效 10-20mmHg 显效 Note:计量资料转化为计数资料,过程本身损失信息,应慎重。,计数资料的分类,无序分类:二项或二分类:对立、不相容的两类。如疗效:病死与未愈,感染与否等。多项或多分类:互不相容的多类。如感染部位、感染分型等有序分类:类间不相容且有程度差别。如疗效:痊愈、显效、好转、无效。,特点:无度量衡单位;定性测量,在赋值时应考虑类型而定。*二分类变量:0,1*有序多分类:多采用等间距赋值 如-、+、+、+(0、1、2、3)*少量非线性关系有序多分类赋值:考虑哑变量*无序多分类变量赋值:A、B、AB、O 1 2 3 4?,计数资料的分类赋值,采用哑变量方法:dummy variable,革阳菌的哑变量赋值为(1,0,0),革阴菌哑变量赋值为(0,1,0),真菌哑变量赋值为(0,0,1),一、计数资料的统计描述方法,(一)图表:频数表,直条图,饼图,变量类型的判断,1、频数表,9名感染病例的职业状况,部分原始数据,2、直条图,直条图(bar 条形图):分类变量资料的频数图,条与条间独立,顺序可不固定。与Histgram不同,饼图/圆饼图/圆图/pie图,百分条图(percent bar),(二)率、比(构成比、相对比),1、率(rate,frequency),率又包括频率指标(frequency)和强度指标(rate),用来测量一定时期内,某人群特定事件发生的频率或强度。率=(发生某现象的观察单位数)/(某时间段可能发生某现象的观察单位数)常用百分率(感染率)、千分率、10万分率(肿瘤发病率)表示。,率是一个动态指标,在观察期内看特定人群中某事件的变化。率有时间单位观察时间影响率的大小。,与医院感染有关的率,医院感染发生率医院感染罹患率医院感染患病率(即现患率),医院感染发生率,是指一定时间内某人群中新发病例的频率。公式=(同一时期内新发生医院感染例数/同一时期内处于危险中病人数)100%或公式=(同期新发生医院感染例数/同期住院病人人数或出院病人数)100%,观察时间可为年、季、月,一般为年。年发病率/月发病率/季发病率,医院感染罹患率(同发生率),公式:(同期新发生医院感染例数/观察期间具感染危险的住院病人数)100%,计算医院感染率时,分子确定要注意:病例的感染时间要“落入”观察期内,即必须是新病例。注意病例与病人的区别。感染必须确诊,分母:可能发生感染的人数,其范围界定很关键,暴露人群又称危险人群,指发生感染的可能人群应排除那些已感染或因年龄、免疫等因素而不会感染的病人?,现患率,也称患病率或流行率,指某特定时间某人群中感染人数所占比重或比例。公式=(特定时间存在的医院感染例数/观察期间处于感染危险中的病人数)100%现患率主要在基线调查研究中使用,一般用调查病人数作为分母。也用于评价感控效果。,计算现患率时应注意:分子包括新、老感染病人,只要调查时正处于感染状态,均计算在内。分母调查人数,可分为时点现患率与期间现患率point prevalence period prevalence 调查时应尽量缩短调查时间cross-sectional study/Cohortstudy,2、构成比(proportion),说明某一事物内部各组成部分所占的比重和分布,常用百分数表示(0%-100%)。,构成比是一特定时间(time point)某特定事件在总体事件数中所占的比重。proportion=a/(a+b+c+)是一个静态指标无时间单位,3、相对比(ratio),相对比是A、B两个指标之比,是比较两独立事件数量大小关系指标(独立指互不包含):比=A/B两个指标可性质相同,可不同;绝对数、相对数或平均数。是一个静态指标,反映一特定时间(time point)的情况。无时间单位,例1 某医院院内感染汇总分析,月份 出院人数 感染人数 感染率 构成比 相对比1月份 584 8 1.37 8.8-2月份 571 10 1.75 11.0 1.283月份 714 12 1.68 13.2 1.23 4月份 748 16 2.14 17.6 1.565月份 942 21 2.23 23.0 1.636月份 1095 24 2.19 26.4 1.60合计 91,计数资料的统计描述:率与比的综合应用,(三)、计数资料统计描述的注意事项,计算率时要求分母不宜过小。少于10例则直接描述。,例2 血清TPS检出率与消化道肿瘤淋巴结转移关系,分析时不能以构成比代率 例3 某作者调查医院感染病例,获得如下数据:,结论:说明60岁年龄组最容易发生感染。,(四)、率的标准化,例4 甲、乙两个医院感染率比较病情程度 甲医院 乙医院 例数 感染数 感染率 例数 感染数 感染率 重 800 160 20%100 30 30%中 200 20 10%400 60 15%轻 100 5 5%1000 100 10%合计 1100 185 16.8%1500 190 12.7%,1、标准化法的基本方法,方法1:采用标准人口构成与原始分组率,计算标准化率,直接比较。方法2:采用分组标准化率与原始人口,计算标准化比,间接比较。,1)、直接法-标准人口,病情程度 甲医院 乙医院 例数 感染数 感染率 例数 感染数 感染率 重 800 160 20%800 240 30%中 200 20 10%200 30 15%轻 100 5 5%100 10 10%合计 1100 185 16.8%1100 280 12.7%25.4%,2)、间接法:分组标准率,病情程度 甲医院 乙医院 例数 感染数 感染率 例数 实际 预期 感染数 感染数 重 800 160 20%100 30 20 中 200 20 10%400 60 40 轻 100 5 5%1000 100 50 合计 1100 185 16.8%1600 220 110 计算标准化感染比(SIR)=(实际感染数与预期感染数比)=220/110=2;SIR1,表示被标化组的感染率高于标准组。,2、标准化率的注意事项,条件:比较双方应同质、同时、同地,比较的两组应选用同一标准。标准选用不同,标化率可不同。标准化率只是两组的相对水平,不反映实际的情况,只能用于比较。总体标准化率比较也需进行假设检验。,(五)以率/比基础的二级指标,相对危险度(RR)比数比(OR)绝对危险度(AR)NNT,用来表达危险度的大小或关联程度,OR、RR,OR(比数比)、RR(相对危险度)适用条件:对于RCT试验:可以计算OR、RR 对于病例对照研究:只能计算OR,1、相对危险度(率比),组别 感染 未感染 合计 感染率治疗组 a b a+b Pe 对照组 c d c+d Pc合计 a+c b+d a+b+c+d RR(相对危险度)为治疗组与对照组的感染率之比。RR=Pe/Pc,实例(例5)分析,组别 未感染 感染 合计 感染率 治疗组 90 10 100 0.1 对照组 80 20 100 0.2某种抗生素预防院内感染的疗效分析。,RR计算的实例演示,治疗组发生感染的危险度(率)=10/100=0.10对照组发生感染的危险度(率)=20/100=0.20相对危险度(RR)=0.5,2、比数比(OR),组别 暴露 非暴露 合计 暴露/非暴露比病例组 a b a+b a/b对照组 c d c+d c/d合计 a+c b+d a+b+c+d OR(比数比)为病例组暴露与非暴露的比例与对照组暴露与非暴露的比例之比;OR=ad/bc,OR计算的实例演示,比数比又常称为机会比/优势比/比值比。,组别 未感染 感染 合计 感染率 治疗组 90 10 100 0.1 对照组 80 20 100 0.2某种抗生素预防院内感染的疗效分析本例OR=0.44。,OR、RR临床(实际)意义,OR、RR1,表明暴露因素为危险因素,偏离1越远,表示危险性越强0OR、RR1,表明暴露因素为保护因素,离0越近,表示保护性越强OR、RR=1,表明暴露因素与结果无关,注意:暴露因素和结果的赋值标准化:1表示暴露,0表示未暴露;1表示感染,0表示未感染。否则结论可能刚好相反。,相对危险度与比数比的关系,例6:治疗组感染率=10/100=0.1;对照组感染率0.2 RR=0.5 OR=0.44例7:治疗组感染率=5/100=0.05;对照组感染率=10/100=0.1 RR=0.5 OR=0.48当率较低,如小于10%时,RR值与OR值近似相等。率值越小(罕发事件),越接近。对大规模临床随机对照试验:OR、RR可使用。,3、绝对危险度(率差),对照组感染率40%,试验组20%,RR=0.5?对照组感染率10%,试验组5%,RR=0.5?AR为两个率的绝对差值:即对照组率-治疗组率,绝对危险度实例计算,对于感染率研究:绝对危险度为:20%-10%=0.1(常用百分数表示:10%)治疗能使感染率的危险度减少10%左右,4、NNT,NNT(Numbers Needed to Treat):为避免一例不良事件发生而需要治疗的病例数.其值为绝对危险度的倒数(1/AR)类似还有:NNH(Numbers Needed to Harm)。,NNT实例演示,如果治疗一个病人能减少感染的0.10危险度,即我们能挽救0.1个人。那么为挽救一个完整的人,需要治疗多少病人?NNT=1/0.110需要治疗10个病人,才能比对照组多减少1个感染病例。,计数资料统计描述小结,率与比可用来描述某事件发生机会的大小。二分类变量资料描述相对危险度(RR)与比数比(OR)是用来描述两组间事件发生的机会之比。当事件的发生机会较大时,RR与OR相差较大;当为罕发事件时,RR OR。绝对危险度是指率差,NNT为避免一例不良事件发生而需要治疗的病例数。,二、计数资料的假设检验-卡方检验-Pearson Chi-square test,KarlPearson,18571936,生卒于伦敦,公认为统计学之父。1879年毕业于剑桥大学数学系;曾参与激进的政治活动,还出版几本文学作品,并且作了三年的实习律师。1884年进入伦敦大学学院,教授数学与力学,从此在该校工作一直到1933年。K Pearson 最重要的学术成就,是为现代统计学打下了坚实基础。KPearson 在1893-1912年间写出18篇在进化论上的数学贡献的文章,而这门“算术”,也就是今日的统计。许多统计名词如标准差,成分分析,卡方检验(1900)都是他提出。,2检验的主要应用,推断两个/两个以上总体率或构成比有无差别;两分类变量间有无相关的假设检验(独立性);拟合优度检验(理论分布与实际分布的吻合情况检验)。,(一)2 检验主要类型,四格表资料的2检验22列联表的2检验RC表资料的2检验,卡方检验基本思想:以四格表资料为例,例8、为探讨医院感染与使用呼吸机的关系,某医院感控部门进行了横断面调查,使用呼吸机者77例,发生感染17例,未使用呼吸机的1821人中,有69例发生感染,问两组感染现患率有无差别?,表1 两组医院感染率的比较,2 检验的基本思想,1、建立假设,H0:两组感染率相等,H1:两组感染率不等,=0.05,*两组的总体感染率相等,均等于合并感染率=86/1898=4.53%,为反映所有格子的吻合情况,所有差值求和,(A-T)=0(正负抵消),差值和可定义为(A-T)2;相对比例保持不变,T值越大,(A-T)2值越大,为消除其影响,差值定义为:(A-T)2/T,2、计算统计量2在样本量足够大时,该值服从于自由度为=(行数-1)(列数-1)的2 分布。即2检验公式:2=(A-T)2/T2分布是一簇连续性分布,与自由度有关;在自由度固定时,2值越大,P值越小,反之亦然.在无效假设成立时:2值一般不会很大,出现大的2值的概率P是很小的,若P(检验水准),则没有理由拒绝它。,3、P值与2分布,2值反映了实际频数与理论频数的差值大小2值大小与p值呈反比关系,即2 值越大,P值越小;反之亦然。2值达到界值点,就有理由认为成立的可能性不大,是小概率事件,因而拒绝H0。对于四格表资料:0.052=3.84,四格表资料2 检验计算结果,本例2 值=53.0,自由度为1,查2 界值表,得p0.05,按照=0.05的水准,拒绝H0,而接受H1,可认为两组总体感染率不同,四格表资料的应用条件,当T5,而n40时,选用一般计算公式当140时,需计算校正公式当T1或n40时,选用Fisher确切概率法1934,连续性校正仅用于四格表资料,当超过四个格子时,一般不作Yate校正.,(二)、2X2列联表(配对设计),1、资料特点与分析目的,资料的特点:配对计数资料分析目的:A:两法检验结果有无关系(四格表2检验)B:两法检验有无差别(专用公式)。,2、假设检验(1):相关分析,检验目的:两法检验结果有无关系。H0:两法检验结果无关系 H1:两法检验结果有关系=0.05 2值=38.85,=1 确定P值:查卡方界值表,得P0.005,按照=0.05的水准,拒绝H0,而接受H1,可认为两法检验结果有关。计算Pearson列联系数反映相关程度sqrt(2/2+n)。(本例为r=0.294),3、假设检验(2):差别分析,检验目的:两法检验结果有无差别 H0:两总体b=cH1:两总体bc=0.05 确定P值:查卡方界值表,得P0.005,按照=0.05的水准,拒绝H0,而接受H1,可认为两法检验结果不同.甲法的阳性检出率高。,4、2X2列联表差别检验的应用条件,当b+c40时,公式可简化(McNemar):,2X2列联表资料的分析特点,对此类资料可以做两方面的分析:相关分析:采用一般的四格表公式 差别分析:采用专用公式(b、c不宜过小)对上例结果:两类检验方法结果是有关的,且有差别,甲法好于乙法。,(三)、多个样本率比较,适用资料特征:行X列表(RXC)-多个率比较的 2 检验。应用条件:不能有1/5格子的理论频数小于5,或最小理论频数小于2。若不满足,可采用方法:增加样本例数以增加理论频数;删除上述理论频数太少行或列;将理论频数太小性质行或列相近实际频数合并。Fisher确切概率法,卡方检验:P=0.037,(四)特殊行X列表资料的分析,列联表:有序行X列表资料,行变量、列变量的属性分为:双向均无序单向有序双向均有序属性相同双向均有序属性不同,A、对于双向无序资料:若比较多个样本率(或构成比),可用行列表资料卡方检验;若分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表卡方检验以及Pearson列联系数进行分析sqrt(2/2+n)。,卡方检验:19.54,P0.001,B、单向有序资料 分组变量(如年龄)有序,而结果变量(如传染病的类型)无序,分析不同组结果构成情况,可用行列表卡方检验进行差别分析。分组变量(如疗法)无序,而结果变量(如疗效按等级分组)有序,比较不同组别疗效,应用秩和检验,C、双向有序、属性相同资料 两个分类变量皆为有序且属性相同。如两实验室、两人用同一检测方法检测同一批样品的测定结果。其研究目的通常是分析两实验室、两人测量结果的一致性,此时宜用一致性检验或称Kappa检验。0.93-1.000.81-0.920.61-0.800.41-0.600.21-0.400.0-0.20,D、双向有序、属性不同资料 若分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表资料,选用秩转换非参数检验;若分析两个有序分类变量间是否存在相关关系,宜用Spearman相关或Pearson相关分析;若分析两个有序分类变量间是否存在线性变化趋势,宜用线性趋势检验。,双向有序资料-列联表,特点:双向有序、行变量和列变量属性不同的资料。分析目的:独立性/相关性分析。,实例分析,P0.005,按照=0.05的水准,拒绝H0,而接受H1,可认为矽肺期次与肺门密度级别之间有关,三、误用卡方检验的实例分析,实例11,例12、某检验法在病毒感染诊断上的应用,表13摘自该文附表,趋势卡方值=8.29,