研究生统计学讲义第7讲R×C表资料分析.ppt
《研究生统计学讲义第7讲R×C表资料分析.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第7讲R×C表资料分析.ppt(55页珍藏版)》请在三一办公上搜索。
1、第八章 RC表资料的分析,整理分类资料时,通常将分类频数排成R行C列的表格方式表达,称为RC列联表(RC contingency table),简称RC表(RC table)。RC表资料常用2检验。本章我们从2统计量的分布讲起,介绍多种RC表资料的检验方法。,预备知识 2分布,定义 如果u1,u2,.,un是n个相互独立的标准正态变量,则称随机变量,服从自由度为df=n的2分布(2-distribution)。,2=u12+u22+.+un2,2 分布曲线偏向左边,随自由度df的不同而不同,自由度越小越偏,自由度相当大时,2分布曲线接近正态分布曲线。,用2(df)表示自由度为df时水准的2界值
2、,P(2 2(df)=表示自由度为df时,2值大于界值2(df)的概率为。本书附表列出了按P(22(df)=编制的单侧2界值表。,例如,直接查附表,得单侧2界值20.05(5)=11.07,它表示自由度df=5时,2值大于11.07的概率为0.05,即 P(211.07)=0.05.显然,P(211.07)=0.95。,2分布的常用性质:,2分布具有可加性;2分布常用作某些统计量分布的近似。,例如,当处理组较多,各处理组样本含量较大时,Kruskal Wallis法的H分布可用2分布来近似。医学中2检验是常用的检验方法之一。,2 检验的基本思想是衡量实际频数(actual frequency)
3、和理论频数(theoretical frequency)之间的偏离度。检验统计量的意义和算法可用基本公式来说明:,8.2,式中Arc表示RC表中第 r 行(r=1,2,R)第c列(c=1,2,C)位置上的实际频数,简称实际数,简记为A;Trc表示与Arc相应(同位置)的理论频数(频数期望值),简称理论数,简记为T。,一、2 检验的基本思想,第一节 一般四格表的2 检验,理论数是根据检验假设 H0 来确定的,H0 为比较的各组处理效果相同,均等于合计的处理效果,据此推出第 r 行第c 列位置上理论数的计算公式为:,式中 nr 表示第 r 行的行合计,nc 表示第 c 列的列合计;n 表示总合计。
4、,例8.1 某中医院收治367例胃脘痛患者,随机分成两组,分别用新研制的中药胃金丹和西药治疗,结果如表10.1,探讨两种药物疗效有无差别。,表8.1 两药治疗胃脘痛的疗效四格表,胃金丹组占据部分,两组合计有效率,0.73400.9176=0.6735,假设两种药物的疗效相同,那么我们期望全部观察值中胃金丹组的理论有效率是67.35%总的观察数是376,而胃金丹组的期望有效数就是,0.6735 376=253.24,西药组的有效理论数T21=100345/376=91.76;同理,合计无效率为31/376=8.24%,T12=22.76,T22=8.24。,表8.1为成组设计(即完全随机设计)的
5、四格表,表中的基本数据A11,A12,A21,A22分别取271,5,74,26。本例系两样本率比较,先假设两种药物的疗效相同,均等于合计的有效率345/376=91.76%;据此,胃金丹组的有效理论数T11=276345/376=253.24,西药组的有效理论数T21=100345/376=91.76;同理,合计无效率为31/376=8.24%,T12=22.76,T22=8.24,从式(8.3)可以看出2值反映了实际数和理论数吻合的程度。如果检验假设H0成立,则实际数与理论数之差不会很大,2值应较小,出现大2值的概率P是很小的,按小概率事件不可能发生原理,一般应该不会发生。若根据试验结果算
6、出H0成立的2值为小概率(P检验水准),就怀疑H0成立,因而拒绝H0;若P,则没有理由拒绝H0。2与P值的对应关系(即分布的规律)可查附表6,2界值表。,表8-3 四格表2检验统计量的计算公式,基本公式,专有公式,校正公式,专有公式的校正,n40,T5,n40且1T5,对例8.1求解,本例H0:即两组疗效相同;H1:即两疗效不相同。=0.05。,=56.77,按自由度df=1查附表2,2界值表,20.05(1)=3.84,因220.05(1),P0.05,按=0.05水准拒绝H0,认为两药治愈率不同。,二、一般四格表的 2 检验,例8.2 某中医院将71例血栓闭塞性脉管炎期23级患者随机分成甲
7、、乙两组,甲组用活血温经汤,乙组用通塞脉1号治疗,结果如表10-4。问两药的疗效有无差别?,表8-4 两组疗效比较,H0:即两组疗效相同;H1:即两疗效不同。=0.05,如无统计软件,先计算理论数,本四格表最小理论数(行合计、列合计均为最小值所在位置上的理论数)T12=933/71=4.18,因有理论数140,用式(10.8)计算校正2值:,本例若不用校正2,则2=4.06,查2界值表,得P0.05,可见未校正的P值偏低,将得出相反的结论,四格表2检验的注意事项(1)2近似计算法种类很多,式(10.3)是2检验的基本公式,式(10.6)是由式(10.3)推导出的四格表专有公式。由于2界值表是以
8、正态分布为基础的连续性理论分布计算出来的,而分类变量不具有连续性,由此计算的2值是不连续的,特别是自由度为1的四格表,在总样本例数n40,有理论频数1T5时,用不校正的2值查2界值表,所得概率偏低,误差较大,须予校正。式(10.8)是式(10.4)的连续性校正公式。式(10.8)是由式(10.7)推导出的四格表专有校正公式。(2)如无软件,为了省去计算每个格子的理论数的麻烦,四格表2检验常用四格表专有公式计算2值。如用专有公式计算2值,虽然公式中没有理论数,但要先计算最小理论数(行合计、列合计均为最小值所在位置上的理论数),以便选择合适的公式。,时,u20.05=20.05(1)(即1.96
9、2=3.84),u20.01=20.01(1)(即2.5758 2=6.63),故n较大时的两样本率比较,既可用u检验,又可用2检验。(3)凡能用测量值做指标计算均数或能划分等级的资料,因为按分类资料,在划分阳性、阴性时信息量损失太大,而且划分界限不同,得出的统计结论也可能不同,如表10-6中,右边第一、第二两种划分的数据来自同一资料,但统计结论却完全相反。故此,在资料的划分归类时,必须结合专业知识,具备充分的理由才能确定某一划分界限。诚然,如果有明确的专业规定,例如:舒张压在90mmHg以上列为高血压,SGPT大于40单位列为异常,为了作出符合临床习惯的结论,也可将定量资料转为分类资料进行处
10、理。,(4)四格表 2 检验法不宜用于数据中有零的资料,此时误差很大,宜改用确切概率法,第五节 McNemar和kappa检验,1配对四格表 两分类变量配对设计时,例如,同一对象接受两种处理,同一血样经甲乙两法化验,或同一患者经治疗前后两次检查等,每一对象的计数情况有四种可能:即甲(+)乙(+),甲(+)乙(),甲()乙(+),甲()乙()。对于这类配对设计资料排成的四格表,称之为配对四格表,以区别不反映配对关系的四格表。,2配对四格表资料的独立性 2 检验 H0为配对的两种属性相互独立,彼此无关。目的是推断配对的两种属性(因素)是否有关。独立性的对立面就是相关,配对四格表的独立性检验即行列属
11、性的相关性检验。在配对两法相关即不独立时,可认为差异无统计意义。在配对两法无相关即独立时,可认为差异有统计意义。统计量仍用四格表的 2 检验公式(见表10.3),如两种属性有关,可进而确定关系的密切程度。,3.不同疗程的疗效比较问题,例8.6 用复方鱼腥草片合剂治疗老年性慢性支气管炎100个病例,先后共观察两个疗程,结果第一疗程有效率为60%;第二疗程有效率为75。本例两疗程资料为配对资料,这100例可有四种情况:,两疗程均有效;第一疗程有效但第二疗程无效;第一疗程无效而第二疗程有效;第一、二疗程均无效。如果整理成表10-5的四格表,其内容并未提供上述四种情况的数据,无法进行配对2检验。,不同
12、疗程的疗效比较宜整理成配对四格表,以便进行配对2检验。而配对四格表在周边合计不变即(a+b)、(c+d)、(a+c)、(b+d)四个数不变的条件下,表中的a、b、c、d可有许多组合,不同组合的配对资料,统计学结论有不同。如表10-6至表10-7都满足100个病例时,第一疗程有效率60与第二疗程有效率75的要求,但它们的配对2检验结论却截然相反,一个是两疗程疗效差异无统计学意义,一个是两疗程疗效差异有统计学意义。但若该组补充a、b、c、d中任何一个数据,便可作出正确判断。例如报道两个疗程均无效者为15例,则其四格表一定为表8-6,用配对2检验,得0.01p0.02,可认为两个疗程的疗效高于一个疗
13、程。,4.左右两侧比较的 2 检验 体内有些器官可分为左右两部分,在自然的正常状态下,左右大多是对称的,可是由于解剖、生理、病理等原因,某些改变在左右两部分受累的概率并不均等。左右两侧比较可使用2检验。如以a、b分别代表左右两侧的实际频数,则:2(a-b)2(a+b),df=1,例8.8 某医院神经科对近三年收治的96例内囊出血病人的发生部位进行分析,结果发生于左侧者为55例,右侧者4l例,试问内囊出血是否好发在左侧?,H0:左右,H1:左右。,2(a-b)2(a+b)(55-41)2(55+41)=2.042,P0.1,可认为内囊出血左右两侧发生率无差别。,第三节 分层四格表的2M-N检验,
14、例8.4 痛痹胶囊治疗骨性关节炎期临床实验,采用3个中心随机双盲、双模拟、阳性药平行对照试验法,将合格受试者以11的比例分配至两组,临床试验在3家医院同时进行,每个试验中心各等比例完成50例,4周3天血常规异常者清单结果如表10-8。试分析两组药物及中心效应。,表8-7是分层四格表,如使用SPSS11.5统计软件:以分组、疗效、中心,建立数据文件L10.8.sav以后,,(1)先加权频数变量,操作过程和界面同例10.2:Data,Weight Cases,选择Weight Cases by,将例数送入Frequency Variable框,OK。,(2)进行分层四格表的2M-N检验:Analy
15、ze,Descriptive Statistics,Crosstable(交叉表),指定行变量为疗效、列变量组别、分层变量为中心,Statistics,选 Risk(危险度),选 Cochrans and Mantel-Haenszel statistics(分层变量的独立性及同质性检验),Continue,OK。,输出结果:除频数分布表、分层(各中心内)两组比较的Pearson2检验结果之外,还有分层危险度估计(Risk Estimate)、三种心R值的一致性检验(Test for Homogeneity of the Odds Ratio):,上表表示:分层卡方检验统计量=3.451,概率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 统计学 讲义 资料 分析
链接地址:https://www.31ppt.com/p-5806382.html