研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt
《研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt(54页珍藏版)》请在三一办公上搜索。
1、第七章 两分类资料的统计描述与推断,第一节 二项分布和Poisson分布,二项分布(binomial distribution)是一种重要的离散型分布。其应用条件:每次试验结果只能是相互对立的两种情况中的一种,例如,某药的疗效为有效或无效;动物毒性试验的结果为存活或死亡;化验结果为阳性或阴性;等等,二者中必居其一,且仅居其一;已知发生某一结果(如阳性)的概率为常数,则另一结果(阴性)发生的概率为(1);在n次重复试验中,各次试验相互独立,即每次试验的结果不会影响其他试验的结果。在医药学中二项分布常用于分类资料的抽样研究,如总体率的估计、两率的比较等。,1定义 若随机变量 X 的概率函数为 Pn
2、(x)=Cnxx(1)nx,(x=1,2,n)(9.1)则称X服从参数为n和的二项分布。式中Pn(x)为Pn(X=x)的简写;n 为试验次数;Cnx为从 n 个不同元素中,每次取出 x 个元素的不同组合的种数;是二项分布一个的参数,而不是圆周率。在医药统计中应用二项分布时,表示总体阳性率,一般用大样本率p来估计;Pn(x)表示n次试验中,发生阳性次数为x的概率,二项分布的概率函数为,Pn(x)=Cnxpx(1p)nx,(x=1,2,n)(9.2),二项分布的图形如图9-1所示。,Cnxx(1-)nx=+(1-)n=1,,Cnxpx(1-p)nx=p+(1-p)n=1。,由于二项分布变量取值的概
3、率函数值Cnxx(1-)nx 或Cnxpx(1-p)nx正好是二项式+(1-)n或p+(1-p)n的展开式中,按或p的升幂排列的各项,故名二项分布。,所以,在 n 次独立重复试验中,一个二项分布变量各取值的概率之和为1。,2二项分布的分布函数 二项分布的分布函数为:F(x)=P(X x)=Pn(0)+Pn(1)+.+Pn(x)(9.3),例9.1 某疗法治痹症的治愈率=60%,用该疗法治疗痹症三例(n=3),治愈例数x(x=0,1,2,3)的情况如表9-1。,表9-1 三例患者中治愈 x 例的情况(治愈率p=0.60;治愈例数x=0,1,2,3),注:*三例患者中治愈x例的概率函数为P3(x)
4、;*P(Xx)为分布函数,3二项分布的均数和标准差 记二项分布的总体阳性率为,未知时,用大样本率 p 来估计。由式(9.1)推导出二项分布变量X的均数用绝对数表示时的计算公式为:总体均数=E(X)=n,相应的样本均数=n p(9.5),改用相对数(率)表示为:总体率=,相应的样本率p(9.6)二项分布变量 X 的标准差用绝对数表示时的计算公式为:,(9.7),二项分布变量的标准差用相对数(率)表示时,称为率的标准误,总体率的标准误记为p,样本率的标准误记为Sp,计算公式为:,(9.8),二、Poisson分布 Poisson分布(Poisson distribution)是一种重要的离散型分布
5、。适用条件:两分类的资料;所考察的事件发生率(一般用大样本率p来估计)很小,n很大,n(或np)为一不大的常数;事件的发生是独立的,如各病人的患病与否与他人无关。如人群中,对某种物质中过敏的人数,遗传缺陷、癌症等非传染性疾病的发病例数;又如大量产品中不合格品出现的次数;用显微镜观察片子上每一格子内的细菌数;细胞发生某种变化或细菌死亡的数目等等,都服从或近似服从Poisson分布。Poisson分布可视为二项分布的特例。Poisson分布常用于研究单位容积(或面积、时间)内稀有事件发生数的规律。,1定义 若随机变量 X 的概率函数为,(x=0,1,2,)(9.9),参数系Poisson分布的总体
6、均数(即数学期望),=。,2Poisson分布的均数、方差 Poisson分布的总体均数=n,相应的样本均数=n p,式中为稀有事件发生的概率(很小),未知时,用大样本率 p 来估计。式(9.10)的意思是:稀有事件在n(n很大)次试验中平均发生n次(未知时,用大样本率 p 来估计)。Poisson分布的方差=均数3Poisson分布的分布函数为,(9.10),4Poisson分布具有可加性 如果相互独立的 k 个随机变量都服从Poisson分布,则它们之和仍服从Poisson分布,且均数为 k 个随机变量的均数之和。如果以较小的度量单位观察某一现象的发生数呈Poisson分布时,把若干个小单
7、位合并为一个大单位后,总计数亦呈Poisson分布,其均数等于以较小的度量单位时的均数之和。例如已知某放射性物质每10分钟放射脉冲数呈Poisson分布,5次测量的结果分别为35,34,36,38,34次,那么50分钟的脉冲数x=35+34+36+38+34=177次,亦呈Poisson分布。Poisson分布资料常利用可加性原理使均数20,以便用正态近似法处理。,5三种分布的渐近关系 二项分布、Poisson分布和正态分布,是三种基本的也是最重要的概率分布,它们之间有着密切的渐近关系,若所考察的事件发生率为p,试验次数为n,则如图9-3。(1)二项分布资料,当0.150时,可用正态分布法近似
8、计算;当p0.9,n50,均数np10时,可用Poisson分布法近似计算;(2)Poisson分布资料,当均数20时,可用正态分布法近似计算。,第一节 分类资料的统计描述,分类资料的统计描述除用频数表示外,更多是用相对数(relative number)。如表7-1的栏,表7-1第、列,都是将分类资料的观察结果,按照分析的要求,分类汇总统计观察单位数(频数),列出的分类资料频数分布表。表7-1中第、两栏及表7-1第列的数据都是绝对数。绝对数说明实际发生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比较分析研究,故常计算两个有联系的指标之比,统称为相对数。常用相对数有比、构成比和率。,
9、相对数,表7-1 某年某医院外科病区院内感染发生数及其相对数,表 7-1的栏,表9-3第、列,都是将分类资料的观察结果,按照分析的要求,分类汇总统计观察单位数(频数),列出的分类资料频数分布表。表9-2中第、两栏及表9-3第列的数据都是绝对数。绝对数说明实际发生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比较分析研究,1,常用相对数,1比(ratio)亦称相对比(relative ratio),是两个有关指标之比,是说明两对比水平的指标。对比的数量可以是绝对数、相对数或平均数,可以是性质相同,也可以是性质不相同。例如,变异系数CV=(标准差/均数)100%,就是一个相对比。,习惯上,
10、若甲指标大于乙指标,相对比的结果用倍数表示;若甲指标小于乙指标,相对比的结果用百分数表示。如表9-2第栏中,各病区与普外病区院内感染发生数之比分别为69/71,34/71,53/71,即0.97,0.48,0.75。说明各病区院内感染发生数分别为普外病区的97%,48%,75%。又如,我国最早的古典医籍五十二病方载药240种,,发展到明代李时珍集古代医药之大成的科学巨著本草纲目,载药已达1892种,相对比1892/240=7.88,说明本草纲目载药为五十二病方载药的7.88倍。,2构成比(constituent ratio)又称构成指标。说明某事物内部各组成部分在该事物整体中所占的比重或分布,
11、如说明药物的成份构成,或疾病的死因构成、年龄别构成、性别构成、职业构成等,常以百分数表示,计算公式为:,3率(rate)又称频率指标,它指一定条件下某现象发生的频率或强度。如说明治疗的有效率、疾病的病死率等。常用符号表示总体率,而用符号p表示样本率。率的计算公式为:,式中的100%或1000为比例基数。选择依据:习惯,如有效率、感染率、治愈率、病死率习惯用百分率表示;出生率、死亡率习惯用千分率表示。使算得的率至少保留一、二位整数,如恶性肿瘤的死亡率多采用十万分率表示。,4率的标准误 类似于均数的抽样误差,在抽样研究中所获得的样本率与总体率也存着率的抽样误差。表示率抽样误差大小的统计指标称为率的
12、标准误(standard of rate)。由于总体率和总体率的标准误一般未知,常用样本率p来估计总体率,用样本率的标准误sp来估计总体率的标准误:,一般说来,用样本率 p 来估计总体率时,至少 n 应大于30。,率的标准误是衡量样本率稳定性和可靠性的统计指标,它反应率的抽样误差大小,率的标准误越小,表示率的抽样误差越小,用以估计总体率的可靠性就越大。反之,如果率的标准误越大,则由样本率估计总体率的可靠性越小。,5.应用相对数时应注意的问题,(1)计算相对数的分母不宜过小。观察单位数够多时,计算出的相对数较稳定,可以正确反映实际情况。但观察单位过少即分母过小时,计算出来的相对数不稳定,这时最好
13、直接用绝对数表示;必须用相对数时,应同时列出其可信区间。但动物实验可例外,因动物实验可以周密设计,精选对象,严格控制实验条件,例如有的毒理实验,每组用10只小白鼠也可以观察反应率或死亡率。,(2)进行率的对比分析时,应注意资料有可比性。除了被研究的因素之外,其余可能影响指标的重要因素应控制在“齐同对比”的条件下。若两组分类资料的诊断标准或疗效判断标准不一致,则组间缺乏可比性;若两组资料内部构成(如病人的性别、年龄、病程及病情等)缺乏齐同性,则两个总率也不能直接进行比较。如果需要直接比较总率,为了消除某一混杂因素(如年龄,职业,病性等)对观察结果的影响,可作率的标准化处理。,3)避免“以比代率”
14、,“比”、“率”误用。例如临床研究报告中,常用病人的资料来分析疾病与年龄、性别、职业等因素的关系,所计算的相对数一般都是构成比,不能作为率来分析。,(4)样本率(或构成比)的比较,不能仅凭表面数值大小下结论,应进行假设检验。,2,临床诊断试验评价方法的相对数,一项新的临床诊断试验的评价,应该是将该试验与一种较为理想的、公认的标准诊断方法进行对比分析而得出的结论。标准诊断亦称金标准(gold standard)指能较为准确地区分阳性与阴性的诊断方法。临床上常以活体组织检查、手术、尸体解剖、长期追踪观察或其他可靠的方法作为标准诊断。新的诊断方法与金标准对比,一定要有某方面的优点,才能进行推广,否则
15、予以摒弃。,1诊断试验评价中四格表资料的相对数 下面用表9-4的模式,作为诊断试验收集整理出的四格表(four-fold table)资料,介绍诊断试验评价中四格表资料的相对数及其计算公式。,敏感度(Sesitivity,Se):敏感度即真阳性率(true positive rate,TPR),是指实为阳性时该试验诊断为阳性的比例,表示该试验具有正确地识别阳性的能力。按照金标准确定阳性的病例数为(a+c),用诊断性试验确定的阳性病例数为a,敏感度Se为,Se(%)TPR=,(9.4),特异度(specificity,Sp):特异度即真阴性率(true positive rate,TNR),是指
16、实为阴性时该试验诊断阴性的比例,表示该试验具有正确地识别阴性的能力。按照金标准排除的病例数为(b+d),用诊断试验所排除的病例数为d,特异度Sp为,Sp(%)TNR=,(9.6),诊断效率(diagnostic efficiency,DE):诊断效率即该试验诊断的准确率,是指真阳性数、真阴性数占总例数的比例:,诊断效率DE应大于50%,且波动在50100%范围内。DE值愈大,临床应用价值愈好,DE小于等于50%的试验应予废弃,敏感度Se和特异度Sp从正面说明诊断实验的效能,诊断效率DE则综合说明诊断实验的效能。,预断值(predictive value):预断值是指试验结果提示本病存在或不存在
17、的可能性。分为阳性预断值与阴性预断值。,阳性预断值PPV(%)=a/(a+b)100%(9.9)阴性预断值NPV(%)=d/(c+d)100%(9.10),患病率(prevalence):患病率为被检人群中,确诊病例的比值。患病率=(a+c)/(a+b+c+d)(9.11)诊断指数(diagnostic index,DI):诊断指数是敏感性与特异性的总和,反应诊断试验的有效程度,故 诊断指数 DI(%)=Se+Sp(9.12)诊断指数DI值越大,诊断试验的应用价值也越大,当DI100%,这种试验应淘汰。,漏诊率(false negative rate,FNR):漏诊率FNR即假阴性率。漏诊率F
18、NR=c/(a+c)100%=1Se(9.13)c/(a+c)+a/(a+c)=(a+c)/(a+c)=1,可知漏诊率与敏感度互补。在统计学上,将假阴性的概率以表示,1=把握度,从诊断性试验来看,可认为 把握度=1=敏感性。误诊率(false positive rate,FPR):误诊率FPR即假阳性率。误诊率FPR=b/(b+d)100%=1Sp(9.14),b/(b+d)+d/(b+d)=1,可知 假阳性率和真阴性率互补。在统计学上,将假阳性的概率以表示,从诊断性试验来看,可认为 误诊率FPR=1Sp=(9.15)由式(9.14)可知:置信水平(1)=特异度Sp。漏诊率和误诊率是从不足的一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 统计学 讲义 分类 资料 统计 描述 推断
链接地址:https://www.31ppt.com/p-5806381.html