分类变量资料的统计分析.I.ppt
《分类变量资料的统计分析.I.ppt》由会员分享,可在线阅读,更多相关《分类变量资料的统计分析.I.ppt(113页珍藏版)》请在三一办公上搜索。
1、第十章 分类变量资料的统计分析,公共卫生学院 王文军,第一节 分类变量资料的统计描述,学习要点:,1.掌握相对数的概念和计算方法;2.掌握应用时的注意事项;3.熟悉率的标准化的基本思想4.掌握率的标准化的意义和计算方法(直接法)5.熟悉率的标准化(间接法)的计算,第一节 分类变量资料的统计描述,常用相对数:率、构成比、相对比,常用的相对数,率:说明某现象发生的频率或强度。构成比:说明某一事物内部各组成部分所占的比重。相对比:说明一个指标是另一个指标的几倍或百分之几。,(一)率,定义:率又称频率指标。是指在一定观察时间内,某现象实际发生数与可能发生某现象的总数之比,用以说明某现象发生的频率或强度
2、。,实际发生某现象的观察数,率=K,可能发生某现象的观察单位总数,又称频率指标或强度指标,例:某学者对肿瘤诊断的新指标细胞内端粒酶活性表达情况进行研究,资料如下表,试计算端粒酶在不同肺癌病理组织中活性表达的阳性率。,腺癌中端粒酶表达的阳性率=72/84100%=85.7%鳞癌中端粒酶表达的阳性率=68/82100%=82.9%,端粒酶在肺癌病理组织中的活性表达,实际运用中遇到的特殊情况,分母是难以确定的数:例:年发病率年中人口数目年平均人口数分子是难以确定的数:例:慢性疾病或肿瘤的发病率往往以确诊日期作为发病日期,医学中常用的率,发病率:表示一定时期内,在可能发生某病的一定人群中新发生某病的强
3、度。患病率:又称为现患率,指某时点上受检人数中现患某种疾病的频率,患病率分为时点患病率和期间患病率。治愈率:表示受治病人中治愈的频率。,医学中常用的率,有效率:表示受治病人中治疗有效的频率。生存率:指病人能活到某一时点的概率。死亡率:某疾病的死亡人数与观察人数之比病死率:某疾病的死亡人数与该病的患病人数之比。,练习:请问下面哪个指标能最好反映疾病对人群的威胁程度?,发病率病死率患病率死亡率现患率,(二)构成比,定义:构成比又称构成指标,表示事物内部某一部分的观察数与事物内部各部分的观察单位数总和之比,常以百分数表示。用以说明事物内部各部分所占的比重或分布。,构成比=100%,事物内部某一部分的
4、观察单位数,事物内部各部分的观察单位数总和,构成比的特征,各部分构成比的合计等于100%或1事物内部某部分的构成比发生变化,其他部分的构成比也相应地发生变化,某医院某年门诊病人构成情况,某医院2010年与2011年各科病床情况 科别 2010年 2011年 病床数 构成比 病床数 构成比 内科 200 50.0 300 60.0 外科 100 25.0 100 20.0 儿科 100 25.0 100 20.0 合计 400 100.0 500 100.0,例:某研究者于2010年对某校的初中生进行了近视患病情况的调查,结果见下表,试计算各年级初中生近视患病率及患病者中各年级的构成比。,201
5、0年某初中近视的患病率及构成比,例:某研究者于2010年对某校的初中生进行了近视患病情况的调查,结果见下表,试计算各年级初中生近视患病率及患病者中各年级的构成比。,2010年某初中近视的患病率及构成比,(三)相对比,定义:相对比是两个有关指标之比,说明一个指标是另一个指标的几倍或百分之几。,相对比=(或100%),甲 指 标,乙 指 标,两个指标可以是性质相同的,(如两病区病床数之比);也可以是性质不同 的(如小鼠肝重与体重之比);两个指标可以是绝对数,也可以是相对数或平均数。,例:某地区人口数为2400人,该地区所有医疗部门病床床位数为760张,试求该地区人均占有病床数?,人均占有病床数=7
6、60/2400=0.317,二、应用相对数时的注意事项,计算相对数时,观察单位数应足够多分析时构成比和率不能混淆观察单位不等的几个率的平均率不等于这几个率的算术平均值相对数的相互比较应注意可比性率的比较要进行标准化样本率或构成比的比较应做假设检验,1、计算相对数时,分母不宜过少,例如:某医生用组织埋藏法治疗了2例视网膜炎患 者,1例有效,即报道有效率为50%。这显 然是不可靠的,不能正确反映事实真相,这时最好用绝对数表示。,2、分析时不能以构成比代替率,2000年某初中近视的患病率及构成比,强度性指标,构成性指标,3、平均率的计算,观察单位不等的几个率的平均率,不能简单的相加后求平均值而得到,
7、应该把所有实际发生某现象的观察数相加后,除以可能发生该现象的所有观察单位总数。,某医院各科的病死率 科别 患者数 死亡数 病死率(%)外 科 1500 180 12.0 内 科 500 20 4.0 传染科 400 24 6.0 合计 2400 224 7.3(12.0+4.0+6.0)/3100%=7.3%,平均率=224/2400100%=9.3%,4、对率和构成比进行比较时,应注意可比性,除了研究因素外,其余的影响因素应尽可能相同或相近。,例如比较两地区慢性支气管炎的患病率是应主要考虑什么因素?,因慢性支气管炎好发于老年人,所以年龄可能为主要的混杂因素,5、率的标准化,消除混杂因素,使其
8、内部构成保持一致,便于比较。,6、两样本率比较时应进行假设检验,遵循随机抽样:假设检验:抽样本质,三、率的标准化,标准化法的意义和基本思想意义:消除混杂因素的影响基本思想:采用统一的标准构成(例年龄、性别、民族、病情等构成),以消除人口构成不同对研究因素的影响。将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其具有可比性。,甲乙两县各年龄组人口数及食管癌死亡率(1/10万),率的标准化,率的标准化,某市甲乙两院各科出院和治愈人数(2010年),(一)方法选择,直接法已知被标化组的年龄别率,以及已知标准组的年龄别人口数或年龄别人口构成比时;间接法已知被标化组的年龄别人口数与发
9、病(死亡)总数,但年龄别率未知,以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时;资料齐全时,首选直接法,(二)标准选择,选择一个具有代表性的、内部构成相对稳定的较大人群;将相互比较的人群合并后,作为共同的标准;从要比较的两组中任选一组的内部构成作为标准。,(三)标准化率的计算,符号识别,直接法,已知标准组各科室出院人数时:p=(Nipi)/N,甲院标准化治愈率p=2413.19/3241=74.46%乙院标准化治愈率p=2392.13/3241=73.81%,直接法,已知标准组各科室出院人数构成比:p=(Ni/N)pi,间接法 p=P.r/nipi;SMR=r/nipi(标准化死亡/治
10、愈比),SMR甲=1026/1046.7069=0.9802;SMR乙=1376/1431.7478=0.9611P甲=P SMR甲=0.7058 0.9802=69.18%P乙=P SMR乙=0.7058 0.9611=67.83%,标准化死亡比(SMR),SMR1:表示被标化人群的死亡率高于标准组;SMR1:表示被标化人群的死亡率低于标准组;,标准的选择,选择一个具有代表性的、内部构成相对稳定的较大人群;将相互比较的人群合并后,作为共同的标准;从要比较的两组中任选一组的内部构成作为标准。,练 习,某市甲乙两院各科出院和治愈人数,已知标准组各科室出院人数-直接法 p=(Nipi)/N,甲院标
11、准化治愈率p=2413.19/3241=74.46%乙院标准化治愈率p=2392.13/3241=73.81%,选择甲院为标准人群,选择甲院为标准人群对乙院进行标准化,乙院标准化率:p=1016.14/1587=64.03%,选择乙院为标准人群,甲院标准化率:p=1389.25/1654=83.99%,选择乙院为标准人群对甲院进行标准化,不同标准选择结果对比,(四)率的标准化注意要点,标准化的目的在于消除混杂因素对结果的影响,使标准总率具有可比性;通常,直接法因其计算简便更为常用,但若原资料中有些年龄组人口过少,易使年龄别死亡率波动较大时宜用间接法;当比较几个标准化率时,应采用同一个标准人口。
12、由于选定的标准人口不同,算得的标准化率也不同,但是比较时的结论不变。各年龄组率间出现明显交叉时,宜比较年龄组死亡率,而不用标准化法;两样本标准化率的比较应作假设检验。,小 结,分类资料的统计描述,先要编制分类资料的频数表,得到绝对数指标,再计算相应相对数;相对数的计算法不同,说明的问题也不同,应用时需注意:分母一般不宜过小,不以构成比代替率,可比性,样本指标需遵循随机抽样,比较时应做假设检验。标准化法目的在于消除混杂因素对结果的影响。,两地总死亡率比较,结合专业知识考虑有无混杂因素(如年龄),年龄与死亡率有无关系,两地人口年龄构成是否相同,无,有,不同,同,两地各年龄组死亡率pi(无明显交叉)
13、标准组各年龄组人数Ni或构成比Ni/N,被标化组各年龄人数ni及死亡总数r标准组各年龄组死亡率Pi及总死亡率P,直接法:标化率p=(Nipi)/N=(Ni/N)pi,间接法:SMR=r/nipi标化率p=P.SMR,已知条件,第二节 分类变量资料统计推断,公共卫生学院 王文军,学习要点:,1.了解二项分布2.掌握率的抽样误差与区间估计3.熟悉率的u检验适用条件和方法,例1 设生男孩的概率为p,生女孩的概率为q=1-p,令X表示随机抽查出生的4个婴儿中“男孩”的个数.,一、二项分布,我们来求X的概率分布.,X的概率函数是:,男,女,X表示随机抽查的4个婴儿中男孩的个数,生男孩的概率为 p.,X可
14、取值0,1,2,3,4.,例2 将一枚均匀骰子抛掷3次,令X 表示3次中出现“4”点的次数,X的概率函数是:,不难求得,,掷骰子:“掷出4点”,“未掷出4点”,一般地,设在一次试验中我们只考虑两个互逆的结果:A或,或者形象地把两个互逆结果叫做“成功”和“失败”.,新生儿:“是男孩”,“是女孩”,抽验产品:“是正品”,“是次品”,这样的n次独立重复试验称作n重贝努里试验,简称贝努里试验或贝努里概型、二项分布。,再设我们重复地进行n次独立试验(“重复”是指这次试验中各次试验条件相同),,每次试验成功的概率都是p,失败的概率都是q=1-p.,二项分布的应用条件有三:,各观察单位 只具有互相对立 的一
15、种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;已知发生某一结果(如死亡)的概率为p,其对立结果的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较稳定的数值;n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。,率的抽样分布,从某个二项分类总体中随机抽取含量一定的样本,其样本率的分布概率是有规律的,这种规律为服从二项分布,即样本中阳性数或样本阳性率的分布概率等于二项式展开后各项。若总体阳性率为、样本含量为n,阳性数为X,则样本中出现X个阳性事件的概率可由下式求得。,已知:=0.5,n=10;=0.3,n=5;=0.3,n=10;=0.3,n
16、=15。可根据公式求各阳性数事件的概率并作概率分布图。,图10-1 率的抽样分布图,决定图形的两个参数:n,,率的抽样分布特征,1.为离散型分布;2.当=1-时,呈对称分布;3.当n增大时,逐渐逼近正态分布。一般认为,当n和n(1-)5时,可近似看作正态分布。,率的抽样误差与标准误,(理论值),(估计值),例:在某镇按人口的1/20随机抽取329人,作血清登革热血凝抑制抗体反应检验,得到阳性率为8.81%,试求此阳性率的抽样误差。,本例,已知:n=329,p=0.0881,代入公式可得:,二、参数估计,点估计:p 区间估计正态近似法:当样本含量n足够大,样本率p或1-p均不太小时如np和n(1
17、-p)均大于5,样本率的分布近似正态分布,总体率可信区间在(1-a)可信度下,估计为:PuSp 例:总体率95%的可信区间:P1.96Sp 总体率99%的可信区间:P2.58Sp查表法:当n较小,如n50,特别是p接近与0或1时(小概率事件),按二项分布原则估计总体率的可信区间。使用百分率可信区间表。P(X)=Cnx(1-)n-x x,例:在某镇按人口的1/20随机抽取329人,作血清登革热血凝抑制抗体反应检验,得到阳性率为8.81%,求得阳性率的抽样误差为0.0156,试求抗体阳性率的95%及99%的可信区间?,已知:n=329,p=0.0881,sp=0.0156 n.p=3290.088
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 变量 资料 统计分析

链接地址:https://www.31ppt.com/p-6095165.html