计数资料的统计分析.ppt
计数资料的统计分析,温医公卫学院黄陈平,计数资料的统计分析,相对数及其应用 率的标准化 二项分布 2检验,一、常用的相对数,什么是计数资料?计数资料有何指标来描述?例:甲、乙两地发生麻疹流行,甲地患儿100人,乙地患儿150人,何地发病较为严重?若甲地易感儿童500人,而乙地易感儿童1000人。甲地麻疹发病率为 100/500100%=20%乙地麻疹发病率为 150/1000100%=15%相对数是两个有关联的数值或指标之比,通常用于描述分类资料的特征。,(一)率(rate),K为比例基数,其确定原则为:(1)习惯用法;(2)保留12位整数。,说明某种现象发生的频率或强度。,(二)构成比(proportion),构成比的特点:1.各部分的构成比相加必等于100%,故又称百分比。2.各构成部分之间相互影响,呈此消彼长的关系.,说明某一事物内部各组成部分所占的比重或分布。,(三)相对比(ratio),对比指标:两个同类事物某种指标(绝对数,率或其它指标)的比。如男女性比。关系指标:两个有关的、但非同类事物的数量之比。如医护人员与病床数之比。,说明A是B的若干倍或百分之几,(注意:A、B互不包含),例,应用相对数时的注意事项,(1)分母不宜过小(2)正确区分构成比和率(避免以比代率)(3)注意平均率(合并率)的计算,(4)样本率或样本构成比的比较需假设检验(5)若两个合计率比较,其内部构成不同,并能影响其结果,需进行率的标准化。,二、率的标准化,1、大范围内的人口资料2、两组年龄段人口合并3、以其中一组为标准组,对另一组作标准化,选择标准组的方法:,(1)直接法:,已知各年龄组的实际率,用标准人口数或标准人口构成对率进行标准化。,Ni 为第i 组标准人口数pi 为第i 组的实际率Ci 为第i 组标准人口构成,(2)间接法:已知死亡总数及年龄别人口数,但不知各年龄组的实际死亡率,P:标准组死亡率;r:被标化组实际死亡数;niPi:被标化组预期死亡数;SMR:标准化死亡比,若SMR1或1,表示被标化人群的死亡率高于或低于标准组,注意事项:(1)标准化率不能反映实际水平,仅用于比较;(2)有明显交叉资料,则不能用标准化率比较;(3)若总率为样本率,仍需假设检验。,二、二项分布1.概念:为率的抽样分布,各种情况的概率等于二项式展开各项。,0 3 生 生 生 0.2 0.2 0.2 0.008,1 2 死 生 生 0.8 0.2 0.2 生 死 生 0.2 0.8 0.2 生 生 死 0.2 0.2 0.8 0.096,2 1 死 死 生 0.8 0.8 0.2 死 生 死 0.8 0.2 0.8 生 死 死 0.2 0.8 0.8 0.384,3 0 死 死 死 0.8 0.8 0.8 0.512,P 1.000,(0.8+0.2)3=(0.8)3+3(0.8)2(0.2)+3(0.8)(0.2)2+(0.2)3 三死 二死一生 一死二生 三生,2.概率的计算:(1)恰有X例阳性的概率:,(2)至少有k例阳性的概率:,(3)至多有k例阳性的概率:,3.二项分布的图形,(1)离散型(2)当=1-=0.5时,两边对称(3)当n增大,二项分布逐渐逼近正态分布,二项分布的特点:,n和n(1-)5,并且和(1-)均不接近于0时,可近似看作正态分布。,未知时,np和n(1-p)5,并且p和(1-p)均不接近于0时,可近似看作正态分布。,4、率的抽样误差与标准误,当未知时,常以样本率P来估计:,例为了解某地人群结核菌素试验阳性率情况,某医疗机构在该地人群中随机检测了1773人,结核菌素试验阳性有682人,阳性率为38.47%,试计算其标准误。,5.二项分布的应用(1)总体率可信区间估计 1)查表法:n50,尤其p0 或 1时,现 n=41,x=19,p=46.34%。查附表6,P713得:31%63%,若x n/2 则按n-x 查表得?,然后100-?例:上题若 X=29,则 n-x=41-29=12查表得:16%46%然后100-?得:54%84%,2)正态近似法:若n 50 或 n p和n(1-p)5时,(2)样本率与总体率比较 1)直接计算概率法,H0:1=0=0.01H1:1 0=0.01 单侧=0.05,2)近似正态法:n 和n(1-)5时,H0:1=0=0.2H1:1 0=0.2 单侧=0.05,(3)两样本率比较(近似正态法),0 3 生 生 生 0.2 0.2 0.2 0.008,1 2 死 生 生 0.8 0.2 0.2 生 死 生 0.2 0.8 0.2 生 生 死 0.2 0.2 0.8 0.096,2 1 死 死 生 0.8 0.8 0.2 死 生 死 0.8 0.2 0.8 生 死 死 0.2 0.8 0.8 0.384,3 0 死 死 死 0.8 0.8 0.8 0.512,P 1.000,二项分布概率计算SPSS演示,H0:=0=0.01H1:0=0.01 单侧=0.05,例:据以往经验,新生儿染色体异常率一般为1%,某医院观察了当地400名新生儿,只有1例染色体异常,问该地新生儿染色体异常率是否低于一般。,(一)样本率与总体率的比较,结论:,直接计算概率法,课堂讨论,某地调查农村中不同人群的HbsAg阳性情况,结果如下表,从中得出农民HbsAg阳性情况最严重,医务人员最低的结论。问此结论是否可信?为什么?,四、2检验(Chi-square test),是现代统计学的创始人之一,英国统计学家K.Pearson于1900年提出的一种具有广泛用途的假设检验方法。常用于分类变量资料的统计推断。,一、用 途,1、率或构成比的假设检验2、两分类变量间的相关分析3、其它(如频数拟合优度检验),常见2检验应用类型,成组设计两个样本率比较 四格表资料的2检验配对设计两个样本率比较 配对四格表2检验成组设计多个样本率或样本构成比比较 行列表资料的2检验分类变量资料的关联性分析 行列表资料的2检验,什么是四格表资料?主要是两样本率比较,(一)四格表资料的2检验,分析的基本思想,A:为实际数;T:为理论数。即在H0:1=2 的条件下,基本格子中的频数。基本思想为分析实际数与理论数的吻合度,(一)四格表资料的2检验,T值的计算:,X2值大小除与|A-T|有关外,还取决于自由度,自由度一定时,X2值分布也一定。,不同自由度有不同的X2分布曲线,P715,附表8 X2界值表,计算:(1)基本公式法:,H0:1 2 H1:1 2=0.05,查附表8,得:,(2)专用公式法:,(3)2值校正:当1 T 5,而且N 40,=3.03 查表得:P 0.05,若未校正,X2=4.47,P 0.05,应用条件(1)T 5,而且N 40 直接用2检验。(2)1 T 5,而且N 40 校正2检验。(3)T 1 或N 40,不能用2检验。注意:上述条件是以理论数为依据,而非实际数。,SPSS演示,SPSS演示,H0:B CH1:B C=0.05,(二)配对四格表资料的2检验(McNemar法),例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见表7-3。问两种方法的检测结果有无差别?,应用条件:当 b+c40,当 b+c 40,注意:该法一般用于样本含量不太大的资料。为什么?,现:b+c=14,配对卡方,对频数进行加权,(三)四格表资料的Fisher确切概率法,当T 1 或N 40时,例:在某牧区观察慢性布氏病患者植物血凝素(PHA)皮肤试验反应,资料如下表,问活动型与稳定型布氏病患者PHA皮试反应阳性率有无差别?,H0:1=2 H1:1 2=0.05,列出周边合计不变的四格表组合。(“周边合计中最小数+1”个),选取|p1 p2|值大于等于原始表格|p1 p2|值的组合,并计算其概率。,p1 p2-0.4-0.23-0.07 0.1 0.27,P=0.0166+0.1423+0.1079=0.2688,p1 p2-0.4-0.23-0.07 0.1 0.27,问题:如何进行单侧检验?,若上例问稳定型患者PHA皮试反应阳性率是否高于活动型布氏病患者?,H1:1 2选取p1-p2-0.23 的组合。即:P=P(1)+P(2)=0.1589,p1 p2-0.4-0.23-0.07 0.1 0.27,(四)行列表资料的2检验 是多个样本率或构成比的比较,专用公式:,H0:三种处理方法的有效率相等H1:三种处理方法的有效率不等或不全相等=0.05,=(3 1)(2 1)=2,查表得:P 0.005,SPSS演示,注意事项:1、1/5格子以上1 T 5或任一格T 1 处理:1)增大样本含量 2)合理的合并或删除 3)RC表的Fisher确切概率法,2)合并理论数较小的行列后,用X2检验,3)直接用行列表Fisher确切概率法(统计软件),2、等级资料一般不宜用2检验,问题:若上题用2检验,其结果说明什么?,调整检验水准(2k组资料)1)共同对照组,3、多个样本率两两比较,药物1与安慰剂比较:,按=0.005的水准,尚不能拒绝H0,2)两两比较,若上例进行两两比较,则按=0.003水准来判断。,(五)两分类变量资料的关联性检验,1、双向无序分类资料的关联性检验,Pearson列联系数,Pearson列联系数介于 01之间,愈接近 0,关系愈弱,愈接近1,则关系愈密切。,H0:两种血型无关联(构成比无差别)H1:两种血型有关联(构成比有差别)=0.05本例:X2=213.16,v=6,P0.005,PA:实际观察一致率;PE:期望一致率,即偶然机会造成的一致率。,Kappa值波动于 0 1 之间。K=1,说明两次结果完全一致;若 K=0,则完全由于机遇造成。一般情况,K 0.75,一致性程度较好,K 0.4,则较差。,2、双向有序同属性两分类变量的判断一致性检验,则:Kappa=(0.83-0.355)/(1-0.355)=0.736注意:样本资料计算出的Kappa值需要假设检验。,上表中红色数字为200例患者中两次检查结果一致的患者数,总计 166 例,一致率 PA=166/200=0.83 若两次检查结果一致的患者数是随机的,则:,用等级相关分析,3、双向有序属性不同的两分类变量相关分析,(六)关于2检验在其它方面的应用:,H0:1=2 H1:1 2=0.05,课堂讨论,现有410份鼻咽癌患者血清标本,用甲、乙两种分别进行检测,有371份标本甲法检出阳性,有269份标本乙法检出阳性,甲、乙两法一致检出阳性的标本有261份,问甲、乙法对鼻咽癌患者的检出率有无差别?两法检测结果有无相关?,x2=88.17,P0.005,Kappa=0.230 P0.001,The End,某产院拟分析畸形儿与母亲分娩年龄的关系,检查了新生儿4470例,得以下资料,据此得出结论:“母亲年龄在2429岁时,畸形儿最多,占总数的92.2%,表明该年龄段易发生畸形儿,符合一般规律。”,三、率的标准化,低,低,高,高,