第二章计量资料的统计描述.ppt
第二章 计量资料的统计描述,本章在临床资料处理中的用途,资料整理阶段,判断资料适合何种方法分析的初步阶段,对变量的特点进行描述(求出均数和标准差)为假设检验做准备,基本内容,数值变量资料的统计分析包括:统计描述和统计推断。统计描述:通过对资料的原始数据选用恰当的特征性统计指标,并选用合适的统计表、统计图正确地描述资料的分布规律与数量特征;统计推断:用样本的信息去推断总体特征,如由样本统计量计算总体参数的置信区间或作差别有无统计学意义的检验等则属统计推断的范畴。,model-1:不校正;model-2:校正年龄和性别;model-3:校正年龄、性别、吸烟和饮酒;model-4:校正年龄、性别、吸烟、饮酒和BMI;model-5:校正年龄、性别、吸烟、饮酒和WHR,表4 SCL-90因子分3分人数分布情况,1、什么类型资料?2、健康女性总胆固醇的分布类型?3、如何描述这些女性总胆固醇的分布特征?,101名健康女性总胆固醇(mmol/L)的测量结果,第一节 频数分布,一、频数分布表 整理原始数据的一种工具,用来表示数据各观察值在不同取值区间出现的频数分布情况。1、求极差(R):最大值与最小值之差 R=5.71-2.35=3.36mmol/L2、确定组段数和组距:i=3.36/10=0.3360.30,3、根据组距写出组段:下限L、上限为U,变量X值的归组统一为LXU*最后一个组段写出上限和下限以外,其他组段只写出下限4、分组划记并统计频数,二、频数分布图,1、描述频数分布的类型:对称分布、偏态分布(正负偏态分布)(1)对称分布:若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布,三、频数表和频数分布图的用途,(2)偏态分布:1)右偏态分布也称正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾,2)左偏态分布也称负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾,2、描述频数分布的特征:1)变异范围在2.305.90mmol/L;2)有明显的分布规律,主要集中在 3.504.70mmol/L,尤以3.804.10mmol/L组 段的人数最多,且基本对称。3、便于发现一些特大或特小的离群值。4、便于进一步统计分析和处理。,第二节 集中趋势的描述,一、算术均数(mean)资料呈单峰的正态或近似正态分布1、直接计算法:,2、频数表法:直接法和频数表法的差异主要是归组误差资料呈正态分布时,均数位于分布的中央。,有研究者测定8人血清的抗体效价分别为1:200,1:25,1:400,1:800,1:50,1:100,1:50,1:25,求平均抗体滴度。该研究者用倒数求均数,得平均抗体低度为1:206.25。1)资料的类型?2)该研究者对资料的描述是否正确?3)如何描述该资料的集中趋势?,二、几何均数(geometric mean),等比级资料和原始数据分布不对称,经对数转换后呈正态分布或近似正态分布资料(单峰的正偏态)免疫学指标1、小样本:倍数关系2、大样本:频数表-正偏态,一组观察值的几何均数总是算术均数,几何均数应用注意事项1、几何均数常用于等比级资料或对数正态分布资料。2、观察值中有0或负值,则不宜直接使用几何均数。3、观察值一般同时不能有正值和负值。若全是负值,计算时可先将负号去掉,得出结果后再加上负号。,某医师观察9名食物中毒患者进餐发病的时间分别为2,5,3,4,4,6,17,3,2小时。中位数:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。n 奇数时,M=X(n+1)/2 n 偶数时,M=X(n/2)+X(1+n/2)/2百分位数:将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。中位数是百分位的特殊形式。应用:偏态资料,开口资料,三、中位数与百分位数,2、频数表法计算中位数和百分位数 观察例数较多或频数表资料,Lx、ix、f x分别为 Px所在组段的下限、组距和频数;fx为小于L的各组段的累计频数,n为总例数,1、中位数可用于任何分布的资料。对于正态分布资料,中位数等于均数;对于对数正态分布资料,中位数等于几何均数。2、中位数不受极端值得影响,因此,实际工作中主要用于偏态分布资料、两端无确切值或分布不明确的资料。,四、调和平均数,对n个性质相同的定量数据分别取倒数变换后,按算术平均值计算,然后再求其倒数所得的结果。应用:一组性质相同的呈极严重正偏态分布,五、众数,N个性质相同的定量数据中出现次数最多的那个数.实际应用很少,算术均数、几何均数、调和均数:要每一个数据的具体值计算出来;中位数和众数只需要知道数据的个数和大小就可确定计算算术平均值和几何平均值的资料:可以计算“标准差”,可以解释更多的问题。当一个定量资料可以用这两种平均指标之一来处理时,应尽量选用它们。只有在实在没有办法的时候,才选用调和平均值和中位数;由于众数的不唯一性,再加上它还会随着频数分布表的组距大小的改变而改变,因此,众数在实际工作中很少应用。,反映一组同质观察值的变异度,均数=30;中位数=30三组的分布是完全相同?,第三节、离散趋势的描述,极差:一组变量值的最大值与最小值之差。优点:表示一组观察值的变异程度的大小简单明了 缺点:不能反映组内其他数据的变异情况,易受个别极端值的影响,稳定性差。,一、极差(range),四分位数间距=P75-P25 优点:稳定性比极差好 缺点:仍未考虑全部观察值的变异度适用:描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。,二、四分位数间距(quartile range),离均差:变量值-总体均数(X-)=0方差:,三、方差与标准差(variance and standard deviation),标准差:,标准差的特性,1、标准差的大小,受资料中每个观察值的影响,如观察值间变异大,求得的标准差也大,反之则小。2、如果各观察值加上或减去一个常数a,标准差不变。3、当每个观察值乘以或除以一个常数a,则标准差是原标准差的a倍或1/a倍。,标准差的用途:1、反映一组资料的离散程度:标准差越大,越分散,均数的代表性差 2、用于计算变异系数 3、用于计算标准误 4、结合均数与正态分布的规律,估计参考值范围5、均数与标准差结合用于全面描述正态分布计量资料的集中趋势与离散趋势。,1、观察指标单位不同时:身高和体重 2、均数相差悬殊的多组资料:,四、变异系数(coefficient of variation),标准误,标准误是统计量的标准差。,标准差与标准误:标准差是适合用来反映一组性质相同的定量数据离开其算术平均值的波动大小;标准误是更适合于反映在相同条件下实验的准确度的高低,它暗含对算术均数大小的推测。*表达几组类似实验结果离散程度大小时,建议使用标准差。,极差与四分位数间距:极差粗糙,较少使用;而四分位数间距反映了一组性质相同的定量数据中剧中的50%数据所在的范围,它比极差更有参考意义。标准差与四分位数间距:在偏态分布资料中,一般不适合使用标准差,此时可用四分位数间距取代标准差。标准差与变异系数:当比较两组或多组定量资料的离散大小时,在下面两种情形下不适合使用标准差,而必须使用变异系数。1)各组定量资料的单位不同时 2)各组定量资料的算术均数相差悬殊时,龈沟液蛋白质成分的电泳分析,第四节 正态分布 normal distribution,一、正态分布的概念和特征 1、正态分布的概念 高峰位于中央(均数所在处),两侧逐渐降低,且左右对称,不与横轴相交的钟形曲线图。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布。,图2-4 频数分布逐渐接近正态分布示意图,2、正态分布的特征 1)正态曲线在横轴上方,且均数所在处最高;2)正态分布以均数为中心,左右对称;3)有两个参数(1)均数为位置参数:(2)标准差 为形状参数,4)正态分布曲线下的面积分布有一定的规律性。,二、标准正态分布:均数为0,标准差为1的正态分布。欲求一定区间标准正态分布曲线下的面积只需查表即可。,正态分布除了可估计频数分布外,还是许多统计方法的基础,并可应用于质量控制及制定医学参考值范围。,第五节 医学参考值范围的制定,医学参考值:指包括绝大多数正常人的人体形态、功能和代谢产物各种生理及生化指标的波动范围。正常人是指排除了影响研究指标的疾病和有关因素的同质人群。,1、从正常人的总体中进行随机抽样 1)正常人的标准应有明确的界定。不是一点小病都没有的人,而是指排除了影响被研究指标的疾病或因素的人。2)有一定的样本含量;n100,个体差异越大,样本含量越大 3)抽样应遵循按随机化的原则。2、对选定的正常人进行准确的测定:测量误差,制定参考值范围的基本步骤,3、确定取单侧范围还是双侧范围:根据实际用途和专业知识而定 过高与过低均为异常-双侧-上下限 过高为异常(血铅)-单侧-上限 过低为异常(肺活量)-单侧下限4、选择适当的百分范围:绝大多数正常人的测定值应该所在的范围。80%、90%、95%、99%减少误诊取较大范围,较少漏诊取较小范围,资料的分布类型选定适当的方法进行参考值范围的估计,101名健康女性总胆固醇(mmol/L)的测量结果,Descriptive Statistics NMinimumMaximumMeanStd.DeviationTC1012.35 5.71 4.0295.65922Valid N(listwise)101,因血清总胆固醇过多或过少均为异常。95%正常值范围:4.0295 1.96 0.659=2.745.32mmol/L,取lg(TG 10),Descriptive Statistics NMinimumMaximumMeanStd.DeviationlgTG1154.26 2.31 1.1498.28231Valid N(listwise)1154,95%正常值范围:1.1498 1.96 0.28231=0.601.70 3.98-50.12,282名正常人的尿汞值(g/L),95%正常值范围:43.6g/L,