卫生统计学考研课件第二章定量资料的统计描述.ppt
《卫生统计学考研课件第二章定量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《卫生统计学考研课件第二章定量资料的统计描述.ppt(92页珍藏版)》请在三一办公上搜索。
1、卫生统计学,流行病与卫生统计学系潘发明,第二章 定量资料的统计描述,利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。,第一节 频数与频数分布,频数(frequency):对一个随机变量做重复观察,其中某变量值出现的次数。频数分布表(frequency distribution table):将各变量值及其相应的频数列成表格的形式。例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L)见P12,试编制频数分布表。,频数表的编制:,一、连续型定量变量的频数分布,步骤:(1)求全距:(极差)R=29.64-7.4
2、2=22.22(2)定组段数与组距:815个组段,组距i=全距/组段数(3)划组段:以一个稍小于或等于最小值的整数作为第一个组段的起点数据。下限:每个组段的起点(最小值)。上限:每个组段的终点(近似最大值)。注:最后一个组段应同时写出上限和下限来。(4)绘制整理表“下限x上限”注:各组段的频数之和应等于总的观察例数。,两端的组段应分别包含最小值或最大值;尽量取较整齐的数值作为组段的端点,便于对数据进行表述;组距以相等为宜。,表2 120名正常成年男子血清铁含量的频数分布表,一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一,13681220271812841,组段,划记,频数,120
3、,二、离散型定量变量的频数分布,离散型变量的频数分布图 直条图 横坐标为产前检查次数;纵坐标为 频率,即产前检查K次的妇女在被统计妇女中所占的比例%。图中等宽矩形长条的高度与相应检查次数的频率呈正比。,频率:各组的频数除以总例数 n 所得的比值。频率描述了各组频数在全体中所占的比重,各组频率之和等于100%。累计频数:本组段的频数与以前各组段的频数相加;累计频率:每组段的累计频数除以总例数。,连续变量的频数分布图 连续型变量的频数分布图,以直方的面积大小表示频数的多少。等距分组 以横轴表示被观察变量,纵轴表示频率密度,以各矩形(宽度为组距)的面积代表各组段的频数。,直方图,图中横轴为血清铁含量
4、,纵轴为频率密度,直条面积等于相应组段的频率。,?,三、频数分布的两个特征,集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在18 这个组段,这种现象为集中趋势。,离散趋势:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差不齐,最低的接近6,最高的接近30,这种现象称为离散趋势。,由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。,离散趋势或变异程度是指观察值之间参差不齐的程度。,频数分布,四、频数分布的类型,对称分布型:指集中位置在正中,左右两侧频数分布大体对称。,偏态分布型:指集中位置偏向一侧,频数分布不对称。,偏态分布型,正偏态分布:集中位置偏向数值小的一侧。,负
5、偏态分布:集中位置偏向数值大的一侧。,频数表的用途 1.揭示频数分布的分布特征和分布类型。文献中常将频数表作为陈述资料的形式。2.便于进一步计算统计指标和进行统计分析处理。3.便于发现某些特大或特小的可疑值。,139915182114104321,110名7岁男童身高(cm)的频数分布,第二节定量变量的特征数,总体中的某些个体总是具有某些同质性,同一地区、同一年度、同一民族、同一年龄段、相同的性别与类似的健康状况,这些共同点使得该人群的血清铁含量应趋向同一数值,即集中趋势。不同总体间比较的方式之一就是对他们的集中趋势进行比较。另一方面,同一总体中的个体之间又普遍存在着各种差别,也就是说由于遗传
6、、营养、行为、发育、心理的各种因素在个体之间都不会完全相同,即个体间存在差异,因此导致某地18-35岁健康男性居民血清铁含量不会完全相同,而是呈现或大或小的离散趋势。,平均数:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。常用的平均数有算术均数,几何均数和中位数。(一)算术均数(mean):简称均数,总体均数用希腊字母表示,样本均数用拉丁字母 表示。1.计算方法 1)直接法:适用于样本例数n较少的资料。其中X1,X2Xn为各变量值,n为样本例数。,一、描述集中趋势的统计指标,2)加权法:适用于变量值较多的资料。f1,f2fn分别为各组段的频数,X1,X2X0 为各组段的组中值,组中
7、值=(本组段下限+下组段下限)/2。,权,即频数多,权数大,作用也大,频数小,权数小,作用也小。,例2-3 测得8只正常大白鼠总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。,求例2-2中某地120名正常成年男子的血清铁含量的均数。,120名成年男子血清铁含量均数、标准差计算表(加权法),13681220271210841,7276610418034051337827620010829,7911131517192123252729,49243726135227005780974779386348500029
8、16841,2.均数的两个重要特性 1).各离均差的总和等于0。(总体中各变量值X与均数之差称为离均差)2).离均差的平方和小于各观察值X与任何数a之差的平方和。()即 设:a,则a=d,d0,由于,3.均数的应用 但它最适用于对称分布资料,尤其是 正态分布资料。因为这时均数位于分布的中心,最能反映资料的集中趋势。,(二)几何均数(geometric mean):(几何均数也称为倍数均数,用G表示)1.几何均数的计算方法 1)直接法:适用于样本例数n较少的资料。将n个观察值X1,X2,X3Xn的乘积开n次方对数形式:G=lg-1(lgX1+lgX2+lgX3+lgXn)/n=lg-1(lgX/
9、n),例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。求其平均效价。,7份HBsAg的平均滴度为1:64,2)加权法:适用于样本例数n较多的资料。,X1,X2Xn 为各组段的滴度或滴度倒数。f1,f2fn分别为各组段的频数。,例2-6 52例慢性迁延性肝炎患者的HBsAg滴度数据见表2-4,求其平均滴度。,52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.74705,二)几何均数应用的注意事项:1)几何均数常用于等比级数资料或资料呈倍数关系或对数正态分布资料。2)观察值中不能有0。3)观察值中不能同时有正值
10、和负值。,中位数(median,M):将一组变量值从小到大按顺序排列,位次居中的那个变量值就是中位数。百分位数(percentile,Px):指把数据从小到大排列后位于第X%位置的数值。有n个观察值X1,X2Xn,把他们由小到大按顺序排列成X1X2X3Xn,将这n个观察值平均的分为100等份,对应于每一等份的数值就是一个百分位数,对应于前面X%个位置的数值称为第X百分位数,用Px表示。一个百分位数Px将总体或样本的全部观察值分为两部分,理论上,在不包括Px的全部数据中有X%的观察值比它小,有(100-X)%的观察值比它大。,(三)中位数和百分位数,1.中位数和百分位数的计算 1)直接法:适用于
11、样本例数n较少的资料。将观察值按大小顺序排列,当n为奇数时,中间那个数就是中位数。当n为偶数时,中间两个数的平均数就是中位数。,例2-7 某药厂观察9只小鼠口服高山红景天醇提物(RSAE)后在乏氧条件下的生存时间(分钟)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0 n为奇数,M=63.6(cm),2)频数表法计算中位数和百分位数:适用于样本例数n较多的资料。累计频数:本组段的频数与以前各组段的频数相加;累计频率:每组段的累计频数除以总例数。公式为 L为百分位数所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为百分位数所在组段的前一组段
12、的累计频数,n为总例数。,例2-8 利用表2-2的频数表求血清铁含量的中位数。,1 1 0.833 4 3.33 6 10 8.338 18 15.0012 30 25.0020 50 41.6727 77 64.1718 95 79.1712 107 89.178 115 95.834 119 99.171 120 100.00,例 某市大气中SO2的日平均浓度见表2.5,求P25,P50,P75。,例 某市大气中SO2的日平均浓度见表2.5,求中位数,P25,P50,P75。,2.中位数和百分位数的应用 1)中位数常用于描述偏态分布资料的集中趋势,反映位次居中的观察值的平均水平。在对称分布
13、的资料中,中位数和均数在理论上是相同的,(但在使用过程中不能混用)。2)百分位数可用于确定医学参考值范围(详后)。3)分布在中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。,应用平均数的注意事项 1.平均数的计算和应用必须具备同质基础,必须先合理分组。不同质的事物要分别求平均数,以便分析比较。2.根据资料的分布选用适当的平均数。对称分布资料,尤其是正态分布资料,宜用均数,而偏态分布资料则中位数的代表性较好,对数正态分布及等比级数资料宜用几何均数。,1.极差(range,R)也称为全距,用R表示,即一组资料中,最大值与最小值之差。缺点:1)除了最
14、大、最小值外,不能反映组内其他数据的变异度。2)样本例数越多,抽到较大或较小变量值的可能性越大,因而极差可能越大。3)即使样本含量相同,极差也不够稳定。,二、描述离散趋势的特征数,例2-11 试观察3组数据的离散情况。A组 26 28 30 32 34 B组 24 27 30 33 36 C组 26 29 30 31 34,2.四分位数间距(quartile range,Q)简记为Q,可看为特定的百分位数。P25表示全部观察值中有25%(1/4)的观察值比它小,记为下四分位数QL,P75表示全部观察值中有25%(1/4)的观察值比它大,记为上四分位数QU。Q适用于各种类型的连续型变量,特别是偏
15、态分布的资料。,例 据表2.5资料求某市大气中SO2日平均浓度分布 的四份位数间距。,3.方差(variance),A组 26 28 30 32 34 C组 26 29 30 31 34,总体方差,方差只取正值。同类资料比较时,方差越大意味着数据间变异越大。,(二)标准差(standard deviation,S),总体标准差,样本标准差,式中n-1是自由度,为随机变量能自由取值的个数。它描述了当 选定时n个变量值中能自由变动的变量值的个数。,SS=lxx=X2-(X)2/n,1.直接法:适用于n较小的资料,求例题中A组数据的标准差。,2.加权法:适用于n较大的资料,120名成年男子血清铁含量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 卫生 统计学 考研 课件 第二 定量 资料 统计 描述
链接地址:https://www.31ppt.com/p-5096755.html