数值变量资料的统计分析.ppt
1,第九章 数值变量资料的统计分析,中山大学公共卫生学院医学统计与流行病学系 张晋昕,2,统计描述统计分析 统计推断,3,统计描述统计分析 统计推断,4,表9-1 某地140名健康成年男子的血清尿素氮浓度(nmol/L)资料。,5,表9-1 某地区140名健康成年男性血清尿素氮浓度(nmol/L),6,第一节 数值变量资料的统计描述,【例9-1】某地用随机抽样的方法对140名健康成年男性血清尿素氮(BUN)浓度进行了检测,资料如下,请描述男性血清尿素氮的情况。表9-1的140个数据,无论多认真审视,也说不清这些女孩身高的情况怎样、特征如何统计描述就是解决此问题的方法,即用统计表、统计图和统计指标来描述样本数据的特征,7,表9-1 某地区140名健康成年男性血清尿素氮浓度(nmol/L),8,一、数值变量资料的频数分布,频数(frequency):变量值出现的次数,即例数 频数表(frequency distribution table):反映变量值与频数之间关系的统计表,9,表9-2 某地区140名健康成年男性血清尿素氮浓度(nmol/L)频数表,10,频数表的制作步骤:1.计算极差(range):本例R6.55-2.10=4.45(nmol/L)2.决定组数、组段和组距(取方便数)3列表划记:见表9-2。,11,表9-2 某地区140名健康成年男性血清尿素氮浓度(nmol/L)频数表,12,从频数表可看出有两个重要的特征:集中趋势(central tendency):多数数据向中间集中 离散趋势(tendency of dispersion):少数数据向两端分散,13,(二)频数分布图(直方图)及其制作,频数分布图:反映变量值与频数之间关系的统计图(直方图)。将表9-2资料绘制成频数分布图(图9-1),可见图形中间高两边低、两边对称,认为近似服从正态分布。,14,15,(三)频数表与频数图比较,频数表不够直观,但读出数据精确频数图比较直观,但读出数据不精确,16,(四)分布类型简述,正态分布:图9-1可称为正态或近似正态分布(后述)对数正态分布:指数据的对数值呈正态分布偏态分布:若高峰位于一侧,便被称之为偏态分布(高峰偏左为正偏态,反之为负偏态)分类意义:不同分布类型资料,其描述性统计方法不同(应对号入座),17,图9-2 频数分布逐渐向正态分布接近,18,二、平均水平指标,平均数(average):描述数值变量资料平均水平(或集中趋势)的指标。平均数种类:算术平均数(简称均数)、几何平均数、中位数,另有众数以及调和均数。,19,(一)均数(mean),均数符号:总体均数为(读作mu),样本均数为1直接法计算均数:(9-1)为求和的符号,读作sigma,xi为观察值,n为例数【例9-2】10名女孩的身高(cm)的平均值为 142.2(cm),20,2加权法计算均数 加权法(频数表法)基本思想:以组中值代表组内的变量值(近似法),简化计算 计算:表9-3中fixi=616.80,fi=140,得,(9-2),(nmol/L),21,【注】直接法计算得均数为4.38(nmol/L),可见加权法近似效果很好。,22,(二)几何均数(geometric mean),定义:是将n个观察值x的乘积再开n次方,所得的平方根,记为G 适用情形:(1)观察值呈倍数关系(等比级数资料)或近似倍数关系,如抗体滴度;(2)对数正态资料。,23,1直接法:,24,【例9-3】8份血清的抗体效价为1:200,1:25,1:400,1:800,1:50,1:100,1:50,1:25平均抗体效价为,=lg-12=100,即 1:100,25,2加权法:,(9-4),26,例9-4 112名儿童接种疫苗一月后的血清抗体效价为:1人1:4,3人1:8,15人1:16,32人1:32,43人1:64,11人1:128,5人1:256,2人1:512,得,即这112名儿童的血清平均抗体效价为1:48,27,【注】计算几何均数的观察值不能小于或等于0,因为无法求对数。,先加上一常数即可,如X=KX,则X可取对数。最终的几何均数结果:G=GK,28,(三)中位数(median)与百分位数(percentile),中位数:一组观察值按大小顺序排列,位置居中的那个数值称为中位数,记为M。百分位数:一组数据从小到大排列,并分成100等份,第x等份之分割位置的数值称为第x百分位数,记为Px 例如:x=50,记为P50,读作“第五十百分位数”(即中位数),29,适用情形:适用于任意分布,常用于:偏态分布(如发汞、尿铅);一端或两端无确定数值;分布情况不明。,30,常用百分位数:P50,P25,P75,P5,P95,P2.5,P97.5怎样求解中位数和百分位数?,31,1中位数的直接估计:,n为奇数时,正中位置的数值就是M;MX(n+1)/2 1,2,6,10,19 n为偶数时,居中位置两个数值的平均数就是M。MXn/2Xn/2+12 2,4,8,10,15,20,32,2中位数和百分位数的频数表法:,L为百分位数对应组段的下限值,i为该组段的组距,fx为该组段频数,fL为前一组累计频数,33,三、离散程度指标,平均指标描述样本数据的集中趋势(一般水平)变异指标描述样本数据的离散趋势(差别大小),34,(一)全距(range),全距用R表示,是最大值与最小值之差(又称极差)。优点 简便;缺点 不稳健(重复抽样时结果变化很大),因只利用了2个数据的信息。应用 一般分析。,35,(二)四分位数间距(quartile interval),四分位数间距用Q表示,是上四分位数QU(P75)和下四分位数QL(P25)之差(中间半数个体的全距)。优点 比全距稍稳健;缺点 多数数据的信息仍未利用;应用 偏态分布资料。,36,【例9-7】用表9-5的资料计算四分位数间距得:,(mol/L),(mol/L),(mol/L),37,(三)方差与标准差,方差(variance):离均差平方的均值,(9-8),(9-9),38,*2为总体方差,S2为样本方差*方差利用了所有数据的信息,反映平均差别(但量纲是平方单位)*式(9-7)中“n1”为自由度,数理统计认为用自由度作分母较好(无偏估计)*标准差(standard deviation):方差的平方根便是标准差,其实质是离均差的均值,反映平均差别大小,39,方差开平方后,使平方单位变为普通的度量单位,为总体标准差,S为样本标准差 方差和标准差的意义:都反映资料的变异程度大小,40,标准差的用途:反映一组观察值的离散程度 用于计算变异系数 计算标准误(见第三节)估计参考值的范围(见第二节),41,(四)变异系数(coefficient of variation)记为CV,【例9-10】某地40名7岁儿童身高均数为121.48cm,标准差为4.65cm;体重均数为22.18kg,标准差2.35kg。试比较其身高和体重的变异程度。应用:(1)变量的度量单位不同;(2)变量的度量单位相同,但是均数的数量级相差悬殊。,(9-11),身高CV=3.83%,体重CV=10.60%,42,小 结,统计工作基本步骤2.医学统计的基本概念 同质和变异;总体和样本;参数和统计量;变量;误差;概率 3.统计资料的类型 4.数值变量资料的统计描述方 算术均数、几何均数、中位数 全距、四分位数间距、方差/标准差、变异系数,43,再 见!,