统计资料的统计描述.ppt
第二章 统计资料的整理与描述,刘沛东南大学公共卫生学院流行病学与卫生统计学系,2,内容提要,数值变量的描述频数表与直方图统计指标分类变量的描述相对数相对数应用,3,123.60 121.03 115.42 113.40 124.02 123.41 122.81 125.83 112.33 122.91124.79 110.12 117.91 126.32 116.55 113.31 114.38 127.22 112.80 120.13120.62 124.84 117.17 109.85 118.96 116.66 117.44 121.68 118.82 117.63120.05 119.90 115.24 121.42 125.64 124.24 118.17 120.07 115.12 118.76116.74 128.35 124.43 115.36 113.59 125.39 120.62 120.10 122.46 120.51113.26 118.44 122.30 117.36 116.46 121.33 120.88 111.86 117.99 112.65117.44 124.44 118.69 121.40 118.61 130.75 118.31 121.44 117.16 129.65111.36 115.26 120.78 123.84 123.16 121.23 126.14 118.65 119.19 116.02115.78 119.01 116.63 120.63 114.30 119.96 116.63 128.41 117.42 123.32114.09 118.58 116.73 117.11 117.97 108.13 126.42 119.66 119.69 118.38115.16 115.01 119.48 127.58 122.14 122.63 115.57 123.70 123.39 119.59123.40 119.72 120.60 115.50 123.78 118.41 118.82 114.56 119.45 118.11,4,(1)找出观察值中的最大值和最小值并求出极差。,(2)按极差大小决定组段数、组段和组距。,组距22.62/121.89,取2,(3)列表划记。,2.1频数表频数表的编制,5,表2.1 120名7岁男童身高的划记和频数,6,身高(cm),2.1.2 频数分布的图示,7,(2)分布的类型,(3)分布特征,对称分布,偏态分布,正偏态:尾部右拖,负偏态:尾部左拖,集中趋势(central tendency),离散趋势(tendency of dispersion),2.1.3.频数分布的分析,(1)有无异常值 outlier,8,9,数值描述,集中趋势(central tendency)离散趋势(tendency of dispersion),10,2.2 集中趋势的描述 central trendency,平均水平分布特征的数量化反映一组指标平均数(average)算术均数 arithmetic mean几何均数 geometric mean中位数 median,11,2.2.1 均数,均数mean,算术均数arithmetic mean一组观察值在数量上的平均水平应用:单峰对称分布资料,12,(1)未分组资料的均数计算法。,例 10名20岁女青年血清总蛋白含量(g/L)如下:74.3,75.6,78.8,67.2,70.4,77.6,81.6,67.3,70.3,71.2,13,(2)分组资料的均数计算法加权法,直接求原始资料的均数为119.41(cm),两者稍有出入,但在单峰对称分布时近似程度甚好。,14,2.2.2 几何均数geometric mean,G,抗体滴度资料的平均水平适用:各变量值之间成倍数关系,但作对数变换后指标成单峰对称分布的资料。,15,(1)未分组资料的几何均数计算法,16,5人的血清抗体滴度为1:2,1:4,1:8,1:16,1:32,求平均滴度。,例2.4,17,(2)分组资料的几何均数计算法,18,例2.5 某地55人接种疫苗后抗体滴度见表2.2第(1)(2)栏,求平均滴度。,19,对数正态分布资料如稀释浓度等 可以归结为对数变换资料的算术均数,应用:,20,2.2.3 中位数与百分位数,中位数(edian,简记为M)将一组观察值从小到大按顺序排列,位次居中的观察值 或插入值。百分位数(percentile)以PX表示,一个百分位数PX将总体或样本的全部观察值分为两个部分,理论上有X的观察值比PX小,有(100-X)观察值比PX大,21,(1)未分组资料的中位数计算法,例2.7 8名杆菌痢疾治愈者的住院天数为:4,9,10,12,14,20,24,61。,如果将最后一个数去掉中位数是几?,22,例 157名杆菌痢病治愈者的住院天数如表所示,计算其中位数及25和75百分位数。,(2)分组资料的中位数和百分位数计算法,23,X42,26.1,X78.5,X90,50,57.3,10天,10天,24,25,应用,对资料分布没有特殊要求,所有资料均可计算中位数和百分位数资料是偏态分布的或有异常值分布不规则一端或两端有不确定数据(开口资料)时。一般情况下,分布在中间的百分位数较稳定,靠近两端的百分数,仅在样本含量足够大时才趋于稳定。中位数比均数具有较好的稳定性,但不精确,因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。,26,真实的笑料:国家统计局不会计算平均数!?,国家统计局人口就业司司长冯乃林表示,工资“被增长”是一种误解,在金融危机中,处于工资低端的岗位和企业减少,而处于工资高端的岗位和企业变化较小,是造成平均工资数据仍然上升的原因之一。,国家统计局承认因统计面过窄致使平均工资被增长,国家统计局2009年7月29日表示,上半年,中国城镇单位在岗职工平均工资为14638元,同比增长12.9%,有网民称,统计数据与自己的收入不符。,平均数的计算和比较要建立在同质基础上!,27,2012年1月21日国家统计局首次公布了城乡居民收入的中位数,报告显示,2011年城镇居民人均可支配收入中位数为19118元,此前公布的数据中,城镇居民人均可支配收入均数比中位数高2692元。在过去,居民收入数据一公布,很多人就会说自己又“被增长”了。其实,数字并没有水分,“被增长”原因之一是“平均数”,就现实国情而言,国内收入结构并非理想的中产占多数的橄榄型,“削峰平谷”的“平均数”其实变相掩盖了收入差异,比例较高的中低收入者自然不会买账。,当资料呈偏态分布时应采用中位数,28,看看用中位数是否更加合适?,29,2.3 离散程度的描述 dispersion,spread,描述散布与变异,反映个体差异的指标常用指标有极差 Range四分位数间距 inter-quartile range方差 Variance标准差 Standard Deviation,30,例2.9 三组同性别、同年龄儿童的体重(kg)如下,试分析其集中趋势和离散程度。,甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34,=30kg,2.3.1.极差,极差(range,记为R)亦称全距。即一组数据中最大值与最小值之差。反映个体的变化范围,R甲34-268(kg)R乙36-2412(kg)R丙34-268(kg),31,极差(记为R)亦称全距。即一组数据中最大值与最小值之差。反映个体的变化范围 简单明了除了最大值和最小值外,不能反映组内其它数据的变异程度,抽样误差较大,极不稳定,尤其在样本例数较多时;故在样本例数相差悬殊时,不宜比较其极差,极差 range,32,2.3.3 方差与标准差variance&standard deviation,统计学中最重要的指标之一与平均数一起构成描述统计学向推断统计学过度的重要桥梁,33,方差与标准差(variance&standard deviation),34,总体方差与样本方差,35,总体标准差与样本标准差,自由度:随机变量自由取值的个数。当一组样本取定时,总和是一定的,只有n-1个观察值可以自由取值。自由度是一些统计分布的参数。,36,计算样本方差(标准差),37,对于分组资料用公式,对例2.9中三组资料求得标准差分别为,s甲3.1623kgs乙4.7434kgs丙2.9155kg,甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34,38,例2.10 直接法和加权法求标准差,1)用直接法求原始数据的标准差:因X14329.62,X21713433.75,故,2)用加权法求频数表资料的标准差:因fX14332,fX21714040,故,39,相对离散度指标的重要性亦称离散系数,意指标准差与均数之比,常用百分位数表示。,2.3.4.变异系数,40,(1)度量衡单位不同的几组资料间比较,例如:某地20岁男子100人,其身高的均数为171.06cm,标准差为4.95cm;体重的均数为61.54kg,标准差为5.02kg。由于身高和体重的单位不同,不能直接比较标准差,而应比较其变异系数。,41,(2)均数相差悬殊的几组资料间比较,表2.3是四个不同年龄组儿童身高的均数、标准差,变异系数,42,2.4 分类资料的率和比,43,2.4.1 比(ratio),相对比,A、B两个有关指标之比;两个指标可以性质相同,也可以性质不相同,44,2.4.2 构成比(proportion),构成比,构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示,计算公式为:,45,2.4.3 率(rate),频率指标,用以说明某现象发生的频率或强度。常以百分率()、千分率()、万分率(1/万)、十万分率(1/10万)等表示。计算公式为,46,2.4.4.应用相对数时应注意,计算相对数的分母不宜过小 对观察单位数不等的几个率,不能直接相加求其平均率分析时不能以构成比代替率对比时应注意资料的可比性,47,资料的可比性,1)观察对象同质,时间相近,研究方法相同,以及地区、民族等客观条件一致。2)其它影响因素在各组的内部构成应相近。,48,2.4.5 标准化法,当比较两个总率时,如果影响指标水平的重要特征在构成上不同,冒然进行两总率的比较,会产生错误的结论,必须设法消除这种内部构成上的差别,才能进行比较。统计学上特将这种方法称为率的标准化(standardization method of rate)。,49,表2.6 某市甲乙两院某病治愈人数,50,标准化率的计算加权平均,表2.7 计算标准化率的数据符号,51,标准组的选择,1.标准组应选择有代表性的、较稳定的、来自数量较大的人群的指标作为标准,例如世界的、全国的、全省的、本地区的或本单位历年累计的数据等;2.选择相互比较的人群之一或合并作标准,如比较甲乙两组资料时,可用甲乙两组合并的数据作标准。,52,表2.8 计算某市甲乙两院标准化治愈率(%),53,注意事项,1、同一被标化组在不同的标准下所求得的标化率可能不等,但相互对比的趋势基本一致。2、标准化的目的是为了进行合理的比较,并不反映具体的实际水平。因此,要反映实际情况,则需用未标化前的率。,54,谢谢您的认真听讲!,