方积乾《卫生统计学》1绪论和统计描述.ppt
卫生统计学,方积乾中山大学公共卫生学院医学统计与流行病学系2015.9,第一章,统计学的若干概念,1.总体与样本总体(population):大同小异的对象全体。抽样(sampling):从研究总体抽取部分个体样本(sample):抽取的部分个体数据(data):观察所得资料 information data data knowledge推断(inference):分析样本数据,获得关于总体的知识 统计推断的工具:有关概率的理论。推断的结论:不是完全肯定或完全否定。关键与核心:抽样方法、样本的代表性和推断的方法,同质与变异 同质性(homogeneity)共性,大同小异 变异(variation)个体间差异,多样性 没有同质性就构不成一个总体;总体内没有变异性就无需统计学。统计学的任务:在变异的背景上,描述同一总体的同质性,揭示不同总体的异质性(heterogeneity)。,.变量的类型变量(variable):个体特性的数量描述(1)定性变量(i)分类变量(categorical variable)或 名义变量(nominative variable)。分类变量的水平(level):用1、2、3、4、5等代码(code)表示水平。二分类变量(binary variable),也称0-1变量或假变量(dummy variable)分类变量与二分类变量相比,信息较丰富。(ii)有序变量(ordinal variable)种种可能的“取值”中自然地存在着次序。有序变量与分类变量相比,信息较丰富。,(2)定量变量(i)离散型变量 只能取整数值。例如,手术病人数;新生儿数(ii)连续型变量 可以取实数轴上的任何数值。由测量而得到的大多属于连续型变量 例如,血压、身高、体重等“连续”指该变量可在实数轴上连续变动。连续型变量信息最丰富,离散型变量次之。变通:红细胞记数也视为连续型变量。(数值很大,个位数之间的差别并不重要),变量类型的转化:,连续型有序分类二值只能由信息丰富的(高级)向信息不丰富的(低级)转化,不能作相反方向的转化 离散型变量常常通过适当的变换或连续性校 正后,借用连续型变量的统计方法来分析;连续型变量常常有意识地转化为离散型变量,以便于解释和理解某些现象。,4.因果与联系 公共卫生领域常常要探究危险因素与疾病之间的因果关系(causation)。首先应当问存在不存在联系(association)然而,存在联系未必有因果关系在解释统计分析的结果以及下结论时,务必对“因果”二字慎之又慎。,5.设计与分析统计学方面的设计(design)是医药卫生科研设计不可或缺的部分。设计不仅要符合统计学原则,运用统计学方法和技术,而且,在设计的时候要明确日后用什么统计方法处理数据。只有明确了设计的样式和分析的方法才得以进一步考虑数据应当如何收集、样本量应当多大。,学习目的与方法,(1)统计思维享用一生(2)理解概念是首位(3)重在理解和解释结果(4)电脑实验(5)考试*笔试:理论、方法 不记公式,无数学推导,无复杂计算*上机考试:已做过的电脑实验;不编程序,第二章 定量变量的统计描述,把握数据的基本特征 为统计分析打下基础 统计表、统计图 描述性统计量,统计描述-从数据中获取知识最直观的方法,第一节 频率分布表与频率分布图,频数分布表(frequency distribution table)又称频数表1.离散型定量变量的频数分布 例2-1 1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7,直条图(bar chart)横坐标:产前检查次数;纵坐标:频率,检查k次的妇女所占的比例(%)等宽矩形长条:高度相当于检查次数的频率,2连续型定量变量的频率分布,例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L),数据如下:,直方图,(1)频率直方图 横轴:血清铁含量 纵轴:频率 矩形直条高度=频率,直条高度之和=100%(2)频率密度直方图 横轴:血清铁含量 纵轴:频率密度=频率/组距 矩形直条的面积=频率密度 X 组距=频率 直条面积之和=100%注:组距相等时,两种直方图形状相同,图2-2 某年某地120名1835岁健康男性居民 血清铁含量频率分布,图2-3 某地居民238人发汞含量(mol/kg)分布,正偏峰分布(positively skewed distribution),负偏峰分布(negatively skewed distribution),频率密度,第二节 描述平均水平的统计指标,定量地描述集中趋势与离中趋势是统计描述的重要内容 对于连续型定量变量,描述集中趋势常用统计量为算术均数、几何均数和中位数。,1.算术均数简称均数(mean),适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为,n:样本含量 X1,X2,Xn:观察值 或:观察值之和,例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。按式(2-1),算术均数为,对于偏峰分布资料算术均数不能较好地反映分布的集中趋势。,频率密度,2.几何均数(geometric mean),适用于观察值变化范围跨越多个数量级的资料频数图一般呈正偏峰分布,例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。,3.中位数(median),可用于各种分布的定量资料 总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。例 1 1,1,2,2,3,4,6,9,10 n=9 Median=3例 2 1,1,2,2,3,4,6,9,10,13 n=10 Median=(3+4)/2=3.5 基于样本资料 将n例数据按升序排列,第i个数据记为 n为奇数时 n为偶数时,百分位数(percentile),总体中,数值小于它的个体恰有X%,大于它的个体恰有1-X%中位数=样本估计:按照升序排列的数列里,其左侧(即小于它)的个体数在整个样本中所占百分比为X%。,第三节 描述变异程度的统计指标,同一总体中不同个体之间的离散趋势又称为变异(variation)例2-10 试观察三组数据A组:24,27,30,33,36B组:26,28,30,32,34C组:26,29,30,31,34三组均数都是30,1.极差(range),R=最大值最小值计算简便,但仅利用了两个数据的信息一般,样本量n越大R也往往会越大,不够稳定 例2-12 计算上述三组数据的极差A组 R=36-24=12B组 R=34-26=8C组 R=34-26=8,2.四分位数间距(quartile range),Q=P75-P25 P25与P75之间恰好包含50%的个体 四分位数间距Q是总体中数值居中的50%个体散布的范围 Q越大意味着数据间变异越大,3.方差(variance)与标准差(standard deviation)用于反映一组对称分布的观察值在数量上的变异程度。总体中:,样本中:,例2-13 计算例2-10中三组数据的标准差。A组:24,27,30,33,36B组:26,28,30,32,34 三组均数都是30C组:26,29,30,31,34 C组数据的变异最小,A组的最大,5.变异系数(coefficient of variation,CV),例2-15 1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。体重的变异大还是身高的变异大?,体重的变异系数身高的变异系数,用于 量纲不同的变量间变异程度的比较或 均数差别较大的变量间变异程度的比较,第三章 定性变量的统计描述,第二节 常用相对数指标,比,频率和 强度 广泛应用于生命统计和流行病学尽管常常都称为“率”,不可顾名思义,37,1.比(Ratio):出生性别比身体指数,38,2.频率(Relative frequency)特殊的“比”:分子和分母都是“频数”;分子是分母的一部分;频率在0,1上取值例,39,3.强度(Intensity)另一类特殊的“比”:分母:总的观察人年数 一定时间段内观察的(人-年);分子:一定时间段内发生的事件数 正的,但不一定限于 0,1例,40,单位:“人/人年”死亡率可以理解为一年内校正的死亡频率 一般而言,强度可理解为:单位时间内校正的频率 反映单位时间内某事件发生的频率,41,实践中,死亡率的计算,例 A 和 B 两两种疗法治愈率的比较,哪种疗法治愈率高?,43,第五节 粗率的标准化法,1.直接标准化(Direct standardization),选择一个标准人口(standard population)例如,以两疗法治疗人数之和为“标准人口”将原治愈率应用到“标准人口”,期望治愈数=?,44,标准化比(Standard ratio)实际患病人数/预期患病人数 间接标准化率=标准患病率标准化比 城市:标准化比=322/305,间接标准化率=42.1%1.089=44.6%农村:标准化比=335/353,间接标准化率=42.1%0.949=40.0%,2.间接标准化(Indirect standardization),小结,1.频数表、频率分布图:描述资料的分布特征(集中趋势与离散趋势)分布类型(对称或偏峰)2.描述性统计量:定量地刻画统计分布的特征。(1)集中趋势:算术均数、几何均数、中位数;(2)离散趋势:极差、四分位数间距、方差(标 准差)和变异系数;(3)分布形态:偏度、峰度3.百分位数是一种位置参数 描述集中趋势:P50;描述离散趋势P75-P25,小结,4.和定量变量一样,较全面地描述定性变量也要用频数和频数分布;常用来概括地描述定性变量特征的是三种相对数指标:比、频率和强度;5.频率和强度都是特殊的“比”;强度是单位时间内事件发生的频率;6.各章的计算机实验将在实验课学习,请课前预习;其余各节课堂上不讲,也属于考试内容,请务必自学。,谢谢,