《预防医学》人群健康研究的统计方法课件.ppt
《《预防医学》人群健康研究的统计方法课件.ppt》由会员分享,可在线阅读,更多相关《《预防医学》人群健康研究的统计方法课件.ppt(244页珍藏版)》请在三一办公上搜索。
1、,人群健康研究的统计方法,统计学,医学统计学的基本概念和步骤,计量资料的统计描述,计量资料的统计推断,计数资料的统计描述,计数资料的统计推断,相关与回归,医学统计学简介,一、医学统计学的定义,统计学是一门研究数据的科学。它指导人们在科学实践中如何有效地获取数据、正确地分析数据以及合理地解释所得到的结果。,医学统计学是统计学的一个分支。它是把概率论和数理统计学的基本原理和方法应用于医学科学领域,涉及医学研究设计、数据搜集、数据整理和数据分析的一门应用性学科。,医学研究的对象是人,而人既具有生物属性,又具有社会属性,其变异性大,影响因素错综复杂。例如:1)同样是健康人,即使年龄和性别相同,其身高、
2、体重、血压等数值有所不同;2)同一个人,即使在同一天中,其不同时间段的血压等数值有所不同;3)采用同样方案治疗某病,即使年龄、性别、病情、病程均相同,其治疗效果有所不同;,上述几例都是由于个体存在变异的结果。变异是人群的特征,医学统计学研究的对象就是来自人群的、具有变异特征的数据资料。,偶然现象,合理的,统计分析,客观规律性,如:1948年,链霉素治疗结核病的对照研究临床试验 随机化原则 将病人分别分配到链霉素疗效观察组与对照组(不用链霉素)。6个月治疗后 观察组 55名结核病人 死亡4人 对照组 52名结核病人 死亡14人 X光检查,观察组病人的病情比对照组有更大的改善,又如:孕期补充维生素
3、(叶酸)与婴儿神经管缺陷80年代初,有文章报道孕期补充维生素(叶酸)可以减少生育神经管缺陷婴儿的危险。 据报道,先服用维生素后怀孕的妇女比怀孕后才开始服用维生素的妇女和拒绝参加试验的怀孕妇女所生的婴儿神经管缺陷的发生率要低。,参加服用维生素试验和拒绝试验的孕妇之间存在某些生理特征上的系统差别,致使在解释试验结果时发生困难。这不能不认为是因实验设计缺乏周密考虑所造成的经验教训。补救 随机化分配受试者叶酸补充组 安慰剂组样本人数过少 无法作出肯定的科学结论,1991年 大样本的随机化试验 获得了肯定的科学结论 怀孕妇女 新生儿神经管缺陷 安慰剂组 602名 21名 叶酸补充组 592名 6名 统计
4、学分析证实,叶酸对预防新生儿神经管缺陷确有明显的效果,学习医学统计学的重要性医学统计学在医学领域里具有不可低估的重要性, 是医学科学工作者不可缺少的知识和技能。,第一节 统计学中的几个基本概念,第一章 医学统计学的基本概念和步骤,一、总体和样本,总体(population) 根据研究目的确定的同质的全部研究对象。 有限总体:总体中个体的总数是有限的。 无限总体:总体的时间、空间未加以限制,总体中的个 体数可无限增加。 如研究糖尿病人的血压测定值; 由于无时间和空间的限制,全部糖尿病人的血压测定值 为无限总体。,样本(sample) 根据随机化的原则从总体中抽出有代表性的一部分观察单位。 抽样:
5、抽取样本的过程。 统计推断:对样本进行观察,用样本的特征推断总体的 特征。是研究人群健康经常用到的方法。,二、同质和变异,同质(homogeneity)指被研究指标的非实验因素相同.,变异(variation) 指在同质的基础上各观察单位(或个体)之间的差异。同性别、同年龄、同地区、同体重儿童的某项指标有高有低,称为某项指标的变异。,被研究指标:儿童身高影响较大、易控制的因素:性别、年龄、民族、地区(相同),三、参数和统计量,参数(parameter ) 描述总体的统计指标。 如研究中国12岁以上男性的吸烟率,观察12岁以上的全部中国男性,登记他们的目前吸烟情况,计算出的吸烟率即为参数。,统计
6、量(statistic)描述样本的统计指标。用随机的方法从总体中抽出一部分12岁的男性,计算的吸烟率称作统计量。,四、误差,误差(error):观察值与实际值之差 。主要有3种:系统误差,随机测量误差,抽样误差,1. 系统误差 在资料的搜集过程中,因试剂未标定、仪器未校正、标 准未统一等而导致测量结果有倾向性的误差。应严格控 制,它影响结果的准确度。,2. 随机测量误差 在试剂、仪器已校正,操作方法已统一的情况下,由于 偶然因素的影响,导致同一研究对象在多次测定中结果 不一致的情况。应控制在允许范围内。,3.抽样误差 由于抽样而使某变量值的统计量与总体参数不相同。 抽样误差不可避免,但它可以用
7、统计学方法处理。,五、概率,概率(probability)描述随机事件发生可能性大小的数值,常用P表示。小数或百分数。 P值的范围:介于0和1之间。 P值愈接近1,表示事件发生的可能性愈大; P=1,表示该事件一定会发生; P值愈接近0,表示事件发生的可能性愈小; P=0,表示该事件一定不会发生;,在医学统计学中,主要是处理大概率和小概率的问题。大小概率的分界点为0.05(5%)。习惯上称P0.05为小概率事件,表示在一次实验或观察中该事件发生的可能性很小。 统计分析中的很多结论都是带有概率性的。,六、变量及变量值,变量(variable):观察对象的特征或指标 如,性别,年龄,体重 变量值(
8、value of variable):测量的结果 如,性别男、女 年龄数值,体重测量值,第二节 统计资料的类型,定量,计量资料 measurement data用定量的方法对观察单位进行测量取得的资料。如身高、体重、血压等。,计数资料 enumeration data用定性的方法取得的资料。如性别,职业等,等级资料 rank data将观察对象按照某种属性分为几个等级的资料。如将贫血分为轻、中、重3个等级,治疗效果分为显效、好转、有效和无效4个等级等。,资料类型不同,选择的统计分析方法也不同较常见的是计量资料和计数资料,区分方法:计量资料:(1)可以是任意数,如整数、小数、正数、负数;(2)有
9、明确的计量单位,如 kg, cm。计数资料: (1)只能是正整数; (2)无计量单位。,资料间的相互转化:,血红蛋白 正常与异常(计数资料),正常否,重度贫血,中度贫血,轻度贫血,正常,血红蛋白增高(等级资料),含量多少,血红蛋白含量(g/L)(计量资料),第三节 统计工作的基本步骤,1.设计 2.搜集资料 3.整理资料 4.分析资料四个步骤相互联系,科学、周密、严谨的设计是搜集准确可靠资料的保证;准确、完整、及时地搜集资料、恰当地整理资料是统计分析的基础;选择正确的方法分析资料和表达资料可获得科学的结论。,一、设计(design),调查设计,实验设计,专业设计,统计设计,资料搜集,资料整理,
10、资料分析,三个原则,对照,重复,随机,二、资料搜集 (data collection) 资料来源: 1. 统计报表 医院工作报表、疫情报表 2. 报告卡传染病、职业病、肿瘤、出生、死亡 3. 日常医疗卫生工作记录门诊及住院病历 4. 专题调查或实验 要求:及时、完整、准确 参与搜集资料人员的选择是关键。 高素质、有相关专业基础、以往曾有类似研究经历 严格培训和管理,三、资料整理(data sorting)目的:将搜集到的原始资料系统化、条理化,便于进一步计算统计指标和深入分析。整理前:要对资料再次检查与核对,发现缺项或错项较多的调查表,须补查或剔除。审查无误后,设计分组 分组方式常用的有两种:
11、,1. 质量分组 将观察单位按属性和类别分组,如按性别、职业、病种等分组。2. 数量分组 将观察单位按数值大小分组,如划分年龄组、身高组等。,手工汇总或计算机汇总,四、资料分析(data analysis) 根据研究设计的目的、要求、资料的类型和分布特征选择正确的统计方法进行统计分析:统计描述统计推断,第四节 医学统计学的应用,一、拓宽医学研究思路二、医学科研设计科学合理三、资料准确可靠四、选择合适分析方法及正确解释结果,小结 SUMMARY,一、医学统计学定义 运用概率论和数理统计的基本原理和方法,结合医学实际,研究数据收集、整理和分析的一门应用性科学。二、几个基本概念,1.总体和样本 总体
12、:同质的全部研究对象。有限总体,无限总体 样本:总体中有代表性的一部分,2.同质和变异 同质:被研究指标的非实验因素相同 变异:在同质的基础上各观察单位之间的差异,3.参数和统计量 参数:总体 统计量:样本4.误差观察值 实际值 主要有3种:系统误差,随机测量误差,抽样误差,5. 概率 可能性大小,常用P表示。 P值的范围:0-1 分界点为0.05(5%)。P0.05为小概率事件。6. 变量及变量值 变量:指标 变量值:观察值,三、统计资料类型 计量资料、计数资料、等级资料四、统计工作的基本步骤 1.设计:专业、统计 2.搜集资料:准确、完整、及时 3.整理资料:质量分组,数量分组 4.分析资
13、料:统计描述,统计推断五、医学统计学的应用,返回目录,第二章 计量资料的统计描述,第一节 计量资料的频数分布,例 某农村地区2001年14岁女孩的身高资料如下,请编制频数表和观察频数分布情况。 表 某农村地区2001年14岁女孩的身高资料(cm),一、频数分布表及其制作 1计算极差或全距(range) 常用R表示 R=最大值-最小值 即R162.6-125.9=36.7(cm) 2决定组段和组距 组段:10个左右 下限,上限 组距(class interval):相邻两组段下限值之差。 等距,“极差组段数”的整数值,本例:分10个组段 组距极差组段数=36.7/10=3.67(cm) 取整为4
14、cm 第一个组段的下限应略小于最小值,即取124cm 最末组上限要略大于最大值,即取164cm。3列表划记,某农村地区2001年14岁女孩的身高资料(cm),频数分布图,两个重要的特征,集中趋势(central tendency)身高的测量值虽然高低不等,但向中间集中,中等身材(140-144cm)的人数最多离散趋势 (tendency of dispersion)随着身高测量值逐渐变大或变小,人数越来越少,向两端分散,第二节 集中趋势指标,一、均数(mean)-算术均数 描述一组计量资料集中趋势(或平均水平)的指标。 总体均数:(读作mu) 样本均数: 适用条件:资料呈正态或近似正态分布。,
15、作用:描述数值变量资料的平均水平常用指标:算术均数、几何均数、中位数,1. 直接法,观察例数不多(如样本含量n小于30) 公式:,:求和,读作sigma,xi:各观察值, n:总例数,例 有8名正常人的空腹血糖测定值(mmol/L)为6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9,求其均数。,5.8(mmol/L),2. 加权法,观察例数很多,先编制频数表,再计算,(自 学),fi 每组的频数 xi 组中值- (下限+上限)/2,二、几何均数(geometric mean) 表示法:G 适用条件: 1.资料呈偏态分布,但经对数变换后呈正态分布; 2.观察值间呈倍数关系或近似倍数
16、关系的资料。 如抗体的平均滴度、药物的平均效价等。,计算方法: 1.直接法 : 观察例数不多(如样本含量n30),例 有8份血清的抗体效价分别为 1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640, 求平均抗体效价。,将各抗体效价的倒数代入公式,得:,=lg-1(1.752575)=57即血清的抗体平均效价为1:57,2. 加权法:观察例数很多时采用,(自 学),三、中位数和百分位数 (一)中位数(median)定义:一组由小到大排列的观察值中位置居中的数值 中位数是一个位置指标,以中位数为界,将观察值 分为左右两半。表示法:M适用条件:资料呈明显
17、的偏态分布;开口资料; 资料分布不清楚,计算方法: 1. 直接法 (n较小时) (1)将观察值按大小顺序排列; (2)n为奇数 n为偶数,例 (1)有7个人的血压(收缩压)测定值(mmHg)为: 120,123,125,127,128,130,132, 求中位数。 (2)若又观察了一个人的血压值为118(mmHg), 求中位数。,(1)M=127 (mmHg),(2)M=(125+127)/2=126(mmHg),2. 频数表法(n较大时) 参见百分位数计算公式,(二)百分位数(percentile) 把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的值就是百分位数。它
18、是一个位置指标。 Px中位数是第50百分位数,用P50表示。第25,第75,第95百分位数记为P25, P75, P95是统计学上常用的指标。,计算:(1)将观察值编制成频数表;(2)按所分组段由小到大计算累计频数和累计频率;(3)找出百分位数所在组(如P95所在组为累计频率为 95%的所在组),L:Px 所在组段下限i:组距 n:总例数f:Px所在组段频数fL:小于L的各组段累计频数,例 某传染性疾病的潜伏期(天)见下表, 求潜伏期的第95百分位数P95,某传染性疾病的潜伏期(天)的百分位数计算表,18.4(天),求平均潜伏期M。,10.33(天),对于任何分布的资料都可以用中位数反映平均水
19、平。中位数不受个别特大或特小值的影响,只受位置居中的观察值波动的影响。 若资料呈对称或正态分布,中位数=均数 百分位数用于描述一组资料在某百分位置上的水平,常常用于正常值范围的估计。,第三节 离散趋势指标,三组同龄男孩体重(kg)如下:,甲组 26 28 30 32 34 均数=30 (kg) 乙组 24 27 30 33 36 均数=30 (kg) 丙组 26 29 30 31 34 均数=30 (kg),平均水平指标仅描述一组数据的集中趋势,可作为总体均数的一个估计值。由于变异的客观存在,需要一类指标描述资料的离散趋势。,常用指标:全距,四分位数间距,方差,标准差,变异系数,一、全距(ra
20、nge)定义:一组资料中最大值与最小值之差。表示法:R R最大值最小值意义:反映个体变异范围的大小。 R越大,变异度(离散程度)越大。缺点:仅考虑两端数据的差异,未考虑其它数据的变异 情况,不能全面反映一组资料的离散程度,且不稳 定,易受极端值的影响。,二、四分位数间距(quartile interval)定义:上四分位数QU(P75)与下四分位数QL(P25)之差, 即包括了全部观察值中间的一半。表示法: Q意义: Q值越大,说明变异程度越大。常用于描述偏态 分布资料的离散程度。缺点:该指标比全距稍稳定,但仍未考虑每个观察值。,某传染性疾病的潜伏期(天),QL(P25)所在组在潜伏期为8组,
21、L=8, fx=48,i=4, fL=26;QU(P75)所在组为12组,L=12,fx=25,i=4,fL=74,分别代入公式得,三、方差(variance)和 标准差(standard deviation) 克服极差和四分位数间距不能反映每个观察值之间的离散情况这一缺点 离均差总和=总体中每个观察值xi与总体均数之差的 总和 =( xi - )=0 离均差平方和=( xi - )2 受观察单位数的影响 取离均差平方和的均数:方差,方差(variance):离均差平方和的均数,样本方差用S2表示,公式,总体方差用2表示,公式,标准差(standard deviation):方差开平方,取平方
22、 根的正值。(恢复原度量单位)总体标准差、样本标准差的公式分别为:,(n-1)和(fi-1)为自由度(degree of freedom),适用条件:对称分布,特别是正态或近似正态分布资料,意义:说明资料的变异程度,其值越大,说明变异程度越大,S甲=3.16(kg); S乙=4.74(kg); S丙=2.92 (kg),标准差的应用:1.表示观察值的变异程度。 标准差愈小,说明观察值的离散程度愈小,从而也反映了用平均数反映平均水平,其代表性愈好。 2. 估计医学参考值范围。 标准差在科技论文报告中经常与算术均数一起使用。3. 计算标准误。4. 计算变异系数。,四、变异系数(coefficien
23、t of variation) 表示法:CV 适用条件:比较度量单位不同或均数相差悬殊的两组 (或多组)资料的变异程度。 公式:,例 某地调查110名20岁男大学生,其身高均数为 172.73cm,标准差为4.09cm;其体重均数为 55.04kg, 标准差为4.10kg,试比较两者变异度。,身高 CV=(4.09/172.73)100%=2.37%体重 CV=(4.10/55.04) 100%=7.45%,该地20岁男大学生体重的变异度大于身高的变异度,第四节 正态分布和医学参考值范围,一、正态分布 正态分布(normal distribution),高峰位于中央(均数所在处)、两侧逐渐降低
24、且左右对称、不与横轴相交的光滑曲线。正态分布是一种重要的连续型分布。,正态分布和标准正态分布的概率密度函数(probability density function),正态分布的概率密度函数为:,标准正态分布的概率密度函数为:,正态分布,u=(X- )/ ,标准正态分布,二、正态分布的特征,正态曲线(normal curve)在横轴上方均数处最高;正态分布以均数为中心,左右对称;正态分布有两个参数,即均数与标准差,常用N(, 2)表示,用N(0,1)表示标准正态分布。其位置与均 数有关,形状与标准差有关。标准差大,离散程度大, 正态分布曲线则“胖”,反之,则“瘦”;正态分布的面积分布有一定的规
25、律性。,三、正态曲线下面积的分布规律,四、医学参考值范围,(一)参考值(reference ranges)的意义 医学参考值:正常人指标测定值的波动范围。,(二)制定参考值的基本步骤,1从正常人总体中抽样 按随机化原则和方法进行抽样研究 抽取样本含量要足够大,最好在100例以上,2决定取单侧还是双侧 3. 选定合适的百分界限 参考值范围是指绝大多数正常人的测定值应该所在的范围。 习惯上指80、90、95或994选定适当的方法进行参考值范围的估计,(三) 参考值范围的估计方法,利用某农村地区2001年14岁女孩的身高资料(cm)求95%的参考值范围。从图可以看出该资料基本服从正态分布,因此采用正
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 预防医学 预防 医学 人群 健康 研究 统计 方法 课件

链接地址:https://www.31ppt.com/p-1574262.html