章统计ppt课件.ppt
江汉大学卫生职业技术学院社区护理教研室 涂传敏,预 防 医 学第13章人群健康状况的统计学方法,第13章 人群健康状况的统计学方法 第1节 概述,一、统计学的概念和意义,是研究数据的收集、整理和分析的一门科学,帮助人们分析信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。是处理信息中变异性的科学和艺术,是在收集、归类、分析和解释大量数据的过程(包括设计、收集、整理与分析信息)中获取可靠结果的一门学科。,卫生统计学(health statistics)是应用数理统计学的原理与方法研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。,是认识社会和自然现象数量特征的重要工具。合理的统计分析能帮助我们正确认识事物客观存在的规律性。基础医学、临床医学和预防医学各个方面的科学研究,以及医疗卫生实践和居民健康状况研究,都需要根据设计去搜集、整理资料进行合理的统计分析。,预防医学亦需要运用统计方法观察分析不同环境因素对人群健康的效应(包括疾病、死亡、寿命、生育、儿童生长发育、心理精神状况以及其他生理病理反应)及其发生发展的规律。,二、几个基本概念(一)同质与变异,第13章 人群健康状况的统计学方法 第1节 概述,同质,变异,统计的研究对象是由观察单位构成的群体,给观察单位规定一些相同的因素情况称之。在医学统计学中常把同质理解为对研究指标影响较大的、可以控制的主要因素,应尽可能相同。如:儿童身高与年龄、性别、民族,同质是相对的,变异是绝对的。统计学的任务就是在同质的基础上,对个体变异进行分析研究,揭示由变异所掩盖的同质事物内在的本质和规律。,客观世界充满了变异,生物医学领域更是如此。哪里有变异,哪里就需要统计学。,二、几个基本概念(二)总体与样本,第13章 人群健康状况的统计学方法 第1节 概述,总体,样本,是指在某特定的时间与空间范围内,同质研究对象的所有观察单位的某变量值的个数为有限个。,观察单位数是无限的,是抽象的,无时间和空间的限制,如?,在实际工作中,所要研究的总体无论是有限还是无限,通常都采用抽样研究。从总体中抽取样本的过程为抽样。抽样研究的目的是用样本信息推断总体特征。抽样方法有多种。统计学好比是总体与样本间的桥梁,帮助人们设计与实施如何从总体中科学地抽取样本,使样本中的观察单位数(亦称样本含量)恰当,信息丰富,代表性好;帮助人们挖掘样本中的信息,推断总体的规律性。,二、几个基本概念(三)参数与统计量,第13章 人群健康状况的统计学方法 第1节 概述,参数,统计量,第13章 人群健康状况的统计学方法 第1节 概述,二、几个基本概念(四)误差,实测值与真值之差,或样本指标与总体指标之差。分为随机误差和非随机误差。前者包括随机测量误差和随机抽样误差,后者又分为系统误差和非系统误差。,系统误差可影响原始资料的准确性,应力求避免。如已发生,要查明原因,予以校正。,随机测量误差是不可避免的,但应努力做到仪器性能及方法稳定,使其控制在一定的允许范围内。,由于生物的个体变异是客观存在的,因而抽样误差是不可避免的,但抽样误差有一定的规律性,以后将讨论和应用这种规律性。,应当通过核查、核对予以消除。,第13章 人群健康状况的统计学方法 第1节 概述,二、几个基本概念(五)随机事件与概率,医学研究的现象,大多数是随机现象,对随机现象进行实验或观察称为随机试验。随机试验的各种可能结果的集合称为随机事件,亦称偶然事件,简称事件。例用相同治疗方案治疗一批某病的患者,治疗后究竟发生哪一种结果是不确定的,对于一个刚入院的患者,可能发生的每一种结果都是一个随机事件。,对于随机事件来说,在一次随机试验中,某个随机事件可能发生也可能不发生,但在一定数量的重复试验后,该随机事件的发生情况是有规律可循的。概率是描述随机事件发生的可能性大小的数值,常用P表示。,随机事件概率的大小在0与1之间,即0P1,常用小数或百分数表示。P越接近l,表示某事件发生的可能性越大;P越接近0,表示某事件发生的可能性越小。习惯上,当P0.05时,就称为小概率事件,其统计学意义是在一次随机试验中不可能发生。“小概率”的标准P是人为规定的,对于可能引起严重后果的事件,如术中大出血等,可规定理=0.0l,甚至更小。,二、几个基本概念(六)变量与变量值,第13章 人群健康状况的统计学方法 第1节 概述,变量,变量值,三、统计资料的类型 按变量的值是定量还是定性,可将变量分为以下类型:,第13章 人群健康状况的统计学方法 第1节 概述,其变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡单位。由数值变量的测量值构成的资料称为数值变量资料,亦称为定量资料。大多数的数值变量为连续型变量,有的数值变量的测定值只能是正整数,如脉搏、白细胞计数等,在医学统计学中把它们也视为连续型变量。,变量值是定性的,表现为互不相容的类别或属性,还可分为无序分类变量和有序分类变量两类。,是指所分类别或属性之间无程度和顺序的差别。又可分为:二项分类:如多项分类:如对无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数 资料。,各类别之间有程度的差别。如对有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为等级资料。,意义:变量的类型不同,其分布规律亦不同,对它们采用的统计分析方法也不同。在处理资料之前,首先要分清变量类型。,四、统计工作的步骤任何统计工作和统计研究的全过程都分为四个步骤。四个步骤紧密相连、不可分割,任何一步的缺陷,都将影响整个研究结果。,第13章 人群健康状况的统计学方法 第1节 概述,设计 在进行统计工作和研究工作之前必须有一个周密的设计。设计是在广泛查阅文献、全面了解现状、充分征询意见基础上,对将要进行的研究工作所做的全面设想。内容包括:明确研究目的和研究假说,确定观察对象、观察单位、样本含量和抽样方法,拟定研究方案、预期分析指标、误差控制措施、进度与费用等。设计是整个研究工作中最关键的一环,也是指导以后工作的依据。,收集资料遵循统计学原理采取必要措施得到准确可靠的原始资料。基本原则:及时、准确、完整。资料来源:统计报表:是由国家统一设计,有关医疗卫生机构定期逐级上报,提供居民健康状况和医疗卫生机构工作的主要数据,是制订卫生工作计划与措施、检查与总结工作的依据。如法定传染病报表、职业病报表、医院工作报表等。经常性工作记录:如卫生监测记录、健康检查记录等。专题调查或实验。,整理资料收集到的资料在整理之前称为原始资料。原始资料通常是一堆杂乱无章的数据。目的:通过科学的分组和归纳,使原始资料系统化、条理化,便于进一步计算统计指标和分析。过程:审查准确性(逻辑审查与技术审查)和完整性;拟定整理表分组。按照“合并同质,非同质分开”的原则,对资料进行质量分组,并在同质基础上根据数值大小进行数量分组;汇总归纳。,分析资料目的:计算有关指标,反映数据的综合特征,阐明事物的内在联系和规律。统计分析:统计描述:是用统计指标与统计图(表)等方法对样本资料的数量特征及其分布规律进行描述。统计推断:是指如何抽样,以及如何用样本信息推断总体特征。资料分析时,需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。,五、学习卫生统计学应注意的问题 运用逻辑思维方法掌握卫生统计学的基本知识、技能、概念和方法。切忌死记硬背、生搬硬套,以实例提高综合分析问题的能力。掌握调查设计和实验设计的原则,培养收集、整理、分析统计资料的系统工作能力。以实事求是、严谨的科学态度对待原始资料。重点掌握统计公式的意义、用途和应用条件,不必深究数学推导。最终掌握正确的分析思路:资料分析时,需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。,第13章 人群健康状况的统计学方法 第1节 概述,包括统计描述与统计推断。,第2节 数值变量资料的统计分析,统计描述是用统计指标、统计表或统计图描述资料的分布规律及其数量特征。,用少量几个统计指标刻画出原始数据的特征称为统计描述。,数值变量资料的统计描述方法:(单变量)1.用频数表描述数据特征;2.用统计指标定量描述数据的特征。,频数表是统计描述中经常使用的基本工具之一。,第2节 数值变量资料的统计分析,例1:,表1 100例高血压患者治疗后临床记录,第2节 数值变量资料的统计分析一、数值变量资料的频数表,(一)频数表的编制 频数:观察值的个数。频数分布:观察值在其所取值的范围内,于各组段中分布的情况。频数表:指一种统计表同时列出观察值的可能取值及其出现频数。编制步骤:1求全距。2确定组段和组距。3列表划记汇总。,例2:从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L)的测量结果,见下表。为此资料编制频数表。,表2 101名正常成年女子的血清总胆固醇(mmol/L),1.确定全距(R)=最大值-最小值=5.71-2.35=3.362.定组数(8-15组)和组距:例:3.36/10=0.3360.3 组距(i)=全距(R)/组数3.列表写出各组段的下限:第1组段值小于或等于最小变量值,并以整数(0,5或2,4,6,8)较好。如2.34.划记并计数:将每一个变量值(x)归为相应的组段中(见表3)。如:4.13归为4.1组段中。,数值变量资料频数表的编制,表3 101名正常成年女性血清总胆固醇频数表,表3资料频数分布图直方图,图1 101名正常成年女性血清总胆固醇频数分布,频数,正态分布,血清总胆固醇,正态分布,(二)频数表及频数分布图的作用1.反映数据资料的分布类型和分布特征。如反映 X值分布情况:偏态或正态分布 取值情况:变量值取值范围 集中趋势:变量值集中位置。2.便于发现资料中的可疑值。3.组段的频率可作为概率的估计。,第2节 数值变量资料的统计分析一、数值变量资料的频数表,(三)频数分布的特征由频数表可看出频数分布的两个重要特征:集中趋势和离散程度。血胆固醇有高有低,但多数人集中在中间部分组段,此为集中趋势;由中间到较低或较高的频数分布逐渐减少,反映了离散程度。对于数值变量资料,可从集中趋势和离散程度两个侧面去分析其规律性。,第2节 数值变量资料的统计分析一、数值变量资料的频数表,(四)频数分布的类型,第2节 数值变量资料的统计分析一、数值变量资料的频数表,对称分布是指多数频数集中在中央位置,两端的频数分布大致对称。,偏态分布是指频数分布不对称,集中位置偏向一侧。,若集中位置偏向数值小的一侧,称为正偏态分布。临床上正偏态分布资料较多见。,集中位置偏向数值大的一侧,称为负偏态分布。冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。,不同分布类型的资料应选用不同的统计分析方法。,图2 59名链球菌咽喉炎患者潜伏期,正偏态分布,图3 负偏态分布,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标,描述一组同质观察值的平均水平或中心位置的指标称为集中趋势指标,常用的有算术平均数、几何均数、中位数等。(一)算术平均数 常用 表示样本均数,表示总体均数。均数用于反映一组同质观察值的平均水平,适用于正态或近似正态分布的数值变量资料。其计算方法有:1.直接法 用于样本含量较少时,其公式为:,2加权法 即频数表法,样本观察单位数较多时用加权法,计算公式如下:,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标,加权法计算步骤 1)编制频数表;2)计算各组的组中值(x);3)统计各组频数();4)计算()及;5)代入公式求。例,见下表。,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标,一般组的权数越大则该组的权数与组中值乘积越大,在计算平均水平以及变异水平时的作用也大;权数小,该组的权数与组中值乘积就越小,在计算平均水平以及变异水平时的作用也越小。,表4 101名正常成年女性血清总胆固醇平均值计算表,每个组的下限与相邻组的下限之和除2,(一)算术平均数将表4结果代入公式计算,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标,算术均数简称均数,用 表示。,频数为正态或近似正态分布的计量资料.,1.基本公式:,2.加权法公式(例数多):,适用条件,(二)几何均数G 适用于:对数正态分布(数据经对数变换后呈正态分布)的资料;等比关系(即观察值之间呈倍数或近似倍数变化)的资料,如抗体滴度、平均效价等。计算方法有以下几种。1.直接法 当观察值的个数不多时,用直接法计算。,或:,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标,(二)几何均数-直接计算法例3:某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度分别为1/10,1/20,1/40,1/80,1/160,求几何均数。,结论:平均抗体滴度为1:34(几何均数法),第2节 数值变量资料的统计分析二、集中趋势的统计描述指标,(二)几何均数 2加权法 当观察值的个数较多或观察值为频数表资料时用加权法计算。公式为:,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标,例4:表5 69例RA患者血清EBV-lgG抗体测定结果,类风湿关节炎,(二)几何均数 由频数表计算得:,结论:69例RA患者血清EBV-lgG抗体平均滴度为1:150.6,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标,几何均数,适用条件:X值呈倍数增长或部分数据偏离过大偏态分布(正偏态)资料。计算公式:,直接法,例数较少时用,加权法,例数多时用,或:,(三)中位数M是一组由小到大按顺序排列的观察值中位次居中的数值。中位数可用于描述:非正态分布资料(对数正态分布除外);频数分布的一端或两端无确切数据的资料;总体分布不清楚的资料。在全部观察中,小于和大于中位数的观察值个数相等。1直接法 当观察值的个数不多时,用直接法计算。将观察值由小到大排列,按下式计算。,式中,下标孚n/2、n/2+1、n+1/2为有序数列的位次。,(n+1/2)、(n/2)、(n/2+1)为相应位次的观察值。,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标,计算定义:将一组变量值由小到大依次排列,居以中间位次的观察值为中位数,也为这组数据的平均数。观测值X:5,5,6,7,20(d)位次:1 2 3 4 5 中位数(M):适用于描述偏态分布资料的平均水平。如潜伏期、病程资料。,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标(三)中位数,优点:不受数据中极大或极小值的影响,取决于中间位置的数。,2频数表法 当观察值个数较多时,先编频数表,然后按公式计算。计算步骤:计算n/2的大小,并按所分组段由小到大计算累计频数和累计频率;确定M所在组段。累计频数中大于n/2的最小数值所在的组段即为M所在的组段;或累计频率中大于50的最小频率所在的组段即为M所在的组段。按下式求中位数M。,式中,L,i,M分别为M所在组段的下限、组距和频数;L为小于L的各组段的累计频数。,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标(三)中位数,*百分位数是一种位置指标,用 Px表示。例P50。中位数是一个特定的百分位数,即M=P50。计算定义:将一组变量值由小到大依次排列,为第x百分位数的秩次,其对应的变量值(x)为第x百分位数,记为Px。,X:1 5 8 10 48.105秩次 1 2 3 4 50 100 x%1%2%3%4%50%100%,例5:一组数据(n=100),由小到大排列,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标(三)中位数,*百分位数计算步骤与中位数类似,首先要确定Px 所在的组段。先计算nx,累计频数中大于nx的最小值所在的组段就是Px 所在组段,或累计频率中大于x的最小频率所在的组段即为Px 所在的组段。计算见公式。,L:第X%位数所在组段的下限值i:第X%位数所在组段的组距fx:第X%位数所在组段的频数:第X%位数所在组段的上个组段的累计频数,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标(三)中位数,例5:表6 118名链球菌咽喉炎患者的潜伏期,1.计算x=25%、50%和75%的位次 n%=1180.75=88.5,2.按公式计算 Px P75=60+12/18(11875%-77)=67.67(天),第2节 数值变量资料的统计分析二、集中趋势的统计描述指标(三)中位数,P25=39.2天,P50=51天(中位数),118名链球菌咽喉炎患者的潜伏期,P75=67.7天,百分位数计算结果的应用,1.常计算P25、P50、P75、和P95,为临床治疗提供依据。例:120名细菌性痢疾治愈的住院天数 P5=3.5(天),即只有5%的人住院低于3.5天。P95=15(天)2.确定医学指标的参考值,第2节 数值变量资料的统计分析二、集中趋势的统计描述指标(三)中位数,描述数值变量资料频数分布的另一主要特征是离散程度,用离散指标表示,它是计量资料数据间变异程度的指标 变异指标。只有把集中指标和离散指标结合起来,才能全面反映资料的分布特征。,第2节 数值变量资料的统计分析三、离散程度的统计描述指标,例6:三组同龄男孩的身高(cm)资料如下:常用变异指标有全距、四分位数间距、方差、标准差、变异系数。,甲组 90 95 100 105 110 100 乙组 96 98 100 102 104 100 丙组 96 99 100 101 104 100,三组男孩身高值的变异一样吗?,第2节 数值变量资料的统计分析三、离散程度的统计描述指标,定义:意义:缺点:特点:,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(一)全距(R),亦称极差,是一组同质观察值中最大值与最小值之差。,反映个体差异的范围。全距大,说明变异度大;反之,说明变异度小。,只考虑最大值与最小值之差异,不能反映组内其他观察值的变异度。样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大。故样本含量相差悬殊时不宜用全距比较。,用全距描述定量资料的变异度大小,计算简单,但数据利用不全,部分信息损失,在例数少时结果不稳定。,R 甲组 90 95 100 105 110 100 20 乙组 96 98 100 102 104 100 8 丙组 96 99 100 101 104 100 8,根据例6三组同龄男孩的身高(cm)资料计算全距,结果如下:,三组同龄男孩身高的全距结果显示:身高有差异。,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(一)全距(R),第2节 数值变量资料的统计分析三、离散程度的统计描述指标(二)四分位数间距(Q),定义:意义:特点:缺点:,上四分位数QU(P75)与下四分位数QL(P25)之差。,可看成是中间50观察值的极差,其数值越大,变异度越大,反之,变异度越小。常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。,不受两端个别极大值或极小值的影响,因而较全距稳定。,仍未考虑全部观察值的变异度。,例5 数据:已求得QU=P75=67.7天,QL=P25=39.2天,则四分位数间距Q=QU QL=67.7-39.2=28.5(天)。,为全面考虑观察值的变异情况,克服全距和四分位数间距的缺点,需计算总体中每个观察值x与总体均数的差值(x-),称之为离均差。由于(x-)=0,不能反映变异度的大小,而用离均差平方和(x-)2反映,同时还考虑了观察值个数N的影响,故用下式即总体方差2表示观测值的变异程度。,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(三)方差(variance),实际工作中,总体均数往往未知,只能用样本均数 作为总体均数的估计值,即用(x-)2代替(x-)2,用样本例数n代替N,但再按上式计算其结果总比实际2小。英国统计学家WSGosset提出用n-1代替n来校正,这就是样本方差s2,其公式为:,式中,n-1称为自由度。方差越小说明观察值的变异程度越小;方差越大,说明变异程度越大。,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(三)方差(variance),方差的度量单位是原度量单位的平方,将方差开方后与原数据的度量单位相同,即为标准差。标准差大,表示观察值的变异度大;反之,标准差小,表示观察值的变异度小。数学上可以证明:离均差平方和(xX)2=x2-(x)2/N所以,样本标准差的计算公式为:,直接法:例数较少时用。,加权法:例数多时用。,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(四)标准差(standard deviation),1.直接法:适用于小样本资料。将例6中甲组男孩的身高值代入公式计算得标准差为:,表6 甲组5名同龄男孩的身高值(cm),第2节 数值变量资料的统计分析三、离散程度的统计描述指标(四)标准差,1.直接法:同理计算出乙组和丙组的身高标准差,结果见下表:,R S 甲组 90 95 100 105 110 100 20 7.91乙组 96 98 100 102 104 100 8 3.16 丙组 96 99 100 101 104 100 8 2.92 标准差的意义:反映一组变量值变异程度,组间单位相同时,S越小,表示数据的变异程度越小。,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(四)标准差,表7 101名正常成年女性血清总胆固醇标准差计算表,2加权法:适用于大样本资料。,统计描述:某地101名正常女子血清胆固醇值平均为4.06(mmol/L),标准差为0.654(mmol/L),第2节 数值变量资料的统计分析三、离散程度的统计描述指标(四)标准差-加权法计算,3标准差的应用1)用于描述正态分布或近似正态分布资料的变异程度。2)衡量均数的代表性:在多组(含两组)资料计量单位相同,均数相近条件下,标准差大,表示变量值离均数较远,均数代表性差;反之,标准差小,表示变量值密集于均数两侧,均数代表性好。3)结合样本均数描述频数分布特征,并对频数分布作出概括估计,用于确定医学参考值。4)计算标准误和变异系数。,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(四)标准差,应用:1.组间单位不同时变异程度的比较。,2.比较组单位相同,但均数相差悬殊 的组间变异程度.,意义:CV越大,表示数据变异越大。常用于衡量方法、仪器的精密度。,公式:,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(五)变异系数(CV),1.单位不同时组间变异程度的比较。,例7:表8 某地7岁年龄组男童身高与体重,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(五)变异系数(CV),结论:7岁年龄组男童身高与体重值指标比较,体重指标的变异大于身高指标。,例8:表9 某地不同年龄组男童身高(cm),2.比较组单位相同,但均数相差悬殊的组间变异程度比较,第2节 数值变量资料的统计分析三、离散程度的统计描述指标(五)变异系数(CV),结论:随着年龄增加,身高的变异变小。,数值变量资料的统计描述小结,1.在医学研究中正态或近似正态的资料,常以 的形式,描述和比较数据的平均水平和离散程度。如:,表10 两组患者年龄(岁)的比较,2.偏态分布或特定资料(生存时间、病程、潜伏期时间等)1)用中位数和四分位间距描述。表达形式:M,四分位数间距(QR)例:118名链球菌咽喉炎患者的中位潜伏期为51天,QR为28.5天。2)用百分位数的P25、P50、P75描述分布位置。,数值变量资料的统计描述小结,3.等比数据和正偏态数据可用几何均数和几何标准差描述。表达形式:GSG,数值变量资料的统计描述小结,谢谢,