人卫第八版《卫生学》数值变量资料的统计分析.ppt
卫生学,第十章 数值变量资料的统计分析,哈尔滨医科大学公共卫生学院隋虹,主要内容,数值变量资料的统计描述正态分布及其应用数值变量资料的统计推断t 检验和z 检验方差分析,第一节 数值变量资料的统计描述,数值变量资料的频数分布集中趋势的描述离散趋势的描述,数值变量资料的频数分布,(一)编制频数分布表和绘制频数分布图 收集到数据后,欲了解其分布的范围、分布的形态以及数据最集中的区间,可通过编制频数分布表和绘制频数分布图来实现。,数值变量资料的频数分布,编制频数表的步骤如下:1.计算极差;2.确定组段数、组距与组段;3.列表;,表10-2 140名健康成年男性血清尿素氮浓度(mmol/L),数值变量资料的频数分布,(二)频数分布表和频数分布图的用途 1.将原始数据以相对直观、有序的表格或图的 形式表达,以便于揭示数值变量资料的分布类型,进一步做统计分析;2.用于描述频数分布的特征,包括集中趋势和离散趋势;3.便于发现资料中某些特大或特小的可疑值。,集中趋势的描述,(一)算术均数(arithmetic mean)简称均数(mean),可用于反映一组呈对称分布的变量值在数量上的平均水平。其计算方法有直接法和加权法(二)几何均数(geometric mean)用 表示,可用于反映一组经对数转换后呈对称分布或数据之间呈倍数关系或近似倍数关系资料的平均水平。其计算方法有直接法和加权法。,集中趋势的描述,(三)中位数与百分位数 中位数(median)用M 表示,是将一组观察值按从小到大的顺序排列后,位次居于中间的那个数值。百分位数(percentile)是一种位置指标。将n个观察值从小到大排列,分成100等份,各等份含1%的观察值,则第x百分位次对应的数值称为第x百分位数,用 表示。,离散趋势的描述,(一)全距(range)用 R 表示,亦称极差,为一组同质观察值中最大值与最小值之差。(二)四分位数间距(quartile range)上四分位数与下四分位数之差,即。(三)方差(variance)是描述所有观察值与均数的平均离散程度的指标,表示一组数据的平均离散程度。,离散趋势的描述,(四)标准差(standard deviation)是方差的算术平方根。总体标准差用 表示,样本标准差用S 表示,其计算公式为(五)变异系数 用CV 表示,即标准差与算术均数之比,描述了观察值的变异相对于其平均水平的大小。,第二节 正态分布及其应用,正态分布正态分布的特征和曲线下面积分布规律正态分布的应用,正态分布,正态分布是一种连续型随机变量常见而重要的分布。正态分布是数理统计中发展得最为完善的一种分布,很多统计推断都是在正态分布条件下进行的。许多非正态分布的资料,当观察例数足够多时,也可以用正态分布作为它的极限分布形式。,正态分布的特征和曲线下面积分布规律,正态分布有以下四个方面特征:正态曲线在横轴上方,呈钟形曲线,两端与横轴永不相交;正态分布以均数为中心,均数所在处最高,左右对称;正态分布有两个参数,即均数与标准差;正态分布曲线下的面积分布有一定的规律性。,正态分布的应用,(一)估计变量值的频数分布(二)制定参考值范围(三)质量控制(四)正态分布是很多统计方法的基础,第三节 数值变量资料的统计推断,均数的抽样误差与标准误t 分布总体均数的置信区间估计假设检验的基本思想和步骤,均数的抽样误差与标准误,均数的抽样误差:指抽样引起的样本均数与总体均数之间的差异或样本均数之间的差异均数的标准误:为了与反映观察值离散程度的标准差相区别,统计学中把样本均数的标准差称为标准误,均数的抽样误差与标准误,均数标准误(理论值)的计算公式是:式中 表示总体标准差,为样本例数,为均数标准误的理论值,均数的抽样误差与标准误,由于在实际的抽样研究中,常属未知,而通常仅用一个样本的标准差 作为 的估计值,因此计算样本均数标准误的估计值为当标准差一定时,标准误与样本含量的平方根成反比。当样本例数一定时,标准误与标准差成正比。,t 分布,分布是一簇对称于0的单峰分布曲线。自由度(实际上是样本含量n)越小,曲线越扁平,随着自由度的增大,t 分布曲线逐渐逼近标准正态曲线。当自由度为无穷大时,则t 分布曲线与标准正态曲线完全吻合。t 分布主要用于总体均数的区间估计及t 检验等。,总体均数的置信区间估计,统计推断包括两个重要的方面:参数估计和假设检验所谓参数估计就是用样本指标(统计量)估计总体指标(参数)参数估计有两种方法:点估计和区间估计,总体均数的置信区间估计,区间估计:以预先给定的概率(置信度)估计总体参数所在范围的估计方法。置信区间是根据一定的置信度进行估计得到的区间。其置信度要预先确定。置信度用 表示,最常用的置信度为95%,如要提高置信度,可用99%。,假设有两种:一种是零假设或称无效假设,记作;一种是备择假设,记作。二者都是根据统计推断的目的而提出的对总体特征的假设。,假设检验的基本思想和步骤,我们可以把假设检验的基本步骤归纳为如下三步:(1)建立检验假设和备择假设,确定检 验水准;(2)选定检验方法和计算检验统计量;(3)确定 值和作出推断结论。,假设检验的基本思想和步骤,第四节 t 检验和z 检验,单样本资料的t 检验配对设计资料的t 检验两独立样本资料的t 检验和z 检验假设检验应注意的问题,单样本资料的t 检验,已知总体均数是指理论值或经大量观测所得到的稳定值,记作 样本均数与总体均数比较的目的是推断样本所代表的未知总体均数 与已知的总体均数 是否有差别。,检验统计量计算:,单样本资料的t 检验,同一受试对象处理前后的比较,目的是推断这种处理有无作用;同一受试对象的两个部位比较或同一样品两种检测方法比较,及每一对的两个受试对象分别给予两种处理的比较,目的都是推断两种处理的效果有无差别。,配对设计资料的t 检验,配对设计资料的t 检验,如果样本含量相同,配对设计资料相对成组设计资料,可提高检验效能;如果使检验效能相同,配对设计资料相对成组设计资料,可节约样本含量。,求出每对数据的差值配对t 检验要求差值服从正态分布检验假设为样本差值的总体均数等于0,配对设计资料的t 检验,配对设计资料的t 检验,检验统计量计算:,两独立样本资料的t 检验,两样本含量较小要求样本来自正态总体(正态性检验)要求两总体方差相等(方差齐性检验)目的是推断两总体均数有无差别,两独立样本资料的t 检验,检验统计量的计算:,两独立样本资料的z 检验,两个样本含量较大(均50)目的是推断两样本各自所代表的总体均数有无差别,两独立样本资料的z 检验,检验统计量的计算:,假设检验应注意的问题,1.资料必须合乎随机化分组/抽样原则 2.选用的假设检验方法应符合其应用条件 3.实际差别大小与统计意义的区别 4.进行假设检验时,对差异有无统计学意 义的判断不能绝对化 5.假设检验的单侧检验与双侧检验的选择,第五节 方差分析,方差分析的基本思想完全随机设计资料的方差分析随机区组设计资料的方差分析多个样本均数间两两比较的q 检验多样本方差的齐性检验,方差分析的基本思想,是把总变异按设计和需要分为两个或多个部分,其自由度也分解为相应的部分。每一部分有一定意义,其中至少有一部分表示随机误差。然后计算变异间的比值F 值。若F 值接近1,可认为处理因素无作用;若F 值远大于1,且大于或等于F 界值表中的某界值时,可认为处理因素有作用。,完全随机设计资料的方差分析,完全随机设计是采用完全随机化的分组方法,将全部受试对象分配到几个处理组中去,通过各组均数之间的比较,评价由某种因素所引起的变异是否具有统计学意义。,随机区组设计资料的方差分析,是配对设计的一种扩展,配对设计资料是两个观察值组成一个个对子的资料随机区组设计资料是多个观察值组成一个个区组的资料,每一区组的数据个数大于2,且等于处理组数将性质相同或相近的受试对象归为一个区组,再将各区组内的受试对象随机化分配到各个处理组中,多个样本均数间两两比较的q检验,q 值的计算公式为 为两两比较中的任何两个对比组均数的差值;为均数差值的标准误,多个样本均数间两两比较的q检验,均数差值的标准误计算公式为,多样本方差的齐性检验,方差分析时,不仅要求本的总体方差相等,因此数据满足独立性和正态性,还要求所对比的各样在作方差分析之前,应先对资料的方差齐性进行检验。多个样本方差齐性检验的方法有多种,本书主要介绍多个样本方差的Levene检验。,谢谢!,