医学统计学基础与科研分析思路.ppt
《医学统计学基础与科研分析思路.ppt》由会员分享,可在线阅读,更多相关《医学统计学基础与科研分析思路.ppt(222页珍藏版)》请在三一办公上搜索。
1、卫生统计学基础知识与科研资料分析思路,内容,医学统计学基础知识实验设计科研资料的分析思路,第一部分医学统计学基础知识,内容,一、医学统计学的定义二、统计学中的基本概念三、统计工作的步骤四、常见的抽样分布 五、描述性指标六、总体参数的估计 七、假设检验,一、医学统计学的定义,统计学(statistics)是认识社会和自然界中随机现象的数量特征的一门科学。自然界中存在的各种现象可归纳为两类:必然现象在一定条件下必然发生的现象。(一定条件下其发生与否是确定的)随机现象在同一条件下进行实验,一次实验结果不确定,而在一定数量的重复试验后呈现统计规律性的现象。,industry,government,bu
2、siness,education,research,finance,health,the natural world,Statistics in.,医学统计学的定义,医学统计学(medical statistics)是运用概率论和数理统计学的原理与方法,研究医学和卫生学领域中随机现象有关数据的搜集、整理、分析与推断,进而阐明其客观规律的一门应用科学。,医学统计学的定义,二、统计学中的基本概念,同质与变异变量 总体与样本抽样误差概率,同质与变异,-同质(homogeneity)影响研究指标较大的、可以控制的主要因素尽可能相同。-变异(variation)同质基础上的各观察值间的差异称为变异。变异
3、可理解为同质基础上的个体差异。,基本概念,变量,-变量(variable)搜集资料时,先要根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量。-变量值(value of variable)变量的观察结果或测量值称为变量值,亦称为资料(data)-变量按其值的性质可分为不同类型。,基本概念,变量,-变量的类型数值变量(numerical variable)分类变量(categorical variable)-无序分类变量(unordered categorical variable)二项分类(binomial)、多项分类(multinomial)-有序分类变
4、量(ordinal categorical variable),基本概念,变量,数值变量 其变量值是定量的,表现为数值大小,多有度量单位。由数值变量的测定值构成的资料称为计量资料(measurement data)或数值变量资料(numerical variable data)。多数的数值变量为连续型变量,如身高、体重、血压;但有的数值变量的测定值只是正整数,如心率、白细胞计数等,在医学统计学中也视为连续型变量。,基本概念,变量,分类变量 表现为互不相容的类别或属性,亦称定性变量。-无序分类变量的各类别或属性之间无程度(或顺序)上的差别;所得资料称为计数资料(enumeration data)
5、或无序分类变量资料(unordered categorical variable data);又有二项分类和多项分类之分。-有序分类变量的各类别之间有程度(或顺序)的差别。所得资料称为等级资料(ranked data)或有序分类变量资料(ordinal categorical variable data)。,基本概念,变量,注意!变量类型不是一成不变的,可根据分析的需要进行转化。例,白细胞计数原属数值变量 若按正常、异常分组,则为无序分类变量;若按过低(10000)分组,则为有序分类变量。分类变量也可数量化:有序分类变量可用0、1、2、3、4表示;无序分类变量可用哑变量(dummy varia
6、ble)表示。,基本概念,总体与样本,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体所包含的范围随研究目的的不同而变化。在医学科学研究中,研究对象可以是人、实验动物、微生物等;观察单位可以是一个地区、一个家庭、一个人、一只眼睛、一个细胞株、一个基因片段等。,基本概念,总体与样本,有限总体与无限总体在某特定的时间与空间范围内,同质研究对象的所有观察单位的某变量值的个数为有限的,称为有限总体(finite population)。总体是假设的,无时间和空间的限制,观察单位数是无限的,称为无限总体(infinite population)。,基本概念,
7、总体与样本,样本(sample)样本是按随机化原则从同质总体中抽取的部分观察单位其变量值的集合。样本须具有代表性。“代表性”的前提是来自同质总体、足够的观察单位数和随机抽样。样本中所含的观察单位个数称为样本含量 n。随机化原则通常是指总体中的每个个体都有同样的机会被抽到样本中;但不同的研究目的,所采用的抽样方法不同,如单纯随机抽样、系统抽样、整群抽样和分层抽样等。,基本概念,总体与样本,抽样研究的目的是用样本信息去推断总体特征。描述样本特征的指标称为统计量(statistics);描述总体特征的指标称为参数(parameter),基本概念,抽样误差,抽样误差(sampling error)由于
8、个体变异的存在,抽样研究时,样本的统计量与总体参数往往不等;即使若干个样本是从同一总体中随机抽取的,各样本统计量也往往不等。这种因抽样研究所引起的各统计量之间以及统计量与参数之间的差异,称为抽样误差。抽样误差在抽样研究中是不可避免的,但只要遵循随机化原则抽样的话,抽样误差的大小是可以估计的。,基本概念,抽样误差,基本概念,概率,随机事件概率小概率事件,基本概念,概率,随机事件(random event)对随机现象进行实验或观察称为随机试验(random trial)。随机试验的各种可能结果的集合称为随机事件(random event),简称事件(event)。在一次随机试验中,某随机事件可能发
9、生,也可能不发生;但在一定数量的重复试验后,某随机事件的发生与否是有规律的。,基本概念,概率,概率(probability)是描述随机事件在一定条件下发生的可能性大小的一个度量,通常用P表示。对事件A,若有,则称A为必然事件;若,称A为不可能事件。随机事件A的概率为。,基本概念,概率,小概率事件(small probability event)若随机事件A的概率,则称随机事件A为小概率事件。其统计学意义是小概率事件在一次随机试验中认为不可能发生。“小概率”的标准 是人为规定的。在医学统计学中,通常设;但对于可能引起严重后果的事件,如术中大出血等,可设,甚至更小。,基本概念,三、统计工作的步骤,
10、设计搜集资料整理资料分析资料,设计(design),在保证科学性、可重复性和高效性的前提下,为验证研究假说而进行的周密安排。明确研究目的和研究假说,确定研究内容、观察对象与观察单位、样本含量和抽样方法,拟定研究方案、预期分析指标、误差控制措施、进度与费用。根据医学研究类型,有调查设计和实验设计之分。,统计工作的步骤,搜集资料(collection of data),遵循统计学原理原则:及时、准确、完整来源:统计报表 经常性工作记录 专题调查(或实验)资料储存:所搜集的原始记录,要妥善保存,并定期备份复制。,统计工作的步骤,整理之前的资料称为原始资料(raw data)目的:经科学分组与归纳,使
11、原始资料系统化、条理化,便于计算统计指标和分析。过程:准确性审查(逻辑审查与技术审查)和完整性审查;拟定整理表,按照“同质者合并,非同质者分开”的原则对资料进行质量分组,并在同质基础上根据数值大小进行数量分组;统计归纳。,整理资料(sorting data),统计工作的步骤,分析资料(analysis of data),目的 计算有关指标,反映数据的综合特征,阐明事物的内在联系和规律。统计描述(descriptive statistics)用描述性指标、统计表与统计图等,对样本资料的数量特征及其分布规律进行描述。统计推断(inferential statistics)如何抽样?如何用样本信息推
12、断总体特征。统计分析时,要根据研究目的、设计类型、样本含量、资料类型及其分布特征选择恰当的统计指标和分析方法。,统计工作的步骤,四、常见的抽样分布,抽样分布,分布和,分布,N(0,1),标准正态分布,以固定样本含量n抽样,N(,2/n),X,t 分布,0,0,抽样分布,t 值的分布称为 t 分布,由于s 随 n 的增大渐稳定于,故 越大,t 分布越逼近 u 分布。,抽样分布,抽样分布,抽样分布,t 分布的分位数(t 界值),/2,/2,1-,t/2,-t/2,阴影部分表示 的概率,抽样分布,1-,t,t 分布的分位数(t 界值),阴影部分表示 的概率,抽样分布,抽样分布,二项分布(binomi
13、al distribution),二项分布的应用条件,试验中只有对立的两类结果,每一个观察单位只能发生两种对立结果之一(即两分类资料);已知其中一类结果的发生率为,其对立结果的发生率为;在同一条件下,n 次试验是相互独立的,即各观察单位的观察结果相互独立。,抽样分布,抽样分布,Poisson分布,抽样分布,抽样分布,五、描述性指标,需根据研究目的、资料类型及其分布、样本含量选用恰当的描述性指标。数值变量资料的描述性指标分类变量资料的描述性指标,数值变量资料的描述性指标,集中趋势指标(central tendency)反映一组变量值的平均水平或中心位置。-均数、几何均数、中位数、调和均数和众数离
14、散趋势指标(dispersion tendency)反映一组变量值的变异(分散)程度。-全距、四分位数间距、方差、标准差、变异系数,描述性指标,集中趋势指标(数值变量),均数(mean)适用于正态及近似正态分布的数值变量资料。符号:样本均数()、总体均数()计算公式:,直接法公式加权法公式,(用于小样本资料),(用于频数表资料),描述性指标,例 随机抽取某地10名2030岁健康男性居民血清铁含量分别为:6.58,7.42,15.32,15.78,17.60,17.98,15.21,17.53,20.11,22.64。试求其平均血清铁含量。,例 计算某地100名男大学生身高平均数,描述性指标,集
15、中趋势指标(数值变量),几何均数(geometric mean)适用于对数正态分布资料或等比级数资料。符号:G 计算公式:,直接法(小样本资料),加权法(频数表资料),描述性指标,集中趋势指标(数值变量),例 9名麻疹易感儿接种麻疹疫苗一个月后,其血凝抑制抗体滴度为:1:4,1:8,1:16,1:32,1:64,1:128,1:256,1:512,1:1024。试求其平均滴度。,9名麻疹易感儿的平均抗体滴度为1:64。,描述性指标,集中趋势指标(数值变量),例 某地区50名麻疹易感儿童接种麻疹疫苗1个月后,测其血凝抑制抗体滴度,如表中(1)、(2)栏,求平均抗体滴度。,其血凝抗体滴度的平均滴度
16、为1:57。,描述性指标,中位数(median)适用于任何分布类型的数值变量资料,常用于偏态分布资料及频数分布一端或两端无确切数值的数值变量资料。,符号:M,计算公式:,加权法(频数表资料),描述性指标,集中趋势指标(数值变量),例 5名成年男子的体重(kg)分别为 60、70、75、80、90,求中位数,例 6名成年男子的体重(kg)分别为 60,70,75,80,82,90,求中位数,=(X3+X4)/2=(75+80)/2=77.5(kg),=75(kg),描述性指标,集中趋势指标(数值变量),例 某疾病控制中心记录了199名沙门氏菌属食物中毒患者发病的潜伏期,并整理成表2-3中(1)、
17、(2)栏,试计算其平均发病潜伏期。,(h),描述性指标,离散趋势指标(数值变量),全距(range)亦称极差,适用于任何分布类型的资料。符号:R 计算公式:,描述性指标,四分位数间距(quartile range)适用资料类型同中位数。,符号:Q或QR,计算公式:,描述性指标,离散趋势指标(数值变量),方差(variance)适用于正态和近似正态 分布资料,计算公式:,描述性指标,离散趋势指标(数值变量),标准差(standard deviation)适用于正态和 近似正态分布资料,计算公式:,直接法(小样本资料),加权法(小样本资料),描述性指标,离散趋势指标(数值变量),例 求表2-1中1
18、00名18岁男大学生身高的标准差。,描述性指标,离散趋势指标(数值变量),描述性指标,离散趋势指标(数值变量),变异系数(coefficient of variation)适用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异度。,符号:CV,计算公式:,描述性指标,离散趋势指标(数值变量),分类变量资料的统计描述,相对数:两个有关数值之比称为相对数常用的相对数:构成比、率、相对比,描述性指标,构成比(proportion),又称构成指标,它说明某事物(或现象)内部各组成部分所占的比重或分布,常以百分数表示。计算公式:注意:所有组成部分的构成比之和应等于100%;同一事物内部各组成部分
19、的构成比,计算时 小数点后保留位数应相同。,描述性指标,分类变量资料,率(rate),又称频率指标或强度指标,它说明某现象发生的频率或强度。计算公式:式中,K为比例基数,常用的K 有100%或1000、10000/万、100000/10万等。选择K的要点:根据习惯用法以便于比较,如治愈率、某病病死率、人工流产率等用百分率;出生率、婴儿死亡率等用千分率;恶性肿瘤死亡率用十万分率;使算得的率至少保留12位整数。,描述性指标,分类变量资料,相对比(relative ratio),亦称比(ratio),是A、B 2个有关指标之比,说明A为B的若干倍或百分之几。A、B两个指标可以是性质相同的,也可以是性
20、质不同的;两个指标可以是绝对数,也可以是相对数或平均数。计算公式为:,描述性指标,分类变量资料,A、B为同类指标时,相对比用以说明两事物的相对水平。常以百分数或倍数表示,如人口出生性别比、两病区病床数之比。流行病学中常用:相对危险度(RR)、比数比(OR)也为此类。A、B为不同类指标时,如人口密度(人/平方公里)、医生数/千人口、病床数/千人口、小鼠肝重与体重之比、变异系数等。相对比是相对数的最简单形式,常用于动态数列的分析。,描述性指标,分类变量资料,描述性指标,分类变量资料,应用相对数时应注意的问题计算相对数的分母不宜过小 当分母观察例数足够多时,计算的相对数比较稳定,能够正确反映实际情况
21、;当分母观察例数很少(如少于30)时,易受偶然因素的影响,不宜计算相对数,可用绝对数表示。如必须计算率,应同时列出可信区间。,某文章报道“5 名患者,治愈3 人,治愈率为60%”。该结论恰当否?分析:该结论不恰当,当观察例数很少时,分子每改变一个单位对结果的影响很大,此时不宜计算相对数,直接用绝对数描述即可。,描述性指标,分类变量资料,分析时不能以构成比代替率 构成比是说明某现象中各组成部分的比重或分布的指标,率则反映某现象发生的频率或强度的指标。应用时两者不能混淆。,描述性指标,分类变量资料,应用相对数的注意事项,描述性指标,观察单位数不等的几个率,不能直接相加求其平均率 对观察单位数不等的
22、几个率求平均率时,要用各率的分子之和与分母之和来计算。,“用某疗法治疗肝炎,甲医院治疗150 人,治愈30 人,治愈率为20%;乙医院治疗100 人,治愈30 人,治愈率为30%。则两个医院平均治愈率为(20%+30%)/2=25%。”上述计算方法有无问题?分析:该作者平均率的计算方法有误。两个医院共治疗250 人,其中治愈60 人,则平均治愈率为60/250=24%。,应用相对数的注意事项,描述性指标,分类变量资料,比较相对数时应注意其可比性 影响率和构成比的因素很多。两个或多个率(构成比)比较时,各组间除研究因素外,其它影响因素要基本相同,即各组间要具有可比性。注意:各组的研究对象要同质,
23、研究方法要相同,观察时间 相等以及内外环境条件相近。所比较资料的内部构成要相同。同一地区不同时期资料的对比,应注意客观条件有无变化。,应用相对数的注意事项,描述性指标,分类变量资料,对样本率(或构成比)的比较应遵循随机抽样,并做假设检验 遵循随机抽样的原则才能保证样本具有代表性,才能用该样本信息推断总体特征。抽样研究中,样本率或构成比也存在抽样误差,因此在比较两个或多个率(构成比)时,要做假设检验。,应用相对数的注意事项,描述性指标,分类变量资料,六、总体参数的估计,数值变量资料-总体均数的估计-总体几何均数的估计-总体中位数的估计分类变量资料-总体率的估计-总体平均数的估计,总体均数的估计点
24、值估计(point estimation):用样本均数 作为总体均数 的点值估计。由于抽样误差的存在,往往不等于。区间估计(interval estimation):按一定的概率100(1)%估计总体均数 所在的范围,亦称可信区间(confidence interval,CI)。常取95%和99%的可信度,即95%CI和99%CI。,总体参数估计,数值变量资料,总体均数的区间估计,未知且n 小时,按 t 分布原理计算,总体均数(1-)100%的可信区间为:未知,但 n足够大时(n 100),t 分布近似 u 分布,按正态分布的原理估计可信区间。总体 均数(1-)100%的可信区间为:,总体参数
25、估计,数值变量资料,总体均数的区间估计,已知时,按正态分布的原理估计可信区间。总体均数(1-)100%的可信区间为:,总体参数估计,数值变量资料,由20名18岁男大学生身高均数资料得,cm,cm,试估计该地18岁男大学生身高总体均数的95%可信区间。n=20,且 未知,双侧 即该地18岁男大学生身高总体均数的95%可信区间为170.70173.80cm,总体参数估计,总体均数的区间估计,数值变量资料,总体几何均数的估计点值估计 用样本几何均数作为总体几何均数的点值估计。区间估计,总体参数估计,数值变量资料,总体中位数的区间估计 先求第50百分位数的上、下限:下限 上限 再按 分别求 和,总体参
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 基础 科研 分析 思路

链接地址:https://www.31ppt.com/p-4956789.html