医学统计学·温医成教.doc
一、名词解释1.同质与变异:同质是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同;由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。2.总体与样本:总体是根据研究目的所确定的同质观察单位(某种变量值)的全体;样本是从总体中随机抽取一部分个体所组成的集合。3.参数和统计量:由总体计算或得到的统计指标称为参数。统计量指样本的统计指标,如样本均数、标准差等。4.过失误差:过失误差主要是由于测量者的疏忽所造成。例如读数错误、记录错误、测量时发生未察觉的异常情况等等,这种误差是可以避免的。5. 抽样误差:由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差别称为抽样误差。6. 随机测量误差:若在一列等精度测量中,每次测量的误差是无规律的,其值或大或小,或正或负,那么,这类误差就称为随机误差或偶然误差。7.概率:是描述随机事件发生可能性大小的量值。用英文大写字母P来表示。8.计量资料:是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称计量资料。如身高()、体重()、脉搏(次/分)、血压(kPa)等为数值变量,其组成的资料为定量资料。9.计数资料:是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料称计数资料。10.等级资料:是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。11.平均数:是描述一组观察值集中位置或平均水平的统计指标,它常作为一组数据的代表值用于分析和进行组间的比较。12. 标准差:反映个体差异,反映变量值的变异程度。13. 标准正态分布:对于任意一个正态分布,均可转换为均数为0,标准差为1的标准正态分布。14. 参考值范围:按一定概率所确定的数据波动范围。15. 标准误:样本均数的标准差,用以反映抽样误差的大小。16. 相对数:是两个有关的据对数之比,也可以是两个有关的统计指标之比。常用的有:率、比值比、构成比。 17. 率:表示在一定的范围内某现象的发生数与可能发生的总数之比。 18. 构成比:说明某一事物的内部各组成部分所占的比重或分布。19. 相对比:表示两个有关的指标之比,可用倍数或百分数表示。20. 标准化率法:不同时间或不同地区的几组率比较时,为了消除资料在年龄、性别或其它有关指标的构成的不同,而选用某一标准人口构成加以校正,称为率的标准化。21. X2检验:或称卡方检验,是一种用途较广的假设检验方法,常用于检验两个或多个样本率及构成比之间有无差别,还用来检验配对定性资料及两种属性或特征之间是否有关系等。22. 参数统计:如t检验、F检验统计推断的是两个或多个总体均数(总体参数)是否相等,这类统计方法称为参数统计。23. 非参数统计:秩和检验属于非参数统计。它的假设检验是推断总体分布是否相同,而不是推断总体参数是否相等,故称为非参数检验。24. 回归系数:回归方程的斜率。在回归方程中表示自变量x 对因变量y 影响大小的参数。25. 相关系数:又称为积差相关系数,用符号r表示。它描述两变量间相关关系的密切程度和相关方向。二、简答题1、均数、几何均数和中位数的适用范围有何异同? 均数:描述一组同质计量资料的平均水平,其分布特征为正态分布或近似正态分布,图形为单峰对称图型;几何均数:描述原始观察值呈偏态分布,但经对数变换后呈正态分布或近似正态分布的资料或等比资料;中位数:适用于偏态分布、分布不明的资料。2、中位数与百分位数在意义上、计算和应用上有何区别与联系?意义:中位数是百分位数中的第50分位数,常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的百分位数是P50即中位数。多个百分位数结合使用,可更全面地描述总体或样本的分布特征。计算:中位数和百分位数均可用同一公式计算,可根据研究目的选择不同的百分位数代入公式进行计算分析。应用:中位数常用于描述偏态分布资料的集中趋势;百分位数常用于医学参考值范围的确定。中位数常和其它分位数结合起来描述分布的特征,在实际工作中更为常用。百分位数还可用来描述变量值的离散趋势(四分位数间距)。3、医学中参考值范围的含义是什么?确定的原则和方法是什么? 含义:参考值范围亦称正常值范围,它是指特定健康状况人群(排除了有关疾病和因素对所研究指标有影响的所谓“正常人”不同于“健康人”概念)的解剖、生理、生化等各种数据绝大多数人的波动范围。原则:抽取有代表性的足够例数的正常人群样本,样本分布越接近总体,所得结果越可靠。一般认为样本含量最好在100例以上,以能得到一个分布较为稳定的样本为原则。对选定的正常人进行准确而统一的测定,保证测定数据可靠是确定正常值范围的前提。判定是否要分组(如男女、年龄、地区等),确定正常值范围。决定取双侧范围值还是单侧范围值。选择适当的百分范围。确定可疑范围。估计界值。方法:百分位数法: 正态分布法(对数正态分布法):双侧 单侧 百分位数法用于各种分布型(或分布不明)资料;正态分布法用于服从或近似正态分布(服从对数正态分布)的资料4、标准差,标准误有何区别和联系? 答: 标准差和标准误都是变异指标,但它们之间有区别,也有联系。区别: 概念不同;标准差是描述观察值(个体值)之间的变异程度;标准误是描述样本均数的抽样误差;用途不同;标准差常用于表示变量值对均数波动的大小,与均数结合估计参考值范围,计算变异系数,计算标准误等。标准误常用于表示样本统计量(样本均数,样本率)对总体参数(总体均数,总体率)的波动情况,用于估计参数的可信区间,进行假设检验等。它们与样本含量的关系不同: 当样本含量 n 足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0 。联系: 标准差,标准误均为变异指标,如果把样本均数看作一个变量值,则样本均数的标准误可称为样本均数的标准差;当样本含量不变时,标准误与标准差成正比;两者均可与均数结合运用,但描述的内容各不相同。5、可信区间和参考值范围有何不同? 答: (1)意义不同: 参考值范围是指同质总体中包括一定数量(如95%或99%) 个体值的估计范围,如95%参考值范围,意味该数值范围只包括95%的个体值,有5%的个体值不在此范围内。可信区间是指按一定的可信度来估计总体参数所在范围。如95%的可信区间,意味着做100次抽样,算得100个可信区间,平均有95个可信区间包括总体参数(估计正确)有5个可信区间不包括总体均数(估计错误)。(2)计算方法不同: 参考值范围用X±uS计算。可信区间用X±t、Sx或X±uSx计算;前者用标准差,后者用标准误。6、假设检验和区间估计有何联系? 二者都属于统计推断的内容,假设检验推断总体参数间是否有质的区别,并可获得样本统计量,以得到相对精确的概率值。而可信区间用于推断总体参数的大小,它不仅可用以回答假设检验的问题,尚可比假设检验提供更多的信息。但这并不意味着用可信区间代替假设检验,因为假设检验可得到P值,比较精确地说明结论的概率保证,而可信区间只能告诉我们在某水准上有无统计意义,却不能像P那样提供精确的概率。因此,只有二者有机结合起来,互相补充,才是完整的分析。7、 t检验和方差分析应用条件有何异同? 相同点:在均数比较中, t检验和方差分析均要求各样本来自正态总体;各处理组总体方差齐且各随机本间相互独立,尤其在小样本时更需注意。不同点:t检验仅用于两组资料的比较,除双侧检验外,尚可进行单侧检验,亦可计算一定可信度的可信区间,提示差别有无实际意义。而方差分析用于两组及两组以上均数的比较,亦可用于两组资料的方差齐性检验。8、 检验假设中和P的区别何在?以t检验为例,和P都是用t分布尾部面积大小表示,所不同的是:值,即检验水准,是指在统计推断时,预先设定的一个小概率值,就是说如果H0是真的,允许它错误地被拒绝的概率。P值是由实际样本规定的,它给人的概念是实际资料怎样与H0相矛盾,P值是指在H0成立的前提下,出现等于或大于现有检验统计量的概率。 根据P与的关系来决定对H0的取舍,做出统计推断的结论。9、 常用的相对数指标有哪些?它们的意义和计算上有何不同?为什么不能以比代率?请联系实际加以说明。 常用的相对数指标有:率、构成比和相对比。意义和计算公式如下:率又称频率指标,它说明某现象发生的频率和强度。常用百分率、千分率、万分率或十万人率等表示,公式为:率=某时间内实际发生某现象的观察单位数/同时期可能发生某现象的观察单位总数×K。例如,某病患病率常用百分率或千分率,婴儿死亡率常用千分率,死因别死亡率常用十万分率等。构成比说明事物内部各部分所占的比重。常用百分数表示,公式为:构成比=某一组成部分的观察单位数?同一事物各组成部分的观察单位总数×100%。例如脑血管疾病在某地5咱慢性疾病的构成比为(3805/7896)×100%=48.19%,心血管疾病占该5种慢性病总数的比重为(1365/7896)×100%=17.29%。相对比说明一个指标是另一个指标的几倍或几分之几。两个指标可以是绝对数、相对数或平均数;可以性质相同,例如不同年份某地某病死亡率之比,也可以性质不同,例如某医院医护人员数与病床数之比。公式为:相对比=甲指标/乙指标(或×100%) 构成比与率所说明的问题是不同的,构成比说明事物内部各部分所占的比重,不能说明某再象的发生强度或频率大小。因此,在分析时不能用构成比代替率。10、 X2检验适用于解决哪些问题?对资料的设计类型和应用条件有何不同要求?答:X2检验是一种用途较广的假设检验方法,常用于检验两个或多个样本率(或构成比)之间有无差别,也用于检验配对计数资料的差异、频数分布拟合优度的检验等。(1)四格表资料的X2检验:主要用于两个样本率(或构成比)的假设检验。(2)配对四格表资料的检验:用于配对定性资料差异性的假设检验 。(3)行×列表的检验:用于解决多个样本率或多个样本构成比的比较以及有序分类资料的关联性检验。11、 应用相对数的注意事项? 计算相对数尤其是率时应有足够数量的观察单位数或观察次数分析时不能以构成比代替率应分别将分子和分母合计求合计率或平均率相对数的比较应注意其可比性样本率或构成比比较时应作假设检验。两个总体率进行比较时,要注意使用率的标准化法。12、 什么情况下需要进行率的标准化法?标准化的方法有哪些?不同时间或不同地区的几组率比较时,为了消除资料在年龄、性别或其它有关指标的构成的不同,而选用某一标准人口构成加以校正,称为率的标准化。不同地区,不同时间的两个或多个率直接进行比较是不太合适的。会造成错误的结论。方法:直接法、间接法、反推法。13、 检验的基本思想是什么?答:1899年统计学家K.Pearson提出一种度量实际观察计数与原假设条件下的期望频数间偏差的统计量,称为pearsons 2检验计量。其基本公式为:,自由度为=(行数-1)(列数-1)。式中为希腊字母,读为“chi”,X2表示PearsonX2检验统计量。为了与其他x2统计量的公式相区别,常称其为x2检验统计量的基本公式。A表示实际观察的频数。T表示无效假设下的期望频数。14、 四表格资料在何种情况下需要进行校正?为什么?四表格资料在以下情况需要进行校正:(1)任一格的1T5,且n40时,需计算校正值。(2)任一格的T1或n40时,用确切概率计算法。原因:X2界值表的依据是X2分布,其分布是连续性分布,而计算资料中的实际频数A为分类资料,是不连续的。因此计算的X2值查界值表所得的概率P偏小,特别是对自由度为1的四格表资料的影响。因此要对其进行校正。15、 行×列表X2检验注意事项?计算X2值时,必须用绝对数,不能用相对数。X2检验要求理论频数不宜太小。对于理论频数太小的处理方法:最好增大样本容量,以达到增大理论频数的目的删去理论频数太小的格子所对应的行或列,但这样会损失信息,损害样本的随机性将理论频数太小的行或列与性质相近的邻行或列中的实际频数合并,使重新计算的理论频数增大。(损失的信息比第2种方法小一些)。关于单向有序行列表,应用秩和检验或Ridit检验。当多个样本率(或构成比)比较的X2检验,结论为拒绝检验假设,只能认为各总体率之间总的来说有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。 16、 非参数检验适用哪些情况? 等级顺序资料。偏态分布。当观察资料呈偏态或极偏态分布而又未经变量变换,或虽经变量变换但仍未达到正态分布或近似正态分布时,宜用非参数检验。未知分布型资料。要比较的各组资料变异度相差较大,方差不齐,且不能变换达到齐性。初步分析,有些医学资料由于统计工作量过大,可采用非参数统计方法时行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容。对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。 17.简述直线回归与直线相关的区别与联系。联系:(1)对于既可以做回归分析又可做相关的同一组数据,计算出的b与r的正负号一致;(2)相关系数与回归系数的假设检验等价。对同一样本tb=tr。(3)同一组数据的相关系数和回归系数可以相互换算。(4)用回归解释相关:由于决定系数r2=SS回/SS总,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则r2越接近1,说明相关的效果越好。 区别(1)资料上:相关要求X、Y服从双变量正态分布,这种资料进行回归称II型回归;回归要求Y在给定某个X值服从正态分布,X是可以精确测量和严格控制的变量,称I型回归。 (2)应用上:双变量间相互关系用用相关,此时两变量的关系是平等的;而说明两变量间依存变化的数量关系用回归,用以说明Y如何依赖于X而变化。 (3)意义上:说明具有直线关系的两变量间相互关系的方向与密切程度;b表示X每变化一个单位所导致的Y的平均变化量 (4)单位:r没单位,b有单位。 (5)取值范围不同 (6)计算公式不同18、 应用直线回归和相关分析时应注意哪些问题? 作回归分析一定要有实际意义;回归分析之前首先应绘制散点图;考虑建立线性回归模型的基本假定:理论上讲,按最小二乘估计回归模型应满足:线性、独立、正态和方差齐性(LINE)等条件;取值范围,避免外延;两变量间的直线关系不一定是因果关系,也可能是伴随关系。19、列表的原则和基本要求是什么?原则:1.重点突出,简单明了。2.主谓分明,层次清楚。基本要求:1.标题 : 简明扼要能概括表中内容,它应包括时间、地点、内容等。标题应写在表顶线的上端中间的位置 。2.标目 用以说明表内数字含义的部分叫标目。待添加的隐藏文字内容2(1)横标目 横标目位于表左侧,是统计表所要叙述的主语,它说明同一横行数字的意义。(2)纵标目 纵标目位于标目线的上端,是被说明事物的宾语,一般是绝对数或统计指标。3.线条 线条应尽量减少,除顶线、标目线、合计线和底线外,其余线条均可省略。特别是表的左上角的斜线和两侧的边线应一律不用 。4.数字 表内的数字一律用阿位伯数字,同一指标位数要对齐,小数点的位数要一致,一般保留12位小数。无数字的空格用“”表示,暂缺或未记录用“”表示。5.备注 表内不应有其他文字出现,需要说明的备注用“*”号标出,写在表的底线下面。20、常用的统计图有哪几种?它们的适用条件是什么? 答: 常用的统计图及适用条件是: 条图,适用于相互独立的资料,以表示其指标大小;百分条图及园图,适用于构成比资料,反映各组成部分的大小;普通线图: 适用于连续性资料,反映事物在时间上的发展变化的趋势,或某现象随另一现象变迁的情况。半对数线图,适用于连续性资料,反映事物发展速度(相对比)。直方图: 适用于连续性变量资料,反映连续变量的频数分布。散点图: 适用于成对数据,反映散点分布的趋势。21、 调查研究和实验研究的主要区别何在?答:调查研究的主要特点是研究过程中没有人为施加的干预措施,而是客观地观察记录某些现象的现状及其相关特征。在调查中,与研究的现象及其相关特征(包括研究因素和非研究因素)是客观存在的,不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响,这是调查研究区别于实验研究的最重要的特征。实验研究是使设计的实验因素或处理因素在其它干扰因素被严格控制的条件下,观察其对实验结果或实验效应的作用及影响。22、 调查中非抽样误差的来源有哪些?如何控制?如何评价调查质量?来源:(一)设计阶段:调查指标选择不当 调查对象的范围划分不当。 调查项目的定义不明确。 周岁年龄计算不准确。 控制:编制周密的逻辑检查与计算检查提纲,以提高资料检查的效果。(二) 调查阶段:调查人员的工作态度不好,业务水平不足。被调查者因故不在、躲避调查、拒绝回答、有意隐瞒、记忆不清等。 控制:为此应广泛开展宣传,争取群众积极配合;家访要摸清被调查者在家的时间规律,并作必要的补查;对敏感问题,要进行细致的思想工作,注意保密,或从侧面了解,或用下节随机应答技术;对记忆不清者可请知情人、同龄人帮助回忆。(三) 整理与分析阶段:可能来自编码、录入、汇总、计算等方面的错误。控制:应严格地进行资料清理和检查,及时发现和更正错误。评价调查质量必须联系非抽样误差的控制,后者一般采用两种方法来衡量:抽样复查。即随机抽取部分已调查对象,再次组织更严格的标准调查,抽查人员不得在原调查单位参加复查 与不同来源的同类资料作对比。