医学统计学知识点考点研究生 详细.docx
医学统计学 知识点考点研究生 详细一、名词解释 1.总体;样本 总体:根据研究目的确定的、同质的全部观察单位某一指标的测量值总体。根据总体集合所包括元素是否有限,分为有限与无限总体。总体具有特定的分布特征及参数; 样本:以某方式按预先规定的概率从总体中随机抽取的、具有足够数量的、能够代表总体分布特征的一部分观察单位某指标数据的集合。 根据研究目的从总体中抽取部分有代表性的样本,用样本统计量推断总体参数。 2.标准差;标准误 标准差:是描述单个测量值对其均数的离散程度。标准差越大,数据的离散程度就越大,均数的代表性越差;标准差越小,均数的代表性越好。 标准误:样本统计量的标准差称为标准误,它反映样本统计量的抽样误差的大小,也反映样本统计量对总体参数的离散程度。标准误大,表示样本统计量对总体参数的代表性差;标准误小,则表示样本统计量对总体参数的代表性好。 比较内容 标准差 意义 标准误 描述单个原始观测值与均数的平描述样本均数间以及样本统计均离散程度。越小表示离散程度越量对总体参数的离散程度。说明小,均数代表性好 抽样误差大小,越小表示样本统计量对总体参数的代表性越好 计算方法 变量值的标准差为 样本均数的标准误 Sx=S nS=å 2n-1阳性结果的标准差为 S=np样本阳性率的标准误为 Sp=小 p(1-p) n数值大小 大 用途 用于描述观测值的变异范围 制定正常参考值范围;计算cv 用于推断总体参数的可信区间和假设检验 3、x±1.96s;x±ta/2(v)×sx x±1.96s:表示从正态总体中抽样,样本含量较大时,观测值双侧95%的波动范围 x±ta/2(v)×sx:从正态总体中抽样,样本含量较大(小)时,按照预先给定的概率a确定的总体均值的的可信区间。 4.计量资料;计数资料(分类变量资料) 计量资料:通过度量的方法,测量每个观察单位的某项指标的量的大小而得到的一系列数据资料,其特点是多有度量单位或多为连续性资料。 计数资料:指将全体观察单位按某种属性分组,然后再分别清点各组观察单位的个数而得到的数据资料,其特点是没有度量单位或多为非连续性资料 5.点估计;区间估计 点估计:直接利用样本统计量的一个数值来估计总体参数,比如基于一份随机样本,用x估计u,用p估计p,用S估计s。点估计方法简单,但未考虑抽样误差,故难以反映估计值对其真值的代表性。 区间估计:将样本统计量和标准误结合起来,按预先给定的概率所确定的一个包含未知总体参数的范围,该范围为总体参数的置信区间。预先给定的概率称为可信度或置信度,常取95%或99%。 6.回顾性研究;前瞻性研究 回顾性研究:即病例对照研究,是由果到因,即先选定病例组和对照组,然后分别回顾两组过去的暴露情况,比较其差异,探索与发病相关的可能因素。回顾性研究的优点是对于患病率非常低的研究人群可获得较高的效果,研究周期较短和可以探索多个因素与患病的关联;其缺点是不能估计患病率和死亡率,容易产生回忆性偏倚和选择性偏倚。 前瞻性研究:即队列研究,是由因寻果,是将选定的人群按暴露状况分成暴露组和对照组,暴露组接触某个因素而对照组不接触某个因素,其他所有条件两组基本相同。经过一定时间随访,比较暴露组和对照组在随访期间的发病率,如果两组发病率不同,则归因于该暴露因素。前瞻性研究的优点是可以估计发病率,暴露测量可以做到无偏倚,结论比较可靠。其缺点是研究效率比较低,研究周期比较长导致在研究期间可能出现失访及各种混杂因素影响。 7、完全随机设计;随机区组设计 完全随机设计:又称为单因素设计或成组设计,是将同质的研究对象随机地分配到各处理组中进行实验观察,或从不同总体中随机抽样进行对比研究。 随机区组设计:又称配伍组设计,是在实验设计中用一个非研究因素的变量进行分层,每个层的观察对象数相等,并对每个层进行随机分组。 两种实验设计方案均为单因素实验设计。区别是:两者观察对象随机分配方式不同;统计分析方法不同;误差内涵及大小不同;检验效能不同。 8.独立性数据与重复性数据 独立测定数据:对一群观察对象的每个个体都独立测定一次得到的一个测定值,各测量数据之间无关联。 重复测定数据:对一个样本同时或不同时测定得到的多个测量值,各测量数据之间有关联。 9.值;P值 值:检验水准,即在假设检验中预先规定的判断小概率事件的概率尺度,通常为0.01或0.05,代表在原假设成立的前提下,拒接原假设所犯I类错误的概率。 P值:从已知总体中抽得统计量达到当前统计量这么大及比这绝对值还大的总概率,若以当前统计量为拒绝域临界点,在规定前提下,实际欲拒绝H0可能犯I类错误的概率。 假设检验规定,如果一次实验结果P,则不拒绝H0,统计结论为“差别没有统计学意义”。 如果一次实验结果P,则拒绝H0,统计结论为“差别有统计学意义”。 10.观察性研究;实验性研究 观察性研究:是指对研究对象不加任何干预措施,在完全“自然状态”下观察、记录各研究对象的特征,描述现象的本质,比较不同环境条件下疾病的发生、发展。 观察性研究可以在相应的人群中随机抽样,但不能随机分组,只能按不同的暴露水平分组。与实验性研究相比,调查中涉及的混杂因素较多,所需样本量较大,资料必须做多因素分析。 实验性研究:是指对研究对象人为施加干预的研究。在干预前,研究对象来自同一总体,研究者通过随机分组,对不同处理组的研究对象施加不同的干预,从而比较不同干预措施结果间的差异。 两者的区别为:处理因素能否由研究者主动设置;对象能否随机分组;样本大小不同;混杂因素多少不同;统计方法应用不同;严谨性,重、再现性不同。 11、r;b r:直线相关系数,描述样本资料的两变量之间线性相关性并判断其密切程度。相关系数r没有单位,在(-1,+1)范围内变动,相关系数的绝对值越接近1,两个变量的线性相关程度越强;相关系数的绝对值越接近0,两个变量的线性相关程度越弱。相关系数若为正,说明一变量随另一变量增减而增减,方向相同,为正相关;若为负,表示一变量增加、另一变量减少,即方向相反,为负相关;若为零,两变量间没有任何伴随变化趋势,为不相关或零相关。 b:直线回归系数,为回归直线的斜率,也即总体回归系数b的估计值。其统计学意义为X每改变一个单位,Y平均改变b个单位。 两者相同点为:均为数量协同变化研究;同一资料,两者方向一致;同一资料,两者假设检验一致;均有一定的线性范围;bxy×byx=r2 两者不同点为:含义不同:r表示服从双变量正态分布的两个变量间的数量协同变化的密切程度,b表示变量Y随变量X呈现出的线性依存关系;两者表达式不同;两者应用范围不同:直线相关应用于流行病学、探索性实验研究;直线回归应用于实验室工作曲线研究。 12、灵敏度;特异度 灵敏度:表示实际患病按检测结果正确判为有病的概率。灵敏度反映诊断方法正确诊断某病的能力,灵敏度越高,诊断为假阴性的概率越小,即漏诊的可能性越小。 特异度:表示实际未患病按检测结果正确判为没病的概率。特异度反映诊断方法正确排除某病的能力,其值越大,诊断为假阳性的概率越小,即误诊的可能性越小。 13、精密度;准确度 精密度:表示用同种测试方法重复测定同一样品,其测定结果的一致性。可用标准差或变异系数描述。 准确度:表示用某种测试方法测定某一样品,其测定值对真值的偏离程度,一般可用回收率表示。 14、关联性分析;趋势性分析 关联性分析:是研究具有相互作用或单向作用的两变量取值或取值频数是否存在影响与联系的统计分析方法。关联性分析较趋势性分析内涵更宽泛,适用资料广,但量化含义相对粗犷,适合于社会学调查资料分析,对于定类变量一般不计方向。 趋势性分析:针对一个变量随同另一个变量的数量变化有规律地发生线性或非线性数量协变关系,研究其协变关系规律的统计分析方法称为“趋势性分析”。 15.筛查试验的阳性预测值与阴性预测值 筛检的阳性预报率:表示某种诊断方法预测阳性结果的正确率,即诊断结果为阳性者实际患病的概率。 筛检的阴性预报率:表示某种诊断方法诊断结果为阴性者实际未患病的概率。 二、填空题(5个,20空)及选择题 1.x±s; M;Q=X(75%)-X(25%) x±s:表示一个算术均数为x,标准差为s的样本。 M:中位数,指的是在按大小顺序排列的一个变量的所有n个观察值中,位于正中间的那个数值。当计量资料中有离群值,或数据分布不对称时,或数据的上限或下限不明确时,均宜使用中位数来描述数据的集中趋势。 Q=X(75%)-X(25%):四分位数间距,为描述计量资料离散趋势的指标之一,对于计量单位相同的变量,四分位数间距越大,观察值的离散程度越大。 2.医学统计学的“六性分析”为:估计性;聚积性;差异组间对比性统计对比,临床效果对比;关联性;趋势性方向性、单调性、无量纲性、变量匹配性;协调性。 3.计量资料七种研究设计方案:单因单结果变量:完全随机设计;随机区组设计。多因单结果变量:交叉设计;析因设计;正交设计;重复测量设计。单因多结果变量:多元T2设计。 4.临床论文从理论上要包括四种分析(临床研究对比分析):均衡性检验;纳入数据集汇总与描述;效果分析:包括统计差异性检验和临床差异性检验;安全性评价。 5.诊断实验研究设计要点:要具备“金标准”,即当前国内外临床专业医师公认的诊断某种疾病的最可靠方法;要有随机对照试验和真实两组人群;执行试验者盲法检测;同期检测;最好了解人群患病率,以便对比两种患病率和计算预报率。 6.诊断实验准确度的三类评价指标:基本指标:敏感度;特异度;综合指标:准确度;尤登指数;阳性似然比;阴性似然比;其他指标:结构预报率,包括阳性预报率及阴性预报率;人群预报率,包括人群阳性预报率及人群阴性预报率。 7.实验设计的基本要素:处理因素;实验对象;实验效应。 8.实验设计的四个基本原则:随机化原则;设置均衡对照原则;足够样本含量;盲法原则。 9.临床医学参考值范围统计方法上注意点:抽取足够例数的同质“正常人”样本;确定具有实际意义的统一测量标准;根据指标的性质确定是否要分组;根据指标含义确定单、双侧范围;选择适当的百分范围,一般常用95%或99%医学参考值范围;根据资料的分布类型选择相应的计算制定医学参考值范围的方法。 10.等级资料的对比分析:等级资料比较水平差异不能用卡方检验,只能用等级秩和检验。 11.结果指标多于2个的对比性分析:单因多结果变量用T2检验。 12.单向有序列联表:原因变量为等级变量资料,结果变量为二值变量资料可做趋势性卡方分析。 13.双向有序列联表:双向等级列联表可做相关分析。 14.常用随机抽样方法有:基本抽样方法单纯随机抽样;系统随机抽样;分层随机抽样;整群随机抽样。结合型抽样方法分层整群随机抽样;多阶段随机抽样。 15.变量类型:按性质分:数值变量;等级变量;分类变量。按作用分:原因变量;结果变量;协变量;混杂变量。潜变量;显变量。 三、应用与问答题 1.为什么满足正态分布、方差齐同的多组计量资料比较不能用t检验? 多组计量资料比较时,若按预先给定的检验水准采用t检验的方法时,其检验水准a'计算公式为a'=1-(1-a)k,k假设检验次数。当k2,即比较的样本数多于两个时,a'会增大,超过研究者设定的检验水准,则会使犯第一类错误的概率增大,即拒绝实际上成立的H0,接受H1,可能将实际上无差异的两个总体误判为有差异,造成了假阳性。 2.问卷或调查表的考评内容? 、分半信度、内部一致性信度;效度考察有效性和准确性,包括:表面效度、内容效度、结构效度、标准关联效度。 关于反应度的考评。 可接受性评价 简单性;对象对问题的熟悉性;利益相关性积极性、参与性;易填写性;时间短促性。考察指标为:回收率、有效回收率、平均填表时间。 3.ROC曲线纵坐标与横坐标分别代表什么?ROC曲线的作用是什么? 横坐标为1-Spe,即假阳性率;纵坐标为Sen,真阳性率。 ROC曲线作用为对临床诊断实验数据进行分析和评价。1.通过ROC曲线的图形,可以直观地描述诊断效果及灵敏度和特异度之间的变化关系,查出任意界限值时的对疾病的识别能力。ROC曲线越偏向左上方,曲线下的面积越大,诊断试验的准确性就越高,根据实际情况权衡后,可以选取出诊断阈值;2.也可通过分别计算各个试验的ROC曲线下的面积,综合评价统计量A,对不同诊断试验对疾病诊断能力的进行假设检验,比较不同的临床诊断方法。 4.测试方法学实验误差中系统误差包括哪些? 系统误差指在一定条件下,由于某种偏因,使测量结果倾向性偏大或偏小而形成的较大测定误差,包括恒定误差和比例系统误差。恒定误差表现为恒定、线性;比例系统误差表现为周期性、非线性。 5.正交试验设计可以用来解决什么问题? 正交试验设计是利用正交表科学的安排与分析多因素实验的方法,用于相对最佳组方期望实验。 6.假设检验的原因、目的、原理及P值及a值含义? 假设检验的原因为即使研究因素不起作用,抽样误差也会导致样本统计量与总体参数的差别或两个样本统计量的差别,不能简单的根据统计量的差别下结论,必须通过假设检验才能对研究因素是否起作用或不同样本代表的总体是否有差别下结论。 假设检验的目的是推断待比较的总体参数包括总体位置参数、总体中位数、总体方差等是否一致。 假设检验的原理为小概率事件原理和反证法的思想。小概率事件原理内容为统计量抽样分布分布及其转换值分布给出了统计量分布规律,在抽样分布基础上给出单尾或双尾小概率拒绝域,拒绝域值以外的属于拒绝原假设H0所冒犯犯I类错误风险的最大概率。实际应用时,是在相应条件下计算该统计量转换实际值在抽样分布横轴上的位置,该位置点以外为实际拒绝域,概率为P值。若P>,尚无充足理由拒绝H0;若P<,有理由拒绝H0。 P值的意义为:从已知总体中抽得统计量达到当前统计量这么大及比这绝对值还大的总概率,若以当前统计量为拒绝域临界点,在规定前提下,实际欲拒绝H0可能犯I类错误的概率。 值:检验水准,即在假设检验中预先规定的判断小概率事件的概率尺度,代表在原假设成立的前提下,拒接原假设所犯I类错误的概率。 7.聚积性分析的目的及利用分布? 聚积性分析的目的是为了考察随机事件发生是否独立。如随机事件发生独立,无聚积性,则符合二项分布;如随机事件发生不独立,有聚积性,则不符合二项分布。在医学上,鉴于符合二项分布的阳性事件发生具有独立性,可以对非传染、非地方病的某些疾病分布进行试拟合。 8.单结果变量有哪些分析类别? 原因变量,推断或分析其对单结果变量的影响 对比性分析:完全随机与两组、随机区组与配对、重复测定、分层分析;趋势预报分析:一重直线回归、2×C表x2趋势。 考察多个原因变量,推断或分析其相对或共同对单结果变量的影响 对比性分析:交叉、析因、裂区系统、正交、协调性分析;趋势预报分析:多重线性或非线性回归。 9.组内分组资料应至少为两因素以上。 10.利用回归方程进行预测和统计控制的区别? 预测即把预报因子代入回归方程,对预报量进行估计,即可得到个体y值的容许区间。 控制不是“反预报”,控制是区间控制:先由x获得y的95%容许区间;根据给定的y的允许限值,寻找y95%容许区间的交叉点,其下垂线与x轴交点即是对x的控制值。 几个原理: 1多重线性回归:最小二乘原则 Logistic回归原理:变换logistic 判别分析:类间差/类内差比值最大 Cox回归: