临床科研中常用的统计分析方法.ppt
临床科研中常用的统计分析方法,邢建民北京中医药大学循证医学中心2023/5/24,运用之妙,存乎一心,主要内容,如何正确抉择统计方法常用的统计方法中医领域的应用,一、如何正确抉择统计方法,1 分析集2 研究目的3 资料类型4 设计类型5方法的应用/适用条件,1 分析集(ANALYSIS SET),分析集应在研究设计阶段确定,建立规则。意向性分析集(intention to treat,ITT)全分析集(Full analysis set,FAS)符合方案集(per protocol set,PPS)安全集(safety set,SS),使用适宜、正确的统计分析方法是统计结论真实可靠的重要保证。统计分析包括:统计描述:选择什么样的指标,选用统计表还是图取决于资料的性质及研究目的等统计推断:方法的正确抉择与研究目的、资料类型、设计类型、样本大小、资料分布类型、数据结构、特定条件综合分析等有关。,2 研究目的,研究目的通常有:估计参数的点估计和区间估计比较t、u、ANOVA筛选主要影响因素回归相关分析各种相关建立临床医学参考值范围校正与控制混杂因素协方差分析、CMH因果关系分析通径分析预测、预报分析回归。等等,3 资料类型,资料类型包括三个方面数据性质定量资料定性资料资料分布类型正态分布偏态分布分布类型不清结局变量的类型数值变量分类变量二分类无序多分类有序分类,4 设计类型,统计设计的类型取决于研究目的,实际上是为了更好地达到研究目的而采取的设计方案从统计学上来讲,临床上常用的有:完全随机设计配对设计随机区组设计交叉设计序贯设计重复测量设计,5 统计方法的应用/使用条件,对样本量的要求对应变量、自变量分布类型的要求对数据缺失程度的要求,二、常用的统计分析方法,差异性检验疗效性检验优效性等效性非劣效性,2.1 差异性检验(1),临床试验中的3种数据来源处理反应影响因素,基线测定数据的可比性:20个指标中有4个有统计学意义,则随机有问题(P=0.0159),2.1 差异性检验(2),定性数据统计描述统计描述频数和百分比统计推论两个率的比较卡方检验、Fisher;logistic回归等级定性反应变量卡方、Ridit、秩和检验、CMH,2.1 差异性检验(3),定量数据统计描述例数、均数、标准差、中位数、四分位数间距、最大值、最小值统计推论t检验ANOVAGLM(协方差)生存时间N年生存率、中位生存期、无病进展时间等Life tableK-M testCOX,2.1 差异性检验(4),申杰主编.中医统计学.北京:科学出版社,2009:P33.,2.2 临床试验的优效性、等效性、非劣效性检验方法,差异性检验:通常所用的统计分析方法都是进行的差异性检验临床试验的三种检验,确切的说是为三种设计而进行的分析方法,金丕焕.临床试验.复旦大学出版社.p86,统计分析方法同差异性检验方法,但是单侧检验。须在研究设计阶段确定。,可信区间估计,3.中医领域的应用,方差分析一类方法,完全随机设计随机区组设计交叉设计拉丁方设计析因设计正交设计均匀设计嵌套设计重复测量设计裂区设计协方差分析多元方差分析重复测量的方差分析,协方差分析的概念协方差分析模型协方差分析举例,协方差分析,试验设计的三项基本原则,目的就是为了排除非处理因素的干扰和影响,使试验误差的估计降到最低限度,从而可以准确地获得处理因素的试验效应。但在某些实际问题中,有些因素在目前还不能控制或难以控制,如在动物饲养试验中,动物增加的平均体重不仅仅与动物的进食量有关,甚至与各动物的初始重量等因素有关系。如果直接进行方差分析,会因为混杂因素的影响而无法得出正确结论。,一、协方差分析的概念,协方差分析(Analysis of Covariance)是将回归分析与方差分析结合起来使用的一种分析方法。它先将定量的影响因素看作自变量,或称为协变量,建立因变量随自变量变化的回归方程,这样就可以利用回归方程把因变量的变化中受定量因素的影响扣除掉,从而能够较合理地比较因变量的总体均数之间是否有显著性的差别,增加了分析的准确性。协方差分析的功用就是用处理前的基数矫正处理后的结果,提高其精确度。,定义,考察某因素对因变量Y的影响,布置了一单项分类资料的试验,其方差分析模型为:yij=i+ij i该因素第i个水平的效应,ij为随机误差 同时收集到与y有密切回归关系的变量x,其方差分析模型变为:yij=i+b(xij-x)+dij b为y对x的回归系数,dij为随机误差,二、协方差分析模型,平行性假定:各组协变量和因变量的关系是线性的各组残差正态各组回归斜率相等,即各组回归线是平行的,1、比较三种猪饲料 A1,A3,A3对猪催肥的效果,测得每头猪增加的重量(y)与初始重量(x)与数据如表。试测定三种饲料对猪的催肥有无显著的不同?初始重量与猪的增加重量之间有无明显的关系?,三、协方差举例,1、平方和2、回归关系的显著性检验,协方差举例,3、纠正后的处理间方差分析4、用回归纠正每处理的平均增重,协方差举例,yi=i+b(xi-x),1、统计资料应服从正态分布,否则要做适当的统计代换。2、做一般方差分析时处理间差异显著,而做协方差分析时,处理间差异反而不显著,说明所谓的差异是由于初始的试验条件造成的,并非处理间真正的差异。3、做一般方差分析时处理间差异不显著,而做协方差分析时,处理间差异反而显著,说明除去试验条件的影响后处理间有真正的差异。,注意的问题,重复测量设计的方差分析,重复测量设计,一、重复测量资料的数据特征当对同一受试对象在不同时间重复测量次数p3时,称为重复测量设计或重复测量数据。,图例,重复测量资料,是同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料,常用来分析该观察指标在不同时间点上的变化。有时是从同一个体的不同部位(或组织)上重复测量获得的指标的观测值。,目的:就是比较不同时间点动态变化趋势的特征,问题?,想一想?同一观察单位具有多个观察值,而这些观察值来自同一受试对象的不同时点(部位等),这类数据间往往有相关性存在,违背了方差分析要求数据满足独立性基本条件。,在这种情况下:,若使用一般的方差分析,就不能充分揭示出内在的特点,有时甚至会得出错误结论。,所以重复测量资料需要采用专门的统计分析方法,该方法是近代统计学研究的热点之一。,实际中:重复测量资料比独立资料更多见。,临床研究中,需要观察病人在不同时间的某些生理、生化或病理指标的变化趋势,研究不同时间或疗程的治疗效果。流行病学研究中,观察队列人群在不同时间上的发病情况。研究不同职业、性别人群实施某种控制后,不同时间的多次效果考察。卫生学研究中,纵向观察儿童生长发育规律等,不同地区和环境营养状况。,提醒大家,重复测量数据在医学研究中十分常见,在医学类杂志上约占四分之一,而且统计表达和分析误用情况严重。,主要优点,减少样本含量控制个体变异非实验因素(干扰因素),单变量重复测量方差分析,1.单组重复测量指同一组内(或接受同一种处理)的多个受试者,在多个时间点上的反应变量所作的测量,又称为单变量重复测量。,2.多组重复测量(多组并不等于多因素),指将受试者按处理的不同水平分为几个组,对这些组内的每一受试者,都在不同时间点对他们的反应变量进行测量。,表3.1(余松林),1.单组重复测量数据方差分析2.两组重复测量数据方差分析,单变量重复测量方差分析,二、重复测量资料分析的前提条件和基本步骤,1.前提条件:首先要求样本是随机的,除了满足一般方差分析条件外,特别强调满足协方差阵(covariance matrix)球形性。,sphericity,概念:,协方差阵的球对称性是指该对角线元素(方差)相等、非主对角线元素(协方差)为零,若球对称性得不到满足,方差分析的F值是有偏的,会增大类错误的概率,2.用Mauchly法检验协方差阵的球形性质,如果P值大于,说明协方差阵的球对称性质得到满足。否则,必须对与时间有关的F统计量的分子和分母自由度进行调整,减少类错误的概率。调整系数为:(读:epsilon),3.自由度常用调整方法,Greenhouse-Geisser 法,简称:G-G法Huynh-Feldt 法,简称:H-F法Lower-bound法,简称:L-B下界法以上前两种方法较复杂,采用软件计算。,4.举例:单组重复测量数据的方差分析,观察10名慢性乙型肝炎患者治疗前、治疗12周、24周、36周四个时间点上谷丙转氨酶(ALT)水平的变化趋势,结果见下表,试进行统计推断。,分析:数据结构上与完全区组设计相似但实质不同,各观测点时间顺序是固定的,不能随机分配;不同观测点数据彼此不独立或不完全独立,存在一定的相关性。,SAS结果中包括偏相关阵,例题 1.建立假设,确定检验水准0.01,2.进行球对称性检验,球对称性通常采用Mauchlys test检验标准来判断,3.调整时间点F值的自由度调整原则:,当资料满足“球对称”(Sphericity)条件时(P),不作调整。当资料不满足“球对称”条件时(P),时间点间F值的自由度需要调整。常用的调整方法,4.计算F值,球对称性通常采用MAUCHLYS TEST检验来判断,其结果按0.1水准检验,不满足球对称性,对系数进行校正,其结果如下:,结果显示:治疗前与治疗后不同时间转氨酶平均水平不同。,5.单组重复测量方差分析数据结构,6.基本程序格式,Nouni 不打印输出单变量分析结果Printe 产生Mauchly 球性检验的统计量2、P值,分析:单组重复测量数据分析的缺陷只能分析观察对象的观测值在不同时间点的差别。,专业认为:不同时间点上的观测值变化可能是“处理”的作用,也可能是患者病情的自然变化,与“处理”无关,如果要分析“处理”效应,必须设立一个平行对照组,通过组间差别的大小说明“处理”组效应的大小。两独立样本重复测量设计是将N个受试对象随机地等分两组,一组作为实验组,另一组作为对照组。,为研究国产某药品与同类型进口药品对慢性乙型肝炎患者谷丙转氨酶(ALT)水平的影响,将20名慢性乙型肝炎患者随机分为两组,一组服用国产药作为实验组,一组服用进口药作为对照组。对每一患者在治疗前、治疗后12周、24周、36周重复4次测量ALT水平,实验结果见下表。问两种药物对慢性乙型肝炎患者的ALT水平影响是否不同?,5.举例:两组重复测量数据方差分析,表,国产药,进口药,分析结果,同一患者重复测量值就是组间差异患者之间的个体差异就是组内误差,两样本重复测量数据方差分析结果,程序如下,两组重复测量数据结构,相关分析结果,球对称性检验结果,方差分析结果,结果显示汇总,总结论为:不同药物对ALT水平未见不同,但两药物在不同时间点ALT有差别,药物与时间的交互作用无意义。,问题?,从以上分析可见:无论单组或两组分析,我们仅算出总的有差别,两两比较未知的?分析方法与一般方差分析不同。,Contrast(1)产生不同水平间同括弧内指定的参考水平对比检验Summary 定义每个对比组生成方差分析表,后多个重复测量时间点与前第1时间点比,原程序如下:,结果分析,两组比较数据分析,所关注的结果如下,CONTRAST(1)结果比较结构,有时试验仅对先后两个时间点的比较感兴趣,也希望比较水平1与2、2与3、3与4比可用选择项PROFILE,程序如下:,proc glm data=SASfeng.p178;model time0 time12 time24 time36=A/nouni;repeated time profile/printm summary;run;,提示:显示不同水平比较时的结构,显示不同水平比较时的结构,当兴趣在于1个水平与以后的所有水平的比较时,可选HELMERT,.;repeated time helmert/printm summary;.;,小结:两两比较参数选择,repeated time?/?m summary;,1.重复测量数据的主要特征是什么?2.重复测量SAS数据录入结构?3.球对称性检验?4.不同水平间与不同组间比较选项?5.推断结论?,两组,一组给予曲明片十模拟曲明胶囊,另一组给予曲明胶囊十模拟曲明片。所有患者每天坚持服药,共服药6个月(24周),受试期间禁用任何影响体重的药物,而且受试对象行为、饮食及运动与服药前的平衡期均保持一致。分别于平衡期(0周)、服药后的8周、16周、24周测定肥胖患者的体重(kg)得表9-13的资料。,例题 为研究减肥新药盐酸西布曲明片和盐酸西布曲明胶囊的减肥效果是否不同,以及肥胖患者服药后不同时间的体重随时间的变化情况。采用双盲双模拟随机对照试验,将体重指数BMI27的肥胖患者40名随机等分成,表9-13,可以看出重复测量资料中同一受试对象(看成区组)的数据高度相关,无论哪位受试对象服用曲明片剂或是胶囊,其服药后8周、16周和24周的体重均和前面时间点(含服药前的0周)的体重相关。不同时点数据其相关性较强。,重复测量资料方差分析的基本步骤,分为三步:,计算检验统计量:使用统计软件进行计算结果如下:,确定P值,做出推断结论:,根据专业知识和假设检验,直接由计算机所给 P值做出推断结论。,按=0.05水准,减肥药剂型k(片剂和胶囊),剂型k与时间i的交互效应ki均不拒绝H0,无统计学意义,还不能认为曲明不同剂型的减肥效果不同,也还不能认为剂型k与时间i间有交互效应。而时间因素i拒绝H0,接受H1,有统计学意义,可认为服用减肥药盐酸西市曲明前后不同时间(8周、16周和24周)的平均体重不全相同。,重复测量资料方差分析的前提条件,重复测量资料的方差分析,除了满足一般方差分析的条件外,还要满足协方差阵的球形性或复合对称性。若条件不能满足,F值有偏性,通常采用Mauchly检验来判断,通过软件选参数计算。,校正后的结果:,两组重复测量数据结构,SAS程序,显示该资料不满足球对称性,参看校正结果。,结果表明经G-G和H-F调整后,按0.05检验水准,A(不同药物)和A与TIME(时间)无统计学意义,后者无交互作用,而时间因素间有统计学意义。,例4 用丹参注射液治疗7例慢性肾功能衰竭患者,治疗前后不同时间各患者的血尿素氮(BUN)的变化,如表所示。试比较治疗前后不同时间各患者血尿素氮的变化是否不同?,表4-5 丹参注射液治疗慢性肾衰患者 不同时间的BUN(mg/dl)变化 治 疗 后不同患者 治疗前 第2周 第4周 第6周 1 60.7 41.0 34.5 36.2 2 65.2 44.7 41.2 39.4 3 66.3 42.4 40.5 37.7 4 67.1 49.1 43.3 40.2 5 62.8 38.5 40.1 35.8 6 72.5 52.3 44.6 37.6 7 58.0 35.0 38.6 37.2,题意分析:本题要探讨治疗前后“不同时间”,又要研究“不同患者”的血尿素氮的变化,是属于按两因素分组的多个均数间比较的重复测量方差分析,首先在Insight中建立数据集,本题变量FL为不同治疗时间的分组变量,如治疗前为1,治疗后第2周为2,第6周为4。X为BUN的测定值。建好结构录入数据,格式如图4-17所示,数据集名为L2,存入SASUSER库中,备用。,如图所示:,91,生存分析SURVIVAL ANALYSIS,92,何为生存分析,93,传统方法在分析随访资料时的困难,时间和生存结局都成为了要关心的因素 除了生存结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当是被认为有效的。即时间延长也认为有效 如果将两者均作为应变量拟和多元模型,因为时间分布不明(一般不呈正态分布,在不同情况下的分布规律也不同),拟和多元模型极为困难,94,传统方法在分析随访资料时的困难,存在大量失访的资料失去联系(病人搬走,电话号码改变)无法观察到结局(死于其他原因)研究截止 显然,将失访数据无论是算作死亡还是存活似乎都不大合理,95,第一节 概述,96,一、基本概念,(一)生存时间(survival time):1定义:广义的生存时间是指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。也称失效时间(failure time)。2特点:(1)分布类型不易确定。一般不服从正态分布,有时近似服从指数分布、Weibull分布、Gompertz分布等,多数情况下往往不服从任 何规则的分布类型。,97,(2)生存时间的影响因素多而复杂且不易控制。(3)根据研究对象的结局,生存时间数据可分两种类型:完全数据(complete data):观察对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。截尾数据(截尾值、删失数据,censored data):尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。常用符号“”表示。,98,截尾值(CENSORED VALUE)出现的原因,截尾的原因主要有3种:失访:生存但中途失访:包括拒绝访问、失去联系等。退出:中途退出试验、改变治疗方案、死于其它与研究无关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。终止:指观察期结束时仍未出现结局。,99,关于截尾或删失,失访失访研究截止时仍存活,100,101,102,103,104,105,106,107,风险函数与生存函数的关系,108,109,110,111,第二节 生存率估计的非参数法,112,113,114,115,图16-2 两种疗法治疗后白血病患者的生存率曲线,116,117,118,119,120,121,122,123,124,125,第三节 生存率的比较,生存率比较的假设检验方法有参数法、半参数法和非参数法,因医学研究中的生存时间资料大多为不规则分布或者分布未知,常采用非参数法进行假设检验。非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。常用的非参数检验方法有log-rank 检验(时序检验)、Gehan比分检验和Breslow检验等。,126,127,128,129,130,131,续表,132,133,134,对于大样本资料生存率的比较,可以将其整理成频数表形式,采用寿命表法计算生存率然后进行比较,其基本原理与上述方法相同。,135,第四节 COX比例风险回归模型,136,137,一、COX比例风险回归模型的基本形式,看下面例子,138,如果分析x1-x6这6个因素对生存时间t的影响,能否用线性回归分析建立时间t与影响因素间的线性回归方程?或建立生存函数S(t)与影响因素间的线性回归方程?t=b0+b1x1+b2x2+b6x6?S(t)=b0+b1x1+b2x2+b6x6?,1、生存时间t一般不服从正态 分布;2、生存时间t中含有截尾值。,139,利用生存率函数S(t,X)与风险函数h(t,X)的关系可导出,较好的解决截尾值的问题,反映了协变量X与生存函数的关系,Cox模型的基本形式,140,所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。,右侧可分为两部分:h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型。,141,142,143,144,145,146,二、COX回归分析的步骤:,确定自变量和因变量参数估计,拟和模型对模型的假设检验模型的解释及应用对模型的拟和优度检验,147,模型的参数估计,(一)参数估计-偏似然估计,148,代表ti时刻以后危险集R(ti)中对似然函数作贡献的个体,将n个病人死亡的 条件概率相乘,149,模型的假设检验,150,151,152,COX回归分析的应用实例,153,154,调用Cox模型分析模块,分析数据集为cox,建立生存时间为t,截尾指示变量为d 的Cox模型,d 取值为1时表示截尾,选入和剔出水平均为0.05,计算筛选因素的相对危险度及其95%的可信区间,155,治疗方式(x4):相对危险度为5.820,说明传统的治疗方式和新的治疗方式相比,病人死亡的风险为5.820倍,相对危险度的95%的可信区间为1.98917.031;淋巴结是否转移(x5)的RR值的含义与治疗方式相同。,156,四、COX模型的适用范围,Cox模型适用于生存资料的统计分析,属半参数模型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。另外,Cox模型能分析具有截尾数值的生存时间。Cox模型在临床流行病学分析中,使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。,157,五、COX模型的适用范围及注意事项,1设计阶段应注意的问题 2模型拟合时应注意的问题 3模型应用时应注意的问题,The end!Thanks!,