logistic回归-周虹.ppt
Logistic 回归Logistic Regression,公共卫生学院妇女与儿童青少年卫生学系周虹,多元线性回归分析:用来分析多个自变量与一个因变量的关系;模型中因变量Y是连续性随机变量,并要求服从正态分布。但是,在医学研究中,常碰到因变量为非连续性变量的情况。,常见的有三类:,二项分类:如药物实验中,动物出现死亡或生存,人群中某种疾病的患病与未患病,临床实验中药物的有效与无效等。多项有序分类:如某一药物的治疗结果是治愈、显效、有效、无效。多项无序分类:如研究肝炎的类型,分为甲、乙、丙、丁、戊型等。Logistic回归(疾病的病因分析),Logistic回归分析,主要用于因变量是分类变量的回归分析。根据因变量分类的不同,常分为:-因变量为二分变量的Logistic回归;-因变量为多分类变量的Logistic回归。(有序多分类、无序多分类)此外还有用于分析匹配资料的条件Logistic回归等。研究对象未经过匹配的非条件Logistic回归和研究对象经匹配的条件Logistic回归。,一、Logistic回归模型,0为常数项或截距;1,2.m分别为m个自变量的回归系数。,Logit变换(也称对数单位转换),P为发病概率,取值0-1;1-P为不发病概率。,取值:-+,=,-4.00,-2.00,0.00,2.00,4.00,Z,0.50,1.00,Logistic回归模型的函数,P,Logistic function 取值 0-1,可描述/预测概率,Logistic 模型是概率模型 Logistic function 呈S-形曲线,符合流行病学对危险因素与疾病风险关系的认识,Logistic回归模型特点:,Logistic回归的自变量(影响因素),-可以是连续变量,也可以是分类变量。,-如果自变量中有分类变量,应以数字表示不同分类,如:“吸烟状况”为自变量,可以:=表示吸烟=0 表示不吸烟。,二、回归模型参数的意义,单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即m表示Xm改变一个单位时,因变量的平均变化量,与衡量危险因素作用大小的比值比(OR)有一个对应的关系。,模型中回归系数:,常用于解释病例对照研究中的OR,病例对照研究:是以确诊患有某特定疾病的病人作为病例,以不患有该病但具有可比性的个体作为对照,搜集既往可能的危险因素的暴露史,并通过统计学方法,评估暴露因素与疾病之间是否存在统计学上的关联。常用于疾病病因的探索。,例:口服避孕药(OC)与心肌梗塞(MI)关系,-统计学检验 X2=7.70,p0.01 结论为拒绝无效假设,即两组暴露率差异有统计学意义。,比值比(Odds ratio,OR):考察关联强度大小,即暴露组的疾病危险性为非暴露组的多少倍。定量描述危险因素与疾病之间的关系。,比值 Odds=P/(1-P)比值比OR=P/(1-P)/P/(1-P),设P表示暴露因素下个体发病的概率,则发病的概率P与未发病的概率1-P 之比为比值。,比值比 Odds Ratio,Odds=P/(1-P)暴露组:P=a/(a+b)1-P=b/(a+b)Odds=a/b非暴露组:P=c/(c+d)1-P=d/(c+d)Odds=c/d,OR1,疾病的危险度因暴露而增加;OR1,疾病的危险度因暴露而减少;OR=1,疾病的发生与暴露无关。本例,OR=2.195,说明口服避孕药患心肌梗塞的危险是没有口服避孕药的2.195倍。,当一种病的死亡率(或发病率)近似于零时,1-P1,则有:ORP1/P0=RR,RR为相对危险度,Logistic回归系数与OR的关系:,有Logistic回归模型:如果要分析其中X2(假设是口服避孕药)变化一个单位对于 的影响程度,可以计算当分别为(X2+1)和时 的值,并计算其比值,此时其它变量保持相同,如下表:,Logistic回归系数与OR的关系:,暴露:,非暴露:,例:log odds(Y=1)=-4.353+0.038 age,:妇女是否患有骨质疏松,Y=1为是,Y=0为否,当年龄为a时,odds(Y=1|age=a)=exp(-4.353+0.038 a)当年龄为a+1,odds(Y=1|age=a+1)=exp(-4.353+0.038(a+1)Odds ratio=exp(0.038)=1.0387年龄每增加一岁,患骨质疏松的可能性增加3.87%,Logistic回归方程求解参数采用最大似然估计法(Maximum likehood estimate)似然函数值(L)表达的是一种概率,即在假设拟合模型为真实情况时,能够观察到某一特定样本数据的概率,这个函数值在(0,1)之间。因为对这个函数值取自然对数后在数学处理上更为方便,而且又因为这个函数值是个极小的小数,其对数值是负数,所以通常用-2lnL表示函数的大小。,三、模型中的参数估计,四、模型检验和评价,1、对模型回归系数整体的检验:检验模型中所有自变量整体看是否与所研究事件的对数比值比存在线性关系-似然比检验(likehood ratio test)通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数的变化来进行,其统计量为G(又称Deviance)。G=-2(ln Lp-ln Lk)样本量较大时,G近似服从自由度为待检验因素个数的分布。此外,还可以采用计分检验、Wald检验。,2、对模型中单一的回归系数的检验 H0:i=0,Wald统计量的计算公式为:Wald值服从自由度为1的卡方分布,Wald值越大表明该自变量的作用越显著。,方法:Wald检验,1)拟合分类表,根据Logistic回归模型,对样本重新判别分类,符合率越高,模型拟合越好。注意:Logistic回归用于判别分类很粗劣,此法仅作参考。,3、对模型的评价,2)最大似然函数值(Likelihood),SPSS提供了-2Log Likelihood,此值越小越好,报告值越大,意味着回归方程的似然值越小,标志模型的拟合程度越差。很低的L值说明:1)可能Logistic回归不合适;2)可能影响因变量的主要因素未被考虑在内。,在评价或检验一个Logistic回归模型时,通常是将其与只有截距、没有自变量的模型相比较,比较在加入自变量后新的模型对数据的拟合水平是否有所提高,即这些变量是否像模型假设的那样提供了对于因变量变化的解释。模型拟合好,x2值大,P值小。,3)似然比检验,例:,H0:1=2=m=0,Model Chi-square 28.242 df=2 P0.001,说明所有自变量从总体上看,是有统计显著性的,五、变量筛选,基本思想同线性回归分析。从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的三种统计量之一。,为计算方便,通常向前选取变量用似然比或记分检验,而向后剔除变量常用Wald检验。,六、Logistic回归分析的应用,-筛选危险因素-校正混杂因素-预测与判别,七、注意事项,应用条件:1.各观察对象间相互独立;2.与自变量呈线性关系。,变量的取值形式:变量采取不同的取值形式,参数的含义、量值及符号都可能发生变化。二分类变量:0、1(连续性变量或哑变量)多分类无序变量:哑变量 多分类有序(等级)变量:连续性变量或哑变量 连续性变量:转换为分类变量较易解释OR值的意义。样本量:一般不小于200例,配对资料对子数n大于等于变量的20倍,否则回归系数的估计是有偏性的。不应单纯依赖程序筛选变量,要注意变量的医学意义。,多元线性回归分析与Logistic回归分析都是实际工作中常用的方法,用于影响因素分析时,多元线性回归的因变量是连续变量,而Logistic回归的因变量是分类变量;两种方法的自变量均可为连续变量或分类变量,当为多分类变量时均需设相应的哑变量。,例:比较新疗法与旧疗法治疗某种疾病的疗效。现对40例患者随机分组,分别接受新疗法和旧疗法治疗。根据专业知识,患者的病情严重程度、年龄对疗效也有影响。如何评价新旧疗法的疗效?(见数据文件logistic.sav)(注:作为举例,本例样本量仅为40例,由于样本量太小,Logistic回归的结论仅作为参考),八、应用实例,变量说明:Y:治愈情况 1=治愈;0=未治愈;X1:病情严重程度 0=不严重,1=严重;X2:年龄X3:治疗方法 0=新疗法,1=旧疗法。,因变量,协变量(自变量),后退法筛选变量,OR的95%置信区间,拟合分类表,对模型的检验,对模型拟合的优良性评价:-2Log likelihood有小幅上升,但差异不大。两种决定系数差异也不大。说明第二步结果的拟合程度没有改善,反而稍有下降。,拟合分类表,符合率为72.5%,本次分析最后一步的预测正确率为72.5%,稍显不足,而且与step 1差异不大。这与上表中的模型评价结论一致。,回归系数,标准误,Wald值,P值,OR,OR置信区间,不在模型中的变量,分析结果的解释:病情严重程度X1与治疗方法X3对患者的治愈情况有影响;病情严重组相对于不严重组,OR0.160(病情严重的患者,其治愈的概率是病情不严重的患者的0.160倍),95%置信区间为(0.031,0.821);旧疗法组相对于新疗法组,OR0.118,(接受旧疗法的患者,其治愈的概率是接受新疗法的患者的0.118倍),95%置信区间为(0.024,0.589)。,Logistic回归模型为:,补充:Logistic回归分析的其他应用,假设检验的目的:推断多个总体率是否相等,结果解释:当P0.05,拒绝H0时,总的说来各组有差别,但并不意味着任何两组都有差别:可能是任何两者间都有差别,也可能其中某两者间有差别,而其它组间无差别。目前尚无公认的进一步两两比较的方法(可考虑采用Logistic回归),回顾:分类变量的假设检验 完全随机设计的多个样本比较,例:某省从3个水中氟含量不同的地区随机抽取1012岁儿童,进行第一恒齿患病率的调查(见数据文件p231.sav),问3个地区儿童第一恒齿患病率是否不同?,变量说明:group:组别,1=高氟区,2=干预区,3低氟区;effect:1=患龋,2=未患龋;freq:频数。,经2检验,2=10.489,P=0.005,可以认为:总的来说三个地区患龋情况有差别。,如何进一步判断哪两个地区有差别?,在进行Logistic回归分析之前,需要用对变量进行加权,以低氟区为参照,其他两个地区与低氟区进行比较。,Categorical对话框,Options对话框,对模型的检验,结论:经统计学检验,2=11.852,P=0.003,Logistic模型有显著性。高氟区、干预区与低氟区相比,患病率均有差异(P0.05)。,参考书,颜虹主编.医学统计学.北京:人民卫生出版社,2005金丕焕主编.医用统计方法,第2版.上海:复旦大学出版社,2003 孙振球主编.医学统计学,第2版.北京:人民卫生出版社,2005孙尚拱编著.医学多变量统计与统计软件.北京:北京医科大学出版社,2000,谢谢!,