Logistic回归分析分析课件.ppt
39,1,第十六章,logistic,回归分析,(Logistic Regression),39,2,Content,?,Logistic regression,?,Conditional logistic regression,?,Application,39,3,讲述内容,:,第一节,logistic,回归,第二节,条件,logistic,回归,第三节,logistic,回归的应用,及其注意事项,39,4,目的:,作出以多个自变量(危险因素)估计,应变量(,结果因素),的,logistic,回归方程。,属于概率型非线性回归。,资料:,1.,应变量为反映某现象发生与不发生的,二值变量;,2.,自变量宜全部或大部分为分类,变量,可有少数数值变量。分类变量要数量,化。,39,5,用途:,研究某种疾病或现象发生和多个危,险因素(或保护因子)的数量关系。,用,检验(或,u,检验)的,局限性,:,1.,只能研究,1,个危险因素;,2.,只能得出定性结论。,2,?,39,6,种类,:,1.,成组(非条件),logistic,回归方程。,2.,配对(条件),logistic,回归方程。,39,7,第一节,logistic,回归,(非条件,logistic,回归,),39,8,一、基本概念,1,0,Y,?,?,?,?,发生,应变量,未发生,1,2,m,X,X,X,L,自变量,,,在,m,个自变量的作用下阳性结果发生的概率记作,:,),|,1,(,2,1,m,X,X,X,Y,P,P,?,?,?,1,P,?,?,0,39,9,1,1,Z,P,e,?,?,?,若令,:,m,m,X,X,X,Z,?,?,?,?,?,?,?,?,?,?,2,2,1,1,0,0,1,1,2,2,ln,=,1,m,m,P,X,X,X,P,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,L,0,1,1,2,2,1,1,exp,(,),m,m,P,X,X,X,?,?,?,?,?,?,?,?,?,?,?,L,回,归,模,型,其中,0,?,为常数项,,m,?,?,?,2,1,?,为回归系数。,概率,P,:,0,1,,,logit,P,:,。,取值范围,logit,P,39,10,图,16-1,logistic,函数的图形,0,0.5,1,-4,-3,-2,-1,0,1,2,3,4,0.5,P,Z,:,0,:,0,0.5,1,P,Z,?,?,39,11,模,型,参,数,的,意,义,0,1,1,2,2,ln,=,logit,1,m,m,P,X,X,X,P,P,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,L,常数项,表示暴露剂量为,0,时个体发病,与不发病概率之比的自然对数。,回归系数,表示自变量,改变一个单位时,logit,P,的改变量。,0,?,),2,1,(,m,j,j,?,?,?,j,X,39,12,流行病学衡量危险因素作用大小的,比数比例,指标。,计算公式为:,1,1,0,0,/(1,),/(1,),j,P,P,OR,P,P,?,?,?,优势比,OR,(odds ratio),式中,1,P,和,0,P,分别表示在,j,X,取值为,1,c,及,0,c,时,的发病概率,,j,OR,称作多变量调整后的优势比,,表示扣除了其他自变量影响后危险因素的作用。,39,13,1,1,1,0,0,0,0,1,0,0,1,0,/(1,),ln,ln,logit,logit,/(1,),(,),(,),(,),j,m,m,j,t,t,j,t,t,t,j,t,j,j,P,P,OR,P,P,P,P,c,X,c,X,c,c,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,对比某一危险因素两个不同暴露水平,1,c,X,j,?,与,0,c,X,j,?,的发病,情况(假定其它因素的水平相同),,其优势比的自然对数为,:,与,logistic,P,的关系,:,39,14,0,1,exp,0,1,0,1,j,j,j,j,j,j,OR,OR,OR,OR,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,无作用,危险因,保,子,护因子,则有,1,0,1,1,0,j,c,c,X,?,?,?,?,?,?,暴,非,若,暴露,露,由于,j,OR,值与模型中的常数项,0,?,无关,,0,?,在危险因素分析中通常视其为无效参数。,1,1,0,0,/(1,),1,/(1,),P,P,P,OR,RR,P,P,?,?,?,?,?,当,则有,1,0,exp,(,),j,j,OR,c,c,?,?,?,即,39,15,1,1,(1,),i,i,n,Y,Y,i,i,i,L,P,P,?,?,?,?,?,1,ln,ln,(1,),ln(1,),n,i,i,i,i,i,L,Y,P,Y,P,?,?,?,?,?,?,m,b,b,b,b,2,1,0,?,二、,logistic,回归模型的参数估计,1.,参数估计,原理:最大似然,(,likelihood,),估计,39,16,),(,exp,?,0,1,c,c,b,R,O,j,j,?,?,若自变量,j,X,只有暴露和非暴露两个水,平,,则优势比,j,OR,的,?,?,1,可信区间估计公式为,),exp(,2,/,j,b,j,S,u,b,?,?,2,.,优势比估计,可反映某一因素两个不,同水平(,c,1,,,c,0,)的优势比,。,39,17,例,16-1,表,16-1,是一个研究吸烟、饮酒与食道癌关,系的病例对照资料,试作,logistic,回归分析。,1,2,1,0,1,0,1,0,X,X,Y,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,吸烟,不吸烟,饮酒,不饮酒,病例,对照,确,定,各,变,量,编,码,39,18,分层,吸烟,饮酒,观察例数,阳性数,阴性数,g,X,1,X,2,n,g,d,g,n,g,?,d,g,1,0,0,199,63,136,2,0,1,170,63,107,3,1,0,101,44,57,4,1,1,416,265,151,表,16-1,吸烟与食道癌关系的病例对照调查资料,39,19,logistic,回归计算后得,0,b,=-0.9099,,,0,b,S,=0.1358,;,1,b,=0.8856,,,1,b,S,=0.1500,;,2,b,=0.5261,,,2,b,S,=0.1572,吸烟与不吸烟的优势比:,1,1,?,exp,exp0.8856=2.42,OR,b,?,?,1,OR,的,95,?,可信区间,:,1,1,0.05,/,2,exp,exp(0.8856,1.96,0.1500),(1.81,3.25),b,b,u,S,?,?,?,?,?,饮酒与不饮酒的优势比,:,2,2,?,exp,exp,0.5261,1.69,OR,b,?,?,?,2,OR,的,95,?,可信区间,:,2,2,exp(,1.96,),exp(0.5261,1.96,0.1572),(1.24,2.30),b,b,S,?,?,?,?,?,经,logistic,回归计算后得,:,经,logistic,回归计算后得,0,b,=-0.9099,,,0,b,S,=0.1358,;,1,b,=0.8856,,,1,b,S,=0.1500,;,2,b,=0.5261,,,2,b,S,=0.1572,吸烟与不吸烟的优势比:,1,1,?,exp,exp,0.8856=2.42,OR,b,?,?,1,OR,的,95,?,可信区间,:,1,1,0.05,/,2,exp,exp(0.8856,1.96,0.1500),(1.81,3.25),b,b,u,S,?,?,?,?,?,饮酒与不饮酒的优势比,:,2,2,?,exp,exp,0.5261,1.69,OR,b,?,?,?,2,OR,的,95,?,可信区间,:,2,2,exp(,1.96,),exp(0.5261,1.96,0.1572),(1.24,2.30),b,b,S,?,?,?,?,?,logistic,回归计算后得,0,b,=-0.9099,,,0,b,S,=0.1358,;,1,b,=0.8856,,,1,b,S,=0.1500,;,2,b,=0.5261,,,2,b,S,=0.1572,吸烟与不吸烟的优势比:,1,1,?,exp,exp0.8856=2.42,OR,b,?,?,1,OR,的,95,?,可信区间,:,1,1,0.05,/,2,exp,exp(0.8856,1.96,0.1500),(1.81,3.25),b,b,u,S,?,?,?,?,?,饮酒与不饮酒的优势比,:,2,2,?,exp,exp,0.5261,1.69,OR,b,?,?,?,2,OR,的,95,?,可信区间,:,2,2,exp(,1.96,),exp(0.5261,1.96,0.1572),(1.24,2.30),b,b,S,?,?,?,?,?,logistic,回归计算后得,0,b,=-0.9099,,,0,b,S,=0.1358,;,1,b,=0.8856,,,1,b,S,=0.1500,;,2,b,=0.5261,,,2,b,S,=0.1572,吸烟与不吸烟的优势比:,1,1,?,exp,exp0.8856=2.42,OR,b,?,?,1,OR,的,95,?,可信区间,:,1,1,0.05,/,2,exp,exp(0.8856,1.96,0.1500),(1.81,3.25),b,b,u,S,?,?,?,?,?,饮酒与不饮酒的优势比,:,2,2,?,exp,exp,0.5261,1.69,OR,b,?,?,?,2,OR,的,95,?,可信区间,:,2,2,exp(,1.96,),exp(0.5261,1.96,0.1572),(1.24,2.30),b,b,S,?,?,?,?,?,logistic,回归计算后得,0,b,=-0.9099,,,0,b,S,=0.1358,;,1,b,=0.885,1,b,S,=0.1500,;,2,b,=0.5261,,,2,b,S,=0.15,吸烟与不吸烟的优势比:,1,?,exp,OR,?,1,OR,的,95,?,可信区间,:,1,1,0.05,/,2,exp,exp(0.8856,1.96,0,b,b,u,S,?,?,?,?,饮酒与不饮酒的优势比,:,2,2,?,exp,exp,0.5261,1.69,OR,b,?,?,?,2,OR,的,95,?,可信区间,:,2,2,exp(,1.96,),exp(0.5261,1.96,0,b,b,S,?,?,?,?,2,2,exp(,1.96,),exp(0.5261,1.96,0.1572),(1.24,2.30),b,b,S,?,?,?,?,?,2,OR,的,95,?,可信区间,:,39,20,三、,logistic,回归模型的假设检验,W,ald,检验,将各参数的估计值,j,b,与,0,比较,而,用它的标准误,j,b,S,作为参照,检验统计量为,2,1,j,j,j,j,b,b,b,b,u,S,S,?,?,?,?,?,?,?,?,?,?,?,?,?,2,或,2,2,1,2,2,0,1,1,1,0,2,2,1,2,0.8856,34.86,0.1500,0.5261,11.20,0,:,0,:,0,0.05,:,0,:,0,.157,0,05,2,.,H,H,H,H,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,2,值均大于,3.84,说明食道癌与吸烟、饮酒有关系,结论同前。,2.,1.,似然比检验,39,21,方法:,前进法、后退法和逐步法,。,检验统计量:,不是,F,统计量,而是似然比统计量、,Wald,统计量和计分统计量之一。,四、变量筛选,例,16-2,为了探讨冠心病发生的有关危险因素,对,26,例冠心病病人和,28,例对照者进行病例,?,对照研究,各,因素的说明及资料见表,16-2,和表,16-3,。试用,logistic,逐,步回归分析方法筛选危险因素。,),15,.,0,10,.,0,(,?,?,出,入,?,?,39,22,因素,变量名,赋值说明,年龄,(,岁,),X,1,45=1,45,?,54=2,55,?,64=3,65,?,=4,高血压史,X,2,无,=0,有,=1,高血压家族史,X,3,无,=0,有,=1,吸烟,X,4,不吸,=0,吸,=1,高血脂史,X,5,无,=0,有,=1,动物脂肪摄入,X,6,低,=0,高,=1,体重指数,(BMI),X,7,24=1,24,?,26=2,26,?,=3,A,型性格,X,8,否,=0,是,=1,冠心病,Y,对照,=0,,病例,=1,表,16-2,冠心病,8,个可能的危险因素与赋值,39,23,序号,X,1,X,2,X,3,X,4,X,5,X,6,X,7,X,8,Y,1,3,1,0,1,0,0,1,1,0,2,2,0,1,1,0,0,1,0,0,3,2,1,0,1,0,0,1,0,0,4,2,0,0,1,0,0,1,0,0,5,3,0,0,1,0,1,1,1,0,6,3,0,1,1,0,0,2,1,0,7,2,0,1,0,0,0,1,0,0,8,3,0,1,1,1,0,1,0,0,9,2,0,0,0,0,0,1,1,0,10,1,0,0,1,0,0,1,0,0,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,51,2,0,1,1,0,1,2,1,1,52,2,1,1,1,0,0,2,1,1,53,2,1,0,1,0,0,1,1,1,54,3,1,1,0,1,0,3,1,1,表,16-3,冠心病危险因素的病例,?,对照调查资料,39,24,表,16-4,例,16-2,进入方程中的自变量及有关参数的估计值,选入,变量,回归系,数,b,标准误,b,S,Wald,2,?,P,值,标准回归,系数,b,?,OR,常数项,-4.705,1.543,9.30,0.0023,-,-,X,1,0.924,0.477,3.76,0.0525,0.401,2.52,X,5,1.496,0.744,4.04,0.0443,0.406,4.46,X,6,3.136,1.249,6.30,0.0121,0.703,23.00,X,8,1.947,0.847,5.29,0.0215,0.523,7.01,学会看结果!,39,25,最终进入,logistic,回归模型的危险因素有,4,个,它们分别是年龄增高,),(,1,X,、高血脂史,),(,5,X,、,动物脂肪摄入量,),(,6,X,和,A,型性格,),(,8,X,。,标准回归系数,?,?,3,/,/,?,j,j,j,S,b,b,?,?,可以用,来比较各因素的相对重要性,,j,S,为变量,j,X,的,标准差,,?,=3.1416,。,39,26,配对资料。最常用的是每组中有,一个病例和若干个对照,,即,1:,M,配对,研究(一般,),3,?,M,。,一、,原理,第二节,条件,logistic,回归,39,27,匹配组,组内编号,*,应变量,危险因素,i,t,Y,X,1,X,2,X,m,1,0,1,X,101,X,102,X,10,m,1,0,X,111,X,112,X,11,m,2,0,X,121,X,122,X,12m,M,M,M,M,M,M,0,X,1M,1,X,1,M,2,X,1,Mm,M,M,M,M,M,n,0,1,X,n01,X,n02,X,n0,m,1,0,X,n11,X,n12,X,n1,m,2,0,X,n21,X,n22,X,n2m,M,M,M,M,M,M,0,X,nM,1,X,n,M,2,X,nMm,表,16-5 1:,M,条件,logistic,回归数据的格式,*,t,=0,为病例,其他为对照,39,28,条件,logistic,模型,0,1,1,2,2,1,1,exp,(,.,),i,i,m,m,P,X,X,X,?,?,?,?,?,?,?,?,?,?,?,1,2,i,n,?,L,i,P,表示第,i,层在一组危险因素作用下发病的概率,i,0,?,表示各层的效应,,m,?,?,?,2,1,?,为待估计的参数。,与非条件,logistic,回归模型不同之处在常数项,上,不同匹配组的,i,0,?,可以各不相同,但内在假定了,每个危险因素的致病能力在不同匹配组中相同。,39,29,二、应用实例,例,16-3,某北方城市研究喉癌发病的危险因素,,用,1:2,配对的病例,?,对照研究方法进行了调查。,现选取了,6,个可能,的危险因素并节录,25,对数据,,各因素的赋值说明见表,16-6,,,资料列于表,16-7,。试作条件,logistic,逐步回归分析。,表,16-6,喉癌的危险因素与赋值说明,因素,变量名,赋值说明,咽炎,X,1,无,=1,偶尔,=2,经常,=3,吸烟量,(,支,/,日,),X,2,0=1,1,?,4=2,5,?,9=3,10,?,20=4,20,?,=5,声嘶史,X,3,无,=1,偶尔,=2,经常,=3,摄食新鲜蔬菜,X,4,少,=1,经常,=2,每天,=3,摄食水果,X,5,很少,=1,少量,=2,经常,=3,癌症家族史,X,6,无,=0,有,=1,是否患喉癌,Y,病例,=1,对照,=0,),15,.,0,10,.,0,(,?,?,出,入,?,?,39,30,表,16-7,喉癌,1:2,配对病例,?,对照调查资料整理表,P344:,39,31,表,16-8,例,16-3,进入方程中的自变量及有关参数的估计值,选入的,4,个危险因素分别为吸烟量,),(,2,X,、,有声,嘶史,),(,3,X,、,是否经常摄食新鲜蔬菜,),(,4,X,及癌症家族,史,),(,6,X,,其中摄食新鲜蔬菜为保护因素,),0,(,4,?,b,。,采用逐步法,6,个危险因素,变量筛选,4,个进方程,,结果见表,16-9,。,选入变量,回归系数,b,标准误,S,b,Wald,2,?,R,O,?,P,值,X,2,1.4869,0.5506,7.29,4.42,0.0069,X,3,1.9166,0.9444,4.12,6.80,0.0424,X,4,3.7641,1.8251,4.25,0.02,0.0392,X,6,3.6321,1.8657,3.79,37.79,0.0516,39,32,一、,logistic,回归的应用,1,流行病学危险因素分析,logistic,回归分析的特点之一是参数意义清楚,,即得到某一因素的回归系数后,可以很快估计出这,一因素在不同水平下的优势比或近似相对危险度,,因此非常适合于流行病学研究。,logistic,回归既适合,于队列研究,(cohort study),,也适合于病例,-,对照研究,(case-control study),同样还可以用于断面研究,(cross-,sectional study),第三节,logistic,回归的应用及其注意事项,39,33,2,临床试验数据分析,临床试验的目的大多是为了评价某种药物或治疗方法,的效果,如果有其他影响效果的,非处理因素,(,如年龄、病,情等,),在试验组和对照组中分布,不均衡,,就有可能夸大或,掩盖试验组的治疗效果。,尽管在分组时要求按,随机化原则,分配,但由于,样本含,量有限,,非处理因素在试验组和对照组内的分布仍有可,能不均衡,需要在分析阶段对构成混杂的非处理因素进,行调整。当评价指标为,二值变量,时,(,如有效和无效,),,可以,利用,logistic,回归分析得到调整后的药物评价结果。对于,按分层设计的临床试验可以用相同的方法对分层因素进,行调整和分析。,39,34,3,分析药物或毒物的剂量反应,在一些药物或毒物效价的剂量,-,反应实验研究中,每一,只动物药物耐受量可能有很大的不同,不同剂量使动物发,生“阳性反应”的概率分布常呈正偏态,将剂量取对数后,则概率分布接近正态分布。由于正态分布函数与,logistic,分,布函数十分接近,如果用,P,表示在剂量为,X,时的阳性率,可,用下述模型表示它们之间的关系,),ln,(,ex,p,1,1,0,X,P,?,?,?,?,?,?,用这一模型可以求出任一剂量的阳性反应率,传统的一些方法往往对实验设计有严格的要求,如剂量按等比级,数排列,各剂量组的例数必须相同等,采用,logistic,回归的方法则,没有这些限制。,39,35,4,预测与判别,logistic,回归是一个,概率型模型,,因,此可以利用它预测某事件发生的概率。,例如在临床上可以根据患者的一些检,查指标,判断患某种疾病的概率有多,大。关于判别问题见第十八章。,39,36,二、,logistic,回归应用的注意事项,1,变量的取值形式,(,同,15,章,),2,样本含量,p,n,20,?,(自变量个数),3,模型评价,4,多分类,logistic,回归,?,?,?,对模型中自变量,对回归方程拟合优度检验,39,37,本章小结:,目的:,作出以多个自变量(危险因素)估计应变量(结果,因素)的,logistic,回归方程。属于概率型非线性回归。,资料:,1.,应变量为反映某现象发生与不发生的二值变量;,2.,自变量宜全部或大部分为分类变量,可有少数数,值,变量。分类变量要数量化。,用途:,研究某种疾病或现象发生和多个危险因素(或保护,因子)的数量关系。,种类,:,1.,成组(非条件),logistic,回归方程。,2.,配对(条件),logistic,回归方程。,39,38,课后应用思考题:,为了分析影响医院抢救急性心肌梗死(,AMI,)患者能否成,功的因素,某医院收集了,5,年中所有的,AMI,患者的抢救病史,(有关因素很多,由于篇幅有限,本例仅列出,3,个),共,200,例见下表。其中,P=0,表示抢救成功,,P=1,表示抢救未成功而死,亡;,X1=1,表示抢救前已发生休克,,X1=0,表示抢救前未发生休,克;,X2=1,表示抢救前已发生心衰,,X2=0,表示抢救前未发生,心衰;,X3=1,表示患者从开始,AMI,症状到抢救时已超过,12,小时,,X3=0,表示患者从开始,AMI,症状到抢救时未超过,12,小时。,请问最好采用哪种分析方法?为什么?,分析结果有哪些?,39,39,AMI,患者的抢救危险因素资料,P=0(,在医院抢救成功,),P=1(,在医院抢救未成功而死亡,),X1,X2,X3,N,X1,X2,X3,N,0,0,0,35,0,0,0,4,0,0,1,34,0,0,1,10,0,1,0,17,0,1,0,4,0,1,1,19,0,1,1,15,1,0,0,17,1,0,0,6,1,0,1,6,1,0,1,9,1,1,0,6,1,1,0,6,1,1,1,6,1,1,1,6,