医学研究中的logistic模型精讲.ppt
医学研究中的logistic模型精讲,冯国双,Logistic分布与logistic模型,Logistic分布首先由比利时数学家Verhulst于1838年提出最初主要用于研究人口的增长趋势很多物种都符合logistic分布,呈现“S”型的发展趋势,Logistic模型在医学研究中的地位,线性回归是非常经典的回归模型,但不适用于因变量为分类变量的情况考虑选择一个在(0,1)之间有S型曲线的分布,如probit分布、logistic分布等Logistic分布是最流行的一种分布形成了我们今天熟悉的logistic回归模型,Logistic模型在医学研究中的地位,logistic回归模型在医学中的主要用途:探索疾病发生的危险因素验证某危险因素对疾病的效果,校正其它混杂因素的影响预测某疾病发生的概率评价不同因素水平下的发病风险,logistic曲线,常用于描述:初期增长速度越来越快后期增长速度越来越慢最终趋于一个上限值反映事物发生、发展、成熟、饱和的整个过程例如:人口增长趋势、企业成长模式、物种种群数量的增加、细胞的增长、药物浓度在体内的变化等,logistic曲线,最简单的logistic曲线:,logistic曲线,常见的logistic曲线(三参数logistic曲线):式中,K、a、b为待估参数K 代表曲线的上限值a反映了增长速度b表示拐点,在这一点增长速度最快,这一点对应的y值为K/2,logistic曲线,四参数logistic曲线:式中,D、C、a、b为待估参数D 代表曲线的上限值C 代表曲线的下限值a反映了增长速度b表示拐点,在这一点增长速度最快,logistic曲线,二参数logistic曲线:式中,a、b为待估参数a反映了增长速度b表示拐点,在这一点增长速度最快,Logistic回归模型,Logistic回归模型(单因素logistic回归模型):p为阳性率,如疾病发生率、死亡率等0和1为待估参数,分别表示模型的截距和斜率,Logistic回归模型,Logistic回归模型(多因素logistic回归模型):p为阳性率,如疾病发生率、死亡率等0为待估参数,表示模型的截距1、1、m为待估参数,分别表示各自变量的斜率,用logistic曲线拟合剂量反应关系,剂量反应关系:某药物的生理反应强度对给药量的函数随着药量增加,反应强度增大,但不会无限增大,而是有一个上限值不少剂量反应关系都呈S型曲线,可用logistic曲线来描述,用logistic曲线拟合剂量反应关系,例1:某实验室进行小鼠的药物毒性实验,下面数据为不同剂量下的小鼠死亡率。,用logistic曲线拟合剂量反应关系,该实验的结果为死亡率,因此最高为1可以考虑二参数logistic曲线拟合,用logistic曲线拟合剂量反应关系,用logistic曲线拟合剂量反应关系,用logistic曲线拟合剂量反应关系,拟合模型:死亡率以0.14的速率增长剂量在51.26时死亡率的增长速度达到高峰,以后死亡率增长速度开始下降半数致死剂量为51.26(95%CI:48.96-53.56),用logistic曲线拟合剂量反应关系,反推:在什么剂量下死亡率达到50%?,用logistic曲线拟合剂量反应关系,Logistic曲线与直线拟合的比较logistic曲线 直线拟合,用logistic曲线拟合SARS发展趋势,例2:2003年SARS在香港的感染人数,t=0表示2003年3月17日。,用logistic曲线拟合SARS发展趋势,感染人数无上限,但有下限(0),考虑三参数模型,用logistic曲线拟合SARS发展趋势,拟合模型:感染人数以0.11的速度增长在第21天时感染速率最高,从21以后感染速度放慢最高感染人数约为1732人,用logistic曲线拟合SARS发展趋势,Logistic曲线与指数曲线拟合的比较logistic曲线 指数曲线,用logistic曲线拟合SARS发展趋势,预测模拟(预测刻画器),用logistic曲线拟合SARS发展趋势,反推预测:根据logistic曲线拟合结果,什么时候病例突破1000?,用logistic回归探索疾病危险因素,探索疾病的危险因素是logistic回归的一个重要作用病因研究一般可分为探索性研究和证实性研究探索性研究主要用于对疾病发生的影响因素不确定,作为疾病危险的初步探索,如病例对照研究证实性研究在探索性研究的基础上,初步确定某因素可能是疾病的影响因素,用于进一步证实。如队列研究,用logistic回归探索疾病危险因素,病例对照研究在医院中应用非常广泛,具有很多优点:收集数据快,符合医院特点,可以利用病史快速收集到病例及对照的数据研究时间短,可以很快发现一些疾病的危险因素病例对照研究是回顾性的,很大的一个问题是调查对象的回忆是否准确。如果这一点能避免,其效率还是很高的,用logistic回归探索疾病危险因素,病例对照研究最关键的就是选择病例和对照,然后收集他们的相关数据选择病例:最好的是从自然人群中选择病例,但实施困难。在医院中选择病例非常方便,但有时容易出现选择性偏倚,如果可能,最好从多家医院选择选择对照:从医院中选择对照,可以是未患有研究疾病的其他患者。但需要注意,不能患有与病例具有相同病因的疾病。,用logistic回归探索疾病危险因素,例3:某妇幼保健院采用病例对照研究,欲分析巨大儿的危险因素。该研究设计如下:1、选择某年在该院确诊的巨大儿,作为病例2、选择同期正常儿200名,作为对照3、病例和对照均采用同样的问卷,由医务人员询问调查相关的危险因素,如孕次、产次、出产年龄等4、收集资料,录入数据,统计分析,用logistic回归探索疾病危险因素,数据(部分),用logistic回归探索疾病危险因素,变量赋值情况,用logistic回归探索疾病危险因素,第1步:探索各自变量与因变量的关系proc logistic desc plots(only)=(effect(link join=yes);class yc;model y=yc;run;proc logistic desc plots(only)=(effect(link join=yes);class yzh;model y=yzh;run;proc logistic desc plots(only)=(effect(link join=yes);class wt;model y=wt;run;,用logistic回归探索疾病危险因素,孕次、孕周、孕前体重与logit(p)的关系图,用logistic回归探索疾病危险因素,孕次2次与3次的logit(p)值非常接近,可以考虑将2次和3次合并为一类。体重的logit(p)值基本呈一直线趋势,可考虑直接将其纳入模型。孕周38周与39周的logit(p)值也非常接近,可以考虑将这两类合并,将孕周简化为三分类变量,采用虚拟变量的形式纳入模型。,用logistic回归探索疾病危险因素,第2步:单因素分析proc logistic desc;model y=yc;proc logistic desc;model y=chc;proc logistic desc;class yzh(param=reference ref=first);/*class语句表明将yzh作为虚拟变量,以第一类为参照组*/model y=yzh;proc logistic desc;model y=wt;run;,用logistic回归探索疾病危险因素,单因素分析结果(经整理后):,用logistic回归探索疾病危险因素,将产次与是否巨大儿列成四格表,可以发现,其中一个格子为空单元(zero cell count),产次2次的人群均发生巨大儿。,用logistic回归探索疾病危险因素,出现空单元时,导致估计无效,此时可考虑确切logistic回归(exact logistic)proc logistic desc;model y=chc;exact chc/estimate=both;/*estimate=both选项表明同时给出参数估计和OR值结果*/run;,用logistic回归探索疾病危险因素,确切logistic回归估计结果,用logistic回归探索疾病危险因素,第3步:多因素分析proc logistic desc;class yzh(param=reference ref=first);/*class语句表明将yzh作为虚拟变量,以第一类为参照组*/model y=yc chc yzh wt;exact chc/estimate=both;/*estimate=both选项表明同时给出参数估计和OR值结果,注意精确检验的变量必须在model语句中出现*/run;,用logistic回归探索疾病危险因素,多因素分析结果:,用logistic回归探索疾病危险因素,多因素分析结果(针对chc的确切logistic):,用logistic回归探索疾病危险因素,为什么孕次(yc)变得无统计学意义了?可能的假设:孕次和产次的关系是很密切的,孕次决定产次,如果孕次对巨大儿发生有影响的话,那产次只是孕次与巨大儿发生中的一个环节,最终的决定因素是孕次。,用logistic回归探索疾病危险因素,删除产次后的多因素分析:proc logistic desc;class yzh(param=reference ref=first);model y=yc yzh wt;run;,用logistic回归探索疾病危险因素,删除产次后的多因素分析结果:,用logistic回归探索疾病危险因素,孕周(yzh)的标准误相对较大,考虑将孕周40与41合并,用logistic回归评价诊断试验,诊断试验是评价一种诊断方法真实性与可靠性的研究,在临床应用中十分广泛。一种新的、简便易行或价格便宜的诊断方法,能否代替原有的操作繁琐或价格昂贵的方法?新的诊断方法的诊断价值如何?真实性、可靠性有多高?,用logistic回归评价诊断试验,诊断试验的设计过程主要包括以下几点:1.明确研究目的研究者要评价什么?是否有临床价值?2.选择金标准金标准一定是临床公认的诊断所研究疾病的最可靠的方法,能够正确地区分有病和无病。常用的金标准有组织病理学检查、手术发现、影像诊断、病原体的分离培养以及长期随访结果等。,用logistic回归评价诊断试验,3.选择研究对象研究对象的分组以金标准的诊断结果为依据,金标准确诊为“患病”的为病例组,金标准证实为“无病”的为对照组。病例组的病例要具备代表性,即要包括各临床型(如轻、中、重型,有或无并发症、早、中、晚期等)病例。病例的代表性愈好,新的诊断试验的实用价值愈大。对照组的人群不等于健康人群,而是被金标准诊断为不患有研究疾病但又容易与所研究疾病混淆的人群。,用logistic回归评价诊断试验,4.盲法诊断试验必须采用盲法评价,诊断试验结果的评判者(reader)一定不能预先知道金标准划分的结果,否则多数评判者会倾向于对金标准判断为“有病”的标本给出阳性结果,以致夸大诊断方法的价值。5.诊断试验的评价灵敏度、特异度、ROC曲线等,用logistic回归评价诊断试验,用logistic回归评价诊断试验,ROC曲线:ROC曲线是以灵敏度为y轴、以1-特异度为x轴,由不同界值产生不同的点,由线段将这些点连接起来形成ROC曲线。纵贯左下角与右上角的直线称为机会线,这是划分诊断方法有无价值的一条线。只有曲线高于机会线,也就是曲线下面积(Area Under the Curve,AUC)大于0.5才有诊断价值。曲线下面积越大,表示诊断价值越高,反之诊断价值越低。有学者认为,AUC大于0.9表明诊断价值很高,大于0.7表示诊断价值中等。,用logistic回归评价诊断试验,例4:某研究者欲观察某生化指标K和P对胃癌的诊断价值,以病理检查为金标准划分胃癌和非胃癌,然后测定两组人群的K和P指标的值。分析:这两个指标对胃癌是否有诊断价值?两个指标联合是否比单个指标诊断价值更高?如何找出指标的cut-off值?,用logistic回归评价诊断试验,部分数据:,用logistic回归评价诊断试验,指标K的诊断价值,用logistic回归评价诊断试验,指标K的cut-off值,用logistic回归评价诊断试验,指标K的cut-off值,用logistic回归评价诊断试验,指标P的诊断价值,用logistic回归评价诊断试验,指标P的cut-off值,用logistic回归评价诊断试验,指标P的cut-off值,用logistic回归评价诊断试验,两个指标的联合诊断价值,用logistic回归评价诊断试验,两个指标联合诊断的cut-off值,用logistic回归评价诊断试验,两个指标联合诊断的cut-off值,用logistic回归进行分类预测,预先已知一群人的患病和不患病状态,根据与疾病有关的一个或多个指标建立模型根据建立的模型,当已知某人的指标值时,判断其患病概率,将其归类为患病或不患病,用logistic回归进行分类预测,例5:某妇幼保健院欲分析乳腺增生的危险因素,经logistic回归分析,找出了3个影响因素,分别为:初产年龄(=25)有无流产(有或无)是否母乳喂养(是或否)现在要根据这3个因素,预测乳腺增生发生的概率,用logistic回归进行分类预测,模型预测,用logistic回归进行分类预测,模型预测结果,用logistic回归进行分类预测,分类树,用logistic回归进行分类预测,叶报表与份额图,谢谢,