第05讲logistic回归(II).ppt
第5讲 logistic族回归(II),2 南京医科大学流行病与卫生统计学系,主要内容,多元logistic回归条件logistic回归多类结果的logistic回归有序结果的logistic回归logistic回归的正确应用,3 南京医科大学流行病与卫生统计学系,2 条件logistic回归,配比(matched)设计资料1:11:22:1n:m,4 南京医科大学流行病与卫生统计学系,1:m配比设计的资料格式,5 南京医科大学流行病与卫生统计学系,配比设计资料的logistic回归,6 南京医科大学流行病与卫生统计学系,软组织肉瘤与接触苯氧乙酸的关系,2=7.2,P=0.0073。,7 南京医科大学流行病与卫生统计学系,软组织肉瘤与接触苯氧乙酸或氯酚的原始数据,8 南京医科大学流行病与卫生统计学系,相应的条件logistic回归模型,9 南京医科大学流行病与卫生统计学系,子宫内膜癌与是否使用了雌激素,各变量的定义,10 南京医科大学流行病与卫生统计学系,条件logistic回归(考虑是否使用过),11 南京医科大学流行病与卫生统计学系,条件logistic回归(考虑使用过多少),12 南京医科大学流行病与卫生统计学系,3 多类结果变量的logistic回归模型,y=1表示A类,y=2表示B类,y=0表示C类。设C类为参照组。,13 南京医科大学流行病与卫生统计学系,多类结果变量的logistic回归模型,14 南京医科大学流行病与卫生统计学系,各类概率,15 南京医科大学流行病与卫生统计学系,产后大出血与妊高症的关系,16 南京医科大学流行病与卫生统计学系,产后大出血与妊高症的三类结果logistic回归,logit P宫/对-1.6206+0.889755x logit P胎/对-3.2806+1.776555xe0.889755=2.4345331 e1.776555=5.9094650,17 南京医科大学流行病与卫生统计学系,两类产后大出血与妊高症、人流史的关系,18 南京医科大学流行病与卫生统计学系,三分类结果的logistic回归,19 南京医科大学流行病与卫生统计学系,三分类结果的logistic回归,logit P宫/对-1.5548+0.9483x1-0.3882x2logit P胎/对-3.5489+1.5972x1+0.9375x2log-likelihood=-544.4177,20 南京医科大学流行病与卫生统计学系,有条件限制的多类结果的logistic回归,限制条件1121:logit P宫/对-1.5660+1.1100 x1-0.4077x2 logit P胎/对-3.4968+1.1100 x1+0.9841x2log-likelihood=-545.0718,G2=2-544.4177-(-545.0718)=1.3082,21 南京医科大学流行病与卫生统计学系,实例:恶性淋巴瘤的病例-对照研究,1:2配比设计:病例组:恶性淋巴瘤患者对照1组:其它肿瘤患者对照2组:非血液病非肿瘤患者匹配的条件:年龄(+/-5岁)、性别、民族相同同医院、同期病人,22 南京医科大学流行病与卫生统计学系,实例:恶性淋巴瘤的病例-对照研究,23 南京医科大学流行病与卫生统计学系,其它对照形式(多分类),鳞癌、腺癌:正常对照病例:父母亲对照病例:配偶:兄妹对照病例:同单位:不同单位正常对照,24 南京医科大学流行病与卫生统计学系,4 有序分类资料的logistic回归,设结果变量y为k个等级的有序变量,k个等级分别用1,2,k表示。累积概率(cumulative probability),25 南京医科大学流行病与卫生统计学系,意义,26 南京医科大学流行病与卫生统计学系,有序分类结果的logistic回归定义为,k等级分为两类:1,j 与 j+1,k在这两类的基础上定义的logit表示:属于后k-j个等级的累积概率与前j个等级的累积概率的比数之对数,故该模型称为累积比数模型(cumulative odds model)。,27 南京医科大学流行病与卫生统计学系,回归系数的解释,回归系数 i 表示自变量 xi 每改变一个单位,y 值提高一个及一个以上等级之比数比的对数值。,28 南京医科大学流行病与卫生统计学系,儿童智力等级与母亲文化程度的关系,29 南京医科大学流行病与卫生统计学系,儿童智力等级与母亲文化程度的累积比数logistic回归,30 南京医科大学流行病与卫生统计学系,概率预测,x=1时,31 南京医科大学流行病与卫生统计学系,累积比数模型的假定,第一种:无效,有效、显效、治愈第二种:无效、有效,显效、治愈第三种:无效、有效、显效,治愈无论对哪种分法,治疗方案的效应是相同的。即自变量的回归系数与分割点j无关。,32 南京医科大学流行病与卫生统计学系,二分类结果的回归,第一种,1,2、3、4,得:=1.4653,=0.6309第二种,1、2,3、4,得:=1.2143,=0.6279第三种,1、2、3,4,得:=3.6844,=0.7197,33 南京医科大学流行病与卫生统计学系,营养与智力的关系,34 南京医科大学流行病与卫生统计学系,单因素分析结果,35 南京医科大学流行病与卫生统计学系,多因素分析,OR0/1=0.7355 OR2/1=0.6795,36 南京医科大学流行病与卫生统计学系,其它类型的结果变量,疗效等级无效、好转、显效、治愈疾病的严重程度正常、临界、异常未发病、发病、病死心功能分级I、II、III、IV,37 南京医科大学流行病与卫生统计学系,5 logistic族回归模型的正确应用,logistic族回归模型的应用条件独立性。各观察对象间是相互独立的。logitP与自变量的关系是线性关系。累积比数logistic回归模型假设,自变量的回归系数与分割点j无关。可通过建立多个二分类的logistic回归模型来考察。队列资料,建议用Poisson回归。,38 南京医科大学流行病与卫生统计学系,回归系数的检验,似然比检验:最可靠Wald检验:未考虑各因素的综合作用,当存在共线性时,结果不可靠。故在筛选变量时应慎重。可信区间是基于Wald统计量计算的。比分检验。与似然比检验一致在对混杂因素进行分析时,如协变量对回归系数的影响较大(比如,方程中某变量的回归系数,在有该协变量时比无该协变量时改变了0.5以上),则该变量就认为有重要影响的变量,无论该变量是否有统计学意义。,39 南京医科大学流行病与卫生统计学系,logistic回归的样本含量,有研究表明,当各组样本含量大于自变量数的20倍时,参数估计的偏差是可以接受的。另一经验方法,对抽样调查、普查或队列研究,每个自变量至少需要出现10个阳性结果。适当增加对照数采用配比设计时,配比组数宜大于50。对照例数一般取为相等,也可以不等,一般不超过1:4。,40 南京医科大学流行病与卫生统计学系,影响logistic回归模型可解释性的原因,资料的质量。异常值。样本含量太少,或考虑的变量太多。应用条件不成立。自变量间的共线性。暴露率极低或极高,甚至为0或1。,41 南京医科大学流行病与卫生统计学系,常见的统计学模型,方程的形式:函数因变量自变量的线性组合,42,Many thanks,