logistic回归、probit回归与poission回归.ppt
Logistic回归(因变量为二分变量/二项分布)probit回归Poisson(因变量为poisson分布),第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况,Logistic回归(因变量为二分变量/二项分布)probit回归Poisson(因变量为poisson分布),第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况,概念,logistic回归是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。最常用的是二值型logistic,即因变量的取值只包含两个类别 例如:好、坏;发生、不发生;常用Y=1或Y=0表示。自变量X称为危险因素或暴露因素,可为连续变量、等级变量、分类变量,可有m个自变量X1,X2,Xm。P表示Y=1的概率,是其他变量的一个函数。【p(Y=1|X)表示在X的条件下Y=1的概率】logistic回归的数学表达式为:,logistic回归的分类:(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。也可以分为logistic回归和条件logistic回归,令因变量两个水平对应的值为0、1,概率为1-p、p,则显然我们也可以用多重回归进行分析?为什么要用logistic回归分析?logistic回归回归系数、模型评估、参数估计、假设检验等与之前的回归分析有何不同?因变量为二分变量时既可以用logistics回归也可以用probit回归,那么probit回归及其与logistic回归的异同之处,问题,问题1:,p(y=1)表示某暴露因素状态下,结果y=1的概率(P)模型。,或,模型描述了应变量p与x的关系,P概率,1,0.5,Z值,0,1,2,3,-1,-2,-3,图1 Logistic回归函数的几何图形,线性回归在处理有上限和下限的因变量时面临着一个问题:X上同样的变化对Y产生的影响不同,由图1也可以直观的看出这里并不适合进行线性回归。虽然有很多非线性的函数可以呈现S形,但由于Logit转化比较简易,所以更受欢迎。,Logit与概率不同,它没有上下限。比数去除了概率的上限,比数的对数去除了概率的下限;且是以0,5为中点对称的,概率大于0.5产生正的logit,logit距离0的距离反映了概率距离0.5的距离;概率上相同的改变与在logits上产生的改变是不同的,logit转化拉直了X与最初的概率之间的非线性关系。,回归系数的意义:,Logistic回归中的回归系数 表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。Logistic回归中的常数项 表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。,单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同。,问题2:,模型评估,(1)osmer-Lemeshowz指标 HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。(2)AIC和SC指标 即池雷准则和施瓦茨准则 与线性回归类似AIC和SC越小说明模型拟合的越好(3)似然比卡方出从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验 在logistic回归中可以通过似然比(likelihood ratio test)进行检验(4)RSQUARE(R2)和C统计量解释变量解释在多大程度上解释了因变量与线性回归中的R2作用类似 在logistic回归中可以通过R2和统计量进行度量,统计量 趋势拟合 作用 备注AIC、SC越小 越好类似于多元回归中的残差平方和 似然比卡方越大越好类似于多元回归中的回归平方和 P值越小越好RSQUARE 越大越好类似于多元回归中的统计量 越大 越好度量观测值和条件预测的相对一致性 统计量越小越好度量观测值和预测值总体的一致性P值越大越好,说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是统计量。AIC和SQUARE极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。,参数估计,除此以外,logistic回归还可以用优势比估计:,案例:,观察例数,logistic回归模型的假设检验,3.比分检验(score test)以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的分布。,上述三种方法中,似然比检验(与之前的类似)最可靠,比分检验(logistic回归模型特有)一般与它相一致,但两者均要求较大的计算量;而Wald检验(相当于广义的t检验)未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。,对所拟合模型的假设检验:,变量筛选,例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用logistic回归分析筛选出于癌细胞转移有关的危险因素(变量选入和剔除水平均为0.10)。,用逐步回归法拟合模型,变量选入和剔除水平均为0.10,指定选项“des”是为了按照y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。,logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。,条件Logistic回归,对配对/比调查资料,应该用条件Logistic回归分析。对于配比资料,第i个配比组可以建立一个Logistic回归:假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。配比设计的Logistic回归模型其中不含常数项。,可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。条件Logistic回归的回归系数检验与分析,和非条件Logistic回归完全相同。,1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(i)和OR说明危险因素与疾病的关系。适用的资料:前瞻性研究设计、病例对照研究设计、横断面研究设计的资料。三类研究计算的logistic 回归模型的意义是一致。仅常数项不同。(证明略),logistic回归的应用,2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。3.预测与判别 预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。,问题3,如同logistic回归,probit分析依赖于将二分因变量上的回归转化成连续因变量上的回归。给定经历某事件或者具有某特点的概率,预测的probit变成了一个由一个或者多个自变量所决定的线性方程的因变量:Z代表了利用累积标准正态分布将概率转为z分数的非线性转化。通过用一个线性方程来预测z分数,probit分析暗含了一个与概率的非线性关系,与曲线的极限比,因变量在接近曲线中点时对概率有更大的影响。,在logistic回归中我们可以利用简单的公式来总结将概率变成比数对数的转化以及比数对数变成概率的转化。对于probit分析,标准正态分布曲线的复杂公式让这一切难度更大(尽管用计算机可以很容易得到)。除了logit与probit转化当中的一些相似性,它们两个所得出的系数会有一个随意的常数(约1.8)的区别。(由于软件程序中probit分析将误差项的标准差定为1,而logistic分析将误差项的标准差大约定为1.814)logitic系数大约是probit系数的1.8倍,将logistic系数除以这个值可以让二者的单位具有可比性,但是由于logistic和正态曲线不同,所以logitic系数和probit系数依然会有小小的不同。但是基本上,logistic分析和probit分析得出的结果在本质上都是相似的。与logistic回归一样,probit分析也利用最大似然估计进行参数估计,且估计过程与logistic回归一模一样。但与logistic 回归不同的是,这里使用的是累积标准正态分布所以不能从自变量和估计参数得到因变量的p值。且为了计算更简单一些,程序是让似然数的自然对数取最大值而非让似然函数取最大值。系数含义及对整个模型的评估和检验与logistic回归的内容大同小异,probit分析与logistic回归只是因变量的转化方式不同以及因此产生的细小差异,Logistic回归(因变量为二分变量/二项分布)probit回归Poisson(因变量为poisson分布),第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况,概念,Poisson回归:用来为技术资料和列联表建模的一种回归分析。泊松回归假设反应变量Y是Poisson分布,并假设它期望值的对数可被未知参数的线性组合建模。Poisson回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。,分类数据表现为离散的计数,服从Poisson分布,因变量Y服从Poisson分布,期望值为(Poisson分布变量的方差也是)如果有一个解释变量x,可以写出如下回归模型:这里g是一个连接函数(link function),通常取log函数,因此得到对数线性模型可写成:,Poisson回归模型是描述服从Poisson分布的目标变量y的均数 与协变量 关系的回归模型。对数线性模型解释变量xi增加一个单位,增加,单位率的模型可写作 N称作偏移(offset),log(N)被用做偏移量;当所有协变量都无作用时,等于N,Poisson分布下模型的似然函数,对于低发生(病)率的开放性队列研究资料,由于di服从Poisson分布,其概率函数为:其中di是随机变量,可取值为di=1,2,其期望发生数i=nihi()。回归模型的似然函数为Poisson分布条件下各个格子概率函数的总概率(积)。L()=,参数估计,两侧取对数,回归模型的对数似然函数为:lnL()=对数似然函数中的未知参数可以用迭代重复加权最小二乘法(简称IRLS法)估计,它与通常的极大似然估计结果一致。也可用极大似然估计法,模型拟合度与参数检验偏差统计量,Poisson回归模型拟合好坏用偏差统计量(deviance)表示,偏差统计量实际上是对数似然比统计量,它是饱和模型(saturated model)和拟合模型对数似然值差的两倍,其在Poisson分布条件下的计算公式为:,参数检验,参数检验可通过两个包含不同参数个数模型的偏差统计量G2的差(G2)和自由度的差(df)来实现,当G2时,P0.05,该参数(因素)有统计学意义。G2,Poisson回归实现(Genmod过程),Genmod过程:通过对参数向量进行最大似然估计来拟和广义线性模型,采用迭代拟和过程估计参数的值。GENMOD过程用于广义线性模型分析。广义线性模型是传统线性模型的的延伸,它的总体均数通过一个非线性连接函数依赖于线性预测值,反应变量(误差项)的概率分布为指数分布族中的任何一员。有许多广泛应用的统计模型都属于广义线性模型,包括带正态误差的经典线性模型、Logistic回归模型、概率单位模型和对数线性模型等。,例:英国男性医生冠心病死亡与抽烟关系研究的资料,请推断冠心病死亡与抽烟、年龄是否有关,程序exam2:proc genmod;model death=age smoke/dist=poisson link=log offset=ln;run;结果Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 5 22.9103 4.5821 Scaled Deviance 5 22.9103 4.5821 Pearson Chi-Square 5 20.5468 4.1094 Scaled Pearson X2 5 20.5468 4.1094 Log Likelihood 2271.8051,拟合优度,p0.05,说明此组数据不符合所拟合的模型可能原因:age对目标变量的作用是不均匀的,需作为定性变量处理。程序:proc genmod;class age;model death=age smoke/dist=poisson link=log offset=ln;run;,谢谢,