多元logistics回归分析课件.ppt
《多元logistics回归分析课件.ppt》由会员分享,可在线阅读,更多相关《多元logistics回归分析课件.ppt(43页珍藏版)》请在三一办公上搜索。
1、多元Logistics回归分析,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,从数学角度看,logistic回归模型非常巧妙地避开了分类型变量的分布问题,补充完善了线性回归模型和广义线性回归分析的缺陷。,因变量y 是分类型变量,自变量x是与之有关的一些因素。但是,这样的问题却不能直接用线性回归分析方法来解决,其根本原因就在于因变量是分类型变量,严重违背了线性回归分析对数据的假设条件。,从数学角度看,很难找到一个函数y=f(x),当x变化时,它对应的函数值y仅取两个或几个有限值。,研究者将所要研究的问题
2、转换了一个角度,不是直接分析y与x的关系,而是分析y取某个值的概率p与x的关系。,分析因变量y取某个值的概率p与自变量x的关系,等价于寻找一个连续函数p=p(x),使得当x变化时,它对应的函数值p不超出0,1范围。数学上这样的函数是存在且不唯一的,logistic回归模型就是满足这种要求的函数之一。,根据数据的类型,logistic回归分析分为两种:一种是条件logistic回归(conditional logistic regression),用于分析配对病例对照研究数据。另一种是非条件logistic回归(unconditional logistic regression),用于分析成组数
3、据或非配对的病例对照研究。非条件logistic回归分析也简称为logistic回归分析。,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,logistic回归模型对变量的要求,Logistic回归分析要求因变量是分类变量,包括顺序变量和名义变量。不论是哪种变量都要用数字来表示它的取值。自变量可以是数值型连续变量,也可以是顺序型分类变量,如果是名义变量,则需要转换成哑变量来处理。,logistic回归模型的个数,取决于因变量的取值个数。因为 logistic回归模型描述的是因变量取每个值的概率与自变量的关系,因此因变量的每一个值都对应一个模型。但是由于概率之和为1,所以当
4、因变量是g值变量时,只需要估计g-1个模型,二值因变量的 logistic回归模型,假设因变量 y是一个取值为1和0的二值变量(binary variable),x 是一个影响y 的危险因子(risk factor)。令在x 条件下y=1的概率是 p=p(y=1|x),那么,表达式:,多元 logistic回归模型,如果对模型的概率 p 进行logit 变换,logistic回归模型的另一种形式,它给出的是变量z=logit(p)关于x 的线性函数,多值变量的 logistic回归模型,p j=p(y j|x),它表示了 y 取前 j 个值的累积概率(cumulative probabilit
5、y)。,累积概率函数,第一个模型表示了y 取第一个值的概率p1与x的关系;第二个模型表示了y 取前两个值的累积概率p2与x的关系。这两个模型的常数项不同,回归系数完全相同的。y 取第一个值的概率p(1)=p1,y 取第二个值的概率p(2)=p2-p1,y 取第三个值的概率p(3)=1-p2。它们的截距不同,斜率相同,所以是g-1条平行直线族。多值因变量logistic回归模型要求进行数据的平行性检验。,内容,基本原理数学模型方法步骤-参数估计-检验参数-模型检验-平行性检验系数解释条件Logistics分析应用,参数估计,在logistic回归分析模型中,回归系数的估计方法通常是最大似然法(M
6、aximum Likelihood method)。最大似然法就是选取使得总体真参数落在样本观察值领域里的概率达到最大的参数值作为真参数的估计值。,为了得到一个非偏估计(non-biased estimate),需采用重复递推的方法,将最大似然估计值不断修正。软件系统使用的是重复加权最小二乘递推法(iteratively reweighted least squares algorithm)来估计回归系数。,和线性回归分析一样,logistic回归模型的回归系数是自变量对应变量作用大小的一种度量。因为自变量的单位不同,不能用回归系数的估计值来判断哪一个自变量对因变量的影响作用最大。为了要进行比
7、较,需要计算出标准回归系数。计算原理和线性回归分析一样。在标准回归系数估计值中,绝对值最大的标准回归系数对应的 x 变量对 y 变量的影响最大。,检验参数,统计假设常用的方法是Ward卡方检验。当大于样本对应的Ward卡方值的概率小于0.05时,在统计意义上可以拒绝上述零假设。即,可以认为第 j个 x 变量对y=1的概率p有显著性影响,其犯第一类错误的可能性不超过5%。和线性回归分析一样,当自变量个数较多时,可采用逐步回归分析方法来筛选危险因子。,模型检验,logistic回归模型的总体检验常用的方法有:,AIC检验法(Akaike Information Criterion)。用于比较同一数
8、据下的不同模型(含自变量个数不同)。AIC值越小,模型越合适。AIC值的计算公式是:,SC检验法(Schwarte Coriterion)。和AIC一样,用于比较同一数据下的不同模型(含自变量个数不同)。SC值越小,模型越合适。SC的计算公式是:,似然比检验法(G=-2log L)。用于检验全部自变量(包括常数项)对因变量的联合作用。它的计算公式是:,计分检验法(Score)。用于检验全部自变量(不包括常数项)对因变量的联合作用。,平行性检验,当因变量为多值变量时,模型包含多个回归方程。Logistic回归分析要求这多个回归方程中自变量的系数是相等的。因此对于多值变量的logistic回归模型
9、,要求作平行性检验,也称为比例比数假设检验(test for the proportional odds assumption),使用的方法是计分检验法。,当检验结果p0.05时,没有理由拒绝上述无效假设,这时,多值变量的logistic回归模型有统计意义。否则,应当将因变量的某些值合并,减少因变量的取值个数,使得多值变量logistic回归模型的平行性成立。,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,复习相关概念,相对危险,比数比,相对危险RR表示暴露在危险因子下的发病率与不暴露在危险因子下的发病率的比。例如,如果RR=2.5,那么,暴露下的发病率是非暴露下的发病
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 logistics 回归 分析 课件
链接地址:https://www.31ppt.com/p-3678488.html