第三部分Logistic回归SPSS与SAS.ppt
《第三部分Logistic回归SPSS与SAS.ppt》由会员分享,可在线阅读,更多相关《第三部分Logistic回归SPSS与SAS.ppt(93页珍藏版)》请在三一办公上搜索。
1、复习:,1.多元统计分析中指标的量化法2.多元线性回归分析的数据结构与模型3.多元线性回归分析的具体任务4.筛选变量的常用方法5.多元线性回归分析的实现方法,.多元统计分析指标的量化法:,(1)二分类(2)无序多分类(3)有序多分类,.多元线性回归分析的数据结构与模型:,.多元线性回归分析的具体任务,1)采用最小二乘法原理确定方程中系数bi i=0,1,2,3p;2)采用F检验对回归方程整体进行假设检验;3)采用t检验对方程中的每个系数bi进行假设检验。4)结合专业给出合理的解释。,.筛选变量的常用方法,向前法(forward selection)后退法(backward selection)
2、逐步回归法(stepwise selection),.多元线性回归的实现过程,操作过程:Analyze-Regression-Linear-y选入Dependent-x1、x2、X3选入Independent-Stepwise-options-ok,logistic regression analysis,Logistic回归,内容:,(一)基本概念和原理,1.应用背景 Logistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。,设资料中有一个因变量y、p个自变量x1,
3、x2,xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。,2、Logistic回归模型的数据结构,表1 Logistic回归模型的数据结构实验对象 y X1 X2 X3.XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp,表2 肺癌与危险因素的调查分析例号 是否患病 性别 吸烟 年龄 地区 1 0 1 0 30 0 2 0 0 1 46 1 3 1 0 0 35 1 30 1 0 0 26 1 注:是否患病中,1代表否,0代表是。性别中1代表男,0代表女,吸烟
4、中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。,表3 配对资料(1:1)对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况,取值:0,1,2,Logistic回归-Logistic回归与多重线性回归联系与区别,联系:用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等.区别:线性模型中因变量为连续性随机变量,且要求呈正态分布.L
5、ogistic回归因变量的取值仅有两个,不满足正态分布.,3、Logistic回归模型,令:y=1 发病(阳性、死亡、治愈等)y=0 未发病(阴性、生存、未治愈等)将发病的概率记为P,它与自变量x1,x2,xp之间的Logistic回归模型为:可知,不发病的概率为:,经数学变换得:定义:为Logistic变换,即:,4、回归系数i的意义 流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:,故对于样本资料OR=exp()95%置信区间为:可见 是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小
6、。如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数,5.假设检验,(1)回归方程的假设检验 H0:所有 H1:某个 计算统计量为:G=-2lnL,服从自由度等于n-p的 分布(2)回归系数的假设检验 H0:H1:,计算统计量为:Wald,,自由度等于1。,(二)Logistic回归类型及其实例分析,1、非条件Logistic回归 当研究设计为队列研究、横断面研究或成组病例对照研究时,要用非条件Logistic回归。,实例1,某研讨究者调查了30名成年人,记录了同肺癌发病的有关因素情况,数据见表4。其中是否患病中,1代表否,0代表是.性别中 1代表男,0代表女,吸烟
7、中 1代表吸烟,0代表不吸烟.地区中,1代表农村,0代表城市。试分析各因素与肺癌间的关系。,表4 肺癌与危险因素的调查分析例号 是否患病 性别 吸烟 年龄 地区 1 0 1 0 30 0 2 0 0 1 46 1 3 1 0 0 35 1 30 1 0 0 26 1 注:是否患病中,1代表否,0代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。,Data log1;Infilelog1.dat;-读取数据 Input n y x1-x4;-指出变量Proc logistic;-调logistic回归模块 model y=x1;run;-作单变量(
8、x1)分析Proc logistic;model y=x2;run;Proc logistic;model y=x3;run;Proc logistic;model y=x4;run;Proc logistic;model y=x1-x4;run;-作多变量分析,data a;infiled:/a.xls;input a b y x1-x22;要导入()Proc print;Run;proc logistic;model y=x1-x4;run;,表6 单因素Logistic回归分析结果 模型号 变量 系数 标准误 Wald 卡方 P值 1 X1 1.7047 0.8006 4.5344 0.
9、0332 2 X2 2.5649 0.9364 7.5029 0.0062 3 X3 0.1428 0.0467 9.3409 0.0022 4 X4-0.2719 0.7387 0.1355 0.7128 结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.,表7 多元Logistic回归分析结果变量 系数 标准误 Wald 卡方 P值 INTERCPT-9.75 4.09 5.66 0.02 X1 2.52 1.82 1.92 0.17 X2 3.98 1.98 4.06 0.04 X3 0.19 0.08 5.67 0.
10、02 X4-1.30 1.58 0.68 0.41 由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有显著的影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.,SPSS操作步骤:,Analyze-Regression-Binary Logistic-Dependent框(y)-Covariates框(x1,x2,)-ok,非条件Logistic回归SPSS操作步骤:,结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.,单因素分析的
11、结果,多因素分析的结果,由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.,2.条件logistic回归分析,配对设计的类型:1:1、1:m、n:m(可采用分层COX模型来拟合)。例如:某市调查三种生活因素与胃癌的关系,资料见表5。,表5 配对资料(1:1)对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0注:X1蛋白质摄入量,取值:
12、0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况,取值:0,1,2,data log2;input no y x1 x2 x3;-输入变量cards;1 0 1 3 0(对子号、病人、x1、x2、x3)1 1 1 0 1(对子号、对照、x1、x2、x3)2 0 0 3 1 2 1 1 3 0.10 1 0 0 0;,proc phreg;-调用实现条件 Logistic回归和COX回归模块 model y=x1;-作单变量分析 strata no;run;,proc phreg;model y=x1-x3;-作多变量分析 strata no;run;,配对Logistic回
13、归SPSS操作步骤:,Analyze-Survival-COX Regression-Time框(outcome)-Status框(Status)-Define Event:Single value 1:continue-Covariates框(x1、x2、x3)-Strata框(id)-Options-at last step-ok,3、逐步Logistic回归分析,(1)向前法(forward selection),开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值
14、P(0.05)。,(2)后退法(backward selection),开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值小于规定的剔除标准Remove,缺省值 p(0.10)。,(3)逐步回归法逐步引入-剔除法(stepwise selection),前进逐步引入-剔除法 是在前进法的思想下,考虑剔除变量,因此有两个p界值Enter,Remove。,SPSS无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在 method后加选项:Enter:所有变量一次全部进入方程。Forward:逐步向前法 Ba
15、ckward:后退法 变量移出方程所采取的检验方法:Conditional;LR;Ward(尽量不用),二分类Logistic回归,Logistic回归检验方法,似然比检验(likelihood ratio test)记分检验(score test)Wald检验三种方法比较 通常应用似然比检验结果相对较可靠.在小样本情况下记分的分布根接近于卡方分布,所以记分检验导致的第类错误的可能性要小一些.Wald检验在计算和使用上较容易.但是结果略偏于保守.通常在样本较大时三种检验的结果是一致的.,SPSS 软件实现方法,FileOpen相应数据(已存在)Statistics RegressionBina
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 部分 Logistic 回归 SPSS SAS
链接地址:https://www.31ppt.com/p-2814762.html