欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    多元统计分析方法.ppt

    • 资源ID:6109267       资源大小:262.49KB        全文页数:49页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析方法.ppt

    多元统计分析方法,The Methods of Multivariate Statistical Analysis,生存分析,Survival Analysis,第十章,主要内容,什么是生存分析?生存分析的基本概念 生存分析的基本方法 非参数分析方法 Cox比例风险回归分析方法 生存分析的注意事项,数据的收集方式:横断面数据(cross-sectional data)在同一个时间点上收集的数据;纵断面数据(longitudinal data)在连续的若干个时间点上收集的数据。-随防数据:50个人的术后存活时间-时间序列数据:近20年每年的肺癌死亡率,在医学研究中,常常用追踪(follow up)的 方式来研究事物发展的规律。例如:了解某药物的疗效 了解手术后的存活时间 了解某医疗仪器设备的使用寿命 这种研究的特点是追踪研究的现象都要经过一段时间,统计学上将这段时间称为生存时间。,生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。,一、什么是生存分析?,二、生存分析的基本概念,生存时间生存时间数据的类型生存时间数据的特点生存分析资料的收集方法描述生存时间分布规律的函数生存分析的主要研究内容,A)生存时间(survival time):从某起始事件起到某终止事件止所经历的时间跨度称为生存时间。例如,在临床研究中,急性白血病患者从骨髓移植治疗开始到复发为止之间的时间间隔。冠心病患者在两次发作之间的时间间隔。在流行病学研究中,从开始接触某危险因素到发病所经历的时间。在动物实验研究中,从开始给药到发生死亡所经历的时间。,B)生存时间数据的类型完全数据(complete data):它准确地度量了观察对象实际生存的时间。截尾数据(censored data):它没有准确地度量观察对象实际生存的时间。例如,在随访过程中某些观察对象失访;或死于其它原因;或在规定的研究过程结束时观察对象的终止事件还未发生。,C)生存时间数据的特点:1)所有观察值取值非负 2)存在截尾数据生存分析资料的收集方法:1)确定随访内容(指标变量)2)确定随访人数(样本数)3)确定随访的起始和终止时间同时开始,同时结束不同时间开始,同时结束不同时间开始,不同时间结束,E)描述生存时间分布规律的函数:1、生存函数 2、死亡函数 3、死亡密度函数 4、风险函数,生存函数S(t):观察对象的生存时间T大于某时刻 t 的概率称为生存函数(survival function)。S(t)满足条件:S(0)=1,S()=0,且0S(t)1。,死亡函数F(t):观察对象的生存时间T不大于某时刻 t 的概率称为死亡函数(failure function)。F(t)满足条件:F(0)=0,F()=1,且0F(t)1。,死亡密度函数f(t):观察对象在某时刻t 的瞬时死亡率称为死亡密度函数(failure density function)。,风险函数h(t):生存到时刻 t 的观察对象在时刻t 的瞬时死亡率称为风险函数(hazard function)。,F)生存分析的主要研究内容:1、描述生存过程2、比较生存过程3、分析危险因素4、建立数学模型,1、描述法2、非参数分析法3、参数分析法4、半参数分析法,三、生存分析的基本方法,1、描述法:根据样本观察值提供的信息,直接用公式计算出每一时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式来显示生存时间的分布规律。优点:方法简单,且对数据的分布无要求。缺点:1)不能比较两组或多组生存时间分布函数的区别;2)不能分析危险因素对生存时间的影响;3)不能建立生存时间与危险因素之间的关系模型。,例1、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组(NLA)25人。生存时间T(月)的数据如下。协变量为淋巴结状态(SLN),负数代表截尾数据。LA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23,26,28,31,37,66,73,-124,Standard Number Number T Survival Failure Error Failed Left 0.000 1.0000 0 0 0 18 1.000 0.9444 0.0556 0.0540 1 17 2.000 0.8889 0.1111 0.0741 2 16 3.000 0.8333 0.1667 0.0878 3 15 4.000 0.7778 0.2222 0.0980 4 14 5.000 0.7222 0.2778 0.1056 5 13 7.000 0.6667 0.3333 0.1111 6 12 8.000 0.6111 0.3889 0.1149 7 11 9.000 0.5556 0.4444 0.1171 8 10 10.000 0.5000 0.5000 0.1179 9 9 11.000 0.4444 0.5556 0.1171 10 8 13.000 0.3889 0.6111 0.1149 11 7 14.000 0.3333 0.6667 0.1111 12 6 15.000 0.2778 0.7222 0.1056 13 5 18.000 0.2222 0.7778 0.0980 14 4 19.000*.14 3 20.000*.14 2 21.000*.14 1 23.000 0 1.0000 0 15 0,LA组生存时间分布规律,Standard Number Number T Survival Failure Error Failed Left 0.000 1.0000 0 0 0 25 1.000 0.9600 0.0400 0.0392 1 24 2.000 0.9200 0.0800 0.0543 2 23 3.000 0.8800 0.1200 0.0650 3 22 4.000 0.8400 0.1600 0.0733 4 21 5.000 0.8000 0.2000 0.0800 5 20 7.000 0.7600 0.2400 0.0854 6 19 8.000 0.7200 0.2800 0.0898 7 18 9.000 0.6800 0.3200 0.0933 8 17 10.000 0.6400 0.3600 0.0960 9 16 11.000 0.6000 0.4000 0.0980 10 15 13.000 0.5600 0.4400 0.0993 11 14,NLA组生存时间分布规律,Standard Number Number T Survival Failure Error Failed Left 14.000 0.5200 0.4800 0.0999 12 13 15.000 0.4800 0.5200 0.0999 13 12 18.000 0.4400 0.5600 0.0993 14 11 19.000 0.4000 0.6000 0.0980 15 10 20.000*.15 9 21.000 0.3556 0.6444 0.0966 16 8 23.000 0.3111 0.6889 0.0942 17 7 26.000 0.2667 0.7333 0.0906 18 6 28.000 0.2222 0.7778 0.0857 19 5 31.000 0.1778 0.8222 0.0793 20 4 37.000 0.1333 0.8667 0.0708 21 3 66.000 0.0889 0.9111 0.0596 22 2 73.000 0.0444 0.9556 0.0433 23 1 124.000*.23 0,NLA组生存时间分布规律(续),Survival Function Estimates 1.0+*|*SDF|*N|L*N|L*NN 0.5+LLNNN|LL NNNN|LLL NNN|L-L N-N-N|N-N-N 0.0+L N-+-+-+-+-+-+-+-+-+-+-+-0 10 20 30 40 50 60 70 80 90 100 Time,无淋巴结浸润患者(N)比有淋巴结浸润患者(L)的平均生存时间长。,两组急性淋巴细胞性白血病患者治疗后的生存时间比较,2、非参数法:估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。例如,乘积极限法和寿命表法。优点:1)可以估计生存函数;2)可以比较两组或多组生存布函数;3)可以分析危险因素对生存时间的影响;4)对生存时间的分布没有要求。缺点:不能建立生存时间与危险因素之间依存关系的数学模型。,两种非参数生存分析方法,乘积极限法(PL法):适用于离散数据,它用于建立时刻 t 上的生存函数。PL法是根据 t 时刻及其之前各时间点上的条件生存率的乘积来估计时刻 t 的生存函数S(t)和它的标准误SE(S(t)。,累积生存率:,标准误:,例如:P260,表18.1,寿命表法(LT)法:LT法适用于区间数据,它用于建立时间区间 t,t+t)上的生存函数。LT法是根据时间区间t,t+t)左端点的生存率及其之前各区间左端点生存率之积来估计区间t,t+t)的生存函数S(t)和它的标准误SE(S(t)。,累积生存率:,标准误:,例如:P263,表18.3,例1、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组(NLA)25人,数据如下。设因变量T为生存时间(月),协变量为淋巴结状态(SLN),截尾指标用censor表示,负数代表截尾数据。试用非参数的PL法进行生存分析,检验患者有无淋巴结浸润对其生存时间长短的影响。LA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23,26,28,31,37,66,73,-124,【SAS程序】data d1;input sln$n;do i=1 to n;input t;if t0 then censor=0;else censor=1;t=abs(t);output;end;cards;LA 18 1 2 3 4 5 7 8 9 10 11 13 14 15 18-19-20-21 23 NLA 25 1 2 3 4 5 7 8 9 10 11 13 14 15 18 19-20 21 23 26 28 31 37 66 73-124run;proc lifetest plots=(s,ls,lls)method=pl;time t*censor(0);strata sln;run;,The LIFETEST ProcedureProduct-Limit Survival Estimates SLN=LA Survival Standard Number Number T Survival Failure Error Failed Left 0.000 1.0000 0 0 0 18 1.000 0.9444 0.0556 0.0540 1 17 2.000 0.8889 0.1111 0.0741 2 16 3.000 0.8333 0.1667 0.0878 3 15 4.000 0.7778 0.2222 0.0980 4 14 5.000 0.7222 0.2778 0.1056 5 13 7.000 0.6667 0.3333 0.1111 6 12 8.000 0.6111 0.3889 0.1149 7 11 9.000 0.5556 0.4444 0.1171 8 10 10.000 0.5000 0.5000 0.1179 9 9 11.000 0.4444 0.5556 0.1171 10 8 13.000 0.3889 0.6111 0.1149 11 7 14.000 0.3333 0.6667 0.1111 12 6 15.000 0.2778 0.7222 0.1056 13 5 18.000 0.2222 0.7778 0.0980 14 4 19.000*.14 3 20.000*.14 2 21.000*.14 1 23.000 0 1.0000 0 15 0,Survival Function Estimates 1.0+*|*SDF|*N|L*N|L*NN 0.5+LLNNN|LL NNNN|LLL NNN|L-L N-N-N|N-N-N 0.0+L N-+-+-+-+-+-+-+-+-+-+-+-0 10 20 30 40 50 60 70 80 90 100 Time,无淋巴结浸润患者(N)比有淋巴结浸润患者(L)的平均生存时间长。,两组急性淋巴细胞性白血病患者治疗后的随访资料,Test of Equality over Strata Pr Test Chi-Square DF Chi-SquareLog-Rank 2.2036 1 0.1377Wilcoxon 1.5598 1 0.2117-2Log(LR)3.4627 1 0.0628,生存曲线的比较:,H0:k个组的生存函数曲线一致H1:至少两组生存函数曲线不一致。,结论:两组患者的生存时间没有显著性差异。,例2、医学研究人员用烷烃化剂对65名多骨髓瘤患者进行治疗,48名患者在研究过程中死亡,17名仍存活。在数据集eg10_2中,变量T表示从诊断开始所生存的月数;status由0和1两个值组成,分别表示患者在研究结束时的存活情况,若status=0,则表示相应的T是截尾数据。与生存有关的变量有:x1(诊断时的log(bun)值)、x2(诊断时的血红蛋白含量)、x3(诊断时的血小板含量:0=不正常,1=正常)、x4(诊断时的年龄,年)、x5(诊断时的log(WBC)值)、x6(诊断时是否骨折,0=否,1=是)、x7(log(骨髓中原生质细胞的含量)、x8(诊断时的尿蛋白含量)、x9(诊断时的血清钙含量)。试用非参数的LT法进行生存分析,并从这9个说明变量中找出重要的危险因素变量。因为数据多此处数据表省略。,【SAS程序】data eg10_2;input t status x1-x9;cards;1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 1077.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12run;proc lifetest plots(s,ls,lls)method=lt width=12;time t*status(0);test x1-x9;run;,The LIFETEST ProcedureLife Table Survival Estimates Conditional Effective Conditional Probability Interval Number Number Sample Probability Standard Lower,Upper)Failed Censored Size of Failure Error 0 12 21 6 62.0 0.3387 0.0601 12 24 10 6 35.0 0.2857 0.0764 24 36 5 1 21.5 0.2326 0.0911 36 48 3 1 15.5 0.1935 0.1004 48 60 4 2 11.0 0.3636 0.1450 60 72 2 0 6.0 0.3333 0.1925 72 84 0 1 3.5 0 0 84.3 0 3.0 1.0000 0,Forward Stepwise Sequence of Chi-Squares for the LOG RANK Test Pr Chi-Square Pr Variable DF Chi-Square Chi-Square Increment IncrementX1 1 8.5164 0.0035 8.5164 0.0035X2 2 12.7252 0.0017 4.2089 0.0402X9 3 15.3053 0.0016 2.5801 0.1082X4 4 16.9873 0.0019 1.6820 0.1947X6 5 17.6291 0.0034 0.6417 0.4231X7 6 17.9120 0.0065 0.2830 0.5948X3 7 18.1517 0.0113 0.2397 0.6244X5 8 18.3925 0.0185 0.2408 0.6236X8 9 18.4550 0.0302 0.0625 0.8025,危险因素,参数法:根据样本观察值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。生存时间经常服从的基线分布有指数分布、Weibull分布、对数正态分布、对数Logistic分布和Gamma分布。优点:1)可以估计生存函数;2)可以比较两组或多组生存布函数;3)可以分析危险因素对生存时间的影响;4)可以建立生存时间与危险因素之间依存关系的模型。缺点:需要事先知道生存时间的分布。,(1)指数分布:S(t)=exp(-t)(2)Weibull分布:S(t)=exp(-t)(3)对数正态分布:,半参数法:不需要对生存时间的分布作出假定,但却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响。例如:Cox比例风险回归模型。优点:1)可以估计生存函数;2)可以比较两组或多组生存布函数;3)可以分析危险因素对生存时间的影响;4)可以建立生存时间与危险因素之间依存关系模型。5)不需要事先知道生存时间的分布。,Cox比例风险回归模型,(1)数学模型:设x=(x1,x2,xk)是影响生存时间t 的k个危险因素。设h(t,x)表示受危险因素x的影响下,在时刻t 的风险率,又设 h0(t)表示在不受危险因素 x 的影响下,在时刻 t 的风险率。显然 h0(t)=h(t,0),并称 h0(t)为基准风险率或基准函数。Cox比例风险回归模型是:,其中,1,2,k 是待估未知参数,h0(t)是未知表达式。,因为对于任意一时刻 t,都有:,所以,个体在任何时刻的风险率都正比于基准风险率,比例因子为:,可见,RH(x)不随生存时间t 的变化而变化。所以这个模型又称为比例风险模型。而且,RH(x)表示个体在因素x影响下的风险率相对于基准风险率之比。,参数的估计方法-最大似然法参数的显著性检验方法:似然比检验法,Wald 检验法和比分检验法等。H0:j=0 vs H1:j03.模型的显著性检验:似然比卡方检验法H0:1=k=0 vs H1:j0,(2)Cox比例风险模型参数和模型的检验,(3)Cox比例风险模型参数的解释,对于一元Cox模型,如果因素 x 的取值为1和0,分别表示暴露与非暴露于危险因素之下,那么,e表示受x影响与不受x影响的相对风险。,对于一元Cox模型,如果因素 x 为连续变量,e表示相邻两个水平的风险率之比(相对风险率)。,对于多元Cox模型,ej 表示在其它因素不变的情况下,因素 x j的相邻两个水平的风险率之比。,例3:为研究某种药物是否会改进急性白血病人的预后,延长其缓解时间。将确诊病人随机给予不同的治疗。一组为用药组(传统治疗加某药),另一组为对照组(传统治疗)。治疗前检测病人白细胞计数(wbc),经一定时间随访,白血病病人的缓解时间列在下表中,其中带-号的是截尾数据。试作Cox模型回归分析。本例以缓解时间长短来衡量治疗效果。缓解时间越长,效果越好。这里的缓解时间是生存分析中的生存时间t,其起点是接受某治疗开始,其终点是缓解结束。,令treat=1表示治疗组,treat=0表示对照组;wbc表示白细胞计数,是连续变量。为了减少内部变异的影响,将白细胞计数取自然对数。,data d1;do i=1 to 20;do treat=1,0;input time wbc;if time0 then censor=0;else censor=1;time=abs(time);lgwbc=log(wbc);output;end;end;cards;-6 1600 1 630-35 28 23 93run;proc phreg;model time*censor(0)=treat lgwbc/risklimits;run;,SAS程序,The PHREG Procedure Testing Global Null Hypothesis:BETA=0 Without WithCriterion Covariates Covariates Model Chi-Square-2 LOG L 177.760 136.516 41.245 with 2 DF(p=0.0001)Score.40.746 with 2 DF(p=0.0001)Wald.30.478 with 2 DF(p=0.0001)Analysis of Maximum Likelihood Estimates Conditional Risk Ratio and 95%Confidence Limits Parameter Standard Wald Pr RiskVariable DF Estimate Error Chi-Square Chi-Square Ratio Lower UpperTREAT 1-1.347940 0.42883 9.88034 0.0017 0.260 0.112 0.602LGWBC 1 0.669281 0.13963 22.97495 0.0001 1.953 1.485 2.568,SAS输出结果,不同疗法(treat)和白细胞数(lgwbc)均对病人的缓解时间产生影响。从RR(treat)=0.260得知,采用新疗法的危险度仅是传统疗法的0.260倍(减少74%)。从RR(lgwbc)=2.568得知,白细胞数增加,相对危险度上升,白血病人的生存时间缩短。,专业结论,因素变量不能随时间变化而变化;样本死亡相对数不能过小;样本含量要足够大;因素各水平组的例数要适当;模型拟合要注意因素之间的交互作用;分类型因素变量要建立哑变量;生存曲线不能随意延长,也不能轻易用来作预报。,四、应用Cox 模型的注意事项,线性回归 Logistic回归 Cox回归因变量:连续型变量y 分类型变量y 生存时间t 服从正态分布 无分布要求 无分布要求模型:y与x的 y取某个值的概率 t 的风险函数 线性关系 p与x的关系 h与x的关系系数:b表示x增加一 exp(b)=OR,近似表示 exp(b)=RH,表示 个单位,y的 在x=x*+1时的发病率 在x=x*+1时的 改变量 与x=x*时的发病率之 风险度与x=x*比RR 时的风险度之比(在发病率较低时),线性回归、logistic回归和Cox 回归分析的区别,总 结,什么是生存时间?什么是完全数据和截尾数据?什么是生存分析?什么是生存函数、死亡函数和风险函数?Cox比例风险回归分析的优点是什么?Cox回归模型与Logistic回归模型系数的解释意义有何不同?Cox回归、Logistic回归以及线性回归分析的主要区别是什么?,结 束,

    注意事项

    本文(多元统计分析方法.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开