第一章生存分析介绍要点课件.ppt
《第一章生存分析介绍要点课件.ppt》由会员分享,可在线阅读,更多相关《第一章生存分析介绍要点课件.ppt(99页珍藏版)》请在三一办公上搜索。
1、第一章 生存分析介绍,1 导言2 简略摘要3 目标4 正文5 总结6 练习7 实验8 练习答案,导言,这一章给出了生存分析数据的描述性分析步骤。分析步骤包括生存分析涉及的问题类型、结局变量的考虑、删失数据的考虑、生存函数和风险函数的表述、生存分析数据的规划(即数据输入计算机时的编排方法)、生存分析的目标、生存分析实例。因为该章主要是描述性内容,数学、统计学、流行病学知识并不是绝对必要的。但是读者对流行病学原理以及对数学符号和公式的了解将会大有利于对本书的学习。,简略摘要,1 什么是生存分析2 删失数据3 术语及符号4 生存分析的目的5 基于计算机应用的数据格式6 用于理解分析的数据格式7 生存
2、时间的描述性统计8 例题9 多变量例题10 生存分析的数学模型,学习目标,1 辨认或描述生存分析所涉及的问题类型2 删失数据的定义3 右删失数据的定义4 造成数据删失的三个主要原因5 生存函数的定义、辨认、解释6 风险函数的定义、辨认、解释7 生存函数与风险函数的关系8 生存分析的三个主要目的9 应用于计算机的原始数据编排格式的识别或辨认,特别是能够按照这种编排格式进行数据设置,10 应用于模型理论理解的编排格式或组成部分的识别或辨认,特别是能够按照这种编排格式进行数据设置11 实例的生存曲线或风险函数的解释及比较12 给出一个实例,根据解释变量与生存时间之间的关系来陈述生存分析的目的13 平
3、均生存期或平均风险的计算或解释14 两组生存数据风险比的定义或解释,正文(Presentation),该章给出了生存分析的总体介绍,基于流行病学特定类型或其他数据的流行的数据分析步骤。这一章的重点是生存分析涉及的问题、目的、主要的术语及符号、原始数据编排、实例。,重点,问题,目的,术语及符号,数据排版,例题,一 生存分析,一般而言,生存分析是数据分析的统计学过程的集合。它所关心的结局变量为研究事件发生时的时间。,生存时间:单位是年、月、周、日。是从对研究对象开始随访到研究事件发生的时间。研究事件:可以是死亡、疾病发生、复发、痊愈或者是任何事先指定的感兴趣的事件。虽然在一次研究中会有不止一个结局
4、事件发生,但是我们假设只有一个事件是研究者感兴趣的。当考虑的结局事件不止一个时,涉及到的统计学问题为周期性事件或竞争性危险问题,这将在第八、第九章中分别介绍。,1 生存分析,在生存分析中,通常把时间变量称为生存时间,因为它代表了研究对象在随访期间“生存”的时间。研究事件称为终点,因为研究事件通常是死亡、疾病发生或其他消极事件。生存时间也可以是经过外科手术重返工作岗位的时间按。这里的终点是一个积极事件。,1 生存分析,结局变量:研究事件发生的开始随访 研究事件,时间,1 生存分析,研究事件:死亡、发病、复发、痊愈,假设结局为一个研究事件 周期性事件一个研究事件 或 竞争性危险,时间 生存时间事件
5、 终点事件,1 生存分析,简要介绍关于生存分析的五个例题,第一个例子:,对处于缓和期的白血病患者,随访几个星期后,看其能保持缓和期多长时间。第二个例子:对一个身体健康无疾病的队列,随访几年后看有哪些研究对象患心脏病。第三个例子:对一个年龄大于60岁的人群,随访13年,观察他们的生存期。第四个例子:对一些新近释放的假释犯,随访几个星期,观察他们是否又被重新拘捕。这种研究称为累犯研究。第五个例子:追踪随访经过心脏移植手术的患者的生存期。,1 生存分析,以上五个例子均属于生存分析的范畴,因为他们的结局变量都是某个特定事件发生时的时间。在第一个关于白血病患者的例子中,研究者感兴趣的终点事件是患者脱离缓
6、和期,结局变量是处于缓和期的病人从进入研究到脱离缓和期所用的时间(周)。第二个例子的终点事件是“患心脏病”,结局变量是健康人群从进入研究到患心脏病所用的时间(年)。第三个例子的终点事件是死亡,结局变量是年龄大于60岁的人群从进入研究到死亡所用的时间(年)。第四个例子是一个社会学研究而不是一个医学研究,所关心的终点事件是“重新被拘捕”,结局变量是假释犯从被释放到再一次被拘捕所经历的时间(周)。第五个例子的终点事件是死亡,结局变量是患者从接受心脏移植到死亡生存的时间。,1 生存分析,二 删失数据,绝大多数的生存分析必须考虑删失问题,当我们获得了研究对象生存时间的部分信息,而不知道确切的生存时间时,
7、删失就发生了。,删失不知道确切生存时间,举一个简单的关于删失的例子,以X表示一组处于缓和期的白血病患者,对他们进行随访直到这些患者脱离缓和期。对于某个患者,当研究结束时,他仍处于缓和期,终点事件没有发生,该病人的生存时间就认为是删失的。对于这个患者,他的生存时间至少是研究者对他进行随访的时间,但是若他在研究结束以后才脱离缓和期,研究者就不知道他的确切的生存时间。,2 删失数据,一般造成删失的原因有三个1 直到研究结束时研究对象仍未发生终点事件2 研究对象在研究期间发生失访3 研究对象因死亡而退出研究(如果死亡不是研究者感兴趣的事件)或其他原因(如药物副反应或其他风险)研究结束终点事件未发生 删
8、失 失访 中途退出,2 删失数据,2 删失数据,以图例的形式描述几个研究对象的随访经历,以X表示发生终点事件的研究对象。例,研究对象A在研究开始时进入研究,五周后发生终点事件,他的生存时间是5周,不属于删失研究对象B也是在研究开始时进入研究,但是在12周的研究期结束以后仍未发生终点事件,生存时间属于删失,因为我们只知道他至少生存的12周研究对象C在研究开始后第2.5周进入研究,在第六周时退出研究,他的生存时间为3.5周,属于删失研究对象D在研究开始后第4周进入研究,直到研究结束时仍未发生终点事件,他的删失时间为8周研究对象E在研究开始后第3周进入研究,在随访到第九周时发生失访,他的删失时间为6
9、周研究对象F在研究开始后第8周进入研究,随访到第11.5周时发生终点事件,与研究对象A一样,没有发生删失,他的生存时间为3.5周,2 删失数据,总结六个研究对象中,有两个发生终点事件,为A与F,四个发生删失,为B、C、D、E。,2 删失数据,六名研究对象的生存时间表,2 删失数据,在该表最后一列中,以1表示研究对象发生了终点事件,以0表示发生删失。生存时间的单位为周,删失类型,2 删失数据,2 删失数据,右删失当研究结束时研究对象未发生终点事件、失访、中途退出造成的删失称为右删失。虽然研究对象也可能发生左删失,但大部分删失都是右删失。,左删失研究对象的确切生存时间小于或等于观察的生存时间。例如
10、,随访一个研究对象直到他表现为HIV阳性,研究者一般将研究对象第一次HIV测试阳性作为终点事件。但是研究者不知道研究对象接触到HIV病毒的确切时间,也就不知道研究对象确切的HIV呈阳性的时间。这样该研究对象的生存时间属于左删失,因为他真正的生存时间是从随访开始到感染HIV的时间,小于观察的生存时间(从随访开始到HIV测试阳性的时间),2 删失数据,三 术语与符号,T随机变量,生存时间,大于或等于0,t随机变量T的某一个确切值,例如,观察某个研究对象经过癌症治疗以后生存期能否超过5年,此时 t=5,T5?,3 术语与符号,以希腊字母 作为终点事件是否发生的指示变量,它是一个随机变量,3 术语与符
11、号,研究结束时未发生终点事件=0 失访 中途退出,生存函数与风险函数,3 术语与符号,生存函数表示研究对象活过某个时间的概率,即Tt的概率,3 术语与符号,生存函数是生存分析的基础,因为知道了不同t值的生存概率,就获得了关于生存数据的最关键信息,理论上,t的取值范围为0-,生存函数的图形是一条光滑的曲线,3 术语与符号,以生存时间t为横轴,生存函数s(t)为纵轴,绘制生存曲线。由图可以观察得到生存曲线的以下特点,(1)生存曲线是一条非增曲线,随着t的增加,不断下降。(2)t=0时,s(t)=s(0)=1。即研究开始时,没有研究对象出现终点事件。在0时刻的生存概率为1(3)t时,s(t)=s()
12、=0。即理论上,若研究时间没有限制,最后将没有研究对象存活。所以生存曲线最终下降为0。这种情形是生存曲线的理论模型,3 术语与符号,对于实际数据,生存函数的图形是阶梯状的,而不是光滑曲线。由于研究期限不可能无限长以及竞争风险的存在,因此不是所有的研究对象都会发生终点事件。以 表示估计的生存函数,在研究结束时,生存曲线不一定下降为0。,3 术语与符号,以h(t)表示风险函数,风险函数公式为,3 术语与符号,表示一个小的时间区间,h(t)表示在时间t仍存活的研究对象,每单位时间终点事件发生的瞬时可能。与生存函数相反,生存函数关注的是未发生终点事件,风险函数关注的则是终点事件的发生。在某种程度上,风
13、险函数可以认为是给出了生存函数蕴含的信息的相反的一面。,3 术语与符号,以速度的例子解释瞬时可能的意义。在你开车时看到速度仪显示的速度为60英里每小时,这意味着在未来的一小时内你将在这条路上行驶60英里。这就是瞬时可能的意义。速度仪上的数字决定你在未来一小时内行驶多长的距离。由于你可能在未来的一小时内减速或加速,也有可能停车,所以60英里每小时的读数并不能说明你在未来一小时内真正行驶的距离。速度仪仅仅说明你在某一瞬间的行驶速度。与速度的含义相似,风险函数表示生存到t时刻的研究对象,在t时刻失效事件(死亡或发病)发生的瞬时可能。这与速度的例子是类似的,假设你已经行驶了一段时间,这时速度仪上的速度
14、也是一个瞬时可能。,3 术语与符号,风险函数公式极限符号右侧的分子部分是一个条件函数,它表示在给定条件A的前提下,B的概率。即已经生存到t时刻的研究对象在(t,t+)时间区间内终点事件发生的概率。,由于风险函数利用了条件概率的形式,因此风险函数有时被称为条件风险率。,3 术语与符号,风险函数是一个比率而不是概率,由风险函数的公式可知,极限符号右侧是两个数值之比,分子是条件概率,分母是一个小的时间区间,分子与分母相除以后得到的是每单位时间的概率,不再是概率而是比率,它的取值范围与概率的取值范围不同,概率的取值范围为0-1,而极限符号右侧的取值范围为0-,其大小取决于时间的单位是天、周、月还是年。
15、,3 术语与符号,举例说明风险函数的取值,以P表示条件概率,P=1/3,时间区间为1/2天,两数相除可得每单位时间的概率,P值保持不变,时间区间的单位由天改为周,则1/2天等于1/14周,两数相除可得每单位时间的概率,计算结果见下表,3 术语与符号,对于相同的条件概率,时间区间的单位不同时,计算得到的结果不同,其值有可能大于一。,3 术语与符号,趋于零,对公式右侧的表达式取极限,可以得到t时刻每单位时间失效事件发生的概率。另一种说法是风险函数或条件风险比表示已生存到t时刻的研究对象,在t时刻每单位时间失效事件发生的瞬时可能。,3 术语与符号,下图是三个风险函数随时间变化的图形,不同于生存函数,
16、风险函数的取值不一定从1开始,一直下降为0,而是可以从任意值开始,向任意方向上升或下降,但总是大于零。,3 术语与符号,对于一个给定的t值,风险函数具有以下两个特点:,1 风险函数是非负的,h(t)02 风险函数没有上界,即风险函数的取值范围为0-原因:由风险函数的公式可知,风险函数的分子与分母都是非负的,分母 的取值范围为0-,3 术语与符号,风险函数的图形类型1 常数风险函数,3 术语与符号,第一个图是健康人群的风险函数图,由图可知,不论t取何值,h(t)均等于一个常数,即对于一个研究对象而言,若他/她在研究期间一直保持健康状态,那么他/她在研究期间的任何时间患病的瞬时可能性均相同。当风险
17、函数为一常数时,这时的生存模型就是指数模型,2 随时间递增的风险函数,由图可知,风险函数随着时间的延长而增大。这种图形称为递增的Weibull 模型。这种图形适用于以死亡为失效事件的白血病,而不是用于疾病治疗后的反应。对于一个白血病人,随着生存期的延长,预后变差,病人的死亡风险将会增加。,3 术语与符号,3 随时间递减的风险函数,风险函数随时间不断减小。这种类型的图形称为递减的Weibull模型。这种模型适用于经过外科手术治疗处于恢复期的病人,失效事件为死亡。处于恢复期的病人,随着生存期的延长,预后变好,病人的死亡风险将会减少。,3 术语与符号,4 先增后减的风险函数,该图显示风险函数是先增加
18、后减少。该类型的代表是对数正态生存模型。肺结核病人的风险函数属于这种类型,病人的死亡风险在早期是递增的,经过一段时间以后会逐渐下降。,3 术语与符号,生存函数与风险函数的关系,生存函数对于生存数据的分析而言,具有更大的吸引力,因为它直接描述一个研究队列的生存经历。,3 术语与符号,应用风险函数主要基于以下几个原因,1 风险函数可以计算瞬时可能性(概率),而生存函数则是条件累积概率2 风险函数可以鉴别模型类型,例如对于一组数据,它的模型是指数模型,Weibull模型,还是对数正态模型3风险函数是生存分析的数学模型,3 术语与符号,生存函数与风险函数的关系:知道其中一个就可以推导出另一个。,例如,
19、风险函数等于一个常数,即h(t)=,则相应的生存函数s(t)=,3 术语与符号,可以用两个微积分公式表示生存函数与风险函数的更一般的关系,在实际的数据分析中,电脑程序可以给出生存函数与风险函数的数字转换,不需要研究者自己利用公式计算。,3 术语与符号,总结,对于一个已生存到t时刻的研究对象,生存函数侧重于生存,而风险函数则侧重于失效事件的发生,3 术语与符号,四 生存分析的目的,生存分析的基本目标1 估计及解释生存数据的生存函数和/或风险函数2比较生存函数和/或风险函数3 评价解释变量与生存时间的关系,生存分析的目的,以下是两个生存函数的曲线图(针对第一个目的),左侧的生存函数显示在随访早期生
20、存率下降很快,后期下降较慢;右侧的生存函数则相反,在随访早期生存率下降较慢,后期则下降很快。,生存分析的目的,治疗组与安慰剂组生存函数的比较(针对第二个目的),在六周以前,治疗组的生存函数曲线一直在安慰剂组的上方,六周以后,两组的生存曲线基本重叠,这说明在六周以前,治疗组的效应大大好于安慰剂组,六周以后两组的效应基本相同。,生存分析的目的,数学模型(针对第三个目的),实现这个目的,需要应用数学估计模型,例如Cox比利风险模型就是最常使用的。,生存分析的目的,五 基于计算机的数据编排,基于计算机应用 数据编排类型 基于理解,左表是基于计算机的原始数据的编排形式。设样本量为n,表的第一列是研究对象
21、的编号,从一到n;第二列为生存时间,第一个研究对象的生存时间记为,第二个研究对象的生存时间记为,以此类推。第二列给出了所有研究对象的观察的生存时间,不论研究对象是否发生失效事件。第三列是表示是否发生删失的指示变量,若研究对象发生了失效事件,则=1,否则=0.,五 基于计算机的数据编排,对于第五个研究对象,在研究期间发生了失效事件,则=1,第八个研究对象在研究期间发生删失,则=0,等于失效事件发生的总和,n,因为不是所有的研究对象都会发生失效事件。为解释性变量,例如年龄、暴露情况以及乘积变量(年龄种族)等,五 基于计算机的数据编排,解释变量 X1 对应的一列数据是n个研究对象该变量的观测值,X1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第一章 生存 分析 介绍 要点 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3835451.html