多水平统计模型研究生.ppt
《多水平统计模型研究生.ppt》由会员分享,可在线阅读,更多相关《多水平统计模型研究生.ppt(76页珍藏版)》请在三一办公上搜索。
1、多水平统计模型简介A Brief Introduction toMultilevel Statistical Models,概述层次结构数据的普遍性经典方法及其局限性基本多水平模型多水平模型的应用,多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型,MLwiN(1999)SAS(Mixed)SPSS STATA,两水平层次结构数据,水平2,水平1,层次结构数据的普遍性,“水平”(level):指数据层次结构中的某一层次。例如,子女为低水平即水平 1,家庭为高水平即水平 2。“单位”(u
2、nit):指数据层次结构中某水平上的一个实体。例如,每个子女是一个水平 1 单位,每个家庭是一个水平 2 单位。,临床试验和动物实验的重复测量 多中心临床试验研究 纵向观测如儿童生长发育研究 流行病学现场调查如整群抽样调查 遗传学家系调查资料 meta 分析资料,层次结构数据 非独立数据,即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立,其大小常用组内相关(intra-class correlation,ICC)度量。例如,来自同一家庭的子女,其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似,即子女特征在家庭中具有相似性或聚集性(clustering),数据是非独立
3、的(non independent)。,非独立数据不满足经典方法的独立性条件,采用经典方法可能失去参数估计的有效性并导致不合理的推断结论。但非独立数据的组内相关结构各异,理论上,不同的结构应采用相应的统计方法。如纵向观测数据常用广义估计方程(GEE),但有两个局限性:一是对误差方差的分解仅局限于2水平的情形,二是没有考虑解释变量对误差方差的影响。当应变量的协差阵为分块对角阵时,一般采用多水平模型。,经典方法框架下的分析策略 经典的线性模型只对某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析。但有时某个现象既受到水平1变量的影响,又受到水平2变量的影响,还受到两个水平变量的
4、交互影响(cross-level interaction)。,个体的某事件既受到其自身特征的影响,也受到其生活环境的影响,即既有个体效应,也有环境或背景效应(context effect)。例如,个体发生某种牙病的危险可能与个体的遗传倾向、个体所属的社会阶层(如饮食文化和口腔卫生习惯)、环境因素(如饮水中氟浓度)等有关。,分解(disaggregation)聚合(aggregation),分解:不满足模型独立性假定,回归系数及其标准误的估计无效,且未能有效区分个体效应与背景效应。另一种分析策略是用哑变量拟合高水平单位的固定效应。聚合:损失大量水平1单位的信息,更严重的是可能导致“生态学谬误”(
5、ecological fallacy)。,多水平分析的概念为人们提供了这样一个框架,即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析,从而实现研究的事物与其所在背景的统一。,经典模型的基本假定是单一水平和单一的随机误差项,并假定随机误差项独立、服从方差为常量的正态分布,代表不能用模型解释的残留的随机成份。,基本的多水平模型,当数据存在层次结构时,随机误差项则不满足独立常方差的假定。模型的误差项不仅包含了模型不能解释的应变量的残差成份,也包含了高水平单位自身对应变量的效应成份。,多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上,具有多个随机误差项并估计相应的残差方差
6、及协方差。构建与数据层次结构相适应的复杂误差结构,这是多水平模型区别于经典模型的根本特征。,多水平模型由固定与随机两部分构成,与一般的混合效应模型的不同之处在于,其随机部分可以包含解释变量,故又称为随机系数模型(random coefficient model),其组内相关也可为解释变量的函数。换言之,多水平模型可对不同水平上的误差方差进行深入和精细的分析。,1.方差成份模型(Variance Component Model)假定一个两水平的层次结构数据,医院为水平 2 单位,患者为水平 1 单位,医院为相应总体的随机样本,模型中仅有一个解释变量 x。,和 分别为第 j 个医院中第 i 个患者
7、应变量观测值和解释变量观测值,和 为参数估计,为通常的随机误差项。,示水平 2 单位,示水平 1 单位,与经典模型的区别在于。经典模型中的估计为,仅一个估计值,表示固定的截距,而在方差成份模型中 表示 j 个截距值,即当 x 取 0 时,第 j 个医院在基线水平时 y 的平均估计值。,为平均截距,反映 与 的平均关系,即当 x 取 0 时,所有 y 的总平均估计值。为随机变量,表示第 j 个医院 y 之平均估计值与总均数的离差值,反映了第 j 个医院对 y 的随机效应。,表示协变量 x 的固定效应估计值。即 y 与协变量 x 的关系在各医院间是相同的,换言之,医院间 y 的变异与协变量 x 的
8、变化无关。,方差成份模型拟合 j 条平行的回归线,截距不同(),斜率相同()。,对医院水平残差的假定,对患者水平残差的假定与传统模型一致,水平 1 上的残差与水平 2 上的残差相互独立,,,,,反应变量可表达为固定部分 与随机部分 之和。模型具有两个残差项,这是多水平模型区别于经典模型的关键部分。即水平2残差,随机效应、又称潜变量(latent variable),此模型需估计4个参数,除两个固定系数 和,还需估计两个随机参数 和。其中 即为医院水平的方差成份,为患者水平的方差成份。,组内相关的度量,方差成份模型中,应变量方差为,此即水平 2 和水平 1 方差之和。同一医院中两个患者(用i1,
9、i2 表示)间的协方差为:,组内相关(intra-class correlation,ICC),测量了医院间方差占总方差的比例,实际上它反映了医院内个体间相关,即水平 1 单位(患者)在水平 2 单位(医院)中的聚集性或相似性。,由于模型不止一个残差项,就产生了非零的组内相关。若 为 0,表明数据不具层次结构,可忽略医院的存在,即简化为传统的单水平模型;反之,若存在非零的,则不能忽略医院的存在。,水平 2 单位中的水平 1 单位间存在相关,通常的“普通最小二乘法”(Ordinary Least Squares OLS)进行参数估计是不适宜的。,进一步,如数据具有三个水平的层次结构,如医院、医生
10、和患者三个水平,则将有两个这样的相关系数,即医院内相关和医生内相关。,随机系数模型是指协变量的系数估计不是固定的而是随机的,即协变量对反应变量的效应在不同的水平 2 单位间是不同的。仍以医院与患者两水平数据结构说明随机系数模型基本结构与假设。,随机系数模型(Random Coefficient Model),与方差成份模型的区别在于。,方差成份模型中协变量 的系数估计为固定的,示协变量 对反应变量的效应是固定不变的。在随机系数模型中协变量 的系数估计为,示每个医院都有其自身的斜率估计,表明协变量 对反应变量的效应在各个医院间是不同的。,的假定及其含义与方差成份模型一致。现 为随机变量,假定:,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 水平 统计 模型 研究生
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6382363.html