二分类资料的多水平模型.ppt
《二分类资料的多水平模型.ppt》由会员分享,可在线阅读,更多相关《二分类资料的多水平模型.ppt(126页珍藏版)》请在三一办公上搜索。
1、二分类资料的多水平分析,张菊英 教授,问 题 背 景,数据的层次结构(hierarchical structure)现象是广泛存在的,这种结构可以是自然的,亦可以是人为形成的。,试验研究,致畸试验 常用孕鼠作试验,观察每个孕鼠所产子代中发生畸形的情况。,层次结构:,孕鼠1,孕鼠2,孕鼠p,窝别效应,某省调查其农村居民的卫生服务 随机抽取30个乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常住人口进行问卷调查。,调查研究,资料的特点,具有明显的层次结构(乡镇 行政村 户 个体);在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性;个体的数据是
2、非独立的。,通常处理方式,结果变量为连续性或定量 如研究某药物对仔鼠体重的影响,可用方差分析分离出区组间效应(如窝别效应),然后比较试验组与对照组仔鼠体重的差异,通常处理方式,结果变量为二项分布两组的畸形发生率,用两个率的差别的Z检验或 检验进行比较 如需要控制混杂因素,采用多因素的logistic回归等方法。,通常处理方式,不足之处 忽略了数据层次结构的特征,二分类反应变量单水平模型,二分类反应变量的单水平模型,例5.1 某公共卫生学院营养与食品卫生学教研室用孕鼠进行口服花粉的致畸实验,将26 只孕鼠随机分为甲、乙两组,甲组在孕早期每天给予辐射花粉2000mg/kg,乙组每天给予500mg/
3、kg。待孕鼠分娩后,观察其子鼠骨骼畸形的发生情况。,不同处理的孕鼠所产仔鼠骨骼畸形发生结果,注:分母表示该窝仔鼠总数,分子表示仔鼠中骨骼畸形发生数,忽略窝别效应,直接进行两组仔鼠畸形发生率的比较,可采用单水平的logistic回归,模型,为应变量:1 表示发生畸形 0 表示未发生畸形为处理因素:1 表示高剂量花粉(甲组)0 表示低剂量花粉(乙组),各软件对例5.1拟合单水平logistic回归模型结果,结果解释,甲组相对于乙组,仔鼠发生畸形的比数比的对数值(ln OR)为0.773,P0.043。由结果可见,忽略窝别效应,处理因素(甲、乙两种喂养方式)对结果的影响有统计学意义,高剂量花粉比低剂
4、量花粉更容易发生仔鼠畸形。,讨论,对于例5.1,单水平logistic回归分析处理效应的检验结果P值接近检验水准0.05,这一结果可靠程度值得怀疑,讨论,试验中仔鼠畸形在窝别间存在聚集性,仔鼠发生畸形的概率不是完全独立的,数据不再服从二项分布若仍用单水平logistic回归处理这类资料,则会低估两个率差别的标准误,从而增大犯型错误的概率,即将本来无差别的两个率判为有差别,广义线性模型,实际上logistic回归模型只是广义线性模型(generalized linear model,GLM)的一种广义线性模型是一般线性模型的直接推广很多模型属于非线性模型,如指数模型、logistic回归模型等,
5、它们通过一定的变量变换,可以转化成线性模型,并满足或近似满足线性模型分析的要求,广义线性模型的一般形式,是已知的设计矩阵 是待估的未知参数 是连接函数,广义线性模型表示为以下三部分,随机部分:结果变量Y,服从指数族概率分布,,系统部分,通过协变量 产生线性预测值,,连接函数,随机部分和系统部分由下式联系在一起 其中 被称为连接函数。,连接函数有多种,应根据应变量的特点加以选择。应变量与不同的连接函数就构成了不同的回归模型,应变量为二项分布时常用的连接函数,probit模型,probit模型在教育领域应用较多probit模型中,与 相应的是正态分布的下侧累计概率函数。因此系数 的解释是当其它自变
6、量不变时,自变量改变一个单位时,所导致的“概率单位”的改变。,probit模型,概率单位在数学上的意义是很明确的,但在生物学上没有合适的解释,因此probit回归在流行病学应用上尚未普及的原因对多数资料来说,logistic回归模型与probit模型的估计概率相近,各软件对例5.1拟合单水平probit回归结果,二分类反应变量两水平模型,优势,处理具有层次结构特征的数据资料,可将传统模型中的随机误差项分解到与数据层次结构相应的水平上,使得个体的随机误差更纯。,二项分布,当反应变量为比数(率),一般采用二项分布。标准二项分布假定的比数(率):,i指示水平1单位,j指示水平2单位,为比数(率)的分
7、母,在未分组数据的情况下,。,两水平logit模型,两水平logit模型,为处理因素的效应参数,又称固定效应(fixed effect)参数 为水平2单位的logit均值 与总均值 之差,又称为随机效应(random effect)或高水平的残差。,两水平logit模型,的方差 又称为随机参数(random coefficient),反映了高水平单位间的比数(率)的差别。越大说明数据在高水平单位内的聚集性越强。为0时,该模型演变为一般的logistic回归模型。,两水平logit模型,为尺度参数。当反应变量确定服从二项分布,则尺度参数应该为1或接近1。即当模型的固定效应参数和随机效应参数的估计
8、值确定后,反应变量的方差估计值为,两水平logit模型,拟合模型时,若假设二项方差成立,则设置尺度参数 为1可允许 为待估参数,对水平1方差是否“超二项变异”进行检验,即考察水平1方差是否满足二项分布的假定,可根据估计的尺度参数值和1.0的差值与的估计标准误之比作正态性Z检验而得。,判断是否存在高水平效应,密切结合专业知识和具体情况进行判断对随机参数 的估计值做检验 用VPC(variance partition coefficient)来进行度量,VPC,当应变量为连续型变量时,VPC等价于组内相关系数(intra-class correlation)在两水平的方差成分模型中,VPC表示了水
9、平2的方差占总方差的比例,VPC,当应变量为离散型变量时,VPC与ICC不等价以二项分布的资料为例,水平1的方差依赖于模型中解释变量的值,因此没有一个简单的方法来计算VPC,假设m个水平2方差 的样本在已知的固定效应 估计下,m个水平2单位的方差均值的经验估计为:,水平1误差的经验值,操作过程,1.产生m个正态分布的随机数,记为r,例如m5 000,通常大样本为佳,2.确定变量的值,根据已拟合的模型计算模型中的线性部分(L指示的部分),由此获得m个所估计模型的样本 方差成分模型,L为随机斜率模型,L为,3.计算m个模型样本的估计反应率,4.对m个计算经验方差获得,5.计算m个的水平1的二项分布
10、误差,然后取其平均值得到水平1误差的经验值,,6.计算VPC,两水平模型的应用,对例5.1,在进一步考虑了“窝别效应”后,该资料可看作具有两个水平的层次结构,即:孕鼠水平(水平2 单位)与仔鼠水平(水平1 单位);甲、乙两种喂养方式是解释变量;仔鼠是否发生畸形是反应变量。,各软件对例5.1拟合方差成分模型结果,以MLwiN的拟合结果为例,水平2 单位(不同孕鼠之间)的随机效应残差(即窝别效应)方差为3.423,标准误为1.554,Wald检验结果为4.852,P0.028。可以认为不同窝别的仔鼠骨骼畸形的发生概率是不同的,“窝别效应”存在,在考虑了“窝别效应”后,处理因素的系数为1.078,标
11、准误为0.993,OR 2.939,由于P0.05,因此,尚不能认为给孕鼠喂养大剂量的辐射花粉会引起仔鼠骨骼畸形发生增加,进一步分析窝别效应的强度,当处理因素取值为0时,VPC0.293,因此在乙组中,有29.3的残差方差归因于窝别效应当处理因素取值为1时,VPC0.344,说明在甲组中,有34.4的残差方差归因于窝别效应,由此例分析可见,当数据存在随机效应时,忽略此效应拟合的单水平模型增大了处理效应的I型误差,使得本来无统计学意义的因素误认为有统计学意义。,通过解释变量(本例为甲、乙两个处理组)的各种组合,可以得到VPC的取值范围。本例VPC为0.2930.344之间。因此大概有30的残差变
12、异归因于窝别效应。,三水平数据结构应用,例5.2,某省进行了农村贫困居民的家庭卫生服务调查。先随机抽取乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取一定数量的家庭进行调查。共调查了30个乡镇,832户贫困家庭户,共计2369名15岁及以上的居民。现拟探讨该省农村贫困居民卫生服务需要的影响因素。,以两周是否患病作为应变量。结合资料的层次结构特点,采用二分类多水平logit回归模型探讨农村贫困居民两周是否患病的影响因素。,变量赋值表(1),变量赋值表(2),变量赋值表(3),家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心化之后纳入模型;无序多分类变量婚姻状况和职业以哑元形式纳入;有序
13、多分类变量年龄、文化程度和自身健康状况评价,是以分组线性变量或哑元的形式纳入,依据似然比检验结果加以判断。,有序多分类变量纳入模型方式检验结果,年龄和文化程度以哑元形式纳入;自我健康状况评价以分组线性变量形式纳入模型。,哑变量名定义,age1:45,age2:65;marriage1:已婚,marriage2:离婚,marriage3:丧偶;education1:小学,education2:初中及以上;occupation1:农业劳动者,occupation2:学生,occupation3:离退休 occupation4:无业、失业、半失业,特别注意,MLwiN拟合模型之前,应对数据从高水平到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 资料 水平 模型

链接地址:https://www.31ppt.com/p-5047911.html