方积乾《卫生统计学》多重线性回归与相关.ppt
多重线性回归与相关,凌 莉中山大学公共卫生学院,2023/9/11,Multiple Linear Reg.&Corr,1,简单线性回归,2023/9/11,Multiple Linear Reg.&Corr,2,多重线性回归(multiple linear regression)多重相关(multiple correlation),2023/9/11,Multiple Linear Reg.&Corr,3,第一节 概念及其统计描述,例13-1 为了研究有关糖尿病患者体内脂联素水平的影响因素,某医师测定了30名患者的体重指数BMI(kg/m2)、病程DY(年)、瘦素LEP(ng/mL)、空腹血糖FPG(mmol/L)及脂联素ADI(ng/mL)水平,数据如表13-1所示。,一、数据与模型,2023/9/11,Multiple Linear Reg.&Corr,4,脂联素是一种肽,可抑制炎症反应和减少冠心病的发生。,瘦素是一种由脂肪组织分泌的激素,人们之前普遍认为它进入血液循环后会参与糖、脂肪及能量代谢的调节,促使机体减少摄食,增加能量释放,抑制脂肪细胞的合成,进而使体重减轻。科学家的研究表明,在婴儿时期摄取瘦素,可能可以固定大脑对食欲的反应,进而一生都不会过度饮食。人们是在对老鼠的实验中得到了这个发现的。,注释:,2023/9/11,Multiple Linear Reg.&Corr,5,2023/9/11,Multiple Linear Reg.&Corr,6,偏回归系数(partial regression coefficient),2023/9/11,Multiple Linear Reg.&Corr,7,标准化偏回归系数(standardized partial regression coefficient),2023/9/11,Multiple Linear Reg.&Corr,8,二、偏回归系数的估计,前提条件(LINE):线性、独立、正态和等方差参数估计方法:最小二乘法,2023/9/11,Multiple Linear Reg.&Corr,9,图13-1 两个自变量时,回归平面示意图,2023/9/11,Multiple Linear Reg.&Corr,10,2023/9/11,Multiple Linear Reg.&Corr,11,第二节 多重线性回归的假设检验,一、整体回归效应的假设检验(方差分析),2023/9/11,Multiple Linear Reg.&Corr,12,表13-2显示,P 0.0001,拒绝。说明整体而言,用这四个自变量构成的回归方程解释糖尿病患者体内脂联素的变化是有统计学意义的。,2023/9/11,Multiple Linear Reg.&Corr,13,二、偏回归系数的 t 检验,2023/9/11,Multiple Linear Reg.&Corr,14,利用SAS软件对例13-1的四个偏回归系数进行t检验,并计算标准化偏回归系数,结果如表13-3所示。,2023/9/11,Multiple Linear Reg.&Corr,15,第三节 复相关系数与偏相关系数,一、决定系数、复相关系数与调整决定系数,2023/9/11,Multiple Linear Reg.&Corr,16,复相关系数(multiple correlation coefficient),2023/9/11,Multiple Linear Reg.&Corr,17,调整的R2(Adjusted R-Square),2023/9/11,Multiple Linear Reg.&Corr,18,二、偏相关系数,例:,2023/9/11,Multiple Linear Reg.&Corr,19,游泳人数残差,冷饮销售量残差,P=0.5509,2023/9/11,Multiple Linear Reg.&Corr,20,偏相关系数(partial correlation coefficient):一般地,扣除其他变量的影响后,变量Y与X的相关。,2023/9/11,Multiple Linear Reg.&Corr,21,2023/9/11,Multiple Linear Reg.&Corr,22,第四节 自变量筛选,2023/9/11,Multiple Linear Reg.&Corr,23,一、自变量筛选的标准与原则,1.残差平方和缩小或决定系数增大,2023/9/11,Multiple Linear Reg.&Corr,24,2.残差均方缩小或调整决定系数增大,2023/9/11,Multiple Linear Reg.&Corr,25,3.统计量,这条标准的完整意思是选择较小并且值接近未知参数个数的模型作为较优模型的准则。统计量 较小的标准相对得到较多推崇,2023/9/11,Multiple Linear Reg.&Corr,26,二、自变量筛选的常用方法,2023/9/11,Multiple Linear Reg.&Corr,27,1.所有可能自变量子集选择(all possible subsets selection),最优子集回归:根据某种变量选择准则,通过比较各子集符合准则的程度,从中选择出一个或几个最优的回归.对于有p个自变量,所有可能的子集有(2P-1)个。,2023/9/11,Multiple Linear Reg.&Corr,28,2.前向选择(forward selection),该方法从仅含常数项的模型开始,首先对每个变量计算反映其进入模型后该变量对新模型贡献量的F值,然后将最大F值与预先指定的临界值(Fin)比较,如果最大F值超过Fin,则将最大F值所对应的自变量引入模型,否则,停止运行;然后在已有一个自变量的模型基础上,重复以上比较过程 这样,每次给模型增添一个变量,直到剩下的变量再不能使最大F值超过Fin值为止。,2023/9/11,Multiple Linear Reg.&Corr,29,3.后向选择(backward selection),首先建立包含所有p个自变量的全模型,然后逐个计算出剔除某一变量后仅包含p-1个自变量的p个模型,同时计算剔除变量后所致损失的F值,然后将p个F值中的最小者与预先指定的临界值Fout相比较,若最小F值低于Fout,则将最小F值所对应的自变量从模型中剔除,否则,停止运行;然后在含剩下p-1个自变量的模型基础上,重复以上剔除过程这样,每次剔除一个最可忽略的变量,直到剩下的变量再不能使最小F值低于Fout值为止。,2023/9/11,Multiple Linear Reg.&Corr,30,4.逐步选择(stepwise selection),逐步选择法又称逐步回归,其本质是前向选择法,针对向前选择法在后续变量进入模型后可能使已在方程中的变量变得不重要的现象,同时吸收了向后剔除的做法。即在逐步选择过程中,把经前向选择F 检验有意义的变量引入方程后,又对已在方程中的自变量进行一次关于剔除的后向选择F 检验,剔除无统计学意义的变量。反复进行引入、剔除过程,直到既没有变量被引入,也没有变量被剔除为止。,2023/9/11,Multiple Linear Reg.&Corr,31,例13-2 仍以糖尿病人脂联素数据为例,通过SAS获得所有可能自变量子集的运算结果示于表13-6中。,2023/9/11,Multiple Linear Reg.&Corr,32,表13-6 所有可能子集回归的参数估计与统计量,2023/9/11,Multiple Linear Reg.&Corr,34,*第五节 多重线性回归的应用,应用:预测控制危险因素筛选,2023/9/11,Multiple Linear Reg.&Corr,35,多重共线性(multi-colinearity)例如:有两个预测人体体重的变量:X1是以公斤为单位的重量,X2是以克为单位的重量,显然,X1与X2的相关系数为1。,一、多重共线性问题,2023/9/11,Multiple Linear Reg.&Corr,36,例13-3 对8名学生的身高(X1)、体重(X2)与肺活量(Y)进行了检测,并由该数据生成新的变量体重指数X3=X2/X1。数据如表13-8所示。,2023/9/11,Multiple Linear Reg.&Corr,37,计算得各变量间的相关系数如表13-9所示。,2023/9/11,Multiple Linear Reg.&Corr,38,F=27.77,P=0.0039,显示此回归方程具有统计学意义。,2023/9/11,Multiple Linear Reg.&Corr,39,矛盾出现了:对整体模型而言,获得 与整体F检验P=0.0039的结果;但是,对于每一个偏回归系数而言,却没有一个自变量的效应具有统计学意义。问题出在哪里?问题就出在X1,X2和X3与Y共线性,以致偏回归系数极不稳定,因其标准误过大而没有统计学意义。,2023/9/11,Multiple Linear Reg.&Corr,40,例11-2 陈峰(1991)报告了一个实例。有22例胎儿受精龄(Y,周)与胎儿外形测量指标:身长(),头围(),体重()的数据。求得由,推算 的回归方程为:,2023/9/11,Multiple Linear Reg.&Corr,41,原因:,通过计算发现头围与身长的相关系数等于0.997,头围与体重的相关系数等于0.947,身长与体重的相关系数等于0.944,经检验均有统计学意义。多重共线性,2023/9/11,Multiple Linear Reg.&Corr,42,1.逐步筛选变量 2.删除变量 3.主成分回归方法,解决办法:,2023/9/11,Multiple Linear Reg.&Corr,43,例13-3(续)按照水准,对上例中8名学生的数据进行肺活量(Y)关于身高(X1)、体重(X2)与体重指数体重(X3)的逐步回归分析。,整体F检验 P=0.0005,2023/9/11,Multiple Linear Reg.&Corr,44,二、自变量间交互效应的回归模型,当一个回归模型中有多于2个自变量时,变量间即可能存在交互效应。此时可建立包含各自变量及某些乘积项的回归模型,通过检验乘积项的统计学意义来考察交互效应是否存在。,2023/9/11,Multiple Linear Reg.&Corr,45,例13-4 假若有A、B两种药品都对帕金森综合征有改善作用,而且相信联合用药效果比两种药单独作用之和还要好。为探讨联合用药方案的可行性,进行了随机平行对照临床试验,结果如表13-12所示。,2023/9/11,Multiple Linear Reg.&Corr,46,经用该样本数据拟合包含药品A与药品B交互项的多重线性回归模型,整体模型效应的方差分析结果见表13-13,模型参数估计与假设检验结果如表13-14所示。,2023/9/11,Multiple Linear Reg.&Corr,47,2023/9/11,Multiple Linear Reg.&Corr,48,三、非同质资料的合并问题,例13-5 利用某社区男性和女性各19对收缩压Y与年龄X的数据如表13-15所示,有人通过计算获得收缩压随年龄变化的三个回归方程如下:,试判断男女性资料合并后回归是否合理?,2023/9/11,Multiple Linear Reg.&Corr,49,表13-15 不同性别两组年龄(X)与收缩压(Y)数据,2023/9/11,Multiple Linear Reg.&Corr,50,性别是否为一个混杂因素?分性别的两条回归直线的斜率是否相同?,如果两斜率相同,即表示性别与年龄对于收缩压的影响不存在交互效应,可合并两组数据拟合自变量同时包含年龄与性别(但不含二者交互效应)的多重回归方程;否则,就应按不同性别分别拟合年龄与收缩压的回归模型。,2023/9/11,Multiple Linear Reg.&Corr,51,判断方法:,2023/9/11,Multiple Linear Reg.&Corr,52,性别是一个混杂因素,存在交互作用!,2023/9/11,Multiple Linear Reg.&Corr,53,四、通径分析,Y,Y:新生儿出生体重X1:母亲年龄X2:产次X3:孕周X4:产前体重,X3=a1 X1+a2 X2+e1X4=b1 X1+b2 X2+b3 X3+e2Y=c1 X3+c2 X4+e3,2023/9/11,Multiple Linear Reg.&Corr,54,Y,(X1X3Y)、(X1X3X4Y)和(X1X4Y),2023/9/11,Multiple Linear Reg.&Corr,55,小 结,多重线性回归分析是简单线性回归分析的拓展模型的前提假设、最小二乘原则都与简单线性回归分析相同偏回归系数与标准化的偏回归系数复相关系数与偏相关系数,2023/9/11,Multiple Linear Reg.&Corr,56,小 结(续),自变量筛选的策略与标准多重共线性自变量间的交互作用资料的合并分析问题通径分析,2023/9/11,Multiple Linear Reg.&Corr,57,谢 谢!,2023/9/11,Multiple Linear Reg.&Corr,58,