统计15章多元线性回归分析.ppt
1,第十五章 多元线性回归分析,(multiple linear regression),授课老师:曾小敏()公共卫生学院 卫生统计学教研室,2,例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。,表9-1 8名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h),3,意义:分析个自变量()对一个应变量()的 影响,例9-1正常儿童的尿肌酐含量(mmol/24h)(Y)与其年龄(X)的数量依存关系。目的:作出以自变量(X)估计应变量(Y)的一元线性回归方程。()资料:应变量(Y)、自变量(X)为定量指标,且每个X值相应的Y 服从正态分布。用途:解释和预报。,复习双变量直线回归分析,4,例15-1 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。,5,表15-2 27名糖尿病人的血糖及有关变量的测量结果,6,意义:分析多个自变量对一个应变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。目的:作出以多个自变量(Xi)估计应变量(Y)的多元线性回归方程。资料:应变量(Y)为定量指标;自变量(Xi)全部或大部分为定量指标,若有少量定性或等级指标需作转换。用途:解释和预报。,多元线性回归分析:,7,讲述内容第一节 多元线性回归第二节 自变量选择方法第三节 多元线性回归的应用 及其注意事项,8,第一节 多元线性回归,9,例15-1:表15-2 27名糖尿病人的血糖及有关变量的测量结果,10,变量:应变量 1 个,自变量m 个,共 m+1 个。样本含量:n数据格式:见表15-1回归模型一般形式:,一、多元线性回归模型,11,多元线性回归模型的应用条件,表15-1 多元回归分析数据格式,12,一般步骤,建立回归方程,(2)对回归方程、各自变量做假设检验;并评价回归方程的拟合效果和各自变量的作用大小,样本估计值:,统计描述,统计推断,13,二、多元线性回归方程的建立,14,例15-1:表15-2 27名糖尿病人的血糖及有关变量的测量结果,15,第九章:,16,原理:最小二乘法残差平方和最小),b1,b2,bm,建立方程组,残差平方和:,(15-5)(15-6),(15-3),(15-4),17,(15-5)(15-6),18,19,(15-4),20,原理:最小二乘法残差平方和最小),b1,b2,bm,(15-5)(15-6),(15-3),(15-4),(各变量的离差矩阵),21,三、假设检验及其评价,(一)对回归方程:做假设检验、并评价回归方程的拟合效果1、所有自变量与应变量之间是否具有线性关系 方差分析2、综合评价回归方程的预测和解释能力 决定系数R2、复相关系数R(二)对各自变量:做假设检验、并评价各自变量的作用大小1、偏回归平方和的假设检验2、t 检验3、标准化回归系数的意义及其假设检验,22,1.方差分析法:,(一)对回归方程,23,表15-3 多元线性回归方差分析表,24,表15-4 例15-1的方差分析表,25,2.决定系数R 2:,26,3.复相关系数,27,(二)对各自变量:指明方程中的每一个自变量对Y的影响,1.偏回归平方和,28,表15-5 对例15-1数据作回归分析的部分中间结果,X1X2X3X4,29,结果,值最大,30,偏回归平方和的假设检验(方差分析):,查F界值表得:F0.05,(1,22)=4.30,31,2.t 检验法 是一种与偏回归平方和检验完全等价的一种方法。(对于同一资料,不同自变量的t 值间可以相互比较,t 的绝对值愈大,说明该自变量对Y的回归所起的作用愈大。通常统计软件在输出多元回归分析的结果时会同时给出t检验的结果。)计算公式为:,32,结 果:,结 论:,值最大,33,3标准化回归系数 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。,计算得到的回归方程称作标准化回归方程(无常数项),相应的回归系数即为标准化回归系数。,34,注意:偏回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,Xj增加或减少一个单位时Y 的平均变化量。不能用各|bj|来比较各Xj对 的影响大小。标准化偏回归系数无单位,用来比较各自变量对应变量的影响大小,|bj|越大,Xj对 的影响越大。,35,结论,值最大,36,第二节自变量选择方法,选择回归效果显著(有意义)的自变量目的:使得预报和(或)解释效果好,使模 型的精度提高。,37,例15-1:表15-2 27名糖尿病人的血糖及有关变量的测量结果,38,一、全局择优法1、校正决定系数()法2、Cp 选择法二、逐步选择法1、前进法2、后退法3、逐步回归法,39,一、全局择优法,目的:预报效果好意义:对自变量各种不同的组合所建立 的回归方程进行比较 选择一组使回归方程拟合得最好的自变量。选择方法:,40,考虑回归方程中包含的自变量的个数,一个好的模型应尽可能用较少的自变量或更简约的形式来更多地解释因变量的变异性,为了在解释变异的能力和自变量个数之间作出折中,从而采用调整的R(adjusted R-square),2,41,用校正决定系数法对例15-1数据的自变量进行选择,当含p个自变量的方程最优时,接近,接近p+1.,(当p=m,有Cm=m+1m,此种情况不在选择之列,即:p m),44,例15-2 用全局择优法对例15-1数据的自变量进行选择,变量没有被筛选!,45,二、逐步选择法(选择对应变量作用有显著性的自变量),1.,1.前进法:回归方程中的自全局择优量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。2.后退法:先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。3.逐步回归法:逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。,46,47,表15-7 逐步回归过程,已经退化为“不显著”的自变量:被剔除。,48,表15-8 例15-3方差分析表,49,表15-9 例15-3的回归系数的估计及检验结果,结果表明:血糖的变化与甘油三脂(X2)、胰岛素(X3)和糖化血红蛋白(X4)有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。,“最优”回归方程为,50,表15-2 27名糖尿病人的血糖及有关变量的测量结果,运用SPSS软件分析例题。,51,第三节,多元线性回归的应用及注意事项,52,一、多元线性回归的应用,53,二、多元线性回归应用的注意事项,1指标的数量化 数据转换,分2类,可用一个(0,1)变量。如性别,分k类,k-1个(0,1)变量,如血型。P349,表16-9 方法一。,Y:定量变量X:可以为定量、定性、等级性变量,54,数据格式回归方程,建立回归方程,b1:相当A 型相对于O 型的差别b2:相当B 型相对于O 型的差别b3:相当AB 型相对于O 型的差别,55,(3)等级 定量。一般是将等级从弱到强转换为(或)如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济收入。,解释:b(b1)反映X(X1)增加1个单位,增加b个单位(如:500元)。表示中学文化较小学收入多500,大学较中学多500,余类推。,56,57,不同回归方程适应于不同用途,依专业知识定。,逐步选择法选择对应变量作用有显著性的自变量全局择优法选择一组使回归方程拟合得最好的自变量。,58,4.多重共线性 即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果:(1)参数估计值的标准误变得很大,从而 t 值变得很小。(2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。(3)t 检验不准确,误将应保留在模型中的重要变量舍弃。(4)估计值的正负符号与客观实际不一致。,消除多重共线性:剔除某个造成共线性的自变量;重建回归方程;合并自变量;采用逐步回归方法。,59,60,61,62,63,64,65,第十五章多元线性回归分析(multiple linear regression)授课老师:曾小敏公共卫生学院 卫生统计学教研室,谢谢!,