多重线性回归与多元逐步回归统计学ppt课件.ppt

资源ID：1901087 资源大小：1.27MB 全文页数：90页
资源格式： PPT 下载积分：16金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要16金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

多重线性回归与多元逐步回归统计学ppt课件.ppt

多重线性回归,流行病与卫生统计学系,内容,多重线性回归回归分析中自变量的选择多因素线性回归的应用及注意事项,复习,线性回归分析是研究一个变量和另外一些变量间线性关系的统计分析方法。,在回归分析中，最简单的情形是模型中只包含两个有“依存关系”的变量，一个变量（反应变量）随另一个变量（自变量）的变化而变化，且呈直线变化趋势，称之为简单线性回归。,给定X的数值, Y 的数值取在一个平均值 (y|x)附近对应于不同的X值, Y 的平均值座落在一条直线上 - 回归直线. y|x 和 X的关系可用一个线性方程描写.,简单线性回归方程,总体样本“Y hat”表示估计值，给定x时y的总体均数的估计值。,直线回归方程的求解：最小二乘原理,回归系数及其计算,找一条直线使残差平方和最小利用微积分知识,容易得到这条线一定过两个点和,线性回归分析的前提条件,线性(Linear)反应变量Y与自变量X呈线性变化趋势独立(Independent)任意两个观察值相互独立，一个个体的取值不受其他个体的影响给定X时，Y正态分布(Normal)给定X取值时，Y的取值服从正态分布等方差(Equal variance)指对应于不同的X值，Y值的总体变异相同,直线回归应用条件LINE示意图,回归方程有统计学意义吗,建立样本直线回归方程，只是完成了统计分析中两变量关系的统计描述，这种关系是否有统计学意义，还需要进一步进行假设检验。检验回归模型是否成立：方差分析检验总体回归系数是否为零：t检验,例1: 某研究者研究大气污染物一氧化氮（NO）的浓度（ppm）与汽车流量（千辆）、气温（）、空气湿度（%）、风速（m/s）等因素的关系，结果见表1：,单位时间内过往的汽车数（千辆）、气温（）、空气湿度（%）、风速（m/s）这四个因素是否都对空气中一氧化氮（NO）的浓度（ppm）有影响？如何定量地描述这些因素对一氧化氮浓度的影响？哪个因素对一氧化氮浓度的影响最大？哪个因素的影响最小？如果利用这些影响因素去预测空气中一氧化氮的浓度，如何预测？效果如何？,第一节多重线性回归,多重线性回归(multiple linear regression)因变量: 一个, Y自变量: 多个, X1, X2, X3, , Xp,方程：,概念,多元线性回归(multi- variate linear regression)简称多元回归(multi- variate regression):因变量: 多个, Y1，Y2 , 自变量: 多个, X1, X2, X3, ,方程：,多重线性回归方程,多重线性回归方程是简单线性回归方程的扩展,其中表示当所有自变量为0时反应变量Y的总体平均值。为变量Xi 的总体偏回归系数（partial regression coefficient），表示当方程中其他自变量保持常量时，自变量Xi每增加（或减少）一个计量单位,反应变量Y平均变化个单位。,样本回归方程,反应变量Y的总体平均值,的估计值。,b0,的估计。,为常数项，又称为截距，是总体参数,bi,为自变量Xi 的偏回归系数，是总体参数的估计值。,如果要建立由车流量（）和风速（）预测一氧化氮浓度（Y）的线性回归方程，模型可以写成：,表示在车流量不变的情况下，风速每增加一个单位（1m/s），估计空气中一氧化氮的浓度平均改变,个单位（ppm）。,表13-1 多重线性回归分析数据格式,前提条件（LINE）,多重线性回归分析步骤,求回归方程 - 最小二乘原则假设检验 - 检验回归方程是否具有统计学意义，模型有意义的前提下，再分别对各偏回归系数进行假设检验。(3)变量选择 - 以尽量少的自变量, 达到较好地解释Y的目的,基本原理：寻找一套适宜的偏回归系数（），建立多重线性回归方程，使得反应变量的观测值与回归方程的估计值,回归系数的估计，求回归方程,采用最小二乘法 (least squared method)来估计偏回归系数,之间的残差平方和最小。,SPSS实现方法：,Analyze-Regression-Linear- y选入Dependent x1、x2、X3.XP选入Independent Method- Enter Stepwise Backward Forward -ok,当建立样本回归方程后，首先要考察这个回归方程是否有意义？即在，，，，中，是否至少存在一个自变量与Y的总体均数呈线性关系？回归方程的效果如何？也即是这四个自变量能够解释反应变量的变异的百分比是多少？四个自变量是否都对反应变量有影响？即各个偏回归系数（）所对应的总体偏回归系数（）是否等于0？,考虑：,回归的目的:估计H0成立时, 只能用Y的均数来估计残差: , 自由度=H1成立时, 给定可以用来估计残差: , 自由度= 残差减少了,统计推断,这个回归方程有统计学意义吗?,- 这是回归模型的贡献,自由度=,方差分析的基本思想,总变异：把反应变量的观察值的离均差平方和记为，它反映了没有利用自变量的信息时的观察值的变异性，即没有考虑车流量、气温、气湿和风速等因素的情况下一氧化氮浓度的变异的大小，其自由度记为 (为样本量）。,根据回归方程计算得到的预测值与实际观察值之间的差异称为残差，记残差的离均差平方和为，它反映了的变异中不能由回归解释的部分，其自由度记为，P 为自变量个数。把与之差记为回归平方和，它反应了回归模型的贡献，即车流量、气温、气湿和风速等因素对一氧化氮浓度的影响,其自由度记为。,表13-2 方差分析表,表13-3 检验回归方程整体意义的方差分析表,表中,值小于0.001，按照0.05的检验水准，可以拒绝,认为所建立的回归方程是有意义的。用这四个自变量构成的回归方程解释空气中一氧化氮浓度的变化是有意义的。,32,回归模型好坏的评价,1)拟合的回归方程在总体上有统计学意义2) 决定系数R2 R2 =1-SS残/SS总= SS模/SS总，它表示在因变量y的总变异中可由回归方程所解释部分的比例。0R21, 越接近于1, 说明回归方程效果越好。,33,复相关系数是随方程中的变量个数增加而增加的，为了克服这一缺点，对它进行校正Adj R2 =1-MS残/MS总，0AdjR21, 越接近于1, 说明回归方程效果越好。,调整的确定系数（adjusted R2，）,35,3)剩余标准差或标准估计误差(standard error of estimate)。它反映了应变量在扣除自变量的线性影响后的离散程度；剩余标准差越接近于0, 说明回归方程效果越好。,36,4）回归系数估计值的正负号与专业上的含义相吻合，根据回归方程计算的Y的预测值在专业上有意义。,确定系数,或称决定系数，以反映回归方程的效果好坏。,本例 0.79，说明利用车流量、气温、气湿和风速等四个因素可以解释一氧化氮浓度的约80的变异，可以认为回归的效果较好。,复相关系数 (coefficient of multiple correlation),又称多重相关系数,回归系数的假设检验,由于存在抽样误差，即使总体偏回归系数为零，也可能得到样本偏回归系数不为零的情形，因此需要对偏回归系数进行假设检验，以推断总体偏回归系数是否为零。,检验统计量为,其中，是第个偏回归系数的标准误,车流量、气温、风速对一氧化氮浓度的影响有统计学意义（），,但是气湿的影响没有统计学意义（）。,）。,标准偏回归系数Standardized partial regression coefficient,所有变量标准化后做回归,所得系数称为标准偏回归系数.,注意：一般回归系数有单位，用来解释各自变量对应变量的影响，表示在其它自变量保持不变时，增加或减少一个单位时Y 的平均变化量。不能用各来比较各对的影响大小。标准化回归系数无单位，用来比较各自变量对应变量的影响大小，越大，对的影响越大。,第二节回归分析中变量的选择,并不是事先考虑的所有的自变量对反应变量的影响都有统计学意义。在许多研究中，多因素线性回归分析的目的是建立一个预测效果最优的回归模型，需要对自变量进行筛选：将对反应变量没有影响的自变量从模型中剔除，将对反应变量的作用有意义的自变量纳入模型当中。,残差平方和（）缩小或确定系数（）增大,越小越好！,越大越好！,然而, 只要增加自变量个数, 这个量就会减小!?,自变量筛选的统计学标准,残差的均方（）缩小或调整确定系数（）增大,自变量筛选的统计学标准,AIC统计量,AIC值达到最小，该模型为最佳模型，AIC准则,自变量筛选的统计学标准,自变量筛选的方法,最优子集回归分析法： p个变量有2p1个方程逐步回归分析：向前引入法(forward selection)向后剔除法(backward selection)逐步引入剔除法(stepwise selection),（一）最优子集回归法,求出所有自变量可能组合子集的回归方程的模型（共有2p1个），按一定准则选择最优模型，常用的准则有：校正决定系数或残差的均方（考虑了自变量的个数） AIC(Akaikes Information Criterion)准则；AIC 越小越好,最优子集法的局限性,如果自变量个数为4，则所有的回归有24115个；当自变量数个数为10时，所有可能的回归为 2101 1023个；.；当自变量数个数为50时，所有可能的回归为25011015个。,前进法（forward selection）后退法（backward elimination）逐步回归法（stepwise regression）。,它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验，它表示在原有回归方程基础上引入或剔除某一自变量后所增加或减少的那部分回归平方和.,（二）逐步回归分析,（1）前进法,自变量从无到有、从少到多,将偏回归平方和最大且能使回归系数检验拒绝者入选为第一个自变量；规定一个界值，接着将余下的变量中偏回归平方和最大并使检验拒绝者选为第二个自变量；如此不断引入新的自变量，直到再不能拒绝时为止。局限性：只进不出，后续变量的引入可能会使先进入方程的自变量变得不重要。,（2）后退法,先将全部自变量放入方程，然后逐步剔除,首先对全部候选变量作总的回归，每次剔除一个偏回归平方和最小而使回归系数的检验不能拒绝者。直到再不能剔除时为止。局限性：只出不进，自变量高度相关时，可能得不出正确的结果；开始时剔除的变量即使后来变得有显著性也不能再进入方程。,（3）逐步回归法,双向筛选（实际应用最多）：在向前引入的每一步之后都要考虑从已引入方程的变量中剔除相形见绌者引入有意义的变量（前进法）剔除无意义的变量（后退法）,先规定两个阈值P引入和P剔除(P引入P剔除)，当候选变量中最大P值 P引入时，引入相应变量；已进入方程的变量最小P值 P剔除时，剔除相应变量。如此交替进行直到无引入和无剔除为止（计算复杂）,多重线性回归的应用,（1）定量地建立一个反应变量与多个解释变量之间的线性关系。例如，建立肺活量的大小与身高、体重、年龄和性别之间的线性关系。（2）筛选危险因素。例如，筛选高血压的危险因素。（3）通过较易测量的变量估计不易测量的变量。例如，建立婴儿体表面积关于身高、体重、月龄的多因素线性回归方程，可以通过容易测量的身高、体重、月龄等变量估计不易测量的体表面积。,（4）通过解释变量预测反应变量。例如，通过风速、汽车流量、气温等指标预测空气中一氧化氮的浓度。（5）通过反应变量控制解释变量。例如，在气温、风速不变的情况下，通过控制汽车流量来实现空气中一氧化氮浓度不超过一定的水平。,多重线性回归的应用,多重线性回归应用时的注意事项,1样本含量 2方程“最优”问题 3关于逐步回归 4多重共线性 5. 哑变量设定6. 变量间的交互作用7. 残差分析,多重共线性是指在进行多元回归分析时，自变量间存在较强的线性相关关系。共线关系的存在，可使得估计系数方差加大，系数估计不稳，结果分析困难。因此在多因素线性回归分析时，特别是当回归结果难以用专业知识解释时，要进行共线性诊断，找出存在共线性且不重要的那些自变量，剔出方程，另行回归分析。对于存在共线性的资料，可以利用共线性诊断有选择的保留自变量以消除共线性；或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。剔除某个造成共线性的自变量，重建回归方程；合并自变量；采用逐步回归方法。,4多重共线性,多重共线性的表现在实际应用中主要表现为：（1）模型拟合效果很好，但偏回归系数几乎都无统计学意义；（2）偏回归系数估计值的方差很大；（3）偏回归系数估计值不稳定，随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化；（4）偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖，结果难以解释出现以上表现，提示存在多重共线性问题，应进行多重共线性诊断。,方差膨胀因子VIF,(2) 容忍度（tolerance）以每个自变量作为应变量，对其他自变量进行回归分析时得到的残差比例，大小用1-R2来表示，该指标越小，则说明该自变量被其余变量预测的越精确，共线性可能越严重。如果自变量的容忍度小于0.1，则可能存在共线性问题。,5 哑变量的设定,2分类，可用一个（0，1）变量。如性别,k分类，k-1个（0，1）变量，如血型。,多重线性回归分析有时先将有序变量或无序多分类变量转换成为多个二分类变量之后，才能将它们引入回归模型。将有序变量或无序多分类变量转换成为多个二分类变量的过程常被称为“哑元化（dummying）”,得到的多个二分类变量称为“哑变量（dummy variable）”。一般情况下，若某定性变量有k个水平，就需要引入k-1个二值的哑变量。,血型是一个无序多分类变量，它的取“值”是A、B、AB、O四种，可以用3个二分类变量来描述。令,表11-5 用二分类哑变量描述血型,（1）无序多分类变量定量,数据格式回归方程,建立回归方程,b1 ：相当A 型相对于O 型的差别b2 ：相当B 型相对于O 型的差别b3 ：相当AB 型相对于O 型的差别,（2）等级定量。一般是将等级从弱到强转换为（或）如文化程度分为小学、中学、大学、大学以上四个等级。Y 为经济收入。,解释：b(b1)反映X（X1）增加1个单位，增加b个单位（如：500元）。表示中学文化者较小学文化者收入多500，大学较中学多500，余类推。,为了检验两个自变量是否具有交互作用，普遍的做法是在方程中加入它们的乘积项。,6. 变量间的交互作用,例2 某项研究调查了3334名有心脏疾患的妇女，了解血清高密度脂蛋白胆固醇（HDL cholesterol，mg/dl）与体质指数（body mass index, BMI, kg/m2）的关系，考虑到是否患糖尿病（DIABETES）也是影响HDL水平的因素，因此建立了一个以体质指数、是否患糖尿病为自变量，HDL为反应变量的线性回归方程，结果如表13-4所示。,表13-4 以体质指数、是否患糖尿病为自变量的线性回归方程,F=2441.323, P0.001; R2=0.594, adjR2=0.594, Root MSE=2.02,模型假定HDL的平均水平随BMI的变化而变化的规律在糖尿病妇女和非糖尿病组之间是相同的，表现为相同的偏回归系数 -0.391,在多重线性回归模型中引入一个新的自变量（DMBMI），定义为BMI和DIABETES的乘积，这个乘积项描述的是两个自变量与反应变量之间的关系。由于两个自变量已经在模型中，乘积项就可以解释为交互作用。,表13-5 以体质指数、是否患糖尿病为自变量，包含交互作用项的线性回归结果,F=1665.379, P=0.000; R2=0.600, adjR2=0.600, Root MSE=2.01,所以，对于非糖尿病人，有,对于患糖尿病的妇女，有,反映了患糖尿病的妇女HDL与BMI的关系,反映了非糖尿病患者HDL与BMI的关系,刻画了糖尿病组和非糖尿病组的妇女HDL与BMI回归关系的差异。,7. 残差分析,残差定义为（）。通常使用残差图(residual plot)作为一种直观有效的非正式检查方法。绘制残差与反应变量的预测值的散点图考察模型是否满足线性和方差齐性.,如果散点随机地分布在以为中心的、与横轴平行的的带状区域内，如图（a）所示，就可以认为基本满足线性和等方差的假定条件。图（b）、（c）的散点呈现曲线趋势，提示资料不满足线性的假定。图（d）、（e）、（f）显示残差随的变化而变化，提示资料不满足方差齐的前提条件。图（g）、（h）显示残差不仅随的变化而变化，而且散点呈现曲线趋势，提示资料不满足线性和方差齐性的前提条件。,83,二、多元相关分析（multiple correlation analysis),研究两个变量之间的关系时，所求出的相关系数为简单相关系数。当存在3个（或以上）变量时，且彼此间有联系，就需要作多元相关分析。,84,（1）数据形式设研究问题中有p个指标变量x1、 x2、xp，n个观察对象，其数据结构见表1。表1 多元偏相关分析数据结构编号 X1 X2 . XP 1 x11 x21 x1p 2 x12 x22 x2p 3 x13 x23 x3p n x1n x2n xnp,85,（2）偏相关系数,（partial correlation coefficient) 研究两个变量之间的关系时，所求出的相关系数为简单相关系数。当存在3个（或以上）变量时，当把其中两个变量以外的其他变量对它们的影响都扣除掉（或平衡掉）以后，求得的相关系数为偏相关系数。,86,一般地,设有三个变量X1 ,X2 和X3 , 扣除X3 的线性效应后X1 和X2 的偏相关系数记为r12,3，扣除X1 的线性效应后X2 和X3 的偏相关系数记为r23,1，,其绝对值介于0与1之间，可正可负。计算公式为：其中分别代表3个变量的下标。,87,例1 随机抽查测得9名少年的身高, 体重和胸围值见表2。试问身高与胸围的相互关系怎样? 表2 9名少年的身高, 体重和胸围值例号体重X1 胸围X2 身高x3 1 14.0 53.5 95.5 2 13.0 52.0 92.0 3 12.5 53.5 89.0 4 53.5 82.0 168.0 5 11.0 48.0 91.0 6 11.5 47.0 91.0 7 12.5 50.0 91.0 8 55.0 83.0 156.0 9 51.0 79.0 163.0,88,若用简单相关：r23=0.98293, P=0.0001 说明身高与胸围呈高度正相关，身高是随胸围增加而增加的。,89,身高是随胸围增加而增加这一结果与实际是相矛盾的。理论上说，身高与胸围无关的。造成这一矛盾的主要原因是在考虑胸围与身高的关系时, 忽略了体重这一因素的影响。,如果需要真正表示这两个变量的相关关系, 那么在必须除去其它变量的影响下, 计算它们的偏相关系数。,90,如：扣除X1计算X2与X3之间的偏相关系数。得到：r23,1=-0.25559, P=0.5412 说明如果没有体重的影响, 即假如两个人的体重相同,则其中身高者, 相对较瘦(胸围小),身矮者, 相对较胖(胸围大)。 P值说明身高与胸围的关系无统计学意义，这与实际情况相符合.,操作过程: Analyze-correlate-partial-X2与X3选入variables-X1选入controlling-OK,

注意事项

本文（多重线性回归与多元逐步回归统计学ppt课件.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

多重线性回归与多元逐步回归 统计学ppt课件.ppt

多重线性回归与多元逐步回归 统计学ppt课件.ppt

多重线性回归与多元逐步回归统计学ppt课件.ppt

多重线性回归与多元逐步回归统计学ppt课件.ppt