多重线性回归与多元逐步回归 统计学ppt课件.ppt
《多重线性回归与多元逐步回归 统计学ppt课件.ppt》由会员分享,可在线阅读,更多相关《多重线性回归与多元逐步回归 统计学ppt课件.ppt(90页珍藏版)》请在三一办公上搜索。
1、多重线性回归,流行病与卫生统计学系,内 容,多重线性回归回归分析中自变量的选择多因素线性回归的应用及注意事项,复 习,线性回归分析是研究一个变量和另外一些变量间线性关系的统计分析方法。,在回归分析中,最简单的情形是模型中只包含两个有“依存关系”的变量,一个变量(反应变量)随另一个变量(自变量)的变化而变化,且呈直线变化趋势,称之为简单线性回归。,给定X的数值, Y 的数值取在一个平均值 (y|x)附近 对应于不同的X值, Y 的平均值座落在一条直线上 - 回归直线. y|x 和 X的关系可用一个线性方程描写.,简单线性回归方程,总体样本“Y hat”表示估计值,给定x时y的总体均数的估计值。,
2、直线回归方程的求解:最小二乘原理,回归系数及其计算,找一条直线使残差平方和最小 利用微积分知识,容易得到 这条线一定过两个点 和,线性回归分析的前提条件,线性(Linear)反应变量Y与自变量X呈线性变化趋势独立(Independent)任意两个观察值相互独立,一个个体的取值不受其他个体的影响给定X时,Y正态分布(Normal)给定X取值时,Y的取值服从正态分布等方差(Equal variance)指对应于不同的X值,Y值的总体变异相同,直线回归应用条件LINE示意图,回归方程有统计学意义吗,建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,这种关系是否有统计学意义,还需要进一步
3、进行假设检验。检验回归模型是否成立:方差分析检验总体回归系数是否为零:t检验,例1: 某研究者研究大气污染物一氧化氮(NO)的浓度(ppm)与汽车流量(千辆)、气温()、空气湿度(%)、风速(m/s)等因素的关系,结果见表1:,单位时间内过往的汽车数(千辆)、气温()、空气湿度(%)、风速(m/s)这四个因素是否都对空气中一氧化氮(NO)的浓度(ppm)有影响?如何定量地描述这些因素对一氧化氮浓度的影响?哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最小?如果利用这些影响因素去预测空气中一氧化氮的浓度,如何预测?效果如何?,第一节 多重线性回归,多重线性回归(multiple linear
4、regression)因变量: 一个, Y自变量: 多个, X1, X2, X3, , Xp,方程:,概 念,多元线性回归(multi- variate linear regression)简称多元回归(multi- variate regression):因变量: 多个, Y1,Y2 , 自变量: 多个, X1, X2, X3, ,方程:,多重线性回归方程,多重线性回归方程是简单线性回归方程的扩展,其中 表示当所有自变量为0时反应变量Y的总体平均值。 为变量Xi 的总体偏回归系数(partial regression coefficient),表示当方程中其他自变量保持常量时,自变量Xi每增
5、加(或减少)一个计量单位,反应变量Y平均变化 个单位。,样本回归方程,反应变量Y的总体平均值,的估计值。,b0,的估计。,为常数项,又称为截距,是总体参数,bi,为自变量Xi 的偏回归系数,是总体参数 的估计值。,如果要建立由车流量( )和风速( )预测一氧化氮浓度(Y)的线性回归方程,模型可以写成:,表示在车流量不变的情况下,风速每增加一个单位(1m/s),估计空气中一氧化氮的浓度平均改变,个单位(ppm)。,表13-1 多重线性回归分析数据格式,前提条件(LINE),多重线性回归分析步骤,求回归方程 - 最小二乘原则假设检验 - 检验回归方程是否具有统计学意义,模型有意义的前提下,再分别对
6、各偏回归系数进行假设检验。(3)变量选择 - 以尽量少的自变量, 达到较好地解释Y的目的,基本原理:寻找一套适宜的偏回归系数( ),建立多重线性回归方程,使得反应变量的观测值 与回归方程的估计值,回归系数的估计,求回归方程,采用最小二乘法 (least squared method)来估计偏回归系数,之间的残差平方和最小。,SPSS实现方法:,Analyze-Regression-Linear- y选入Dependent x1、x2、X3.XP选入Independent Method- Enter Stepwise Backward Forward -ok,当建立样本回归方程后,首先要考察这个
7、回归方程是否有意义?即在, , , , 中,是否至少存在一个自变量与Y的总体均数呈线性关系?回归方程的效果如何?也即是这四个自变量能够解释反应变量的变异的百分比是多少?四个自变量是否都对反应变量有影响?即各个偏回归系数( )所对应的总体偏回归系数( )是否等于0?,考虑:,回归的目的:估计H0成立时, 只能用Y的均数 来估计残差: , 自由度=H1成立时, 给定 可以用 来估计残差: , 自由度= 残差减少了,统计推断,这个回归方程有统计学意义吗?,- 这是回归模型的贡献,自由度=,方差分析的基本思想,总变异:把反应变量的观察值的离均差平方和记为 ,它反映了没有利用自变量的信息时的观察值的变异
8、性,即没有考虑车流量、气温、气湿和风速等因素的情况下一氧化氮浓度的变异的大小,其自由度记为 (为样本量)。,根据回归方程计算得到的预测值 与实际观察值 之间的差异称为残差,记残差的离均差平方和为 ,它反映了的变异中不能由回归解释的部分,其自由度记为 ,P 为自变量个数。 把 与 之差记为回归平方和 ,它反应了回归模型的贡献,即车流量、气温、气湿和风速等因素对一氧化氮浓度的影响,其自由度记为 。,表13-2 方差分析表,表13-3 检验回归方程整体意义的方差分析表,表中,值小于0.001,按照0.05的检验水准,可以拒绝,认为所建立的回归方程是有意义的。用这四个自变量构成的回归方程解释空气中一氧
9、化氮浓度的变化是有意义的。,32,回归模型好坏的评价,1)拟合的回归方程在总体上有统计学意义2) 决定系数R2 R2 =1-SS残/SS总= SS模/SS总, 它表示在因变量y的总变异中可由回归方程所解释部分的比例。0R21, 越接近于1, 说明回归方程效果越好。,33,复相关系数是随方程中的变量个数增加而增加的,为了克服这一缺点,对它进行校正Adj R2 =1-MS残/MS总,0AdjR21, 越接近于1, 说明回归方程效果越好。,调整的确定系数(adjusted R2, ),35,3)剩余标准差或标准估计误差(standard error of estimate)。 它反映了应变量在扣除自
10、变量的线性影响后的离散程度; 剩余标准差越接近于0, 说明回归方程效果越好。,36,4)回归系数估计值的正负号与专业上的含义相吻合,根据回归方程计算的Y的预测值在专业上有意义。,确定系数,或称决定系数,以反映回归方程的效果好坏。,本例 0.79,说明利用车流量、气温、气湿和风速等四个因素可以解释一氧化氮浓度的约80的变异,可以认为回归的效果较好 。,复相关系数 (coefficient of multiple correlation),又称多重相关系数,回归系数的假设检验,由于存在抽样误差,即使总体偏回归系数为零,也可能得到样本偏回归系数不为零的情形,因此需要对偏回归系数进行假设检验,以推断总
11、体偏回归系数是否为零 。,检验统计量为,其中, 是第 个偏回归系数的标准误,车流量、气温、风速对一氧化氮浓度的影响有统计学意义( ),,但是气湿的影响没有统计学意义( )。,)。,标准偏回归系数Standardized partial regression coefficient,所有变量标准化后做回归,所得系数称为标准偏回归系数.,注意: 一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时, 增加或减少一个单位时Y 的平均变化量。 不能用各 来比较各 对 的影响大小。 标准化回归系数无单位,用来比较各自变量对应变量的影响大小, 越大, 对 的影响越大。,第二节 回
12、归分析中变量的选择,并不是事先考虑的所有的自变量对反应变量的影响都有统计学意义。在许多研究中,多因素线性回归分析的目的是建立一个预测效果最优的回归模型,需要对自变量进行筛选:将对反应变量没有影响的自变量从模型中剔除,将对反应变量的作用有意义的自变量纳入模型当中。,残差平方和( )缩小或确定系数( )增大,越小越好!,越大越好!,然而, 只要增加自变量个数, 这个量就会减小!?,自变量筛选的统计学标准,残差的均方( )缩小或调整确定系数( )增大,自变量筛选的统计学标准,AIC统计量,AIC值达到最小,该模型为最佳模型,AIC准则,自变量筛选的统计学标准,自变量筛选的方法,最优子集回归分析法:
13、p个变量有2p1个方程逐步回归分析:向前引入法(forward selection)向后剔除法(backward selection)逐步引入剔除法(stepwise selection),(一)最优子集回归法,求出所有自变量可能组合子集的回归方程的模型(共有2p1个),按一定准则选择最优模型,常用的准则有: 校正决定系数或残差的均方(考虑了自变量的个数) AIC(Akaikes Information Criterion)准则;AIC 越小越好,最优子集法的局限性,如果自变量个数为4,则所有的回归有24115个;当自变量数个数为10时,所有可能的回归为 2101 1023个;.;当自变量数个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多重线性回归与多元逐步回归 统计学ppt课件 多重 线性 回归 多元 逐步回归 统计学 ppt 课件

链接地址:https://www.31ppt.com/p-1901087.html