《多元线性回归和非线性回归.ppt》由会员分享,可在线阅读,更多相关《多元线性回归和非线性回归.ppt(50页珍藏版)》请在三一办公上搜索。
1、多元线性回归,多元线性回归模型(multiple linear regression model),一个因变量与两个及两个以上自变量的回归描述因变量 y 如何依赖于自变量 x1,x2,xp 和误差项 的方程,称为多元回归模型涉及 p 个自变量的多元回归模型可表示为,b0,b1,b2,bp是参数 是被称为误差项的随机变量 y 是x1,,x2,xp 的线性函数加上误差项 包含在y里面但不能被p个自变量的线性关系所解释的变异性,多元线性回归模型(基本假定),1.解释变量x1,x2,xp是确定性变量不是随机变量,且要求样本容量的个数应大于解释变量的个数。2.误差项是一个期望值为0的随机变量,即E()=
2、03.对于自变量x1,x2,xp的所有值,的方差 2都相同4.误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立,多元线性回归方程(multiple linear regression equation),描述因变量 y 的平均值或期望值如何依赖于自变量 x1,x2,xp的方程多元线性回归方程的形式为 E(y)=0+1 x1+2 x2+k xp,b1,b2,bp称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值,二元线性回归方程,二元线性回归方程的直观解释,回归参数的估计,估计的多元线性回归的方程(estimated multiple line
3、ar regression equation),是 估计值 是 y 的估计值,用样本统计量 估计回归方程中的 参数 时得到的方程由最小二乘法求得一般形式为,参数的最小二乘法,求解各回归参数的标准方程如下,使因变量的观察值与估计值之间的离差平方和达到最小来求得。即,参数的最小二乘法(例题分析),例1 生产总值是衡量一个国家地区经济发展的重要指标,影响一个国家或地区生产总值的因素包括资本、资源、科技、劳动力、进出口、国家基础设施建设等方面的因素。本例研究财政支出对生产总值的影响。中国统计年鉴把财政支出划分为31个组成部分,本例只选取其中的13个重要支出项。,回归系数表,用spss软件计算的回归系数
4、如下:,参数的最小二乘法,需要注意的是,这一回归方程并不理想,回归系数的意义不好解释,这里只是作为多元线性回归参数估计的一例,后边我们还要进一步完善这一模型的建立,线性回归方程的某些注意点,1 样本决定系数2 估计标准误差,一、多重样本决定系数(multiple coefficient of determination),修正多重决定系数(adjusted multiple coefficient of determination),估计标准误差 Sy,对误差项的标准差 的一个估计值衡量多元回归方程的拟合优度计算公式为,回归方程显著性检验,线性关系检验(回归方程显著性检验),检验因变量与所有自
5、变量之间的线性关系是否显著也被称为总体的显著性检验检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用 F 检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系,线性关系检验,提出假设H0:12p=0 线性关系不显著H1:1,2,p至少有一个不等于0,2.计算检验统计量F,确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F 4.作出决策:若FF,拒绝H0,方差分析表,前面的这些计算结果可以列成表格的形式,称为方差分析表.方差分析表,表中的Sig即为显著性P值,由P值0.000(近似值)可知回归方程十分显
6、著。即可以以99.9以上的概率断言所有自变量全体对因变量产生显著线性影响。,对例1回归方程的检验:,回归系数显著性检验,线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验对每一个自变量都要单独进行检验应用 t 检验统计量,回归系数的检验(步骤),提出假设H0:bi=0(自变量 xi 与 因变量 y 没有线性关系)H1:bi 0(自变量 xi 与 因变量 y有线性关系)计算检验的统计量 t,确定显著性水平,并进行决策 tt,拒绝H0;tt,不拒绝H0,回归系数的推断(置信区间),回归系数在(1-)%置信水平下的置信区间为,回归系数的抽样标准差,例1 spss计算出的 和P值,对回归系数
7、的检验:,结果发现:并不是所有的自变量单独对因变量都有显著性影响,最大的P值为0.9260.05,在取显著性水平a0.05时通不过显著性检验。这个例子说明:尽管回归方程通过了显著性检验,但也会出现某些单个自变量(甚至每一个)对因变量并不显著的情况。由于某些自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好。,在此介绍一种剔除多余自变量的方法:逐步回归法,剔除 x3科技三项费 后:,剔除x6工交部门事业费 后:,依次剔除,最终只保留x1,x2,x4,x8,x10,x11,x12,x13,其回归系数见下表:,多元线性回归分析操作,(一)基本操作步骤(1)菜单选项:analyze-
8、regression-linear(2)选择一个变量为因变量进入dependent框(3)选择一个或多个变量为自变量进入independent框(4)选择多元回归分析的自变量筛选方法:enter:所选变量全部进入回归方程(默认方法)remove:从回归方程中剔除变量stepwise:逐步筛选;backward:向后筛选;forward:向前筛选(5)对样本进行筛选(selection variable)利用满足一定条件的样本数据进行回归分析(6)指定作图时各数据点的标志变量(case labels),多元线性回归分析操作,(二)statistics选项(1)基本统计量输出Part and pa
9、rtial correlation:与Y的简单相关、偏相关和部分相关R square change:每个自变量进入方程后R2及F值的变化量Collinearity dignostics:共线性诊断.,非线性回归,水文研究中X和Y的数量关系常常不是线性的,如洪峰流量与流域面积之间。如果用线性描述将丢失大量信息,甚至得出错误结论。这时可以用曲线估计(Curve estimation)或非线性回归(Nonlinear regression)方法分析。本部分仅就一元非线性回归问题,讨论其参数估计。,1,线性化方法2,直接最小二乘法3,二步法,一元非线性回归方程参数估计的常用方法:,线性化方法,1,最简
10、单最常用的方法2,通过对变量作适当变换,将原变量的非线性关 系转化为新变量的线性关系,建立起线性回归方程,然后再还原为原变量,这样建立曲线回归方程的方法称为线性化法。3,首先,要确定非线性函数的类型,然后再考虑能否通过变量变换的方法使之线性化。4,如何确定非线性函数的类型?专业知识和经验 数学方法:散点图,一、非线性模型的线性化,下面列出一些常用的非线性函数的线性化变换,如果实测数据的散点图大致围绕下列的某一曲线散布,就可采用与之相应的变换,使其转化为线性问题。双曲线型指数曲线型幂函数型对数曲线型S曲线型,绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类)按曲线类型,作曲线直线化变换
11、建立直线化的直线回归方程;作假设检验,计算决定系数将变量还原,写出用原变量表达的曲线方程比较决定系数选取“最佳”曲线方程,曲线直线化估计的步骤,利用线性回归拟合曲线,例 上海医科大学微生物学教研室以已知浓度X的免疫球蛋白A(IgA,g/ml)作火箭电泳,测得火箭高度Y(mm)如表所示。试拟合Y关于X的非线性回归方程。,(一)绘制散点图,决定曲线类型(对数曲线)(二)曲线直线化变换=a+blnX,(三)建立线性回归方程,回归方程为:=19.7451+7.7771lnX方差分析有统计学意义,P0.0000,F763.50,表明回归方程有意义。确定系数为0.99,表明回归拟合原资料很好。,直接最小二
12、乘法,类似于建立线性回归方程的方法,根据x,y的原始观测资料,依据最小二乘法原理,直接寻求方程中未知参数的最小二乘估计。对于非线性回归,由于回归方程是非线性函数,其正规方程组一般是超越方程(非代数方程),不能用代数方法求解,只能用数值解法,迭代计算出其近似解。,用线性回归拟合曲线(例2),表 25名重伤病人的住院天数X与预后指数Y,(一)绘制散点图,决定曲线类型,指数曲线,(二)曲线直线化变换,(三)建立线性回归方程,回归方程为:X方差分析有统计学意义,P0.0000,F276.38,表明回归方程有贡献。确定系数为0.9551,表明回归拟合原资料较好。转换为原方程的另一种形式:,比较两个回归方
13、程可见,对同一份样本采用不同估计方法得到的结果并不相同。主要因为曲线直线化以后的回归只对变换后的Y*(lnY)负责,得到的线性方程可使Y*与其估计值 之间的残差平方和最小,并不保证原变量Y与其估计值 之间的残差平方和也是最小。,曲线直线化 非线性最小二乘法,二步法,1,线性化方法与直接最小二乘法是建立曲线回归方程的基本方法。2,线性化方法:优点:计算方便缺点:误差较大。只能保证对变换后的回归方程满足总误差平方和最小,而不能保证还原后的回归方程的误差平方和最小。3,直接最小二乘法优点:精度较高缺点:计算量太大4,二步法:将这两种方法结合起来。具体是先用线性化方法求出曲线方程线性化过程中无须变换的参数的最小二乘估计,再用直接最小二乘法求线性化过程中必须变换的参数的最小二乘估计。P260,非线性回归方程的评价,1,非线性回归方程的评价,不能再用评价线性回归方程的方法,如F检验,相关系数r的检验。2,描述非线性回归方程与实测数据间拟合好坏的指标称为相关指数,仍记为R。计算公式见P2613,R越大,表明曲线与实测数据拟合越好,方程越具有实用价值。,
链接地址:https://www.31ppt.com/p-5953582.html