数学模型与数学建模6.3节ppt课件.ppt

资源ID：2082087 资源大小：1MB 全文页数：30页
资源格式： PPT 下载积分：16金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要16金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

数学模型与数学建模6.3节ppt课件.ppt

6.3线性回归模型,6.3.1多元线性回归模型在回归分析中，如果有两个或两个以上的自变量，就称为多元回归或多重回归。在实际的应用中，多元线性回归比一元线性回归用途更广且实用意义更大。在建立多元线性回归模型时，随机变量与一般变量的多元线性回归模型为：,，,其中,是个未知参数，称为回归常数项，称为回归系数；称为被解释变量（因变量），是个可以精确测量并可控制的一般变量，称为解释变量（自变量）。为随机扰动项，,代表主观或客观原因造成的不可观测的随机误差，它是一个随机变量通常假定满足。（1）样本回归模型的建立设，是随机变量与一般变量的n次独立观测值，则此时多元线性模型可表示为：（6.3.1）其中，独立同分布。多元线性回归样本方程为,式中为的估计值。,为方便起见，令,，,则式（6.3.1）可改写为：（6.3.2）且满足，。回归方程可改写为：。多元线性回归方程中回归系数的估计采用最小二乘法。记残差平方和为，根据微积分中求极小值原理，可知残差平方,和存在最小值,即：,（6.3.3）,通过求解这一方程组便可求出的估计值，得。则为残差向量，取（6.3.4）为的估计，也称为的最小二乘估计。可以证明：.进一步可以证明的方差估计为。相应的的标准差为，其中是对角线上第i个元素。,（2）显著性检验在多元线性回归分析中，很难用图形来判断E(y)是否随作线性变化，因而显著性检验尤为重要。对多元线性回归方程的拟合程度进行测定、检验回归方程和回归系数的显著性。拟合优度检验。测定多元线性回归的拟合程度，使用多重判定系数，其定义为：式中SSR为回归平方和，SSE为残差平方和，SST为总离差平方和。,当的值范围为，越接近1，回归平面拟合程度越高；反之越接近0，回归平面拟合程度越低。回归方程的显著性检验（F检验）。所谓回归方程的显著性检验就是检验假设：所有回归系数都等于零，即检验：；不全为0。多元线性回归方程的显著性检验一般采用F检验。F统计量定义为回归平方和的平均与残差平方和的平均（均方误差）之比，对于多元线性回归方程，在成立的条件下：,式中，SSR为回归平方和，SSE为残差平方和，为样本，为自变量个数。F统计量服从的是第一自由度为，第二自由度为的F分布。从F统计量的定义式可看出，如果F值较大，则说明自变量造成的因变量的变动远远大于随机因素对因变量造成的影响。另外，从另一个角度来看，F统计量也可以反映回归方程的拟合优度。将F统计量的公式与的公式可得。可见，如果回归方程的拟合优度高，F统计量就越显著；F统计量越显著，回归方程拟合优度就越高。利用F统计量进行回归方程显著性检验的步骤总结如下：,Step 1 提出假设：,不全为0。Step 2 在成立条件下，计算F统计量，由样本观测值计算F值。Step 3根据给定的显著性水平确定临界值，或者计算F值所对应的相伴概率值p。如果（或者），就拒绝原假设，接受备择假设，认为所有回归系数同时与零有显著性差异，自变量与应变量之间存在显著性的线性关系，自变量的变化确实能够反映因变量的线性变化，回归方程显著。如果（或者），则接受原假设，自变量与应变量之间不存在显著性的线性关系，回归方程不显著。,回归系数显著性检验（t检验）回归方程的显著性检验是对线性回归方程的一个整体性检验。如果检验的结果是拒绝原假设，则因变量Y线性地依赖于自变量，这个回归自变量的整体。但是，这并不排除Y并不依赖于其中某些自变量。因此，我们还要对每个自变量逐一做显著性检验，即回归系数的显著性检验。回归系数的显著性检验是检验各自变量对因变量的影响是否显著，从而找出哪些自变量对的影响是重要的，哪些是不重要的。对于多元回归方程，回归系数的显著性检验，即检验假设，在假设成立的条件下，T统计量，式中为的对角线上第j个元素。,t检验步骤如下：Step 1 提出假设；式中，表示零假设，表示备择假设。如果零假设成立，则说明对没有显著性的影响，反之，则说明对有显著性的影响；Step 2 在成立的前提下，计算回归系数的T统计量 Step 3 给定的显著性水平，确定临界值,或者计算t值所对应的相伴率值p的大小。应注意的是，t检验的临界值是由显著性水平和自由度决定的，对于双侧检验，临界值为。如果（或者）,就拒绝原假设，认为回归系数与零有显著性差异，,该自变量和应变量之间存在显著的线性关系，它的变动较好地解释说明应变量的变动，应保留在回归方程中；反之，应剔除出去。例6.3.1 近年来，高等学校招生规模急剧扩大，在教育产业化的背景下，选取1985-2003年相关数据对影响我国高校招生人数的各因素及其影响程度的大小进行定量分析。,首先将数据EXCEL文件存为csv格式。然后编程如下：X-read.csv(d:programFilesRchengxudata2.csv,header=TRUE)y-X,2;x1-X,3;x2-X,4;lm.sol-lm(yx1+x2)summary(lm.sol)运行结果见图6.3.1。从运行结果可以看出，回归系数和回归方程的检验都是显著的，因此，回归方程为：（3）回归系数的区间估计,由参数的统计性质可知：（6.3.6）因此，的区间估计为：,（4）预测当多元线性回归方程经过检验是显著的，且其中每个系数均显著不为0，则说明回归的结果是合理的，在此基础上可用回归方程作预测。当时，代入回归方程可得.当观测值为时，的置信度为的预测区间为：,如求例6.3.1回归方程中，当 x=(900,1300)T 时的预测区间。这里即为求x=(900,1300)T时的预测值，和置信程度为0.95的置信区间。,编程如下：new-data.frame(x1-900,x2-1300)lm.pred-predict(lm.sol,new,interval=prediction,level=0.95)lm.pred fit lwr upr1 51668.3 28980.95 74355.66因此，当x=(900,1300)T时，得到相应的预测值为51668.3，预测区间为28980.95,74355.66。,6.3.2逐步回归模型逐步回归的实质是在建立多元回归方程的过程中,首先按偏相关系数的大小次序，将自变量逐个引入方程，并且对引入方程中的每个自变量偏相关系数进行统计检验，效应显著的自变量留在回归方程内。继续遴选下一个自变量，如果效应不显著，停止引入新自变量。由于新自变量的引入，原已引入方程中的自变量由于变量之间的相互作用其效应有可能变的不显著，经统计检验后要随时从方程中剔除，只保留效应显著的自变量，直到不再引入和剔除自变量为止，从而得到最优的回归方程。,在多元线性逐步回归中，“最优”的含义是指从可供选择的所有变量中选出对Y有显著影响的变量建立方程，且在方程中不含对Y无显著影响的变量。R软件提供了较为方便的“逐步回归”计算函数step()，它是以信息统计量为准则，通过选择最小的AIC信息统计量，来达到删除或增加变量的目的。我们通过一个例子来说明如何通过R软件来实现逐步回归的过程。例 6.3.2 某水泥在凝固时放出的热量y（单位：卡/克）与水泥中下列四种化学成分有关：3CaO.Al2O3的成分(%);：3CaO.Si2O3的成分(%);：4CaO.Al2O3.Fe2O3的成分(%);：2CaO.SiO2的成分(%)。所测定的数据如表6.3.2所示。用回归分析建立y与四种化学成分的线性回归模型。,表6.3.2 水泥中所含化学成分表,首先做多元线性回归如下：x-read.csv(d:program FilesRchengxuzhubuhuigui.csv,header=F)y-x,5;x1-x,1;x2-x,2;x3-x,3;x4-x,4;lms-lm(yx1+x2+x3+x4)summary(lms)运行结果如下：Call:lm(formula=y x1+x2+x3+x4)Residuals:Min 1Q Median 3Q Max-3.1750-1.6709 0.2508 1.3783 3.9254,Coefficients:Estimate Std.Error t value Pr(|t|)(Intercept)62.4054 70.0710 0.891 0.3991 x1 1.5511 0.7448 2.083 0.0708.x2 0.5102 0.7238 0.705 0.5009 x3 0.1019 0.7547 0.135 0.8959 x4-0.1441 0.7091-0.203 0.8441 Signif.codes:0*0.001*0.01*0.05.0.1 1,Residual standard error:2.446 on 8 degrees of freedomMultiple R-squared:0.9824,Adjusted R-squared:0.9736 F-statistic:111.5 on 4 and 8 DF,p-value:4.756e-07,从回归方程的计算可以看到，如果选择全部变量作回归方程，效果是不好的，因为回归方程的系数只有一个通过了检验。在R软件中，step()函数时逐步回归函数，它是以AIC信息统计量为准则，通过删除或增加变量，使能得到的“最优”回归方程的AIC值达到最小。lm2-step(lms),显示如下结果：Start:AIC=26.94y x1+x2+x3+x4 Df Sum of Sq RSS AIC-x3 1 0.1091 47.973 24.974-x4 1 0.2470 48.111 25.011-x2 1 2.9725 50.836 25.728,从结果可以看出，用全部变量做回归时，AIC值为26.94；去掉变量时，AIC变为24.974；去掉变量时，AIC值变为25.011；去掉变量时，AIC值为25.728；去掉变量时，AIC值为30.576。,因此，R软件自动去掉变量，进行下一轮计算。下一轮计算中，无论去掉哪个变量后，AIC值均会升高，因此，R软件终止计算，得到“最优”回归方程。下面分析一下计算过程，见图6.3.2。,由逐步回归后的结果可以看出，回归系数检验的显著性水平有很大提高，但变量的回归系数检验显著性水平仍不理想。下面该如何处理呢？在R软件中，还有两个函数可以用来作逐步回归，这两个函数是add1()和drop1()。drop1(lm2)Single term deletionsModel:y x1+x2+x4 Df Sum of Sq RSS AIC 47.97 24.974x1 1 820.91 868.88 60.629x2 1 26.79 74.76 28.742x4 1 9.93 57.90 25.420,从运算变量来看，如果删去变量，AIC的值会从24.97增加到25.42，是增加的最少的。另外,除AIC准则外，残差的平方和也是逐步回归的重要指标之一，一般来说，拟合越好的方程，残差的平方和越小。去掉变量，残差平方和上升9.93，也是最少的。因此，从这两项指标来看，应该再去掉变量。,图 6.3.3 逐步回归后的最终结果分析,最后的回归结果见图6.3.3，从最后的回归结果可以看出，该结果的回归方程和回归系数都通过了检验。因此，逐步回归的结果为：,

注意事项

本文（数学模型与数学建模6.3节ppt课件.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。