第九章回归分析ppt课件.ppt
《第九章回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第九章回归分析ppt课件.ppt(127页珍藏版)》请在三一办公上搜索。
1、1,第八章 回归分析,第一节 一元线性回归分析,第二节 可线性化的一元非线性回归问题,第三节 多元线性回归分析,第四节 逐步回归分析,第五节 处理多元线性回归中自变量共线性的几种方法,第七节 含有定性变量的回归分析,第八节 通径分析,第六节 多元非线性回归分析,2,回归分析(regression analysis)是指由自变量的变异来估计因变量的变异问题,具体可通过建立回归方程来实现. 在热带作物栽培和加工试验以及作物病虫害预测预报的研究中, 回归分析有着极其广泛的应用.如在橡胶树产量研究中, 应用回归分析可由蓬距、幼苗期刺检干胶量、叶脉角度等估测产胶量;在橡胶树白粉病研究中,用越冬菌量、温度
2、、湿度及橡胶物候等因子可预测白粉病的流行强度等等.,按自变量个数的多少可将回归分析分为一元回归分析和多元回归分析.只考虑一个自变量的回归问题称为一元回归分析,含有两个或两个以上自变量的回归问题称为多元回归分析.以自变量和因变量之间内在联系特征的不同,又可将回归问题分为线性回归和非线性回归分析.,本章着重介绍应用国际通用统计软件SAS进行线性和非线性回归分析的方法,3,一. 回归模型,第一节 一元线性回归分析,回归模型建立的直观思想,如果对于自变量 x 的一个观测值 xi ,因变量y有一个相应的观察值yi与之对应,则称 (xi , yi)组成一对观察值. 现假定x与y有n对观察值(x1, y1)
3、, (x2 , y2) , (xn , yn),把这n个点(xi , yi) 画在平面直角坐标系上,得到如图81所示的散点图.,图81 观测值 (xi ,yi)散点图,4,从散点图可以看出,随着自变量x的增加,因变量y也呈现上升的趋势,图中的点大致分布在一条向右方倾斜的直线附近,因而可以用一条直线方程来近似的逼近 即 yi=b0+b1xi+ei i=1 , 2, , n 其中ei N(0 ,s 2), ei 是相互独立的随机变量序列且它们的方差相同(方差齐性),称为回归直线(方程).对于一元线性回归模型,我们要解决以下问题:(1)参数估计:给出参数b0 , b1 , s 2 的估计值.(2)显
4、著性检验:检验线性函数 yi=b0+b1xi 用来描述因变量 y 与自变量 x 的关系是否合适,包括回归模型的显著性检验和 参数的显著性检验.(3)模型检查:检查对模型所做的假设是否成立,包括 ei 是相互独 立的随机变量序列的检查和方差齐性的检查.(4)预测或控制.,5,对b0 , b1的估计实际上就是在平面直角坐标系中估计一条直线,二 回归模型建立的方法最小二乘估计,使它尽可能地接近回归直线,直观的说来就是使理论值和观测值的所有偏差和最小.为了避免正负偏差项互相抵消,因而要求所有偏差平方和最小,即求参数 b0 , b1 , 使函数,达到最小.,6,根据二元函数的极值理论,分别求,关于两个变
5、量,解方程组得,的一阶偏导数,并令它们等于零,解联立方程组即可.将以上两式展开,得方程组:,7,称观测值与理论值的差 为残差.以上用数学方法对参数 进行估计的方法,称为最小二乘估计法. SAS程序直接调用reg过程.一般格式如下: poc reg data=数据集名称; model 因变量集=自变量集; (如model y=x;)三 一元线性回归模型的检验1方差分析与F检验1)统计假设 原假设 备择假设2)平方和与自由度分解 即总平方和分解为误差平方和与回归平方和,同时总自由度也分解为误差自由度加上回归自由度,即,8,3)F统计量若 ,则拒绝 接受 说明用函数 来描述因变量 y与自变量 x 的
6、关系是合适的,即回归模型是显著性的。4)方差分析表,2可决定系数R2(判定系数),作为一个相对指标,测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比,因此它也是对回归方程拟合优度的一种测度.R2越接近于1,则说明回归方程对样本点的拟合得越好.,9,3t 检验,t 检验是对回归参数显著性的检验,可以证明以下两个结论:,结论1:在零假设,对于一元线性回归来说,成立的条件下有:,拒绝域为:,结论2:在零假设,成立的条件下有:,拒绝域为:,的F检验值和t检验中的t值的概率值 p 相等.实际上,对于一元线性回归模型来说,上述两个检验是等价的,即都有相同的拒绝域.,10,1.残差图,四 一
7、元线性回归模型的残差分析(回归诊断),称观测值与理论值的差,为残差.而称,为标准化残差.,残差图以x为坐标横轴,残差e为坐标纵轴,由所有点(xi , ei)构成.,残差图可用于检验随机变量序列 的独立性,正态性和方差整齐性.从理论上可以证明e1,e2, en相互独立且近似的服从N(0,1).故关于预测值残差图中的点应随机分布在-2到+2之间的带子形里,这样的残差图称为正常的残差图.,另一种残差图是用横轴表示因变量的预测值而用纵轴表示残差值ei,即点的坐标为(yi,ei).,11,图82为几种常见的残差图,12,2.方差齐性的诊断及修正方法,对于一元线性回归来说,关于 x 的残差图和关于预测值的
8、残差图提供了同样的信息.,对于多元线性回归分析,由于有一个以上的自变量,所以一般采用关于预测值的残差图.,误差方差非齐性时,残差图不正常.可通过对因变量作适当的变换,令z=f ( y ) 使得关于因变量的回归分析中误差的方差接近于齐性.实用上常选用一些变换,变换后重新做回归及残差图,如残残差图有改善或已属正常,则该变换是合适的.否则改变变换函数计算直到找到合适的变换为止,常用的方差稳定性变换有:,13,在许多回归分析中,所利用的数据是按时间顺序采集的,即时间序列数据,用yt表示y在时刻t的值,而y的值又常常依赖于y在以前时刻的值.此时,称数据存在自相关(序列相关),从而违背了回归模型的假设,误
9、差项 已不再是独立的.,检验方法为DurbinWatson统计量:,3DurbinWatson 检验,DurbinWatson统计量的取值介于0和4之间,一个粗略的判断是:,若D值在2附近(1.62.4,则存在负的自相关.具体可通过SAS程序来完成,只需在reg过程后增加选项DW即可,如:proc reg DW;,14,五、一元线性回归模型的SAS实施,一元线性回归模型的建立可通过国际通用软件SAS实施.具体可直接调用reg过程,一般格式如下: poc reg data=数据集名称;(data=数据集名称可以省略,此时所用的数据集为最近的数据集) model 因变量集=自变量集;(如model
10、 y=x;),六、应用实例,例8.1 海南省国营大岭农场橡胶树大型系比二组无性系,1960年刺检干胶量(x:毫克)与1965年正式割胶产量(y:克)如下表82,求正式割胶量关于剌检干胶量的回归方程.,15,1建立回归方程,由所给的数据得,于是得,16,于是得回归方程为,2. 回归方程显著性检验,总平方和,回归平方和,剩余平方和,方差分析结果列于表83.,17,SAS程序与输出结果,data han81; input x y;cards;,77 8.8 64 7.9 62 8.9 72 7.7 71 8.6 83 8.1 79 9.1 97 5.6 104 8.5 96 7.6 61 4.9 9
11、0 8.1 81 12.0 122 15.7 65 11.9 130 11.1 111 6.5 160 15.3 188 17.7 81 5.9 92 10.6 80 8.3 63 6.0 105 8.5 89 10.1 73 3.5;,18,proc gplot; plot y*x=*; proc reg; model y=x/p clm cli; plot residual.*x=*;run;,主要的输出结果:,(1)因变量y关于变量x的散点图,19,由散点图可以看出,图中的点大致呈现直线上升的趋势,因而可以用线性模型来刻画因变量y与自变量x的关系.,(2)模型拟合与检验,Dependen
12、t Variable: y Analysis of Variance Sum of MeanSource DF Squares Square F Value Pr FModel 1 137.80902 137.80902 23.81 .0001Error 24 138.89752 5.78740Corrected total 25 276.70654,Root MSE 2.40570 R-Square 0.4980 Dependent Mean 9.11154 Adj R-Sq 0.4771 Coeff Var 26.40280,20,Parameter Estimates Parameter
13、 StandardVariable DF Estimate Error t Value Pr |t| Intercept 1 2.00746 1.53037 1.31 0.2020 x 1 0.07709 0.01580 4.88 .0001,输出结果的给出了F=23.81, Pr0.0001.表明回归方程是显著的.,输出结果给出了参数的估计值和显著性检验. 结果显示回归系数是显著的,于是得因变量 y关于自变量x的回归方程为,y=2.007+0.07761x,必须注意,对于一元线性回归问题,回归方程的显著性与回归系数的显著性检验是相同的.,输出结果的中部给出了决定系数R2=0.4980. R2
14、过小可能是由于样本容量过小引起,也可能是还有其它重要的因素没有被考虑到.,21,在许多实际问题中,因变量与自变量的关系不一定都是线性的,它们之间可能存在某种复杂的非线性关系,表现为散点图上的点围绕某条曲线波动,常见的非线性函数有:,第二节 可线性化的一元非线性回归问题,一.可线性化的非线性回归问题,1.双曲函数 1/y=a+b/x 作变换: 令 1/y=z ,1/x=t 则有 z=a+bt ,显然z是t的线性函数.,2. 对数曲线函数 y=a+blnx 作变换: 令 t =lnx ,则有 y=a+bt . 显然y 是t 的线性函数.,22,3. 幂函数 y=axb ( a0 , x0),4.
15、S形曲线函数 y=1/(a+be-x),5. 负指数函数 y=ae-b/x,先取对数,得 lny=lna+blnx ,作变换,令 lny=z , lnx=t , lna=k 则有 z=k+bt ,显然 z是t 的线性函数.,作变换,令 1/y = z , t=1/ex,则有 z=a+bt ,显然z是t的线性函数.,先取对数得 lny=lna-b/x,令 lny=z , lna=k , -1/x=t 则有 z=k+bt ,显然 z是t的线性函数.,23,对回归方程选择一种合适的函数形式,必须对散点图进行认真的分析.有时,对同一种散点图所呈现的因变量与自变量的关系,可以选择不同的函数形式来描述回归
16、方程,那么如何判断并比较不同回归方程的拟合优度呢?通常使用的比较准则. 有下面两个:,二. 曲线回归的选择准则,1. 相关指数 R,作为一个相对指标,测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比,因此它也是对回归方程拟合优度的一种测度.R2越接近于1,则回归方程对样本点的拟合得越好.因此,对于用不同的曲线拟合的回归方程,通常选择R2较大的一个为好.,24,2.剩余标准差S 它反映了样本偏离回归曲线的平均大小,当然S越小越好.事实上,上述两个准则是一致的.R越大,则S越小,反之也然.例1 以下为一组观测值 1) 绘制y对x的散点图 2) 假定y与x的关系为(1)双曲线1/y=
17、a+b/x(2)对数曲线函数y=a+blnx (3)负指数函数y=ae-b/x(4)幂函数 试作变量变换化非线性回归为线性回归,并建立回归方程.,25,data han2; input x y; z1=1/y; t1=1/x; t2=log(x); z2=log(y); t3=-1/x; t4=sqrt(x); cards; 2 106.42 3 108.20 4 109.58 5 109.50 7 110.00 8 109.93 10 110.49 11 110.59 14 110.60 15 110.90 16 110.76 18 110.00 19 111.20 ; proc gplot
18、 data=han2; plot y*x=*; proc reg data=han2; model z1=t1; proc reg data=han2; model y=t2; proc reg data=han2; model z2=t3; proc reg data=han2; model y=t4; run;,26,因变量y关于自变量x的散点图:,27,主要的输出结果: 模型1 双曲线函数 作变换 z1=1/y t1=1/xModel: MODEL1 Dependent Variable: Z1 Analysis of Variance Sum of Mean Source DF Squ
19、ares Square F Value ProbF Model 1 1.3335153E-7 1.3335153E-7 158.655 0.0001 Error 11 9.2456216E-9 8.405111E-10C Total 12 1.4259715E-7 Root MSE 0.00003 R-square 0.9352 Dep Mean 0.00910 Adj R-sq 0.9293 C.V. 0.31846 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0
20、Prob |T| INTERCEP 1 0.008979 0.00001275 704.256 0.0001 T1 1 0.000790 0.00006272 12.596 0.0001,28,模型2 对数曲线函数 说明: 已作变换 t2=lnx Model: MODEL1Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 16.03862 16.03862 44.470 0.0001 Error 11 3.96727 0.36066 C To
21、tal 12 20.00589 Root MSE 0.60055 R-square 0.8017 Dep Mean 109.85923 Adj R-sq 0.7837 C.V. 0.54665 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 106.497087 0.53097742 200.568 0.0001 T2 1 1.591238 0.23861707 6.669 0.0001,29,模型3 负指数函数 已作变换 z2
22、=lny t3=-1/x Model: MODEL1 Dependent Variable: Z2 Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 0.00158 0.00158 158.189 0.0001 Error 11 0.000109794 9.9812743E-6 C Total 12 0.00169 Root MSE 0.00316 R-square 0.9350 Dep Mean 4.69914 Adj R-sq 0.9291 C.V. 0.06723 Paramet
23、er Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 4.712697 0.00138939 3391.917 0.0001 T3 1 0.085962 0.00683472 12.577 0.0001,30,模型4 幂函数Model: MODEL1Dependent Variable: Y Analysis of Variance Sum of MeanSource DF Squares Square F Value ProbFModel 1 1
24、3.90887 13.90887 25.094 0.0004Error 11 6.09702 0.55427C Total 12 20.00589 Root MSE 0.74450 R-square 0.6952 Dep Mean 109.85923 Adj R-sq 0.6675 C.V. 0.67768 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 106.537333 0.69454059 153.393 0.0001
25、T4 1 1.091857 0.21796278 5.009 0.0004,31,从以上的输出结果可得模型1和模型3的R2较大,分别为0.9352和0.9350 ,因此选择模型1和模型3较为合适.,模型 1: z1=0.008979+0.00079t1 ,即 1/y=0.008979+0.00079/x,模型 3: z2=4.712697+0.085962t3 , 即 lny = 4.712697-1/x,于是,【返回】,32,第三节 多元线性回归分析,1回归模型 设影响因变量y的自变量有p个,并分别记为x1, x2, ,xp ,所谓多元线性回归模型是指这些自变量对因变量的影响是线性的,即 其
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 章回 分析 ppt 课件
链接地址:https://www.31ppt.com/p-1460076.html