第10章回归分析.ppt
第10章 回归分析,蔡德利黑龙江八一农垦大学资源与环境系TsaiD2004.10.20,本章主要内容,概述Corr过程线性相关分析Reg过程直线回归多元线性回归,岭回归Nlin过程非线性回归分析对数曲线拟合Logistic过程主成分回归,概述,变量之间的关系有两类:一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。如长方形的面积(S)与 长(a)和 宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系,模型为机理模型。,概述,变量之间的另一类关系是不完全确定的关系,无法用精确的数学公式来表示。如儿童生长时的身高和体重、作物的产量和肥料用量、植物病害的发生程度与气候条件之间的关系。这类关系在生物界中大量存在,只能用统计学的方法研究变量间的相关关系,建立数值模拟模型。,概述,统计学上采用回归分析(regression analysis)研究相关变量间的因果关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。,概述,统计学上采用相关分析(correlation analysis)研究变量之间的相关关系。对两个变量间的直线关系进行相关分析称为简单相关分析(也叫线性相关分析);对多个变量进行相关分析时:研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析;研究两组变量间线性相关称为典型相关分析。,概述,SAS系统中,适用回归分析的过程:,概述,概述,几种回归过程相同的输出数据用最小二乘法所估计的参数值(如:b0,b1.);误差方差的估计值;参数估计值的标准误或方差;有关参数的假设(如H0:0=0)检验;各种预测值及其误差;回归方程显著性的检验。,概述,相异的诊断功能REG 程序提供共线性(Collinearity)的诊断,这个诊断探讨自变量间相关的程度及可能造成的影响。REG,LOGISTIC 及RSREG 三个程序提供影响度诊断以决定各观察体对参数估计值、误差的平方和(SSE)及预测值等的影响。LOGISTIC 程序也有这种功能,不过其分析原理是采最大似然率法。PROBIT 与RSREG 两程序提供回归模型精确度(Accuracy)的诊断,所用的方法是比较误差的方差及其估计值。REG 程序提供时间序列分析(Time Series Analysis)的诊断,特别是有关时间的误差以及误差间彼此的相关。,Corr过程,Corr过程存在于SAS的base模块,可以计算:Pearson积矩相关系数;Spearman秩相关系数;Kendalls tau-b统计量;Hoeffdings独立性分析统计量D;Pearson、Spearman以及Kendall偏相关系数;另外,它还对用于估计可靠性的Cronbach系数进行计算。,Corr过程,Corr过程格式:PROC CORR;BY var-1 var-n;FREQ variable;PARTIAL variables;VAR variables;WEIGHT variable;WITH variables;Run;,Corr过程,Corr过程,Corr过程,线性相关分析,线性相关分析:是在(X,Y)服从正态分布(双变量正态分布)的假定下,用线性相关的统计分析方法研究两变量间数量变化关系的密切程度和方向,称为线性相关分析。对样本的要求:线性:linear 独立:independent正态:normal等方差:equal variance,线性相关分析,线性相关分析,线性相关分析,线性相关的性质可由散点图直观的说明,按图中散点的分布,可归纳为以下几种情况:,A 0 1,B-1 0,C=1,D=-1,E=0,F=0,G=0,H=0,线性相关分析,公式的解释:r 的符号(方向):当 X,Y同向变化时,一、三象限的点多于二、四象限的点,r为正,两变量正相关,0 r 1;当 X,Y反向变化时,二、四象限的点多于一、三象限的点,r为负,两变量负相关,-1 r 0;当点在一、三象限和二、四象限均匀分布时,正负抵消,r=0,呈零相关,X、Y没有线性关系。相关系数r的大小:r的绝对值越大,说明线性相关程度越好,散点越接近一条直线;绝对值越小,说明线性相关程度越差。,线性相关分析,示例10001(李春喜,王文林等编著生物统计学114页):有人研究了粘虫孵化历期平均温度(x,)与历期天数(y,天)之间的关系。试进行皮尔逊积差相关分析。,线性相关分析,对资料进行相关分析之前,我们可以先对其绘制散点图,以考察两变量的真实变化关系。我们可以应用plot过程或gplot过程来执行绘制散点图的功能。散点图完成后再计算变量之间的相关系数,对相关系数进行假设检验,以量化形式表示变量间的相关关系。,线性相关分析,/*SasProg10001.Sas*/data D10001;input x y;cards;11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.617.1 11.9 18.8 10.7 19.5 8.3 20.4 6.7;proc gplot;plot y*x=*;run;proc corr;var x y;run;,Pearson相关分析是Corr过程的默认方式;用with语句可以对特定的变量对进行相关分析,可将corr过程中间的语句改为:var x;with y;,线性相关分析,结果解释:首先给出两变量的描述性统计量;然后给出变量的相关系数矩阵(var语句所列变量中任两者之间的相关系数);由于抽样误差的存在,从=0的双变量总体中抽出的样本相关系数r不一定等于0。为了判断r所代表的总体是否存在直线相关,必须测定r来自=0总体的概率,因此,需进行相关系数的假设检验。假设为H0:=0,检验结果(仅给出P值)列在相应相关系数的下面。本例p0.001,=0是不可能的,x和y之间存在着极显著的直线相关关系。,线性相关分析,示例10002(西北农学院、华南农业大学主编农业化学研究法177页):大豆脂肪含量(x1,%)和蛋白质含量(x2,%)的测定结果。试进行皮尔逊积差相关分析。,线性相关分析,/*SasProg10002.Sas*/data D10002;input x1 x2;cards;16.5 43.5 17.5 42.6 18.5 42.619.5 40.6 20.5 40.3 21.5 38.722.5 37.2 23.5 36.0 24.5 34.0;proc gplot;plot x2*x1=*;run;proc corr;var x1 x2;run;,线性相关分析,示例10003:用60Co对狗造成急性放射病,对照射后5天时的健康状况进行综合评分,并记录其存活天数。试作Spearman秩(等级)相关分析。,线性相关分析,当两变量不符合双变量正态分布的假设时,需用Spearman秩相关来描述变量间的相互变化关系。此时,散点图上散点的分布形态不能完全描述两变量间的相关关系,故此时一般不需再绘制散点图。,线性相关分析,/*SasProg10003.Sas*/data D10003;input x y;cards;79 45 80 30 91 16 90 24 70 28 87 25 92 14;proc corr spearman nosimple;var x y;run;,Proc corr语句的spearman选项即要求用Spearman秩相关来进行数据分析,nosimple选项则用来禁止对变量描述性统计量的输出。,REG过程,REG 程序将参数估计值带入线性回归模型中,以便执行回归分析的预测。这些参数估计值是由最小误差平方法所导出的。REG 程序是SAS 所有回归分析程序中用途最广泛的一种(好比GLM 程序是SAS所有方差分析程序中用途最广泛的一种)。其它回归分析的程序各有其特殊的用途。,REG过程,PROC REG;MODEL dependents=;BY variables;FREQ variable;ID variables;VAR variables;WEIGHT variable;ADD variables;DELETE variables;MTEST;OUTPUT keyword=names;PAINT|;PLOT;PRINT;REFIT;RESTRICT equation,.,equation;REWEIGHT|;TEST equation,;Run;,REG过程,Reg过程的Model语句Model语句用以指定所要拟合的回归模型。格式:MODEL dependents=;最前面的标签为可选项,可以是不超过8个字符的字符串,用来对定义的模型进行标识,以便于在结果中分辨不同的模型,一般情况下系统会以默认的方式对模型进行标识。,REG过程,Reg过程的Model语句关键字Model后所列的是模型表达式,和方差分析中anova过程的model语句相似。模型表达式中等号的左边为依变量,等号的右边为自变量列表,自变量间以空格相分隔。Model语句中不允许出现组合型变量。如果要用到几个变量产生的综合变量,必须在数据步完成新变量的创建过程。,REG过程,常用的Model语句选项:,REG过程,REG过程,REG过程,直线回归,示例10R01(西北农学院、华南农业大学主编.农业化学研究法.北京:农业出版社.1980年12月第1版):从土壤学理论知道,土壤中的氮素主要以有机氮的形态存在,因此,土壤全氮量与土壤有机质之间,应该有一定的联系。50种水稻土实测得到的有机质含量(%)与全氮含量(%)的记录(SasData10R01.txt),试对这批数据进行回归分析。,直线回归,/*SasProg10R01.Sas*/data d10R01;infile e:sassasdatasasdata10R01.txt;input x y;proc gplot;plot y*x;proc reg;model y=x;plot y*x;run;,直线回归,结果解释:Model:MODEL1:模型标签为“MODEL1”(程序未进行指定,此处为系统默认分配的标签)。Dependent Variable:y:依变量为y。Analysis of Variance:方差分析表。Root MSE:误差均方平方根。R-Square:决定系数。Dependent Mean:依变量均数。Adj R-Sq:校正的决定系数。,直线回归,结果解释:Coeff Var:变异系数。Parameter Estimates:模型的参数估计。分别给出截距项和自变量回归系数等的估计值以及对应参数为0的假设测验结果。本例回归方程为:y=0.00093116+0.05431x,直线回归,直线回归,示例10R02(蒋明.SAS软件在回归分析中的应用.计算机与农业.2003,(8):15-16):国营大岭农场橡胶树大型系比二组无性系,1960年刺检干胶量(mg)与1965年正式割胶产量(g)数据(SasData10004.txt),试求正式割胶量(x)回归于刺检干胶量(y)的回归方程。,直线回归,/*SasProg10R02.Sas*/data d10R02;infile e:sassasdatasasdata10R02.txt;input x y;proc reg;model y=x;run;,本例回归方程为:y=1.96825+0.07761x,多元线性回归,示例10M01(蒋明.SAS软件在回归分析中的应用.计算机与农业.2003,(8):15-16):研究橡胶树白粉病的始病期(x1)、嫩叶历期(x2)、发病期雨天数(x3)与最终病情指数(y)的关系,18年的白粉病预报要素和最终病情指数级值数据(SasData10M01.txt),试求回归方程。,多元线性回归,/*SasProg10m01.Sas*/data d10m01;infile e:sassasdatasasdata10m01.txt;input x1 x2 x3 y;proc reg;model y=x1 x2 x3;run;,多元线性回归,模型选择:上例整个模型具有统计学意义(方差分析表中F检验p0.05)。我们看到,并不是所有自变量对依变量的回归作用都具有统计学意义,这时我们需要建立一个最优模型。SAS有关模型的选择方法多达9种。,多元线性回归,逐步回归:/*SasProg10m02.Sas*/data d10m01;infile e:sassasdatasasdata10m01.txt;input x1 x2 x3 y;proc reg;model y=x1 x2 x3/selection=stepwise slentry=0.05 slstay=0.05;run;逐步法选择模型,自变量进入模型和剔除出模型的标准都定为=0.05。,多元线性回归,示例10M03:某学校20名一年级女大学生体重(x1,公斤)、胸围(x2,厘米)、肩宽(x3,厘米)及肺活量(y,升)实测值,试对影响女大学生肺活量的有关因素作逐步回归分析。数据文件SasData10M03.txt,多元线性回归,/*SasProg10m03.Sas*/data d10m03;infile e:sassasdatasasdata10m03.txt;input no x1 x2 x3 y;proc reg;model y=x1 x2 x3/selection=stepwise slentry=0.05 slstay=0.05;run;quit;,多元线性回归,实例10M04(陈立,徐汉虹,赵善欢.获取复配农药最佳增效配方的一种简易方法.生物数学学报.2001,16(4):456-461):研究氯氰菊酯和喹硫磷混配对斜纹夜蛾(Spodoptera litura)的增效作用,以共毒系数的倒数为目标函数寻找最优配方。药剂为91.6%氯氰菊酯原药(广东省中山凯达精细化工股份有限公司)和40%喹硫磷乳油(福建三明农药厂)。采用二次回归通用旋转组合设计。(1)首先测定氯氰菊酯和喹硫磷各自的毒力回归线,以Lc25的近似值为零水平。然后用以2为底的对数尺度2r编码(见下表),杀虫剂使用浓度(Ni)与编码值(xi)之间的转换关系为,多元线性回归,实例10M04(陈立,徐汉虹,赵善欢.获取复配农药最佳增效配方的一种简易方法.生物数学学报.2001,16(4):456-461):因子及编码表供试昆虫为室内饲养的斜纹夜娥2龄中后期幼虫。采用Potter塔喷雾法处理试虫,24小时后检查试虫死亡情况。,多元线性回归,/*SasProg10M04.Sas*/data xz;input x1-x5 y;cards;-1-1 1 1 1 4.9164-1 1-1 1 1 5.3406 1-1-1 1 1 5.1679 1 1 1 1 1 6.2816-1.414 0 0 2 0 4.8325 1.414 0 0 2 0 5.5244 0-1.414 0 0 2 4.9164 0 1.414 0 0 2 5.8416 0 0 0 0 0 5.2533 0 0 0 0 0 5.4308 0 0 0 0 0 5.4308 0 0 0 0 0 5.3406 0 0 0 0 0 5.5244;proc reg;model y=x1-x5;run;,计算斜纹夜蛾死亡率(y)与氯氰菊酯(x1)和喹硫磷(x2)浓度的二次回归方程。y=5.39598+0.27140 x1+0.35582x2+0.17237x1x2-0.07179x12+0.02849x22,多元线性回归,示例10M05:预测人体吸入氧气的效率本例数据(SasData10M05.txt)来自一群中年男士的健康状态资料,由Linnerud 提供。每一名男士提供七个数据,分别是:年龄(AGE),体重(WEIGHT),吸氧的效率(OXY),跑1.5 英里所需的时间(以分钟计,RUNTIME),休息时的心跳(RSTPULSE),跑步时的心跳率(RUNPULSE)和最高心跳率(MAXPULSE)。其中,吸氧效率(OXY)是依变量,另外六个均是自变量。分析的过程是,先用逐步排除法,再用最大相关法,以便找出一个又精简又有效的递归模型。,多元线性回归,/*Sasprog10M05.Sas*/DATA D10M05;infile e:SasSasDataSasData10M05.txt;INPUT AGE WEIGHT OXY RUNTIME RSTPULSE RUNPULSE MAXPULSE;PROC REG DATA=D10M04 OUTEST=EST;MODEL OXY=AGE WEIGHT RUNTIME RUNPULSE MAXPULSE RSTPULSE/SELECTION=STEPWISE;MODEL OXY=AGE WEIGHT RUNTIME RUNPULSE MAXPULSE RSTPULSE/SELECTION=MAXR;RUN;,多元线性回归,结果:根据逐步回归法的选择标准,依次进入回归模型的自变量是RUNTIME、AGE、RUNPULSE 与MAXPULSE。这四个变量的组合可解释84.3%的OXY的变异。模型的形式是吸氧效率OXY 的预测值=100.07909519-0.21265570AGE-2.76824065RUNTIME-0.33956528RUNPULSE+0.25535199MAXPULSE此模型的F检验值高达34.90,P0.0001,是一个显著的回归方程。,多元线性回归,当某一自变量与其它自变量之间有高度线性相关时,参数的估计值将会不稳定,而且会含偏高的标准误,这个现象称为共线性(Collinearity)或多变量共线性(Multicollinearity)。针对这一个问题,我们可采用COLLIN 选项来诊断到底哪些自变量之间有共线性。这个诊断的理论基础来自Belsley、Kuh 及Welsch 于1980 年所发表的论文。,多元线性回归,诊断的步骤如下第一,将(XX)矩阵标准化,使其对角线上的值都成为1。若选用COLLINOINT选项,则不包括截距项。第二,计算出(XX)矩阵的特性根与特性向量。第三,以最大的特性根为分子,其它特性根分别为分母,形成几个不同的比例,这些比例的平方根便是共线性指标。若指标的值较大时,则表示变量之间的共线性情形可能极为严重,在这种情况下,参数的估计值较不准确。,多元线性回归,示例10M06:诊断示例10M05资料自变量间的相关性。/*SasProg10M06.Sas*/PROC REG DATA=d10m05;MODEL OXY=RUNTIME AGE WEIGHT RUNPULSE MAXPULSE RSTPULSE/TOL VIF COLLIN;RUN;,Model语句选项Tol,给出参数估计值的容忍度;选项Vif,将方差膨胀因子随参数估计值一同给出。方差膨胀因子等于容忍度的倒数。,多元线性回归,Collinearity Diagnostics,共线性比较严重的变量是RUNPULSE 与MAXPULSE,此外RUNTIME 与RSTPULSE以及WEIGHT 与RSTPULSE 之间也有中等程度的共线性。,岭回归,当|XX|0时,我们设想给XX加上一个正常数矩阵kI(k0),那么(XX+kI)-1接近奇异的可能性就会比(XX)-1接近奇异的可能性小得多;因此用 作为的估计值应比最小二乘估计 稳定,我们称 为的岭回归估计,k为岭参数,常常用较直观的岭迹法确定k值。,岭回归,当自变量之间存在复共线性时,建立的模型会极不稳定。岭回归模型是通过在自变量自相关矩阵中引入一个很小的岭参数k(0k1),并将它加到主对角线元素上,从而降低参数的最小二乘估计复共线特征向量的影响,以保证参数估计更接近真实情况。,岭回归,示例10L01(郭秀花,赵连伟.SAS 6.11版岭回归分析程序设计及其实例分析.数理统计与管理.2001,20(1):41-44,64):实例选自胡良平主编的“现代统计学与SAS应用”一书。有人在某地抽样调查了29例儿童的血红蛋白与4种微量元素的含量,资料如下,试问可否用4种微量元素(单位都是mo1/L)钙(X1)、镁(X2)、铁(X3)、铜(X4)来较好地预测血红蛋白(Y,g/L)的含量?数据文件SasData10L01.txt,岭回归,/*SasProg10L01.Sas*/Data data01;infile e:sassasdatasasdata10L01.txt;Input y x1-x4;Proc standard m=0 s=1 out=data02;run;Proc reg data=data02 outest=rrr;/*实现岭回归*/Model y=x1-x4/ridge=0.0 to 1.0 by 0.1 collinoint;Plot rsq.*np./ridgeplot;/*绘制岭迹图*/Run;Proc print data=rrr;Run;,STANDARD过程把x1,x2,xm,y作标准化转换,转换后的标准化变量均数为0,标准差为1。,岭回归,结果共线性分析表明,自变量之间的共线性主要表现在X2与X3、X1与X4之间。本例适合采用岭回归进行分析。在不同的岭参数下,各自变量的回归系数保存在数据集rrr中。从岭迹图或从数据集rrr中可以看到,当岭参数大于0.1时,自变量的回归系数趋于平稳(以水平直线为渐进线),故选岭参数为0.2时的标准化回归方程为:y=6.0663E-16-0.20612x1+0.17949x2+0.65829x3+0.08377x4,岭回归,结果从岭回归结果(Parameter Estimates)中可以得知:在4种微量元素中,影响血红蛋白的含量达到显著性水平的有:铁及钙。从回归系数的符号可知:铁的含量提高,有助于血红蛋白含量的提高,而钙的吸收量加大后,反面会使血红蛋白含量减少。,Nlin过程,非线性回归模型(Nonlinear regression)的估计方法有多种思路,常见的有先利用变量变换将模型转换为线性模型,然后进行估计;或者使用泰勒级数展开式进行逐次的线性近似估计,直至达到迭代收敛标准。严格地讲,能够通过变量变换被转化为线性回归方程,并通过对该线性模型的估计以求得参数值的模型只能被称为曲线回归模型(固有线性模型);直接进行估计的才是非线性回归模型(固有非线性模型)。,Nlin过程,SAS中主要有两个过程可以实现非线性回归,分别是Nlin过程和Nlmixed过程,后者是非线性混合效应模型。Nlin过程使用最小二乘法或加权最小二乘法实现非线性回归模型的参数估计。与Reg过程相比,Nlin过程中除简单列出参与回归模型的变量外,用户还必须给出方程表达式,定义未知参数名称,并给出所有参数的初始值。由于非线性模型的复杂性,Nlin过程并不保证所有模型都能被拟合出来。,Nlin过程,Nlin过程的一般格式:PROC NLIN;MODEL dependent=expression;PARAMETERS parameter=values;BOUNDS inequality;BY variables;DER.parameter=expression;DER.parameter.parameter=expression;ID variables;OUTPUT OUT=SAS-data-set keyword=names;CONTROL variable;,Nlin过程,Nlin过程在进行非线性回归模型参数估计时,提供了5种不同的迭代(搜索)方法:Gauss(默认方法),高斯法,又称改良高斯-牛顿法(Modified Gauss-Newton method);Marquardt,麦夸特法(Marquardt method);Newton,牛顿法(Newton method)。Gradient,梯度法(Gradient method),又称最速下降法(Steepest descent method);Dud,又称错位法(False position)或多元割线法(Multivariate secant);可以在选项中使用“method=”指明迭代方法,前三种方法更为稳键。,Nlin过程,Nlin过程中的model语句:Model语句用来指定所要拟合的非线性回归模型。格式为:Model dependent=expression;此处的Model语句必须给出模型完整的表达式,比如:Model y=exp(a+b*x);指数模型Model y=a+b*cos(2*pi*t/12+c);余弦模型Model y=b0*(1-exp(-b1*x);负指数增长曲线未知参数可以自行命名,表达式中可以使用SAS函数和常数。,Nlin过程,Nlin过程中的Parameters语句:Parameters语句也可以简写作Parms。由于Model语句中出现了未知参数,因此需要Parameters语句给定参数初始值。通常,每个参数只需设定一个初始值即可。如:parms a=1 b=1;给定离散的多个值:m1,m2,mn;搜索整数区间:m To n;从m到n,间隔I的等差序列:m To n By i;离散数值和整数区间:m1,m2 To m3。,Nlin过程,Nlin过程中可以使用类似于Data Step中的相应赋值语句,经实现较为复杂的非线性模型,如下面的程序:Proc nlin;parms b0=0 b1=0.01;temp=exp(b1*x);model y=b0*(1-temp);显然,上述模型等价于y=b0*(1-exp(b1*x),但表达式更为简洁,并且拟合的速度更快。除赋值语句外,绝大多数Data Step中可用的编程语句,如判断、循环、goto语句等都可在这里使用。,非线性回归分析,实例10N01:收集我国1940-1998年间不同月份的男婴死亡率(),试为全年各月份的死亡率波动拟合适当的模型。,非线性回归分析,首先,建立数据集,研究死亡率与月份之间的关系(散点图)。/*SasProg10n01.Sas*/data D10n01;input x y;cards;1 63.8 2 55.8 3 54.5 4 57.05 58.5 6 53.5 7 57.3 8 67.99 65.4 10 68.5 11 67.4 12 62.2;proc gplot;plot y*x=+;run;,非线性回归分析,非线性回归分析,由图可见,死亡率3-6月间达到最低,而8-11月份达到最高,在全年范围内呈现一种有规律的波动趋势。试着拟合如下模型:y=b0+b1*cos(2*3.1415926/12*x+b2)其中:b0,b1,b2为未知数;2*3.1415926/12*x用于将月份转变为弧度。,非线性回归分析,/*SasProg10n02.Sas*/proc nlin data=d10n01;model y=b0+b1*cos(2*3.1415926/12*x+b2);parameters b0=60 b1=6 b2=4;run;,选项maxiter=设定迭代次数,默认次数100;选项Converge=设定Bates和Watts提出的收敛测量指标,默认收敛标准10-5。选项ConvergeObj=设定以损失函数的改变量作为收敛标准,默认值10-8。,非线性回归分析,The NLIN Procedure Dependent Variable y Method:Gauss-Newton Iterative Phase Sum of Iter b0 b1 b2 Squares 0 60.0000 6.0000 4.0000 1028.5 1 60.9833-6.4722 3.8662 96.4181 2 60.9833-6.3072 4.1226 80.0095 3 60.9833-6.5218 4.1235 79.7329 4 60.9833-6.5218 4.1234 79.7329,依变量为y迭代方法:高斯-牛顿法,每次迭代过程中的参数估计值以及残差平方和的变化。可以看出,随着迭代次数的增加,各参数估计值越来越稳定,残差平方和越来越小。,输出的第一部分:,非线性回归分析,模型的第二部分给出收敛的状态(Convergence criterion met.合适的)。输出的第三部分给出模型拟合情况汇总,迭代方法、迭代次数、相应的模型收敛标准等。(可忽略)输出的第四部分是近似方差分析结果。相应的原假设是:所拟合的模型对依变量的预测无贡献。显示,p=0.00160.05,可以认为模型中至少有一些自变量对依变量是有作用的。输出的第五部分是模型中未知参数的点估计和区间估计。输出的第六部分为各参数的相关系数阵。本例三个未知参数间不存在相关关系。,非线性回归分析,实例10N03(张录达编.数据拟合.中国农业大学自编教材):植物病毒对植物叶片的伤害(一般取枯斑数)与植物病毒的浓度之间是一种非线性关系。一般在低的、中等病毒浓度下二者之间的关系可用下式表示:其中,y为平均侵染枯斑数,v为病毒浓度。N、C为未知数。病毒浓度较高时,植物病毒侵-稀度关系的数学模型为:其中,y为半叶侵染的的枯斑数,v为病毒浓度。,非线性回归分析,实例10N03(张录达编.数据拟合.中国农业大学自编教材):不同浓度下心叶烟接种烟草花叶病毒(TMV),在半叶所得平均枯斑数据。试以 的极小化为目标,采用Marquardt法进行植物侵染-稀度模型的数据拟合。,非线性回归分析,实例10N03(张录达编.数据拟合.中国农业大学自编教材):,非线性回归分析,/*SasProg10n03.Sas*/data d10n03;input x y1-y7;av=mean(of y1-y7);cards;1.0E-1 465 234 149 254 196 316 1923.5E-2 292 185 111 216 164 252 2211.0E-2 228 119 70.6 156 91.5 190 1333.5E-3 160 83.0 70.0 108 81.6 139 88.21.0E-3 76.5 49.8 30.0 59.6 37.5 72.2 54.83.5E-4 59.4 27.5 10.9 33.6 26.4 33.3 27.31.0E-4 20.0 8.18 5.5 14.5 13.1 17.5 10.23.5E-5 8.4 3.25 3.85 8.06 7.08 9.09 2.941.0E-5.2.44 1.31 4.26 1.64 4.23.;,Mean是SAS提供的求样本平均数的函数。,非线性回归分析,proc nlin method=marquardt;parms b1=30 b2=4000;model y1=b1*log(1+b2*x);proc nlin method=marquardt;parms b1=10 b2=2000;model y2=b1*log(1+b2*x);proc nlin method=marquardt;parms b1=10 b2=5000;model y3=b1*log(1+b2*x);proc nlin method=marquardt;parms b1=10 b2=6000;model y4=b1*log(1+b2*x);proc nlin method=marquardt;parms b1=60 b2=8000;model y5=b1*log(1+b2*x);proc nlin method=marquardt;parms b1=10 b2=5000;model y6=b1*log(1+b2*x);proc nlin method=marquardt;parms b1=20 b2=1000;model y7=b1*log(1+b2*x);proc nlin method=marquardt;parms b1=20 b2=1000;model av=b1*log(1+b2*x);run;,非线性回归分析,对数曲线拟合,实例10D01(阮桂海等编著.SAS统计分析实用大全.北京:清华大学出版社.2003,6.第1版:408-413):一组产量(y)与劳动力(L)、资金(K)的数据,试拟合非线性经济模型:参数:B0:截距;D:分布参数;C:斜率,即效率参数;r:替代参数。数据文件:SasData10d01.txt,对数曲线拟合,/*SASProg10d01.Sas*/title 非线性回归分析-对数曲线回归;data d10d01;infile e:sassasdatasasdata10d01.txt;input k l y;proc nlin best=100 method=dud;model y=b0+c*log(d*l*r+(1-d)*k*r);parms b0=1 c=-1 d=0.5 r=-1;run;,选项best=n,只列出整个搜索过程前n个最小的残差平方和。,对数曲线拟合,输出结果的解释:第一部分、第二部分:模型的初始参数系数值。第三部分:迭代了37步,最小平方和已经不能再下降了(达到收敛标准)。第四部分:NOTE:Convergence criterion met.收敛标准是适合的第五部分:模型拟合情况汇总。第六部分:方差分析Regression sum of squares(Regression SS):已被解释的回归平方和。Residual sum of squares(Residual SS):未被解释的回归平方和。Uncorrected total sum of squares:依变量的总平方和。Corrected total sum of squares:偏离均值的平方和。R square=1-Residual SS/Corrected SS=1-1.6492/58.2089=0.9717,意味着:能被模型解释的方差点总方差的97.17%。,Logistic过程,如果依变量为分类变量,则不符合一般回归分析模型的要求,可用Logistic回归来分析。Logistic回归按反应变量的类型分为:两分类的Logistic回归多分类有序反应变量的Logistic回归多分类无序反应变量的Logistic回归按照设计类型可分为:非条件Logistic回归,即研究对象未经过配对条件Logistic回归,即研究对象为1:1或1:m配对简单的Logistic回归需调用SAS中LOGISTIC过程完成,一些较复杂的则需要调用CATMOD过程来实现。,Logistic过程,Logistic regression回归中,可直接计算一个事件的发生概率:有多个自变量的Logistic regression模型,可以写成:式中,Z中线性结合模型,即事件没有发生的概率可以写成:Prob(no event)=1-Prob(event),Logistic过程,优势(odds):发生概率(p)与不发生概率(1-p)之比。对odds取自然对数:,Logistic过程,Logistic过程语法:PROC LOGISTIC;BY variables;CLASS variable.;CONTRAST label effect values;FREQ variable;MODEL response=;MODEL events/trials=;OUTPUT/;TEST equation1;UNITS independent1=list1;WEIGHT variable;,Logistic过程,Logistic过程用最大似然法对应变量拟合一个Logistic模型。除了Proc Logistic和Model语句为必需,其他都可省略。,Logistic过程,示例10C01(Geo