第10章回归分析.ppt
《第10章回归分析.ppt》由会员分享,可在线阅读,更多相关《第10章回归分析.ppt(115页珍藏版)》请在三一办公上搜索。
1、第10章 回归分析,蔡德利黑龙江八一农垦大学资源与环境系TsaiD2004.10.20,本章主要内容,概述Corr过程线性相关分析Reg过程直线回归多元线性回归,岭回归Nlin过程非线性回归分析对数曲线拟合Logistic过程主成分回归,概述,变量之间的关系有两类:一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。如长方形的面积(S)与 长(a)和 宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系,模型为机理模型。,概述,变量之间的另一类关系是不完全确定的关系,无法用精确的数学
2、公式来表示。如儿童生长时的身高和体重、作物的产量和肥料用量、植物病害的发生程度与气候条件之间的关系。这类关系在生物界中大量存在,只能用统计学的方法研究变量间的相关关系,建立数值模拟模型。,概述,统计学上采用回归分析(regression analysis)研究相关变量间的因果关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。,概述,统计学上采用相关分析(correlation analysis)研究变量之间的相关关系。对两个变量间的直线关系进行相关
3、分析称为简单相关分析(也叫线性相关分析);对多个变量进行相关分析时:研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析;研究两组变量间线性相关称为典型相关分析。,概述,SAS系统中,适用回归分析的过程:,概述,概述,几种回归过程相同的输出数据用最小二乘法所估计的参数值(如:b0,b1.);误差方差的估计值;参数估计值的标准误或方差;有关参数的假设(如H0:0=0)检验;各种预测值及其误差;回归方程显著性的检验。,概述,相异的诊断功能REG 程序提供共线性(Collinearity)的诊断,这个诊断探讨自变量间相关的程度及可能造成的影
4、响。REG,LOGISTIC 及RSREG 三个程序提供影响度诊断以决定各观察体对参数估计值、误差的平方和(SSE)及预测值等的影响。LOGISTIC 程序也有这种功能,不过其分析原理是采最大似然率法。PROBIT 与RSREG 两程序提供回归模型精确度(Accuracy)的诊断,所用的方法是比较误差的方差及其估计值。REG 程序提供时间序列分析(Time Series Analysis)的诊断,特别是有关时间的误差以及误差间彼此的相关。,Corr过程,Corr过程存在于SAS的base模块,可以计算:Pearson积矩相关系数;Spearman秩相关系数;Kendalls tau-b统计量;
5、Hoeffdings独立性分析统计量D;Pearson、Spearman以及Kendall偏相关系数;另外,它还对用于估计可靠性的Cronbach系数进行计算。,Corr过程,Corr过程格式:PROC CORR;BY var-1 var-n;FREQ variable;PARTIAL variables;VAR variables;WEIGHT variable;WITH variables;Run;,Corr过程,Corr过程,Corr过程,线性相关分析,线性相关分析:是在(X,Y)服从正态分布(双变量正态分布)的假定下,用线性相关的统计分析方法研究两变量间数量变化关系的密切程度和方向,称
6、为线性相关分析。对样本的要求:线性:linear 独立:independent正态:normal等方差:equal variance,线性相关分析,线性相关分析,线性相关分析,线性相关的性质可由散点图直观的说明,按图中散点的分布,可归纳为以下几种情况:,A 0 1,B-1 0,C=1,D=-1,E=0,F=0,G=0,H=0,线性相关分析,公式的解释:r 的符号(方向):当 X,Y同向变化时,一、三象限的点多于二、四象限的点,r为正,两变量正相关,0 r 1;当 X,Y反向变化时,二、四象限的点多于一、三象限的点,r为负,两变量负相关,-1 r 0;当点在一、三象限和二、四象限均匀分布时,正负
7、抵消,r=0,呈零相关,X、Y没有线性关系。相关系数r的大小:r的绝对值越大,说明线性相关程度越好,散点越接近一条直线;绝对值越小,说明线性相关程度越差。,线性相关分析,示例10001(李春喜,王文林等编著生物统计学114页):有人研究了粘虫孵化历期平均温度(x,)与历期天数(y,天)之间的关系。试进行皮尔逊积差相关分析。,线性相关分析,对资料进行相关分析之前,我们可以先对其绘制散点图,以考察两变量的真实变化关系。我们可以应用plot过程或gplot过程来执行绘制散点图的功能。散点图完成后再计算变量之间的相关系数,对相关系数进行假设检验,以量化形式表示变量间的相关关系。,线性相关分析,/*Sa
8、sProg10001.Sas*/data D10001;input x y;cards;11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.617.1 11.9 18.8 10.7 19.5 8.3 20.4 6.7;proc gplot;plot y*x=*;run;proc corr;var x y;run;,Pearson相关分析是Corr过程的默认方式;用with语句可以对特定的变量对进行相关分析,可将corr过程中间的语句改为:var x;with y;,线性相关分析,结果解释:首先给出两变量的描述性统计量;然后给出变量的相关系数矩阵(var语句所列变量中任两
9、者之间的相关系数);由于抽样误差的存在,从=0的双变量总体中抽出的样本相关系数r不一定等于0。为了判断r所代表的总体是否存在直线相关,必须测定r来自=0总体的概率,因此,需进行相关系数的假设检验。假设为H0:=0,检验结果(仅给出P值)列在相应相关系数的下面。本例p0.001,=0是不可能的,x和y之间存在着极显著的直线相关关系。,线性相关分析,示例10002(西北农学院、华南农业大学主编农业化学研究法177页):大豆脂肪含量(x1,%)和蛋白质含量(x2,%)的测定结果。试进行皮尔逊积差相关分析。,线性相关分析,/*SasProg10002.Sas*/data D10002;input x1
10、 x2;cards;16.5 43.5 17.5 42.6 18.5 42.619.5 40.6 20.5 40.3 21.5 38.722.5 37.2 23.5 36.0 24.5 34.0;proc gplot;plot x2*x1=*;run;proc corr;var x1 x2;run;,线性相关分析,示例10003:用60Co对狗造成急性放射病,对照射后5天时的健康状况进行综合评分,并记录其存活天数。试作Spearman秩(等级)相关分析。,线性相关分析,当两变量不符合双变量正态分布的假设时,需用Spearman秩相关来描述变量间的相互变化关系。此时,散点图上散点的分布形态不能完
11、全描述两变量间的相关关系,故此时一般不需再绘制散点图。,线性相关分析,/*SasProg10003.Sas*/data D10003;input x y;cards;79 45 80 30 91 16 90 24 70 28 87 25 92 14;proc corr spearman nosimple;var x y;run;,Proc corr语句的spearman选项即要求用Spearman秩相关来进行数据分析,nosimple选项则用来禁止对变量描述性统计量的输出。,REG过程,REG 程序将参数估计值带入线性回归模型中,以便执行回归分析的预测。这些参数估计值是由最小误差平方法所导出的
12、。REG 程序是SAS 所有回归分析程序中用途最广泛的一种(好比GLM 程序是SAS所有方差分析程序中用途最广泛的一种)。其它回归分析的程序各有其特殊的用途。,REG过程,PROC REG;MODEL dependents=;BY variables;FREQ variable;ID variables;VAR variables;WEIGHT variable;ADD variables;DELETE variables;MTEST;OUTPUT keyword=names;PAINT|;PLOT;PRINT;REFIT;RESTRICT equation,.,equation;REWEIG
13、HT|;TEST equation,;Run;,REG过程,Reg过程的Model语句Model语句用以指定所要拟合的回归模型。格式:MODEL dependents=;最前面的标签为可选项,可以是不超过8个字符的字符串,用来对定义的模型进行标识,以便于在结果中分辨不同的模型,一般情况下系统会以默认的方式对模型进行标识。,REG过程,Reg过程的Model语句关键字Model后所列的是模型表达式,和方差分析中anova过程的model语句相似。模型表达式中等号的左边为依变量,等号的右边为自变量列表,自变量间以空格相分隔。Model语句中不允许出现组合型变量。如果要用到几个变量产生的综合变量,必
14、须在数据步完成新变量的创建过程。,REG过程,常用的Model语句选项:,REG过程,REG过程,REG过程,直线回归,示例10R01(西北农学院、华南农业大学主编.农业化学研究法.北京:农业出版社.1980年12月第1版):从土壤学理论知道,土壤中的氮素主要以有机氮的形态存在,因此,土壤全氮量与土壤有机质之间,应该有一定的联系。50种水稻土实测得到的有机质含量(%)与全氮含量(%)的记录(SasData10R01.txt),试对这批数据进行回归分析。,直线回归,/*SasProg10R01.Sas*/data d10R01;infile e:sassasdatasasdata10R01.tx
15、t;input x y;proc gplot;plot y*x;proc reg;model y=x;plot y*x;run;,直线回归,结果解释:Model:MODEL1:模型标签为“MODEL1”(程序未进行指定,此处为系统默认分配的标签)。Dependent Variable:y:依变量为y。Analysis of Variance:方差分析表。Root MSE:误差均方平方根。R-Square:决定系数。Dependent Mean:依变量均数。Adj R-Sq:校正的决定系数。,直线回归,结果解释:Coeff Var:变异系数。Parameter Estimates:模型的参数估计
16、。分别给出截距项和自变量回归系数等的估计值以及对应参数为0的假设测验结果。本例回归方程为:y=0.00093116+0.05431x,直线回归,直线回归,示例10R02(蒋明.SAS软件在回归分析中的应用.计算机与农业.2003,(8):15-16):国营大岭农场橡胶树大型系比二组无性系,1960年刺检干胶量(mg)与1965年正式割胶产量(g)数据(SasData10004.txt),试求正式割胶量(x)回归于刺检干胶量(y)的回归方程。,直线回归,/*SasProg10R02.Sas*/data d10R02;infile e:sassasdatasasdata10R02.txt;inpu
17、t x y;proc reg;model y=x;run;,本例回归方程为:y=1.96825+0.07761x,多元线性回归,示例10M01(蒋明.SAS软件在回归分析中的应用.计算机与农业.2003,(8):15-16):研究橡胶树白粉病的始病期(x1)、嫩叶历期(x2)、发病期雨天数(x3)与最终病情指数(y)的关系,18年的白粉病预报要素和最终病情指数级值数据(SasData10M01.txt),试求回归方程。,多元线性回归,/*SasProg10m01.Sas*/data d10m01;infile e:sassasdatasasdata10m01.txt;input x1 x2 x
18、3 y;proc reg;model y=x1 x2 x3;run;,多元线性回归,模型选择:上例整个模型具有统计学意义(方差分析表中F检验p0.05)。我们看到,并不是所有自变量对依变量的回归作用都具有统计学意义,这时我们需要建立一个最优模型。SAS有关模型的选择方法多达9种。,多元线性回归,逐步回归:/*SasProg10m02.Sas*/data d10m01;infile e:sassasdatasasdata10m01.txt;input x1 x2 x3 y;proc reg;model y=x1 x2 x3/selection=stepwise slentry=0.05 slst
19、ay=0.05;run;逐步法选择模型,自变量进入模型和剔除出模型的标准都定为=0.05。,多元线性回归,示例10M03:某学校20名一年级女大学生体重(x1,公斤)、胸围(x2,厘米)、肩宽(x3,厘米)及肺活量(y,升)实测值,试对影响女大学生肺活量的有关因素作逐步回归分析。数据文件SasData10M03.txt,多元线性回归,/*SasProg10m03.Sas*/data d10m03;infile e:sassasdatasasdata10m03.txt;input no x1 x2 x3 y;proc reg;model y=x1 x2 x3/selection=stepwise
20、 slentry=0.05 slstay=0.05;run;quit;,多元线性回归,实例10M04(陈立,徐汉虹,赵善欢.获取复配农药最佳增效配方的一种简易方法.生物数学学报.2001,16(4):456-461):研究氯氰菊酯和喹硫磷混配对斜纹夜蛾(Spodoptera litura)的增效作用,以共毒系数的倒数为目标函数寻找最优配方。药剂为91.6%氯氰菊酯原药(广东省中山凯达精细化工股份有限公司)和40%喹硫磷乳油(福建三明农药厂)。采用二次回归通用旋转组合设计。(1)首先测定氯氰菊酯和喹硫磷各自的毒力回归线,以Lc25的近似值为零水平。然后用以2为底的对数尺度2r编码(见下表),杀虫
21、剂使用浓度(Ni)与编码值(xi)之间的转换关系为,多元线性回归,实例10M04(陈立,徐汉虹,赵善欢.获取复配农药最佳增效配方的一种简易方法.生物数学学报.2001,16(4):456-461):因子及编码表供试昆虫为室内饲养的斜纹夜娥2龄中后期幼虫。采用Potter塔喷雾法处理试虫,24小时后检查试虫死亡情况。,多元线性回归,/*SasProg10M04.Sas*/data xz;input x1-x5 y;cards;-1-1 1 1 1 4.9164-1 1-1 1 1 5.3406 1-1-1 1 1 5.1679 1 1 1 1 1 6.2816-1.414 0 0 2 0 4.8
22、325 1.414 0 0 2 0 5.5244 0-1.414 0 0 2 4.9164 0 1.414 0 0 2 5.8416 0 0 0 0 0 5.2533 0 0 0 0 0 5.4308 0 0 0 0 0 5.4308 0 0 0 0 0 5.3406 0 0 0 0 0 5.5244;proc reg;model y=x1-x5;run;,计算斜纹夜蛾死亡率(y)与氯氰菊酯(x1)和喹硫磷(x2)浓度的二次回归方程。y=5.39598+0.27140 x1+0.35582x2+0.17237x1x2-0.07179x12+0.02849x22,多元线性回归,示例10M05:预
23、测人体吸入氧气的效率本例数据(SasData10M05.txt)来自一群中年男士的健康状态资料,由Linnerud 提供。每一名男士提供七个数据,分别是:年龄(AGE),体重(WEIGHT),吸氧的效率(OXY),跑1.5 英里所需的时间(以分钟计,RUNTIME),休息时的心跳(RSTPULSE),跑步时的心跳率(RUNPULSE)和最高心跳率(MAXPULSE)。其中,吸氧效率(OXY)是依变量,另外六个均是自变量。分析的过程是,先用逐步排除法,再用最大相关法,以便找出一个又精简又有效的递归模型。,多元线性回归,/*Sasprog10M05.Sas*/DATA D10M05;infile
24、e:SasSasDataSasData10M05.txt;INPUT AGE WEIGHT OXY RUNTIME RSTPULSE RUNPULSE MAXPULSE;PROC REG DATA=D10M04 OUTEST=EST;MODEL OXY=AGE WEIGHT RUNTIME RUNPULSE MAXPULSE RSTPULSE/SELECTION=STEPWISE;MODEL OXY=AGE WEIGHT RUNTIME RUNPULSE MAXPULSE RSTPULSE/SELECTION=MAXR;RUN;,多元线性回归,结果:根据逐步回归法的选择标准,依次进入回归模型的
25、自变量是RUNTIME、AGE、RUNPULSE 与MAXPULSE。这四个变量的组合可解释84.3%的OXY的变异。模型的形式是吸氧效率OXY 的预测值=100.07909519-0.21265570AGE-2.76824065RUNTIME-0.33956528RUNPULSE+0.25535199MAXPULSE此模型的F检验值高达34.90,P0.0001,是一个显著的回归方程。,多元线性回归,当某一自变量与其它自变量之间有高度线性相关时,参数的估计值将会不稳定,而且会含偏高的标准误,这个现象称为共线性(Collinearity)或多变量共线性(Multicollinearity)。针
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 章回 分析
链接地址:https://www.31ppt.com/p-2314644.html