第六讲第9章回归.ppt
第九章 回归,统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多重回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多重回归分析又分为多重线性回归分析与多重非线性回归分析两种。,回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。,第一节 直线回归 regression analysis,一、直线回归方程的建立 对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),(xn,yn),为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。,由于依变量y的实际观测值总是带有随机误差,因而依变量y的实际观测值yi可用自变量x的实际观测值xi表示为:,(i=1,2,n)(91),在x、y直角坐标平面上可以作出无数条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x与y的直线关系,这条直线称为回归直线。,其中,a是的估计值,b是的估计值。a、b应使回归估计值 与实际观测值y的偏差平方和最小,即:,根据微积分学中的求极值的方法,令 Q对a、b的一阶偏导数等于0,即:,最 小,整理得关于a、b的正规方程组:,解正规方程组,得:,(9-3),(9-4),应注意:1.直线回归方程=a+bx 与普通方程式意义不同,它表示的是对总体回归值的估计值。2.直线回归分析中,两个变量不再是平等的关系,而是有因变量与自变量之分,称为“因变量对自变量的回归”。3.对样本数据是否适合做直线回归分析,与直线相关分析相同,要先做散点图。当散点图呈现直线关联趋势时,才适合做进一步分析。,回归方程的基本性质:如果将(9-4)式代入(9-2)式,得到回归方程的另一种形式(中心化形式):,(9-5),【例9.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。,表9-1 四川白鹅雏鹅重与70日龄重测定结果(单位:g),1、作散点图 以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图。2、计算回归截距a,回归系数b,建立直线回归方程 首先根据实际观测值计算出下列数据:,进而计算出b、a:,得到四川白鹅的70日龄重y对雏鹅重x的直线回归方程为:,3、直线回归的偏离度估计 偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为:离回归均方是模型(9-1)中2的估计值。离回归均方的平方根叫离回归标准误,记为,即,(9-6)离回归标准误Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值 与 实 际观测值y偏差的程度,于是我们把离回归标准误Syx用来表示回归方程的偏离度。,可以证明:(9-7)利用(9-7)式先计算出,然后再代入(9-6)式求Syx。,对于【例9.1】有,所以,二、直线回归的显著性检验 若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程=a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。我们先探讨依变量y的变异,然后再作出统计推断。,1、直线回归的变异来源 图 的分解图,从图中看到:上式两端平方,然后对所有的n点求和,则有,反映了y的总变异程度,称为y的总平方和,记为SSy;反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR;,反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。(9-8)式又可表示为:(9-9)这表明y的总平方和剖分为回归平方和与离回归平方和两部分。与此相对应,y的总自由度dfy也划分为回归自由度dfr与离回归自由度dfr两部分,即,(9-10)在直线回归分析中,回归自由度等于自变量的个数,即;y的总自由度;离回归自由度。于是:离回归均方,回归均方。,2、回归关系显著性检验F检验 无效假设HO:=0,备择假设HA:0。在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的F分布,所以可以用 df1=1,df2=n-2(9-11),来检验回归关系即回归方程的显著性。回归平方和还可用下面的公式计算得到:(9-12)(9-13)根据(9-9)式,可得到离回归平方和计算公式为:,对于【例9.1】资料,有而。于是可以列出方差分析表进行回归关系显著性检验。,表9-2 四川白鹅70日龄重与雏鹅重回归关系 方差分析,因为,表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系。3、回归系数的显著性检验t检验 采用回归系数的显著性检验t检验也可检验x与y间是否存在直线关系。回归系数显著性检验的无效假设和备择假设为 HO:0,HA:0。,t 检验的计算公式为:(9-14)(9-15)其中,Sb为回归系数标准误。,对于【例9.1】资料,已计算得 故有,当,查t值表,得 因,否定HO:0,接受HA:0,即直线回归系数b=21.7122是极显著的,表明四川白鹅 70 日龄重与雏鹅重间存在极显著的直线关系,可用所建立的直线回归方程来进行预测和控制。,特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。,利用SPSS实现直线回归:,SPSS操作步骤:Analyze Regression Linear dependent:因变量 independent:自变量 method:可选择 enter forward backward stepwise点击statistics:出现若干统计选项可供选择ContinueOK,三、应用直线回归与相关的注意事项 直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:,1、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。,2、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。,3、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。4、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。,5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量x和y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。,6、一个显著的回归方程并不一定具有实践上的预测意义 如一个资料x、y两个变量间的相关系数r=0.5,在df=24 时,r0.01(24)=0.496,rr0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%,其余的75%的变异无法借助直线回归来估计。,在生物界中,两个变量(至少因变量是随机变量)间的关系,呈现平面曲线关联的例子很多。例如:细菌生长的数量与时间的关系、作物种植密度与产量的关系、年龄与身高的关系、有毒药物浓度与致死率之间的关系、服药后血药浓度与时间的关系、有害射线辐射强度与致死率的关系等,都呈现平面曲线关联。如何用适合的平面曲线定量描述这种关联,如何检验和评价这种描述的意义和效果好坏,就是平面曲线回归(简称曲线回归,亦称曲线拟合)分析解决的问题。,第二节 平面曲线回归,对样本数据(xi,yi),i=1,2,n,做散点图,可初步确定样本数据可能具有某种 曲线关联,并由此初步确定其曲线函数。常见的曲线关联的曲线函数及图形如下:.幂函数.对数函数.指数函数.Logistic函数 y=axb y=ablnx y=aebx y=1/(1+aebx)对上述4种情况可分别作如下线性化变换:.取对数l ny=lnablnx,做变换Y=lny,A=lna,B=b,X=lnx,则有Y=ABX;.做变换 Y=y,A=a,B=b,X=lnx,则有 Y=ABX;.取对数 lny=abx,做变换 Y=lny,A=a,B=b,X=x,则有Y=ABX;.取对数 lny/(1-y)=-lnabx,做变换 Y=lny/(1-y),A=-lna,B=b,X=x,则有 Y=ABX。,1 利用曲线函数直线化的曲线回归,曲线函数线性化后,为利用直线回归方法确定A、B,只需将样本数据(xi,yi),i=1,2,n,分别代入所做变换,便可得到新的样本数据(Xi,Yi),i=1,2,n,由新的样本数据做直线回归分析,易得A、B,并建立直线回归方程和Y=ABX,经检验有意义后(无意义则分析结束),再做相对应的反变换,就可得到曲线回归方程。例9.2 火箭电泳实验中,火箭高度y(mm)与免疫球蛋白A的浓度x(IgA,g)数据如表。试做曲线回归分析。,IgA(g)火箭高度(mm)X=lnx x y=Y 0.2 7.6-1.6094 0.4 12.3-0.9163 0.6 15.7-0.5108 0.8 18.2-0.2231 1.0 18.7 0 1.2 21.4 0.1823 1.4 22.6 0.3365 1.6 23.8 0.4700,做散点图,见左下图。初步判断 x,y 呈现对数曲线关联,作线性化变换 Y=y,X=lnx,新样本数据如上表所示。再作新数据散点图见右上图,已呈现直线关联,作直线回归分析得:=19.7451+7.7771 X 经检验该直线回归方程有意义。做反变换得曲线回归方程:=19.7451+7.7771 lnx,SPSS曲线回归:,Analyzeregressioncurve estimation,多元线性回归分析可分为两大类,一类是多个因变量对自变量(自变量可以是1个或多个)的线性回归分析;另一类是一个因变量对多个(两个以上)自变量的线性回归分析。这里仅讨论后一类线性回归分析,称为多重线性回归。并假设因变量y是随机变量,且服从正态分布,诸自变量可以是随机的,也可以是非随机的。一般,总体m元线性回归模型是 yx1x2xm=0+1x1+2x2+mxm式中yx1x2xm表示x1,x2,xm取定条件下,y 的总体均值;0为截距;诸i,i=1,2,m,是总体偏(或部分)回归系数,其意义是xi 每变化一个单位,其余自变量不变时,y平均变化的单位数。关于该模型的有关前提条件从略。,第三节 多重线性回归,一、多重线性回归方程的建立 一个因变量y 对多个自变量xi(i=1,2,m)的线性回归关系的定量描述是多重(m个自变量)线性回归方程。=b0+b1x1+b2x2+bmxm式中,为总体yx1x2xm 的估计值;b0为常数项,是0 的估计值;诸bi 是对总体诸偏回归系数i 的估计值。m=1时,就是一元直线回归 方程。m 元线性回归方程,是对总 体 m 元线性回归模型的估计。建立m元线性回归方程,就是 由左面样本确定常数b0 及诸偏回归 系数 bi(i=1,2,m)。,1 多重线性回归,与直线回归分析相仿,建立 m 元线性回归方程的原则,是使回归估计误差最小,即离回归平方和最小,方法是最小二乘法。由最小二乘法,对上述离回归平方和中的诸bi求偏导数,并令偏导数为0,可得到如下的正规方程组(XX)B=X式中:,在一定条件下可解出诸 bi:B=(XX)-1 XY因求解过程计算复杂(从略),通常在电子计算机上由SPSS等统计软件完成。,二、多重线性回归关系的检验 H:1=2=m=0 即 y 对诸自变量不存在 m元线性回归关系。统计量 当H为真时,F F(df1=m,df2=n m-1)分布。一般认为,当F 4 F0.05时,m 元线性回归方程有较好的应用价值。,三、诸偏回归系数及截距的检验 H0:i=0,即 xi 对 y 无影响(i=0时,总体截距为0)统计量 t=bi/MS剩余Cii式中,Cii 是求解正规方程组时,系数矩阵的逆矩阵(XX)-1 的主对角线上的元素。当H为真时,t t(df=n m-1)分布。注意:对各偏回归系数1,2,m 的检验,因诸i 之间未必相互独立,所以检验结论不一定可靠,但可供参考。四、标准偏回归系数及其意义 标准偏回归系数为:bi=bi Lii/Lyy(i=1,2,m)因 bi已不含单位,由诸 bi绝对值|bi|的大小比较,可以说明诸自变量对因变量影响的主次,常用来筛选对 y 影响的主要因素即自变量。,SPSS操作步骤:,先观察数据散点图:每个自变量分别与因变量之间的散点图:Graphsscattersimple做多元线性回归分析:AnalyzeRegressionLinear把因变量选入 Dependent框把多个自变量选入 independent框在Method框中选择 enter 回归,四、实例 例9.3 随机抽测10名女中学生的体重(x1)、胸围(x)、胸围呼吸差(x3)、肺活量(y),数据如表。试做 y 对诸 xi 的多元线性回归分析。,由SPSS统计软件可建立三元线性回归方程=-3035.536+60.932x1+37.808x2+101.379x3 H0:1=2=3=0,总体上y 对x1、x2、x3无线性回归关系。F=5.617,P=0.035,结论:肺活量对体重、胸围、胸围呼吸差存在线性回归关系。H0:0=0 总体截距为0,t=-1.400,P=0.211,H0:1=0,t=1.679,P=0.14 H0:2=0,t=1.645,P=0.151 H0:3=0,t=0.831,P=0.438 若将显著水平选为0.25,则体重(x1)、胸围(x2)对y有影响;但不能说明胸围呼吸差(x3)对y有影响。,如果酌情从方程中剔除x3,重新建立二元线性回归方程,则由SPSS软件分析有=-4187.416+80.271 x1+46.449 x2 H0:1=2=0 F=8.453,P=0.014结论:肺活量对体重、胸围存在线性回归关系。H0:0=0 总体截距为0,t=-2.568,P=0.037 H0:1=0,t=2.947,P=0.021 H0:2=0,t=2.318,P=0.054在=0.25水平上,截距及两个偏回归系数均有意义。对二元线性回归方程,求两个标准偏回归系数 b1=0.612,b2=0.481因 b1 b2,可以认为体重对肺活量的影响大于胸围。注意:1.从检验结果看,二元线性回归方程从检验F值、P值及离回归均方大小看,优于三元线性回归方程,这说明引进多元线性回归方程的自变量并非越多越好,适当剔除对因变量y影响较小的自变量,可能会改善多元线性回归方程。2.各项检验中,显著水平的选取,需结合具体专业问题确定,而不再以=0.05做为拒绝 H0 的最宽标准。,由例9.3可见,剔除那些对因变量影响相对不大的自变量,可能对多元线性回归方程有所改善。事实上,评价多重线性回归方程优劣的标准,通常是回归估计误差的大小,即离回归均方和的大小。建立较理想的多重线性回归方程的方法常有三种:1.把对应所有可能的自变量组合的回归方程都计算出来,总共要计算 Cm1+Cm2+Cmm=Cmk-Cm0=2m-1个线性回归方程。然后从中选择较理想者。这种方法较严格,但当自变 量个数m 较大时(如m14),计算量是惊人的,有时计算机也很难完成。2.先建立含全部自变量的m元线性回归方程,然后逐个剔除对 y 影响最小的自变量的方法。这种方法计算量也很大,因为每剔除一个自变量,都要重新计算并建立少一元的线性回归方程。,2 逐步回归分析,3.逐步回归方法。简单说,就是将自变量逐个引入回归方程的方法。该方法要同时考虑两方面的问题:一是尚未引入的自变量中是否有可引入者;二是在引入一个新的自变量后,原已引入的自变量中是否有要剔除者。具体地,对已引入方程的所有自变量在选定的显著水平2下进行检验,并剔除其中由于引入新的自变量后,退化为影响力最弱的自变量,即对应偏回归系数检验中t的绝对值最小者(P值2中的最大者);若剔除了一个自变量,则还要对仍留在回归方程中的全部自变量,重新进行检验,并剔除自变量中对应P 2 中的最大者;如此下去,直至无自变量可剔除为止。再转而对未引入的自变量在选定的显著水平 1 下进行检验。选择对因变量影响最大的一个,即对应P 中的最小者,引入回归方程;。重复上述过程,直至既无自变量可以引入方程,又无自变量要剔除出方程为止。注意,一般地,已剔除的变量不再考虑引入,最先引入的变量不易剔除。,上述三种方法最终建立的回归方程,可能是不一样的。后两种方法对回归方程的选优,虽不如第一种方法那样严格,但仍能保证建立的回归方程是较理想的。相对而言,第三种方法即逐步回归方法计算量比较小,因而最常用。逐步回归方法的计算十分复杂(从略),通常由SPSS等统计软件在电子计算机上完成。注意:在逐步回归分析中,控制选入自变量的显著水平1和控制剔除自变量的显著水平2的选择,直接影响最终建立的多重线性回归方程中自变量的个数。因此在使用软件作逐步回归分析时,可在符合软件要求12的条件下,通过改变1和2,以获取自变量个数不同的多重线性回归方程,并参照多重线性回归检验的F值及其P值,选择适合专业应用的回归方程。,以例9.3为例,在SPSS软件下,选定1=0.3,2=0.4时,将逐步得到如下几种结果供选择:1.=1637.196+290.903x F=9.064,P=0.017;t0=6.650,P0.001;t3=3.011,P=0.017;2=-183.484+50.636x1+192.163x3F=5.685,P=0.034;t0=-0.126,P=0.903;t1=1.270,P=0.245;t=1.584,P=0.157;3.=-3035.536+60.932x1+37.808x2+101.379x3 F=5.617,P=0.035;t=-1.400,P=0.211;t1=1.679,P=0.144;t2=1.645,P=0.151;t=0.831,P=0.438;4.=-4187.416+80.271x1+46.449x2F=8.453,P=0.014,t=-2.568,P=0.037;t=2.947,P=0.021;t=2.318,P=0.054;综合评价,=-4187.416+80.271x1+46.449x2效果较好。,SPSS操作步骤:,先观察数据散点图:每个自变量分别与因变量之间的散点图:Graphsscattersimple做多元线性回归分析:AnalyzeRegressionLinear把因变量选入 Dependent框把多个自变量选入 independent框在Method框中选择 Stepwise 回归,逐步回归方程的决定系数,逐步回归方程的方差分析表,逐步回归方程的参数估计,逐步回归方程的剔除变量表,