生物统计学:第10章 多元线性回归分析及一元非线性回归分析课件.ppt
第10章 多元线性回归分析及一元非线性回归,多元线性回归(multiple Linear regression),一、多元线性回归模型 在回归问题中,一个量只受一种因素影响的情况是较少的,往往是很多因素共同影响一个量。 例如,农作物的产量,除受种植密度影响之外,还受施肥量、灌水量和田间管理次数等的影响。 例如,动物体重的增加与饲料中蛋白质含量、饲料总量和每日透料次数等都有关。 特别是当几个自变量之间还存在相关时,只考虑一个自变量与因变量的关系,往往得不到正确的结果。必须同时考虑几个因素的共同作用,才能得到比较正确的结论。这就是我们要讨论的多元回归问题。,一个典型的多元回归资料,可以列成下表。,表 10.1 典型的多元线性回归数据,第p 次观察值为:,其中e1,e2, ,en是相互独立且服从正态分布的随即变量。该式即所谓的多元线性回归模型。,多元线性回归和一元线性回归一样,用最小二乘法求a和bj 的估计值a和bj 。所不同的是,一元回归中,只需求出a和1个b,而多元回归中则需求出a和k个b。用a和b1,b2, ,bk 分别表示a和b1,b2, ,bk 的估计值。根据最小二乘法,回归方程,其中的a和bj应使得全部实际观察值,与回归估计值p的离差平方和达到最小。,将方程组整理 ,可得,正规方程,解上述方程组,可以得到b1,b2,b k。a由(1)式给出,,由实际观察值,计算得到的bj是bj的无偏估计量,a是a的无偏估计量,于是得到多元回归方程:,其中a为常数项;b1,b2, ,bk分别称为Y对X1,X2, ,Xk的偏回归系数(partial regression coefficient)。它表示当其它自变量都固定时,该自变量每变化一个单位而使因变量平均改变的数值。,二、多元回归方程的计算 例10.1 为研究黄牛的体重与体长和胸围的关系。测定了20头鲁西黄牛的体长、胸围和体重,试建立体重对体长和胸围的回归方程。 (教科书中p150),解 将数据按表中的要求整理好,然后计算,于是得出二元回归方程,方程中的3.03和3.80都称为偏回归系数。偏回归系数是指在其它自变量都固定时,其中一个自变量对因变量的影响。,列出正规方程,因为只有b1和b2两个未知数,可解二元联立方程组。常数a可根据各变量的平均值求得。,在上述两个自变量同时影响一个因变量的情况下,只有用二元回归分析,才能得到可靠的结果。若只考虑其中的一个因素,用一元回归分析,另一个因素并不固定,这时所得到的回归系数b,并不能真正表示该变量对因变量贡献的大小。例如,上例中若只考虑体长对体重的影响,回归方程为:,这时体长每变化一个单位,体重平均改变4.608个单位,远远大于二元回归中的b1。若只考虑胸围对体重的影响,回归方程为:,其回归系数亦不同于二元回归中的b2。特别是当两个自变量之间有密切相关时,差异就更大,甚至得出相反的结论。,三、多元线性回归方程的显著性检验 多元线性方程求出后,往往需要做关于模型参数的检验。在多元线性回归模拟中,随机误差是服从正态分布的随即变量。因此,Y亦为独立正态随机变量。在多元线性回归中,关于回归显著性检验的假设是:,拒绝H0意味着至少有一个自变量对因变量是有影响的。,检验的程序与一元的情况基本相同,即用方差分析的方法。将总平方和分解为回归平方和与剩余平方和,,回归平方和由下式计算,,剩余平方和,,总的自由度为n1,回归项的自由度等于自变量的个数k,剩余项的自由度为本nk1。下面对例10.1的回归方程做显著性检验。回归平方和与剩余平方和分别为:,列成方差分析表:,拒绝H0:bj0。结论是Y与Xj之间的回归关系极显著。,四、偏回归系数的显著性检验 如果回归方程显著性检验的结果是显著的,说明回归系数中,至少有一个bj0,但并不能证明所有的bj0。因此,在回归方程中,可能存在非主要因素。在实际应用时,希望能从方程中剔除不重要因素,从而建立一个比较简单的回归方程,以利于对Y做预报。这就需要确定在一个方程中,哪些因素是主要的,哪些因素是次要的。,例10.1 的两个偏回归系数的显著性检验如下:,bj服从正态分布,可以用t检验对bj的显著性做检验。,t17,0.01(双)=2.898p1=0.00088,p2=9.5310-6,因此,体长和胸围对体重的贡献都是极显著的。,五、复相关系数和偏相关系数(一)复相关系数(multiple correlation coefficient) 在一元回归中,回归的显著程度可用相关系数来表示。同样在多元回归问题中,可以用复相关系数表示。对于一个多元回归问题,Y与X1,X2, ,Xk 的线性关系密切程度,可以用多元回归平方和与总平方和的比来表示。因此复相关系数由下式给出,,复相关系数R等于实际观察值Y与回归估计值 之间的简单相关系数,,对复相关系数的显著性检验,相当于对整个回归的方差分析。在做过方差分析之后,就不必再检验复相关系数的显著性,也可以不做方差分析。,例10.1的RY1,2为:,从附表(相关系数检验表)中查出,当独立自变量个数k2,剩余自由度为17时的R0.010.647,RY1,2R0.01,因此,Y与Xi之间存在着显著相关。,(二)偏相关系数(partial correlation coefficient) 复相关系数反映了Y与所有自变量之间回归关系密切的程度。 在多元回归中,还经常希望了解Y与各个自变量两两之间的关系,或两个自变量间的关系。在多变量问题中,变量间的关系是很复杂的,每两个变量间都可能存在相关。因此,两变量间的简单相关系数,往往不能反映两变量间的真正关系。为了反映两变量间的真正关系,就要保证在其它变量都保持不变的情况下,计算它们的相关系数,这时的相关系数称为偏相关系数。,六、逐步回归分析(stepwise regression analysis)一、最优回归方程的选择 我们应用多元回归方程分析问题时,应当是最优的回归方程。所谓最优回归方程就是指方程中包括全部对Y显著的变量,而不包括对Y不显著的变量。 可以通过以下方法,选择最优回归方程。,1. 从全部变量可能组合的回归方程中,选择最优者。 在例10.1中,全部可能组合的回归方程共有3个,即包括两个一元回归方程和一个二元回归方程。对每个方程的每一个回归系数做显著性检验,并计算每一个方程的剩余平方和及剩余方差,从中选出包含的全部变量均为显著因素且剩余方差又较小的方程,这就是这3个方程中的最优方程。 用这种方法选最优方程,一定能够成功地选择出来。当因素比较少时是可行的,但当因素较多时则行不通。例如,当有5个因素时,可能有25131个方程,计算这么多方程,并对每一回归系数做检验,实际上非常困难。,2从含全部变量的回归方程中,逐次剔除不显著因素。 先建立全变量的多元回归方程,然后按进行回归系数的显著性检验,将不显著的因素逐次剔除,直到方程中剩余的全部是显著因素时为止。当不显著因素较少时,使用这种方法选择最优回归方程是可行的。,3逐步回归方法。 也是从一个自变量开始,按自变量对Y的作用的显著程度,逐个地引入回归方程中。当先引入的变量,由于后引进的变量的影响而变得不显著时,则随时将它们从方程中剔除。从而保证在每引入新的变量之前,回归方程中均为显著变量,直到没有显著变量可引入时为止。,二、逐步回归的计算方法 对于逐步回归的问题,深入了解需较多的线性代数知识,实际应用时,由于计算工作量相当大,多数都是由计算机来完成。在这里只能将逐步回归的最基本原理及计算过程做一简单介绍。,逐步回归的基本做法,在所考虑的全部因素中,按对Y作用显著程度的大小,由大到小逐个引入到回归方程中。在已引入回归方程的变量中,找出偏回归平方和的最小的一个,在给定F水平下做显著性检验,以决定是否需从方程中剔除在剔除了所有不显著变量之后,从未纳入到回归方程的变量中,选择在引入回归方程后,使回归平方和增加最多的那个变量,并在给定的F水平下做检验,若是显著的,则引入回归方程中。引入之后,再对回归方程做检验。并剔除方程中不显著因素。以此类推,直到回归方程中全部变量均不能剔除,又没有新变量可以引入时为止。 逐步回归分析主要过程是求解正规方程和系数矩阵的逆矩阵,并对每一过程做方差分析和F检验。,一元非线性回归,生物学中两个变量间呈曲线的例子很多,如细菌生长的数量与时间的关系,年龄与身高的关系,作物种植密度与产量的关系,辐射强度或药物与致死率的关系等都呈曲线关系。 如何确定两变量间的关系:根据专业知识或散点图。 确定两变量间的函数关系后,如果通过适当变换(transform) ,可将曲线化为直线,再按直线回归处理。例:培养基上细菌生长的数量(Y)在一定时期内与时间(X)呈指数函数 YaebX关系。例:生物体的生长,不论是整体还是它们的重量、表面积、高度、细胞数,甚至蛋白质含量的增长与时间都是呈S形曲线关系。,一、曲线回归的线性化及线性化的方法 如果我们从专业知识上,可以确定两变量间所呈函数关系,则可直接将曲线划为直线。,如,许多生物化学反应中反应速率与反应物浓度两变量间呈幂函数 YaX b关系,将等式两边取对数,,令:Ylg Y, alg a, lg ,则方程变为:,如,细菌生长数量(Y)与时间(X)呈指数函数关系YaebX,将等式两边取自然对数(或者取常用对数),,令:Y=ln Y, a=ln a, 则可变为线性回归方程,,至于对数函数 Y=a+lnX,只要令X lnX 即为线性方程:,若经以上三种变换,均不能直线化,则应考虑使用其他的方法做变换。,例 1 (p168) 在凝血实验中,测定15只鸡的维生素K摄入量X与添加血凝剂浓度Y,求Y对X的回归关系。,先在直角坐标系上做散点图,判断X和Y是否存在线性关系。 根据散点图情况选择适当的曲线来配合实验数据,进行数据变换。,由于在对数变换(即logX和logY)的直线化程度最高。因此,令:,则 Y = a+bX,可以按照一元线性回归进行分析。byx= -1.89, a=3.01因为a=log a,所以 a=1023.29所以,Y = aXb=1023.29X-1.89,二、曲线配合的拟合度 一般情况可用剩余均方的大小,来判断拟合的优劣,剩余均方愈小,拟合愈好。但计算剩余平方和时,必须用实际观察值与回归估计值之差的平方和计算。,可见幂函数的决定系数远远大于线性的,即剩余均方更小。因此幂函数回归比线性拟合得好,为了得到最理想的回归关系,最好多做几种变换,从中选出最优者。,