多元回归与多项式回归.ppt
第九章 多元回归与多项式回归,学习要求 了解多元回归、偏相关系数、通径分析、多项式回归的概念;理解多元回归、多项式回归关系的显著性检验及准确度测定的意义;掌握正规方程组求解求逆紧凑法的步骤及建立最优回归方程、通径分析方法。重点与难点 重点:涉及本章统计量的含义,建立最优回归方程及通径分析方法难点:求解求逆紧凑法的应用思考题及作业 1、何谓偏回归及偏相关系数、通径系数、及决定系数?2、求解求逆紧凑法的公式有哪些性质?这些性质有何用处?3、试述偏相关系数、复相关系数及简单相关系数的区别?4、习题作业:标准化综合测试题第九章 14题 参考书 1贵州农学院(主编).2001.生物统计附试验设计教材.中国农业出 版社.172197页 2莫惠栋著.1992.农业试验统计.上海科学技术出版社.467580页,第一节 多元回归与多元相关,世界上的事情是复杂的,生物现象尤其这样。在生物现象中,变量与变量的关系往往不是简单的一对一的关系,而是很多变量相互之间都有关联。在极大多数的实际问题中,一个变量不是受一个而是受多个变量的影响。要研究一个依变量与多个自变量间的关系,就需要用多元回归分析和多元相关分析的方法。线性回归是最基本的回归关系。这里介绍的多元回归,也是多元线性回归。多元线性回归与一元线性回归的原理完全相同,只是计算方法比较复杂而已。一、配置多元回归方程的一般方法 设y为一依变量,它受xl、x2、x3xm的m个自变量的影响,我们可以在它们之间配置一个线性回归方程如下:=b0+b1x1+b2x2+b3x3+bmxm(91),其中b0为常数项,,(92),b1、b2、b3bm为y对xl、x2、x3xm的偏回归系数。b1=by1.2,3m,b2=by2.1,3m,b3=by3.1,2m,bm=bym.1,2,3(m1)。b1=by1.2,3m表示当x2、x3xm诸变量都固定时,自变量xl变化一个单位而使依变量y平均改变的值,这就是y对x1的偏回归系数,或称为回归系数。其余各偏回归系数都具有相应的含义。,b1、b2、b3bm还是利用最小二乘法来确定,即选取这样的b1、b2、b3bm,使离回归平方和(剩余平方和)。,SSE=SS离回归=(y)2=y(b0+b1x1+b2x2+b3x3+bmxm)2,(93),达到极小值。用求偏微分的方法可得出b1、b2、b3bm必须满足下列正规方程:,上述方程组的系数项,按主对角线上为各变量的离均差平方和,SS1、SS2、SS3SSm。其余则为各自变量两两相互的离均差乘积和,并依主对角线为轴左右对称相等(SPij=SPji),常数项为各自变量同依变量y的离均差乘积和,SP1y,SP2y,SP3ySPmy。解这个正规方程组,即得b1、b2、b3bm代入公式92求得b0,再一起代人公式91,就得到多元归归方程。,二、正规方程组的解法 正规方程组的解法,与一般方程组的解法相同,已在一般数学教科书中介绍过,如行列式法、消元法等。本章将重点介绍求解求逆紧凑法。,1、行列式法 常用于解低元的正规方程组。如二元正规方程组:,(94),(95),例1,当需要解三元或三元以上方程组时,则用以下计算方法。目前最为流行的是求解求逆紧凑法。,2消元法 消元法求解的原理是利用乘或除法使方程组中两方程式的同一项具有相同的系数,然后将此两式相加或相减使该项系数为零,从而消去一元。逐次消元,最后得一方程及各元之解(略)。,以上两种方法都无求逆过程,而逆矩阵元素是偏回归系数显著性检验所不可缺少的。故以上两种方法不常用。,例2,这些方程用矩阵的形式表示为:,AB=Y(96),或记为,其中:A为系数矩阵;B为所要解的偏回归系数的列向量;Y为正规方程组等号右边的常数项的列向量。如果对方程(96)的两边都从左边乘以A的逆矩阵,即A1,我们可得 A1AB=A1Y(97),3矩阵法 正规方程组的求解可用矩阵法来进行。,A1A=E,EB=B。这里E是单位矩阵,它是一个特别重要的对称矩阵,它的主对角线上元素都等于1,而对角线以外的元素都等于0。单位矩阵的性质相当于一般数学中的1。方程(97)可变为:B=A1Y(98)当我们算出了A的逆矩阵(A1)代入(98),即可得方程b的解。对于例2资料,由于其系数矩阵的逆矩阵为:,即:,代入方程(98)得:,注*逆矩阵一般用C表示(C=A1),故其元素用cij表示,亦具有对称性,它在统计学中常称之为高斯乘数。由矩阵法求解,常称之高斯解法。,即:b1=0.3804+(0.320)4+(0.141)3=0.181 b2=(0.320)4+0.4804+(0.040)3=0.519 b3=(0.141)4+(0.040)4+0.4233=0.541 关于逆矩阵的计算,我们仍可用消元法中的轮消法来求逆矩阵元素。其方法是在系数矩阵后附单位矩阵而不是附常数项的列向量。求得逆矩阵元素(cij)后,即可将其乘常数项的列向量而求解,如前述。由于求解求逆的工作量较大,特别是在具有较多的元时。因此一般用计算机同时进行求解求逆,考虑到节省计算机的内存数,故目多采用的是求解求逆紧凑法。,4求解求逆紧凑法,求解求逆紧凑法是在采用矩阵法时却省去了单位矩阵,而将单位矩阵处的计算结果前移到系数矩阵的位置,而不是附在系数矩阵后。即在系数矩阵后仍附常数项的列向量,成为一个增广矩阵后用轮消法消元。最后在系数矩阵处得逆矩阵元素,常数项不变仍为各元之解。,求解求逆紧凑法的应用步骤,仍以例2资料为例,说明其紧凑法求解求逆计算,(1)列出增广矩阵,(2)应用下列公式(紧凑式轮消法)对各元素进行变换,式中:l 变换的次数,a(l+1)变换 l 次后的元素,a(l)变换 l 次时的元素,k每次变换的主行列标号,akk变换行主单元的元素,i元素a的行标,j元素a的列标。9.1式用于变换主行(k)主元素的变换;9.2式用于变换主行除主元素外其它元素的变换;9.3式用于变换主列(k)除主元素外其它元素的变换;9.4式用于除变换主行主列元素外其它各元素的变换。,如:当 l=0,k=1,i=2、3,j=2、3、4时,应用99公式可将A(0)变换成A(1),其中各元素的变换是:按9.1式将A(0)中待变换的主元素10取倒数得:1/10=0.1 按9.2式将A(0)中待变换主行(k=1)除10外,其它元素均被主元素10除得:7/10=0.7、4/10=0.4、4/10=0.4 按9.3式将A(0)中待变换主列(k=1)除10外,其它元素均被主元素10除后改变符号 得:7/10=0.7、4/10=0.4,按9.4式将A(0)中除主行主列外,其它各元素的变换是:用该元素减去同行同列中位于与主元素(10)相对应的两元素相乘后被主元素(10)除所得的差。如:i=2,j=2、3、4时,元素7、3、4同行中位于与主元素(10)相对应的元素均为7,同列中位于与主元素(10)相对应的元素分别为7、4、4。则:777/10=2.1 374/10=0.2 474/10=1.2类似地,当i=3,j=2、3、4时,A(0)中元素3、4、3可变换成:347/10=0.2 444/10=2.4 344/10=1.4,当l=1,k=2,i=1、3,j=1、3、4时,应用99公式可将A(1)变换成A(2),其中各元素的变换是:A(1)中待变换的主元素2.1取倒数得:1/2.1=0.476 变换主行(k=2)除2.1外,其它元素均被主元素2.1除得:0.7/2.1=0.333、0.2/2.1=0.095、1.2/2.1=0.571 变换主列(k=2)除2.1外,其它元素均被主元素2.1除后改变符号得:0.7/2.1=0.333、0.2/2.1=0.095,除主行主列外,其它各元素的变换是:i=1,j=1、3、4时 i=3,j=1、3、4时 0.10.7(0.7)/2.1=0.333 0.40.2(0.7)/2.1=0.333 0.40.70.2/2.1=0.333 2.40.20.2/2.1=2.381 0.40.71.2/2.1=0.333 1.40.21.2/2.1=1.286,当l=2,k=3,i=1、2,j=1、2、4时,依99公式可将A(2)变换成A(3),经过3次轮消后,系数矩阵元素变换为逆矩阵元素。而常数项值则为各元之解(bi)。,求解求逆紧凑法公式具有如下4个性质;(1)每作一次变换lk就得一个子方程的解及该子方程组系数矩阵的逆矩阵,如,是例2资料的子方程组,它的解是:b1=0 b2=0.519其系数矩阵的逆矩阵为:,这可从A(2)中见到。,(2)消去变换后的矩阵与消去的次序无关。这点可从例2资料自行验证。(3)对k行作一次消去变换后,再对k行重复作一次消去变换,等于没有对该行作消去变换。(4)当方程组的系数矩阵为对称矩阵时。A(l)具有如下的对称性;当作bi、bj均已作了消去变换,或均未作消去变换时。这可以A(2)中1、2行或A(1)中的 2、3行系数矩阵的变换中看到。当对bi、bj中一个且仅一个作过消去变换时,这可以从A(1)的1、2行或A(2)的1、3行中验证。这些性质在方程组的求解求逆计算中或配置可行的多元回归方程中各有用处。,三、多元回归在科研中的应用实例,应用实例 猪的瘦肉量是肉用型猪育种中的重要性状,但这个性状的度量比较麻烦,需要进行整个胴体的剥离和称量。据研究,这个性状与其它一些比较容易度量的性状,如膘厚,胴体长,眼肌面积等之间,存在着一定的相关,但与其中任何一个性状的相关都不太高。因此利用任何一个简单回归间接估计都不可能太准确。为了提高间接估测的准确度,需要配置一个多元回归方程。设y瘦肉量,xl眼肌面积,x2胴体长,x3膘厚。根据三江猪育种组的实测资料,统计54头杂种猪的有关性状,得如下数据:SSx1=846.2281 SSx2=745.6041 SSx3=13.8987 SSy=70.6617SPx1x2=40.6832 SPx1x3=6.2594 SPx2x3=-45.1511SPx1y=114.4530 SPx2y=76.2799 SPx3y=11.2966,=25.7002=94.4343=3.4344=14.8722 rx1y=0.4680 rx2y=0.3323 rx3y=0.3605,为了求各偏回归系数,列出下列正规方程组:,用求解求逆紧凑法对正规方程组解得:,计算中,纯小数的小数位一般不能低于6位,这样才能保证最后计算结果正确。即:b1=0.1282 b2=0.0617 b3=0.5545 A(3)中前3行3列为系数矩阵的逆矩阵(A1),利用系数矩阵的逆矩阵元素(cij),可对偏回归系数作显著性检验。从而可继续作自变量的剔除。此外逆矩阵也是研究逐步回归的基础知识。这样,我们就可得到估测瘦肉量的多元回归方程。,=7.6552+0.1282x1+0.0617x20.5545x3,四、显著性检验与准确度测定,(一)多元回归关系的显著性检验 在实际问题中,事先我们并不能断定变量y与变量xl、x2,xm之间是否确有线性关系。当求出线性回归方程之后,需要对其进行统计检验,作出肯定或否定的结论。如果依变量y与自变量xl、x2,xm之间没有线性关系,则公式(91)中各项系数b1,b2,bm应均为零。所以统计检验的假设应为H0:1=0,2=0,m=0。可以证明在假设H0成立的条件下,依变量y与自变量xi之间的线性回归关系,可以由方差分析法,即下述的统计量来检验:,(910),m自变量数,n变量的数据数 当实际算得的FF(df1,df2),即推翻原假设H0,而认为自变量全体与依变量y的线性关系是显著的。这时,m个自变量中至少有一个i0,但并不排斥有若干个i=0。,式中:,表91(A)多元线性回归关系的方差分析模式表,仍以实例的资料说明具体检验步骤如下:,Q=SSySSR=70.661725.6433=45.0184 dfR=3,dfE=dfTdfR=(n1)m=nm1=543150表91(B)多元回归关系的方差分析,经F检验,FF0.01(3,50)=4.20,p0.01,高度显著,说明根据这一资料得到的多元回归方程是可靠的。(二)多元回归的准确度测定 用多元回归方程从多个自变量来估计一个依变量,其准确度如何,常是实际工作需要考虑的问题。准确度的测定实际是多元相关的分析。依变量y与诸自变量xi之间的相关程度。一般用复相关系数(R)来衡量。所谓复相关系数就是y的实际度量值与估计值 间的相关系数:R=Ry.123m=(911)它的计算是较麻烦的、但在一元回归中,我们已经知道相关指数及相关系数分别为:,在多元回归中也是一样,相关指数及复相关系数分别为:,(912),(913),仍以实例为例:,将这个R值和前面所列各自变量与y的简单相关系数(rxij)比较。R|rx1y|rx3y|rx2y|0.60240.4680|0.3605|0.3323 可见用这个多元回归方程来估计y,比用y对这三个自变量中任意一个的筒单回归来估计,其准确度都高。当然这个准确度还是不够理想的,因为还只有36.29%(0.60242=0.3629)。还有必要探索其他有关自变量,以配置更理想的多元回归方程。,(三)复相关系数的显著性检验 多元回归的显著性检验,亦可由对复相关系数的显著性检验来确定。因为;SST=SSr+SS1r SSy R2SSy(1R2)SSy dfT=dfr+df1r n1 m nm1,根据自由度df1=m和df2=(nm1),查临界值F,以确定R是否显著。由于SSr=SSR,SSlr=SSE,自由度亦相等,因此R的显著性检验与多元回归的显著性检验结论是同步的。,因此,(914),但同简单相关系数r的显著检验一样,由于R的显著性值可以从,(915),公式算得,并列之以表,故而R的显著性检验亦可用简便的查表法来进行。如实例的R=0.6024。根据自变量m=3,自由度df=nm1=5431=50,查附表r及R的显著性值,得RR0.01(3,50)=0.449,即p0.01,此复相关系数高度显著,从而说明例中的依变量(瘦肉量)与三自变量(眼肌面积、胴体长、膘厚)之间有复相关关系和复回归关系存在。,(四)偏回归系数的显著性检验 在多元线性回归中,对多元回归关系的显著性检验是看所有自变量对依变量的总影响如何,而不能确定某一自变量对y的单独影响如何。偏回归系数的显著性检验要判定在诸多自变量中,某一自变量对变异y的单独影响作用。其检验的假设是H0:i=0。偏回归系数显著性检验有t检验法和F检验法。,(1)t检验法,(916),式中:bi偏回归系数,Sbi偏回归系数标准误,Sy1,2,m估计标准误(离回归标准误),Q离回归平方和,m自变量数,Cij高斯乘数,即逆矩阵主对角线元素,n变量数据数 仍以实例为例,由前计算已知 b1=0.1282 b2=0.0617 b3=0.5545 C11=0.001187 C22=0.001671 C330.089707 Q=45.0184 m=3 n=54,所以,df=nm1=5431=50,(2)F检验 F检验需要求出各偏回归均方,然后与离回归均方进行比较,求出各F值:F=MSbi/MSE dfR=1 dfE=nm1 i=1,2m(917)在多元线性回归中,回归平方和(U)表示所有自变量对y平方和的总影响,某一自变最的偏回归平方和表示该自变量对y平方和的影响,所以我们可以用取消该自变量后回归平方和的减少数值表示该自变量的偏回归平方和。但要注意,在一般情况下,各偏回归平方和之总和并不等于回归平方和,即SSbiU。据推导,偏回归平方和;,计算t值:,各偏回归平方和的自由度(dfR)为1,所以偏回归平方和就等于偏回归均方。,(918),仍以实例为例说明偏回归系数的F检验,由前计算已知:b1=0.1282 b2=0.0617 b3=0.5545C11=0.001187 C22=0.001671 C33=0.089707MSE=0.9004,由此可见,b1高度显著,b2不显著,b3达到10%的显著水平。,所以,计算F值:,F检验与t检验是同步的,因此结论相同,b1高度显著,b2不显著,b3达到10%的显著水平。,*五、在多元回归中剔除作用不大的自变量,在多元回归方程中,有的自变量其偏回归平方和很小,将它从回归平方和中减去,对回归平方和值影响不大,因此从多元回归中剔除这个自变量,对复相关系数也影响不大,也就是对回归估计的准确度影响不大。在前,我们已进行了各偏回归系数的显著性检验,三个偏回归系数中有两个不显著,说明这两个自变量在这个多元回归中的作用较小,可以剔除。但要注意只能逐一剔除,不能两个同时剔除,因为剔除了一个自变量后,整个多元回归发生改变,在新的多元回归中,各偏回归系数的显著性也要发生变化。一个自变量在这个多元回归中作用不大。到了另一个多元回归中作用可能加大。因此,我们首先剔除偏回归平方和最小(或F、t值最小)的一个自变量(本例为胴体长x2)。剔除后,由剩余的自变量重建新的多元回归方程,重求新的偏回归系数及逆矩阵元素。其方法有:(1)利用上述介绍的4种方法,对剔除后由剩余自变量组成的多元回归方程重新求解。该法适用于自变量较少的情况。,(2)利用求解求逆紧凑法公式的性质,简化剔除和重建回归方程。计算方法是将所应剔除的变量行为主行,重新作一次消去变换。之后,将该变量有关的行列划去,即得余下诸自变量所组成子方程组的解和逆矩阵元素。之后,依之重配一个新的多元回归方程,再对新的偏回归系数作显著性检验。若还存在有不显著的偏回归系数,再选偏回归平方和最小的一个自变量作同上的消去变换,方法步骤同上,直至建立起来的多元回归方程的所有自变量的偏回归系数都显著为止。所得回归方程即最优回归方程。,仍以实例资料为例,因需剔除自变量x2,故在最后逆阵元素及解A(3)的基础上,以第二行列为主行列,k=2,重复作一次消去变换。(l=4)依公式(99)进行消去变换后得:,在A(4)中,除去第二行第二列即为自变量x1和x3子方程组的解和逆阵元素。由此可得新的回归系数、逆阵元素及回归方程为:b1=0.1297 b3=-0.7544 C11=0.001886 C22=0.0722 C12=C21=0.000534,=14.1298+0.1297x10.7544x3得到的新的多元回归仍需进行显著性检验和准确度测定:U0.1297114.453(0.7544)(11.2966)=23.3667 Q=70.6 6172 3.3667,(从严要求,与F0.01(2,50)=5.06相比,已决定显著性,故可不用内插法求F0.01(2,51)的值),(从严要求,与R0.01(50)=0.410相比)偏回归系数的显著性检验F检验,(919),(从严要求,与F0.01(1,50)=7.17相比)这里我们可以看到,y对x3的偏回归系数在前一个多元回归中是不显著的,而在后一个多元回归中都高度显著,所以我们在剔除自变量时,不能把偏回归系数不显著的自变量一下都剔除掉,而应该逐一剔除。,式中下标k为被剔除自变量的序号。仍以实例资料为例,应剔除自变量x2,这时k=2,由A(3)可得:,(3)在自变量较多的情况下,重新配置一个新的多元回归方程计算很麻烦,可直接应用下列公式,简化剔除过程。,*第二节 通径分析与偏相关系数,可见与前述的计算结果基本相同。,一、标准回归系数(通径系数)要比较各自变量在多元回归中的作用大小,也可比较它们各自的偏回归系数。但是偏回归系数与简单的回归系数一样,是有单位的,不同单位的回归系数不能相互比较。为了便于相互比较,首先必须消除单位,也就是都进行标准化,标准化的回归系数(包括偏回归系数)叫做标准回归系数。所谓标准化就是各变数值除以各自的标准差,所以y对x的标准回归系数:,(920),同样,标准化的偏回归系数也是一样,(921),仍以实例为例,在各偏回归系数未标准化以前,从绝对值来看,b3最大,bl次之,b2最小。但这种大小顺序并不反映它们的相对重要性,只有标准化之后|b1|最大,|b3|次之,|b2|最小,才真正反映了它各自的作用大小。其大小顺序与偏回归平方和的大小顺序完全一致。,二、通径分析,标准回归系数也就是通径系数、通径系数就是表示自变量对依变量直接影响程度的一种统计量。通过通径分析能把自变量与依变量间的相关剖分成该自变量对依变量的直接影响与通过其他相关的自变量对依变量的间接影响。仍以上例说明,我们把上述各变量的关系画成以下通径图:,图91 三个变量xi到y变量的通径图,单箭头线即通径,其系数即通径系数:对箭头线即相关线,其系数即相关系数。xi到y的通径系数记作Py,i。Py,i=bi 根据通径系数原理:,这样riy就剖分成两部分:一是xi对y的直接影响程度Pyi;另一是通过其他变量x2和x3,而对y的间接影响程度r12Py2+r13Py3,余类推。在我们这个例子中:,x1与y的相关程度为:r1y=0.4680,而其对y的直接影响:Py1=0.4436间接影响:r12Py2+r13Py3=0.05120.2004+(0.0577)(0.2459)=0.0244 x2与y的相关程度为:r2y=0.3323,而其对y的直接影响:Py21=0.2004间接影响:r21Py1+r23Py3=0.05120.4436+(0.4435)(0.2459)=0.1318 x3与y的相关程度为:而其对y的直接影响:Py3=0.2459间接影响:r31Py1+r32Py2=(0.0577)0.4436+(0.4435)0.2004=0.1145,由此可见,x1对y主要是直接关系,r1y与Py1相差不大;而x2、x3与y相关中却有,写成矩阵形式:,(922),(923),这个由简单相关系数组成的矩阵叫做相关矩阵,在逐步回归分析中常用到。由简单相关系数组成的正规方程计算通径系数的具体计算,仍可采用求解求逆紧凑法。对于上例的计算将在偏相关系数求解过程中同时得解。,l3上下是间接影响造成的。,根据这个相关剖分的原理,可以得到计算通径系数(即标准回归系数)的另一种方法。当我们只知道各变量间的相关时,我们可以解下列正规方程求通径系数(即标准回归系数):,三、偏相关系数,在多变量的情况下,变量之间的相关关系是很复杂的,两个变量间的简单相关系数。往往不能正确说明这两个变量间的真正关系,只有在除去其他变量影响的情况下,计算它们之间的相关系数,才能真正表示它们间的相关关系。这样计算出的相关系数叫偏相关系数或净相关系数。例如,有三个变量xl,x2,x3相互相关,在除去x3的影响后x1与x2的相关系数,即x1与x2偏相关系数,记作r123。如有四个变量xl,x2,x3,x4,在除去x3、x4的影响xl与x2的相关系数也是xl与x2的偏相关系数,记作r1334。R123叫做一级偏相关,r1334叫做二级偏相关。也还有三级、四级偏相关。所以有时简单相关系数也称为0级偏相关。偏相关系数的计算是逐级进行的。,一级偏相关系数:,(924),二级偏相关系数;,(925),三级在二级、四级在三级的基础上进行计算。逐级的解法,级愈高,计算愈麻烦。一般的解法可通过由简单相关系数组成的相关矩阵(注意:rii=1,rIJ=rji)R,求其逆矩阵R1。,仍以上例为例,计算其二级偏相关系数。在相关模型中,各变量都同等看待,不作自变量与依变量之分。为了方便,将瘦肉量(依变量)改以x4表示。故得简单相关系数为:r12=0.0512 r13=0.0577 r14=0.4680 r23=0.4435 r24=0.3323 r34=0.3605按公式(99)求其逆矩阵:,然后按下述公式直接求之:,(926),以上变换中,从R(0)R(3),实际上就是采用求解求逆紧凑法,对实例资料求通径系数的具体计算过程,R(3)中的第4列即为通径系数的解。其中,Py1=0.44354,Py2=0.20049,Py3=0.24599,与用(921)式计算相同(这里有计算误差)。通径系数的显著性检验与偏回归系数、偏相关系数是同步的。在实例资料中,给合上述,我们需要研究的是瘦肉量(x4)与眼肌面积(x4)、胴体长(x2)、膘厚(x3)的二级偏相关。因此按公式(926)求得:,偏相关系数的显著性检验用t检验法,df=nm(m为变量数目)(927),上述三个偏相关系数,其自由度为df=544=50,偏相关系数同偏回归系数有密切的联系,不仅符号一致。而且其显著性检验亦是同步的,因为trij=tbij(这里有计算误差)所以结论亦是一致的:瘦肉量(x4)与眼肌面积x1的二级偏相关高度显著;与胴体长x2的二级偏相关不显著。与膘厚x3的二级偏相关勉强显著。偏相关系数的显著性检验亦可用查表法进行。偏相关系数与简单相关系数在数值上可以相差很大,有时甚至符号相反。世界上各种事物间的关系很复杂,在研究它们的关系时,不能只孤立地看两者之间的关系,而是要把各种事物间的关系都搞清楚,全面地来看两两间的关系。简单相关系数只表示两者间的表面关系,而只有偏相关系数才表示两者间的本质联系。例如对上例资料的相关分析。单就瘦肉量x4与眼肌面积、胴体长、膘厚的简单相关系数:r14=0.4680*r24=0.3323*r34=0.3605*虽然相关不高,但均表明有显著的相关关系存在。然而若作固定二变量的二级偏相关分析,则只能证明瘦肉量x4与眼肌面积x1有显著的相关关系存在,而与,胴体长x2的关系不显著,与膘厚x3的关系则很勉强。因此说明在多个性状值综合估计瘦肉量的值中,胴体长的作用不大。剔除胴体长x2后,x4对于x1、x3作偏相关分析:,1、一级偏相关系数可直接用公式求之,df=nm=543=51,因tt0.01(50)=2.678(用查表法:rr0.01(50)=0.354),即P0.01,可以看出偏相关系数均高度显著。所以偏相关分析的结果,亦证明用眼肌面积和膘厚两个性状值作多元回归来综合估计瘦肉量是恰当的和可靠的。2、利用求逆公式的性质,在R(4)中以剔除变量行为主行重复作一次消去变换,从去除该变量有关行及列子矩阵的逆阵元素计算次级偏相关系数(略)。,第三节 多项式回归,就不能通过变量变换把它化为直线,但如令x1=x,x2=x2,就可把它化成一个二元线性方程;,这样就可按多元回归的方法求得各回归系数。一般说来,包含多变量的任意多项式均可照此办理。例如:,可以令:x1=x1,x2=x12,x3=x3,x4=x14,x5=x1x2,多项式回归在回归分析中很重要,因为任何函数至少在一个较小的范围内都可用多项式任意逼近,因此在比较复杂的实际问题中,有时可以不问y与诸因素的确切关系如何,而用多项式回归进行分析和计算。,y=a+bx1+cx2,y=b0+b1 x1+b2 x12+b3x3+b4x14+b5x1x2,于是上式即化成:y=bo+blxl+b2x2+b3x3+b4x4+b5x5,下面举例说明计算过程。奶牛的产奶量受产犊季节影响甚大,为了制订一个校正系数用以消除产犊季节的影响,需要配置一个回归方程。,变量之间有时并不是直线关系,而是曲线关系。前面已经讲过,有些曲线关系可以通过变量变换的办法,利用一般直线回归的办法来配置回归方程,但并非所有曲线都可按此办理。例如抛物线 y=a+bx+cx2,表99 重庆市种畜场奶牛群各月份产犊母牛平均产奶量(kg),据重庆市动物数量遗传研究小组耿继平等同志对重庆市种畜场奶牛群产奶资料(表92)的研究,配置 出一个回归方程,其步骤如下:1作散点图定函数类型 根据表92产奶量与产犊月份资料作散点图(图92)从图92上可以看到,两者的关系基本是抛物线,于是就决定配置抛物线。其模型是:y=a+bx+cx2,图92 产奶量与产犊月份的关系,令x1=x,x2=x2,并使转换成如下二元线性方程:y=bo+blxl+b2x22计算必要数据,列正规方程组(1)一级数据 x1=78,x2=650,y=43682.06,x1x2=6087,x1y=283973.06,x2y=3640.17,(2)二级数据 SS1=143,SS2=25501.67,SSy=421195.39,SP12=1859,SP1y=39.67,SP2y=21584.36。(3)列正规方程组,3计算偏回归系数,常数项及列回归方程,b0=3640.17(204.9362)6.515.785754.17=4117.14,4显著性检验及准确性测定,U=(204.9362)39.67+15.785721584.36=332594.4126 Q=421195.39332594.4126=88600.9774,可见多元回归是非常显著的,准确度也是较高的。,5偏回归系数的显著性检验,两偏回归系数均非常显著。上述计算证明,所配的二次抛物线是符合产犊月份和产奶量两性状之间的回归关系的。在选择母牛的育种工作中,可以依之制定校正系数,以消除产犊季节对产奶量的影响。依所定方程=4117.4224.9362x+15.7857x2 描绘的回归曲线如图92。,SAS程序,options nodate nonumber;data xu9a;input x1 x2 x3 y;cards;proc reg corr;48.47 21.80 0.85 70.00 title 1.backward elimination;40.66 14.15 0.25 51.20 model y=x1-x3/selection=backward sls=.05 stb;49.87 20.00 0.83 70.00 run;33.53 18.00 0.49 60.00 title 3.stepwise regression;40.58 5.31 0.32 51.20 model y=x1-x3/selection=stepwise sls=.05 sle=.05 stb;39.36 5.31 0.35 54.10 run;35.26 5.31 0.25 52.71 title 9.multivarate regression;24.59 8.71 0.40 54.14 model y=x1-x3/selection=none stb;19.12 5.45 0.25 52.72 run;15.84 7.69 0.25 40.3210.87 3.27 0.23 40.3911.59 3.27 0.28 41.3610.76 3.15 0.23 40.0011.89 3.21 0.25 42.9111.80 3.21 0.25 42.90;,1.backward elimination Correlation Variable x1 x2 x3 y x1 1.0000 0.7519 0.7029 0.8741 x2 0.7519 1.0000 0.8629 0.8609 x3 0.7029 0.8629 1.0000 0.8894 y 0.8741 0.8609 0.8894 1.0000,Dependent Variable:y Backward Elimination:Step 0 All Variables Entered:R-Square=0.9158 and C(p)=4.0000 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 1282.10135 427.36712 39.88 F Intercept 32.69611 2.05883 2702.68075 252.20.0001 x1 0.31430 0.09139 126.75356 11.83 0.0055 x2 0.15544 0.28648 3.15495 0.29 0.5982 x3 23.10223 8.52044 78.78250 7.35 0.0202,Backward Elimination:Step 1 Variable x2 Removed:R-Square=0.9135 and C(p)=2.2944 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 2 1278.94639 639.47320 63.40.0001 Error 12 121.03441 10.08620 Corrected Total 14 1399.98080,Parameter Standard Variable Estimate Error Type II SS F Value Pr F Intercept 32.27624 1.85094 3066.96363 304.08.0001 x1 0.33435 0.08109 171.47843 17.00 0.0014 x3 26.39890 5.79523 209.29427 20.75 0.0007,All variables left in the model are significant at the 0.0500 level.Summary of Backward Elimination Variable Number Partial Model Step Removed Vars In R-Square R-Square C(p)F Value Pr F 1 x2 2 0.0023 0.9135 2.2944 0.29 0.5982,Dependent Variable:y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 1282.10135 427.36712 39.88|t|Estimate Intercept 1 32.69611 2.05883 15.88.0001 0 x1 1 0.31430 0.09139 3.44 0.0055 0.46252 x2 1 0.15544 0.28648 0.54 0.5982 0.10270 x3 1 23.10223 8.52044 2.71 0.0202 0.47570,options nodate nonumber;data xu9b;input x1 x2 x3 y;cards;48.47 21.80 0.85 70.00 19.12 5.45 0.25 52.7240.66 14.15 0.25 51.20 15.84 7.69 0.25 40.3249.87 20.00 0.83 70.00 10.87 3.27 0.23 40.3933.53 18.00 0.49 60.00 11.59 3.27 0.28 41.3640.58 5.31 0.32 51.20 10.76 3.15 0.23 40.0039.36 5.31 0.35 54.10 11.89 3.21 0.25 42.9135.26 5.31 0.25 52.71 11.80 3.21 0.25 42.9024.59 8.71 0.40 54.14;proc corr nosimple;var x1 x2 x3 y;run;proc corr nosimple;proc corr nosimple;var x1 x3;partial x2 y;run;var x1;with y;partial x2 x3;run;proc corr nosimple;proc corr nosimple;var x2 x3;partial x1 y;var x2;with y;partial x1 x3;run;proc factor c msa;proc corr nosimple;var x1-x3 y;var x3;with y;partial x1 x2;run;run;proc corr nosimple;var x1 x2;partial x3 y;run;,The CORR Procedure 4 Variables:x1 x2 x3 y Pearson Correlation Coef