多元回归与多项式回归.ppt
《多元回归与多项式回归.ppt》由会员分享,可在线阅读,更多相关《多元回归与多项式回归.ppt(45页珍藏版)》请在三一办公上搜索。
1、第九章 多元回归与多项式回归,学习要求 了解多元回归、偏相关系数、通径分析、多项式回归的概念;理解多元回归、多项式回归关系的显著性检验及准确度测定的意义;掌握正规方程组求解求逆紧凑法的步骤及建立最优回归方程、通径分析方法。重点与难点 重点:涉及本章统计量的含义,建立最优回归方程及通径分析方法难点:求解求逆紧凑法的应用思考题及作业 1、何谓偏回归及偏相关系数、通径系数、及决定系数?2、求解求逆紧凑法的公式有哪些性质?这些性质有何用处?3、试述偏相关系数、复相关系数及简单相关系数的区别?4、习题作业:标准化综合测试题第九章 14题 参考书 1贵州农学院(主编).2001.生物统计附试验设计教材.中
2、国农业出 版社.172197页 2莫惠栋著.1992.农业试验统计.上海科学技术出版社.467580页,第一节 多元回归与多元相关,世界上的事情是复杂的,生物现象尤其这样。在生物现象中,变量与变量的关系往往不是简单的一对一的关系,而是很多变量相互之间都有关联。在极大多数的实际问题中,一个变量不是受一个而是受多个变量的影响。要研究一个依变量与多个自变量间的关系,就需要用多元回归分析和多元相关分析的方法。线性回归是最基本的回归关系。这里介绍的多元回归,也是多元线性回归。多元线性回归与一元线性回归的原理完全相同,只是计算方法比较复杂而已。一、配置多元回归方程的一般方法 设y为一依变量,它受xl、x2
3、、x3xm的m个自变量的影响,我们可以在它们之间配置一个线性回归方程如下:=b0+b1x1+b2x2+b3x3+bmxm(91),其中b0为常数项,,(92),b1、b2、b3bm为y对xl、x2、x3xm的偏回归系数。b1=by1.2,3m,b2=by2.1,3m,b3=by3.1,2m,bm=bym.1,2,3(m1)。b1=by1.2,3m表示当x2、x3xm诸变量都固定时,自变量xl变化一个单位而使依变量y平均改变的值,这就是y对x1的偏回归系数,或称为回归系数。其余各偏回归系数都具有相应的含义。,b1、b2、b3bm还是利用最小二乘法来确定,即选取这样的b1、b2、b3bm,使离回归
4、平方和(剩余平方和)。,SSE=SS离回归=(y)2=y(b0+b1x1+b2x2+b3x3+bmxm)2,(93),达到极小值。用求偏微分的方法可得出b1、b2、b3bm必须满足下列正规方程:,上述方程组的系数项,按主对角线上为各变量的离均差平方和,SS1、SS2、SS3SSm。其余则为各自变量两两相互的离均差乘积和,并依主对角线为轴左右对称相等(SPij=SPji),常数项为各自变量同依变量y的离均差乘积和,SP1y,SP2y,SP3ySPmy。解这个正规方程组,即得b1、b2、b3bm代入公式92求得b0,再一起代人公式91,就得到多元归归方程。,二、正规方程组的解法 正规方程组的解法,
5、与一般方程组的解法相同,已在一般数学教科书中介绍过,如行列式法、消元法等。本章将重点介绍求解求逆紧凑法。,1、行列式法 常用于解低元的正规方程组。如二元正规方程组:,(94),(95),例1,当需要解三元或三元以上方程组时,则用以下计算方法。目前最为流行的是求解求逆紧凑法。,2消元法 消元法求解的原理是利用乘或除法使方程组中两方程式的同一项具有相同的系数,然后将此两式相加或相减使该项系数为零,从而消去一元。逐次消元,最后得一方程及各元之解(略)。,以上两种方法都无求逆过程,而逆矩阵元素是偏回归系数显著性检验所不可缺少的。故以上两种方法不常用。,例2,这些方程用矩阵的形式表示为:,AB=Y(96
6、),或记为,其中:A为系数矩阵;B为所要解的偏回归系数的列向量;Y为正规方程组等号右边的常数项的列向量。如果对方程(96)的两边都从左边乘以A的逆矩阵,即A1,我们可得 A1AB=A1Y(97),3矩阵法 正规方程组的求解可用矩阵法来进行。,A1A=E,EB=B。这里E是单位矩阵,它是一个特别重要的对称矩阵,它的主对角线上元素都等于1,而对角线以外的元素都等于0。单位矩阵的性质相当于一般数学中的1。方程(97)可变为:B=A1Y(98)当我们算出了A的逆矩阵(A1)代入(98),即可得方程b的解。对于例2资料,由于其系数矩阵的逆矩阵为:,即:,代入方程(98)得:,注*逆矩阵一般用C表示(C=
7、A1),故其元素用cij表示,亦具有对称性,它在统计学中常称之为高斯乘数。由矩阵法求解,常称之高斯解法。,即:b1=0.3804+(0.320)4+(0.141)3=0.181 b2=(0.320)4+0.4804+(0.040)3=0.519 b3=(0.141)4+(0.040)4+0.4233=0.541 关于逆矩阵的计算,我们仍可用消元法中的轮消法来求逆矩阵元素。其方法是在系数矩阵后附单位矩阵而不是附常数项的列向量。求得逆矩阵元素(cij)后,即可将其乘常数项的列向量而求解,如前述。由于求解求逆的工作量较大,特别是在具有较多的元时。因此一般用计算机同时进行求解求逆,考虑到节省计算机的内
8、存数,故目多采用的是求解求逆紧凑法。,4求解求逆紧凑法,求解求逆紧凑法是在采用矩阵法时却省去了单位矩阵,而将单位矩阵处的计算结果前移到系数矩阵的位置,而不是附在系数矩阵后。即在系数矩阵后仍附常数项的列向量,成为一个增广矩阵后用轮消法消元。最后在系数矩阵处得逆矩阵元素,常数项不变仍为各元之解。,求解求逆紧凑法的应用步骤,仍以例2资料为例,说明其紧凑法求解求逆计算,(1)列出增广矩阵,(2)应用下列公式(紧凑式轮消法)对各元素进行变换,式中:l 变换的次数,a(l+1)变换 l 次后的元素,a(l)变换 l 次时的元素,k每次变换的主行列标号,akk变换行主单元的元素,i元素a的行标,j元素a的列
9、标。9.1式用于变换主行(k)主元素的变换;9.2式用于变换主行除主元素外其它元素的变换;9.3式用于变换主列(k)除主元素外其它元素的变换;9.4式用于除变换主行主列元素外其它各元素的变换。,如:当 l=0,k=1,i=2、3,j=2、3、4时,应用99公式可将A(0)变换成A(1),其中各元素的变换是:按9.1式将A(0)中待变换的主元素10取倒数得:1/10=0.1 按9.2式将A(0)中待变换主行(k=1)除10外,其它元素均被主元素10除得:7/10=0.7、4/10=0.4、4/10=0.4 按9.3式将A(0)中待变换主列(k=1)除10外,其它元素均被主元素10除后改变符号 得
10、:7/10=0.7、4/10=0.4,按9.4式将A(0)中除主行主列外,其它各元素的变换是:用该元素减去同行同列中位于与主元素(10)相对应的两元素相乘后被主元素(10)除所得的差。如:i=2,j=2、3、4时,元素7、3、4同行中位于与主元素(10)相对应的元素均为7,同列中位于与主元素(10)相对应的元素分别为7、4、4。则:777/10=2.1 374/10=0.2 474/10=1.2类似地,当i=3,j=2、3、4时,A(0)中元素3、4、3可变换成:347/10=0.2 444/10=2.4 344/10=1.4,当l=1,k=2,i=1、3,j=1、3、4时,应用99公式可将A
11、(1)变换成A(2),其中各元素的变换是:A(1)中待变换的主元素2.1取倒数得:1/2.1=0.476 变换主行(k=2)除2.1外,其它元素均被主元素2.1除得:0.7/2.1=0.333、0.2/2.1=0.095、1.2/2.1=0.571 变换主列(k=2)除2.1外,其它元素均被主元素2.1除后改变符号得:0.7/2.1=0.333、0.2/2.1=0.095,除主行主列外,其它各元素的变换是:i=1,j=1、3、4时 i=3,j=1、3、4时 0.10.7(0.7)/2.1=0.333 0.40.2(0.7)/2.1=0.333 0.40.70.2/2.1=0.333 2.40.
12、20.2/2.1=2.381 0.40.71.2/2.1=0.333 1.40.21.2/2.1=1.286,当l=2,k=3,i=1、2,j=1、2、4时,依99公式可将A(2)变换成A(3),经过3次轮消后,系数矩阵元素变换为逆矩阵元素。而常数项值则为各元之解(bi)。,求解求逆紧凑法公式具有如下4个性质;(1)每作一次变换lk就得一个子方程的解及该子方程组系数矩阵的逆矩阵,如,是例2资料的子方程组,它的解是:b1=0 b2=0.519其系数矩阵的逆矩阵为:,这可从A(2)中见到。,(2)消去变换后的矩阵与消去的次序无关。这点可从例2资料自行验证。(3)对k行作一次消去变换后,再对k行重复
13、作一次消去变换,等于没有对该行作消去变换。(4)当方程组的系数矩阵为对称矩阵时。A(l)具有如下的对称性;当作bi、bj均已作了消去变换,或均未作消去变换时。这可以A(2)中1、2行或A(1)中的 2、3行系数矩阵的变换中看到。当对bi、bj中一个且仅一个作过消去变换时,这可以从A(1)的1、2行或A(2)的1、3行中验证。这些性质在方程组的求解求逆计算中或配置可行的多元回归方程中各有用处。,三、多元回归在科研中的应用实例,应用实例 猪的瘦肉量是肉用型猪育种中的重要性状,但这个性状的度量比较麻烦,需要进行整个胴体的剥离和称量。据研究,这个性状与其它一些比较容易度量的性状,如膘厚,胴体长,眼肌面
14、积等之间,存在着一定的相关,但与其中任何一个性状的相关都不太高。因此利用任何一个简单回归间接估计都不可能太准确。为了提高间接估测的准确度,需要配置一个多元回归方程。设y瘦肉量,xl眼肌面积,x2胴体长,x3膘厚。根据三江猪育种组的实测资料,统计54头杂种猪的有关性状,得如下数据:SSx1=846.2281 SSx2=745.6041 SSx3=13.8987 SSy=70.6617SPx1x2=40.6832 SPx1x3=6.2594 SPx2x3=-45.1511SPx1y=114.4530 SPx2y=76.2799 SPx3y=11.2966,=25.7002=94.4343=3.43
15、44=14.8722 rx1y=0.4680 rx2y=0.3323 rx3y=0.3605,为了求各偏回归系数,列出下列正规方程组:,用求解求逆紧凑法对正规方程组解得:,计算中,纯小数的小数位一般不能低于6位,这样才能保证最后计算结果正确。即:b1=0.1282 b2=0.0617 b3=0.5545 A(3)中前3行3列为系数矩阵的逆矩阵(A1),利用系数矩阵的逆矩阵元素(cij),可对偏回归系数作显著性检验。从而可继续作自变量的剔除。此外逆矩阵也是研究逐步回归的基础知识。这样,我们就可得到估测瘦肉量的多元回归方程。,=7.6552+0.1282x1+0.0617x20.5545x3,四、
16、显著性检验与准确度测定,(一)多元回归关系的显著性检验 在实际问题中,事先我们并不能断定变量y与变量xl、x2,xm之间是否确有线性关系。当求出线性回归方程之后,需要对其进行统计检验,作出肯定或否定的结论。如果依变量y与自变量xl、x2,xm之间没有线性关系,则公式(91)中各项系数b1,b2,bm应均为零。所以统计检验的假设应为H0:1=0,2=0,m=0。可以证明在假设H0成立的条件下,依变量y与自变量xi之间的线性回归关系,可以由方差分析法,即下述的统计量来检验:,(910),m自变量数,n变量的数据数 当实际算得的FF(df1,df2),即推翻原假设H0,而认为自变量全体与依变量y的线
17、性关系是显著的。这时,m个自变量中至少有一个i0,但并不排斥有若干个i=0。,式中:,表91(A)多元线性回归关系的方差分析模式表,仍以实例的资料说明具体检验步骤如下:,Q=SSySSR=70.661725.6433=45.0184 dfR=3,dfE=dfTdfR=(n1)m=nm1=543150表91(B)多元回归关系的方差分析,经F检验,FF0.01(3,50)=4.20,p0.01,高度显著,说明根据这一资料得到的多元回归方程是可靠的。(二)多元回归的准确度测定 用多元回归方程从多个自变量来估计一个依变量,其准确度如何,常是实际工作需要考虑的问题。准确度的测定实际是多元相关的分析。依变
18、量y与诸自变量xi之间的相关程度。一般用复相关系数(R)来衡量。所谓复相关系数就是y的实际度量值与估计值 间的相关系数:R=Ry.123m=(911)它的计算是较麻烦的、但在一元回归中,我们已经知道相关指数及相关系数分别为:,在多元回归中也是一样,相关指数及复相关系数分别为:,(912),(913),仍以实例为例:,将这个R值和前面所列各自变量与y的简单相关系数(rxij)比较。R|rx1y|rx3y|rx2y|0.60240.4680|0.3605|0.3323 可见用这个多元回归方程来估计y,比用y对这三个自变量中任意一个的筒单回归来估计,其准确度都高。当然这个准确度还是不够理想的,因为还
19、只有36.29%(0.60242=0.3629)。还有必要探索其他有关自变量,以配置更理想的多元回归方程。,(三)复相关系数的显著性检验 多元回归的显著性检验,亦可由对复相关系数的显著性检验来确定。因为;SST=SSr+SS1r SSy R2SSy(1R2)SSy dfT=dfr+df1r n1 m nm1,根据自由度df1=m和df2=(nm1),查临界值F,以确定R是否显著。由于SSr=SSR,SSlr=SSE,自由度亦相等,因此R的显著性检验与多元回归的显著性检验结论是同步的。,因此,(914),但同简单相关系数r的显著检验一样,由于R的显著性值可以从,(915),公式算得,并列之以表,
20、故而R的显著性检验亦可用简便的查表法来进行。如实例的R=0.6024。根据自变量m=3,自由度df=nm1=5431=50,查附表r及R的显著性值,得RR0.01(3,50)=0.449,即p0.01,此复相关系数高度显著,从而说明例中的依变量(瘦肉量)与三自变量(眼肌面积、胴体长、膘厚)之间有复相关关系和复回归关系存在。,(四)偏回归系数的显著性检验 在多元线性回归中,对多元回归关系的显著性检验是看所有自变量对依变量的总影响如何,而不能确定某一自变量对y的单独影响如何。偏回归系数的显著性检验要判定在诸多自变量中,某一自变量对变异y的单独影响作用。其检验的假设是H0:i=0。偏回归系数显著性检
21、验有t检验法和F检验法。,(1)t检验法,(916),式中:bi偏回归系数,Sbi偏回归系数标准误,Sy1,2,m估计标准误(离回归标准误),Q离回归平方和,m自变量数,Cij高斯乘数,即逆矩阵主对角线元素,n变量数据数 仍以实例为例,由前计算已知 b1=0.1282 b2=0.0617 b3=0.5545 C11=0.001187 C22=0.001671 C330.089707 Q=45.0184 m=3 n=54,所以,df=nm1=5431=50,(2)F检验 F检验需要求出各偏回归均方,然后与离回归均方进行比较,求出各F值:F=MSbi/MSE dfR=1 dfE=nm1 i=1,2
22、m(917)在多元线性回归中,回归平方和(U)表示所有自变量对y平方和的总影响,某一自变最的偏回归平方和表示该自变量对y平方和的影响,所以我们可以用取消该自变量后回归平方和的减少数值表示该自变量的偏回归平方和。但要注意,在一般情况下,各偏回归平方和之总和并不等于回归平方和,即SSbiU。据推导,偏回归平方和;,计算t值:,各偏回归平方和的自由度(dfR)为1,所以偏回归平方和就等于偏回归均方。,(918),仍以实例为例说明偏回归系数的F检验,由前计算已知:b1=0.1282 b2=0.0617 b3=0.5545C11=0.001187 C22=0.001671 C33=0.089707MSE
23、=0.9004,由此可见,b1高度显著,b2不显著,b3达到10%的显著水平。,所以,计算F值:,F检验与t检验是同步的,因此结论相同,b1高度显著,b2不显著,b3达到10%的显著水平。,*五、在多元回归中剔除作用不大的自变量,在多元回归方程中,有的自变量其偏回归平方和很小,将它从回归平方和中减去,对回归平方和值影响不大,因此从多元回归中剔除这个自变量,对复相关系数也影响不大,也就是对回归估计的准确度影响不大。在前,我们已进行了各偏回归系数的显著性检验,三个偏回归系数中有两个不显著,说明这两个自变量在这个多元回归中的作用较小,可以剔除。但要注意只能逐一剔除,不能两个同时剔除,因为剔除了一个自
24、变量后,整个多元回归发生改变,在新的多元回归中,各偏回归系数的显著性也要发生变化。一个自变量在这个多元回归中作用不大。到了另一个多元回归中作用可能加大。因此,我们首先剔除偏回归平方和最小(或F、t值最小)的一个自变量(本例为胴体长x2)。剔除后,由剩余的自变量重建新的多元回归方程,重求新的偏回归系数及逆矩阵元素。其方法有:(1)利用上述介绍的4种方法,对剔除后由剩余自变量组成的多元回归方程重新求解。该法适用于自变量较少的情况。,(2)利用求解求逆紧凑法公式的性质,简化剔除和重建回归方程。计算方法是将所应剔除的变量行为主行,重新作一次消去变换。之后,将该变量有关的行列划去,即得余下诸自变量所组成
25、子方程组的解和逆矩阵元素。之后,依之重配一个新的多元回归方程,再对新的偏回归系数作显著性检验。若还存在有不显著的偏回归系数,再选偏回归平方和最小的一个自变量作同上的消去变换,方法步骤同上,直至建立起来的多元回归方程的所有自变量的偏回归系数都显著为止。所得回归方程即最优回归方程。,仍以实例资料为例,因需剔除自变量x2,故在最后逆阵元素及解A(3)的基础上,以第二行列为主行列,k=2,重复作一次消去变换。(l=4)依公式(99)进行消去变换后得:,在A(4)中,除去第二行第二列即为自变量x1和x3子方程组的解和逆阵元素。由此可得新的回归系数、逆阵元素及回归方程为:b1=0.1297 b3=-0.7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 回归 多项式
链接地址:https://www.31ppt.com/p-6456411.html