欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    回归分析(新改)New.ppt

    • 资源ID:6557811       资源大小:1.55MB        全文页数:107页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    回归分析(新改)New.ppt

    第六章 回归分析,前几章所讨论的内容均是围绕寻求被测量的最佳估计值及其精度的,在生产和科学实验中,测量与数据处理的目的有时并不在于被测量的估计值,而是为了寻求两个变量或多个变量之间的内在关系。表达变量之间的关系的方法有散点图、表格、曲线、数学表达式等,其中数学表达式能较好地反映事物的内在规律性,形式紧凑,且便于从理论上作进一步分析研究,对认识自然界量与量之间关系有着重要的意义。而数学表达式的获得可通过多种数据处理方法完成。其中回归分析是处理变量之间相关关系的一种数理统计方法,也是广泛用于获得数学表达式的较好方法。本章介绍测量中常用的一元与多元线性回归以及一元非线性回归、线性递推回归的基本方法。,第一节 回归分析的基本概念 第二节 一元线性回归 第三节 两个变量都具有误差时线性 回归方程的确定 第四节 一元非线性回归 第五节 多元线性回归 第六节 线性递推回归,第一节 回归分析的基本概念,一、函数关系与相关关系,在科学实验和生产实践中,经常需要研究事物变量之间的关系,它们之间的关系一般来说可分为两种类型:函数关系(确定性关系)和相关关系(随机性关系)。本节主要介绍这两种关系,并对回归分析的一些基本概念作一个简要的介绍。1.函数关系(确定性关系)functional relation 函数关系指的是变量之间可以用确定的函数来描述。如以速度v作匀速运动的物体,走过的距离s与时间t之间,有如下的函数关系:svt,式中的变量若有两个已知,则可凭借函数关系精确地求出另一个变量。实际上这种确定的函数关系只在理论分析上存在。,2.相关关系(随机性关系)correlation relation 在实际问题中,绝大多数情况下,由于测量误差等原因,变量之间的关系不那么简单。例如,在等间隔时刻t1,t2,tn测得运动物体位移为s1,s2,sn,若已知其为匀速运动,但又存在一些影响准确测量的因素,则如何确定速度v呢?或者事先未知运动规律,需要分析时间与速度之间的关系。这种变量之间既存在着密切关系,又不能由一个或几个变量的数值精确地求出另一个变量的数值,而是要通过试验和调查研究,才能确定它们之间的关系,我们称这类变量之间的关系为相关关系。例如,人的身高与体重之间有联系,但身高与体重之间并不存在确定的函数关系,也即由身高不能确切地知道其体重,但能经过统计大致地知道其体重按一定的概率落在一个范围内。,注意:函数和相关关系虽然是两种不同类型的变量关系,但是实际上它们之间并没有清晰的界限。一方面由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来。例如,尽管从理论上匀速运动的物体,其运动的速度、时间和距离之间存在着函数关系,但如果作多次反复地实测,由于存在许多影响因素,每次测得的数值并不一定满足svt的关系。在实践中,为确定某种函数关系中的常数,往往也是通过试验。另一方面,当对事物内部的规律性了解得更加深刻的时候,经过排除某些主要影响因素后,相关关系又能转化为确定性关系。事实上,试验科学(包括物理学)中的许多确定性的定理正是通过对大量实验数据的分析和处理,经过总结和提高,从感性到理性,最后才能得到更深刻地反映变量之间关系的客观规律。,二、回归分析Regression Analysis主要解决的问题,1.从一组数据出发,确定这些变量之间的数学表达式回归方程或经验公式。2.进行因素分析,例如从对共同影响一个变量的许多变量(因素)中,找出哪些是重要因素,哪些是次要因素。3.对回归方程的可信程度进行统计检验。,由于相关变量之间不存在确定性关系,因此,在生产实践和科学实验所记录的这些变量的数据中,存在着不同程度的差异。英国生物学家兼统计学家高尔顿(Galton)在1889年出版的自然遗传一书中首先提出了回归分析的概念,回归分析是处理变量之间相关关系的一种数理统计方法。它应用数学的方法,对大量的观测数据进行处理,从而得出比较符合事物内部规律的数学表达式。,回归模型的类型,回归模型,一元回归,线性 回归,非线性 回归,线性 回归,非线性 回归,多元回归,一个自变量,两个及两个以上自变量,线性递推回归,动态测量回归方程系数不定,回归分析广泛应用于实验数据处理、经验公式的求得、因素分析、仪器的精度分析、产品质量的控制、某些新标准的制定、气象及地震预报、自动控制中的数学模型的制定及其他许多场合中。回归分析通过回归模型回答“变量之间是什么样的关系?”,第二节 一元线性回归,一元回归是处理两个变量之间的关系,即两个变量x和y之间若存在一定的关系,则可通过试验,分析所得数据,找出两者之间的相关关系。若两个变量之间的关系是线性的就称其为一元线性回归。工程上和科研中常遇到的直线拟合问题即属于一元线性回归问题。,一、一元线性回归方程 one dimensional linear regression equation,下面通过具体实例来讨论如何获得回归方程。,(一)回归方程的求法例6-1 测量某导线在一定温度x下的电阻值y得如下结果:试找出它们之间的内在关系。为了研究电阻x与温度y之间的关系,以温度x为横坐标,电阻y为纵坐标,把测得的数据点在坐标纸上,如所示。这种图叫散点图,从散点图上可以看出,电阻y与温度x大致成线性关系。因此,我们假设x与y之间的内在关系是一条直线,这些点与直线的偏离是实验过程中受其他一些随机因素的影响引起的。这样就可以假设这组测量数据满足如下的关系:,图6-1,式中,1,2,N分别表示其他随机因素对电阻y1,y2,yN影响的总和,一般假设它们是一组相互独立、并服从同一正态分布N(0,)的随机变量(本章对t,t=1,2,N均作这样的假设)。变量x可以是随机变量,也可以是一般变量,不特别指出时,都作一般变量处理,即它是可以精确测量或严格控制的变量。这样,变量y是服从N(0+xt,)的随机变量。式(6-1)即为一元线性回归的数学模型。在本例中,N=7,将表中的数据分别代入式(6-1),得到一组测量方程,该方程与式(5-7)完全相似,只是方程组中每个方程形式都相同即都为式(6-1)的形式,但比式(5-7)中的方程形式更规范。,由式(6-1)组成的方程组中有两个未知数0和,且方程个数(N=7)大于未知数的个数,适合于用最小二乘法求解。由此可见,回归分析只是最小二乘法的一个应用特例。下面用最小二乘法来估计式(6-1)中的未知量0和。设b0和b分别是0和的最小二乘估计,于是得到一元线性回归的回归方程 又称回归直线式式中,b0和b为回归方程的回归系数。对每一个xt由式(6-2)可以确定一个回归值实际测得值yt与这个回归值(yt的最佳估计值)之差就是残余误差vt 应用最小二乘法求解回归系数,就是在使残余误差平方和为最小的条件下求解回归系数b0和b。,用矩阵形式,令则式(6-3)的矩阵形式为Y-Xb=v(对比第五章最小二乘原理v=L-AX,有L=Y,A=X,X=b)假定测得值yt的精度相等,根据最小二乘原理,回归系数b0和b的矩阵解为计算式(6-5)的下列矩阵,将C、B代入式(6-5),解得b0和b为:,式中,lyy是为了以后作进一步分析的需要,在这里一并写出。,将式(6-8)代入回归直线式(6-2),可得回归直线的另一种形式:由此可见,回归直线式(6-2)通过点,明确这一点对回归直线的作图非常有帮助。由式(6-7)、式(6-8)求回归方程的具体计算,通常是通过列表进行。本例的计算见表6-1和表6-2,由此可得回归方程这条回归直线一定通过 这一点,再令x取某一x0,代入回归方程(6-15)求出相应的,连接 和就是回归直线,并把它画在图6-1上。在本例中回归系数b的物理意义是温度上升1,电阻平均增加0.2824。,(二)回归方程的稳定性回归方程的稳定性是指回归值 的波动大小,波动愈小,回归方程的稳定性愈好。和对待一般的估计值一样,的波动大小用 的标准差 来表示。根据随机误差传递公式及回归方程(6-2)有式中,为b0、b的标准差;为b0和b的协方差。设为测量数据y的残余标准差(残差的平方和除以它的自由度所得商称为残余方差,残余方差的平方根称为残余标准差,将在本节的二(三)作详细讨论),由相关矩阵式(6-6)可得,将式(6-17)、式(6-18)、式(6-19)代入式(6-16)得,或,由式(6-21)可见,回归值的波动大小不仅与残余标准差有关,而且还取决于试验次数N及自变量x的取值范围。N愈大,x的取值范围愈小,愈小回归值 的精度愈高。,二、回归方程的方差分析及显著性检验,对于例6-1,回归直线式(6-15)求出来了,但它是否有实际意义呢?这里有两个问题需要解决:其一,就这种求回归直线的方法本身而言,对任何两个变量x和y的一组数据(xt,yt),t1,2,N,都可以用最小二乘法给它们拟合一条直线。要知道这条直线是否基本上符合y与x之间的客观规律,这就是回归方程的显著性检验要解决的问题。其二,由于x与y之间是相关关系,知道了x值,并不能精确地知道y值。那么,用回归方程,根据自变量x值预报(或控制)因变量y值,其效果如何?这就是回归直线的预报精度问题。为此,必须对回归问题作进一步分析。现介绍一种常用的方差分析法,其实质是对N个观测值与其算术平均值之差的平方和进行分解,将对N个观测值的影响因素从数量上区别开,然后用F检验法对所求回归方差进行显著性检验。,(一)回归问题的方差分析 观测值y1,y2,yN之间的差异(称变差),是由两个方面原因引起的:自变量x取值的不同;其他因素(包括试验误差)的影响。为了对回归方程进行检验,首先必须把它们引起的变差从y的总变差中分解出来。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示。N个观测值之间的变差,用观测值y与其算术平均值 的离差平方和S来表示,称为总的离差平方和,记作,因为(见图6-2),可以证明,交叉项因此总的离差平方和可以分解为两个部分,即或者写成称为回归平方和,它反映了在y总的变差中由于x和y的线性关系而引起y变化的部分。因此回归平方和也就是考虑了x与y的线性关系部分在总的离差平方和S中所占的成分,以便从数量上与Q值相区分。,称为残余平方和,即所有观测点到回归直线的残余误差 的平方和。它是除了x对y的线性影响之外的一切因素(包括试验误差、x对y的非线性影响以及其他未加控制的因素)对y的变差作用,这部分的变差是仅考虑x与y的线性关系所不能减少的部分。这样,通过平方和分解式(6-23)就把对N个观测值的两种影响从数量上区分开来。U和Q的具体计算通常并不是按它们的定义式(6-25)和式(6-26)进行,而是按下式计算:因此,在计算S,Q,U时就可以利用回归系数计算过程中的一些结果。,对每个平方和都有一个称为“自由度”的数据跟它相联系。如果总的离差平方和是由N项组成,其自由度就是N-1。如果一个平方和是由几部分相互独立的平方和组成,则总的自由度等于各部分自由度之和。正如总的离差平方和在数值上可以分解成回归平方和与残余平方和两部分一样,总的离差平方和的自由度S也等于回归平方和的自由度U与残余平方和的自由度Q之和,即在回归问题中,S=N-1,而U对应于自变量的个数,因此在一元线性回归问题中U=1,故根据式(6-29),Q的自由度Q=N-2。,两端平方后求和得到,总偏差平方和,回归平方和,残余平方和,三个平方和的关系,自由度,计算公式,在总的偏离中除了对线性影响之外的其它因素而引起变化的大小,在总的偏差中因和的线性关系而引起变化的大小,总偏差平方和,回归平方和,残余平方和,意义,反映因变量的n个观测值与其均值的总偏差,三个平方和的意义,(二)回归方程显著性检验 由回归平方和与残余平方和的意义可知,一个回归方程是否显著,也就是y与x的线性关系是否密切,取决于U及Q的大小,U愈大Q愈小说明y与x的线性关系愈密切。回归方程显著性检验通常采用F检验法,因此要计算统计量F对一元线性回归再查附录表4F分布表。F分布表中的两个自由度1和2分别对应于式(6-30)中的U和Q,即式(6-31)中的1和N-2。检验时,一般需查出F分布表中对三种不同显著性水平a的数值,设记为Fa(1,N-2),将这三个数与由式(6-31)计算的F值进行比较:,若FF0.01(1,N-2),则认为回归是高度显著的(或称在0.01水平上显著;若F0.05(1,N-2)FF0.01(1,N-2),则称回归是显著的(或称在0.05水平上显著);若F0.10(1,N-2)FF0.05(1,N-2),则称回归在0.1水平上显著;若FF0.10(1,N-2),一般认为回归不显著,此时,y对x的线性关系就不密切。(三)残余方差与残余标准差 残余平方和Q除以它的自由度Q所得商称为残余方差,它可以看做在排除了x对y的线性影响后(或者当x固定时),衡量y随机波动大小的一个估计量。残余方差的正平方根称为残余标准差,与2的意义相似,它可以用来衡量所有随机因素对y的一次性观测的平均变差的大小,愈小回归直线的精度愈高。当回归方程的稳定性较好时,可作为应用回归方程时的精度参数。,回归方程的显著性检验,1、检验因变量和所有的自变量之间的是否存在一个显著的线性关系,也被称为总体的显著性检验,2、具体方法是将回归平方和和残余平方和加以比较,应用F检验来分析二者之间的差别是否显著,如果是显著的,因变量与自变量之间存在线性关系,如果不显著,因变量与自变量之间不存在线性关系,2、计算检验统计量,3、在给定显著性水平 下,由分布表查得临界值。,4、作出决策。若,拒绝,则认为该回归效果显著。反之,则不显著。,即,检验步骤,1、提出假设,线性关系不显著,估计残余标准误差,4、残余标准差的计算公式,1、表征除了与线性关系之外其它因素影响值偏离的大小,2、反映实际观测值在回归直线周围的分散状况,3、从另一个角度说明了回归直线的拟合程度,(四)方差分析表 上述把平方和及自由度进行分解的方差分析,所有,所有结果可以归纳在一个简单的表格中,这种表称为方差分析表,见表6-3。,表6-3,例6-2 在例6-1电阻温度的回归中,由表6-2及表6-3可得表6-4的方差分析结果。F0.01(1,N-2)=F0.01(1,5)=16.20;F0.05(1,N-2)=6.61;F0.10(1,N-2)=4.06;F=1180F0.01(1,N-2)=16.20回归在0.01水平上显著。即显著性=0.01,表明前面所得的回归方程(6-15)在=0.01水平上显著,即可信赖程度为99%以上,这是高度显著的。利用回归方程,可以在一定显著性水平上,确定与x相对应的y的取值范围。反之,若要求观测值y在一定的范围内取值,利用回归方程可以确定自变量x的控制范围。,表6-4,注意:由于残余平方和中除包括试验误差外,还包括了x和y线性关系以外的其他未加控制的因素的影响。因此,用残余平方和检验回归平方和所作出的“回归方程显著”这一判断,只表明相对于其他因素及试验误差来说,因素x的一次项对指标y的影响是主要的,但它并没有告诉我们:影响y的除x外,是否还有一个或几个不可忽略的其他因素,以及x和y的关系是否确实为线性。换言之,在上述意义下的回归方程显著,并不一定表明这个回归方程是拟合得很好的。为了检验一个回归方程拟合得好坏,可以做些重复试验,从而获得误差平方和QE和失拟平方和QL(它反映非线性及其他未加控制的因素的影响),用误差平方和对失拟平方和进行F检验,就可以确定回归方程拟合得好坏。,三、重复试验情况,设取N个试验点,每个试验点都重复m次试验,此时各种平方和及其相应的自由度按下列各式计算:,例6-3 用标准压力计对某固体压力传感器进行检定,检定所得数据如表6-5所示。表中xt为标准压力,yti为传感器输出电压,为四次读数的算术平均值。试对仪器定标,并分析仪器的误差。仪器要求线性定标,故应拟合一条回归直线。可以证明,用平均值的11个点拟合的回归直线与用原来的44个点拟合的回归直线完全一样。具体计算见表6-6和表6-7(表中yt即为表6-5中的)。进行方差分析:当用 求回归直线时,各平方和可按下式顺序计算。,计算结果见表6-8。表中F栏为用误差平方和对相应的平方和项进行F检验的数学统计量,其中第一行第二行,表6-8,由表6-8或式(6-41)可知对失拟平方和进行F检验结果高度显著,说明失拟误差相对于试验误差来说是不可忽略的,这时有如下几种可能:1.影响y的除x外,至少还有一个不可忽略的因素。2.y和x是曲线关系。3.y和x无关。总之,所选择的一元线性回归这个数学模型与实际情况不符合,说明该直线拟合得并不好。失拟平方和QL或失拟方差反映了拟合误差,通常称为模型误差。如果F1检验结果不显著,说明非线性误差(相对于试验误差讲)很小,或者基本上是由试验误差等随机因素引起的。于是可把失拟平方和QL与误差平方和QE合并,对回归平方和进行F检验,即,如果第二次F检验结果显著,说明一元回归方程拟合得好。对于给定的显著性水平a,如果F2不显著,那么这时有两种可能:1.没有什么因素对y有系统的影响。2.试验误差过大。当然所求的回归方程不理想。现在继续对例6-3作进一步分析。F1检验结果显著,回归方程是否就没有用了呢?不妨再用QE对U进行第二次F检验结果高度显著。再用QE QLQ对U进行第二次F检验也高度显著。,由于F1检验结果显著,虽然相对于试验误差来讲,此方程不能说拟合得很好,但是由于两种F2检验都高度显著,试验误差和残余误差都很小,只要残余标准差小于该仪器所要求的精度参数,就可以使用此方程对该仪器进行定标。当然,如有必要,可进一步查明原因,重作回归方程。在一般情况下,重复试验可将误差平方和与失拟平方和从残余平方和中分离出来,利于统计分析。同时,在精密测试仪器中,通常失拟平方和及误差平方和分别与仪器的原理误差(定标误差、非线性误差)及仪器的随机误差相对应。应用这种方法分析传感器或非电量电测仪器及其他类似需要变换参量的参量仪器的精度,可以将系统误差与随机误差分离开来,并可用回归分析方法进一步找出仪器的误差方程,从而可以对仪器的误差进行修正。不需要对仪器作任何改进,只是通过数据处理,对仪器的系统误差进行修正,就可使仪器的精度明显提高,这是提高仪器精度的一种颇为有效的方法。,总之,通过重复试验的回归分析对了解这类仪器的误差来源和提高仪器的精度是有益的。如果没有条件做重复试验,只能用残余平方和对回归平方和按式(6-30)进行F检验,也可大致说明回归效果的好坏。习惯上,经常也把这种检验结果显著与不显著说成拟合得好与坏。但需要注意,一个方程拟合得好的真正含义应该是失拟平方和相对于误差平方和来讲是不显著的。,四、回归直线的简便求法,回归分析是以最小二乘法为基础,因此所建立的回归直线误差(标准差)最小,但它的计算一般比较复杂。为了减少计算,在精度要求不太高或试验数据线性较好的情况下,可采用如下简便方法:(一)分组法(平均值法)用分组法求回归方程 中的系数b0和b的具体做法是:将自变量数据按由小到大的次序安排,分成个数相等或近于相等的两个组(分组数等于欲求的未知数个数):第一组为x1,x2,xk;第二组为xk+1,xk+2,xN,建立相应的两组观测方程两组观测方程分别相加,得到关于b0及b的方程组:,由上面的方程组可解得b0及b。特别当N2k时,回归系数,例6-4 对例6-1用分组法求回归方程。因观测数据已按自变量从小到大的次序排列,故可按试验顺序分成两组,并建立两组相应的观测方程(取k=(N+1)/2=4),然后分别相加:解方程组 得故所求的回归方程为这与用最小二乘法求得的回归方程式(6-15)比较接近。这种方法简单明了,拟合的直线就是通过第一组重心和第二组重心的一条直线,这是工程实践中常用的一种简单方法。,(二)图解法(紧绳法)把N对观测数据画出散点图于坐标纸上,假如画出的点群形成一直线带,就在点群中画一条直线,使得多数点位于直线上或接近此线并均匀地分布在直线的两边。这条直线可以近似地作为回归直线,回归系数可以直接由图中求得。利用此直线也可在坐标纸上直接进行预报。例6-5 用X光机检查镁合金焊接件及铸件内部缺陷时,为达到最佳灵敏度,透照电压y应随被照件厚度x而改变。经试验得如下一组数据:,把这组数据点在坐标纸上,然后通过点群作一直线(见图6-3)。在接近直线的两端各取一点,如(12,53)和(25,88),回归系数b(53-88)kV/(12-25)mm2.7kV/mm。将回归直线上任一点代入回归方程可求出b0,如53kVb02.7kV/mm12mm,b020.6kV。故所求回归方程为 图解法由于作图时完全凭经验画直线,主观性比较大,精度较低,但此法非常简单,精度要求不高时可采用。,第三节 两个变量都具有误差时线性回归方程的确定,前面用最小二乘法求得的回归方程,一般认为是最佳的,但它的前提是假设x没有误差或误差可以忽略,将其所有误差都归结在y方向。而实际中,x的测量是不精确的,存在试验误差。现在我们考察另一种极端情况,即y没有误差,而所有误差都归结于x。在这种情况下,一元线性回归方程的数学模型是式中0、为待定参数;为误差项。此时应该求x对y的回归方程式中0、为0、的最小二乘估计。,一、概述,应用最小二乘原理,使 为最小,求得式中 分别由式(6-9)、(6-10)、(6-12)、(6-13)确定。为便于与式(6-2)比较,将式(6-46)改写为式中一般情况下,,例6-6 若例6-1中电阻值y是可以精确测定的,而把所有的误差都归结于温度x,则根据 为最小的原则,由式(6-50)和(6-51)得另一回归方程与式(6-15)比较,两个方程的回归系数不相同。假定有一批试验点均匀分布在一个椭圆域内,如果假定误差在y方向,作一系列的垂直线,找出每一条垂线的中点,并作一条线通过各点(见图6-4)。如果假定误差是在x方向,则作一系列水平线,找出各水平线的中点,并作一条线通过各点。用这个方法得到两条直线,一条通过椭圆水平方向极值点,即y对x的回归直线,回归值 表示当任取x=x0时y的平均数,另一条通过垂直方向极值点,即x对y的回归直线,其回归值 表示当任取y=y0时x的平均数。由以上分析可见,通过一批点能够作两条最佳直线。,因为两个最小二乘解的存在,所以在试验中需要根据具体情况进行判断,选取恰当的回归线。这时可能存在下列三种情况:1.两个变量中一个变量的误差可以忽略,此时应采用另一变量对该变量的回归线。2.两个变量的误差大体相当,此时应采用图6-4所示两条回归线的平均线。3.两个变量中的一个变量误差比另一个大,此时所采用的中间线应偏向于误差大的变量对另一变量的回归线。随着两个变量之间线性关系的加强,即相关系数愈接近于1,两条最小二乘直线愈接近。当相关系数为1时,这两条直线将重合。例6-1因线性相关较强,故两个回归方程差别不大。,二、回归方程的求法,两个变量都具有误差时,比较精确的回归系数计算方法是戴明(Deming)解法。若xt,yt分别具有误差假定x、y之间为线性关系,其数学模型为所求的回归方程为式中,分别为 的估计值。为使x、y的误差在求回归方程式时具有等价性,令,则式(6-54)可写成式中,根据戴明推广的最小二乘原理,点 到回归直线(6-55)的垂直距离(图6-5)的平方和 为最小条件下所求得的回归系数b0、b是最佳估计值。,由解析几何可知,点 到回归直线式(6-55)的距离 为式中 根据最小二乘原理,为使 为最小,即求解 得式中,含义同式(6-8)(6-12)。,变量x、y的方差可用下式估计:可以通过式(6-57)来计算,或者利用计算回归系数时的中间结果,即 两种特殊情况:1.当x无误差时,这就是第二节中所讨论的一般回归问题的情况。2.当y无误差时,这就是本节中概述中提到的另一种情况。,例6-7 通过试验测量某量x、y的结果如下:由重复测量已估计出 即,试求y对x的回归直线方程。根据相关公式,计算结果见表6-9。所求回归方程为,例题,试对下表所列实验数据做直线拟合,并作方差分析和预测。,180,200,145,165,123,110,191,205,104,100,141,135,151,180,190,220,134,135,144,160,110,130,153,145,141,125,190,190,108,110,155,160,204,235,190,210,158,130,177,185,150,170,161,145,107,115,177,205,121,125,165,195,180,240,143,160,151,135,154,150,127,135,147,155,116,100,115,120,解:,直线拟合计算,故有,直线拟合,方差分析,偏离,回归,残余,总和,平方和,自由度,标准差,统计量,置信限,0.01,高度显著,41037,9057,50094,32,33,16.8,145.0,7.50,预测,对于,查分布表得,故有,回归直线及预测区间,第四节 一元非线性回归,在实际问题中,有时两个变量之间的内在关系并不是线性关系,而是某种曲线关系。用最小二乘法直接求解非线性回归方程非常复杂,通常是通过变量代换把回归曲线转换成回归直线,继而用前面给出的方法求解;或者把回归曲线展成回归多项式,直接用回归多项式来描述两个变量之间的关系,把解曲线回归问题转化为解多项式回归的问题。求回归曲线一般按下述两步进行:,1.确定函数类型。2.求解相关函数中的未知参数。,(一)函数类型选取方法:1、直接判断法 2、观察法,一、回归曲线函数类型的选取和检验,根据专业知识,从理论上推导或者根据以往的经验,可以确定两个变量之间的函数类型,如化学反应物质的浓度y一般与时间x有指数关系,即yy0ekx,其中y0及k为待定系数和指数。,将观测数据作图,将其与典型曲线(图6-6)比较,确定其属于何种类型。所选择的曲线类型是否合适,可用直线检验法、表差法来检验。,(二)检验方法:(直线检验法、表差法)1、直线检验法 当函数类型中所含参数不多,例如只有一个或两个时,用此法检验较好。其步骤如下:(1)将预选的回归曲线f(x,y,a,b)=0写成式中的Z1和Z2是只含一个变量(x或y)的函数,A和B是a和b的函数。(2)求出几对与x、y相对应的Z1和Z2的值,这几对值以选择x、y值相距较远为好。(3)以Z1和Z2为变量画图,若所得图形为一直线,则证明原先所选定的回归曲线类型是合适的。,例6-8 用上述方法说明下列一组数据是否可用yaebx表示。将yaebx写成式(6-62)形式,即式中lgy相当于Z1;x相当于Z2;lga相当于A;blge相当于B。以lgy与x画图(取x为1,4,6,8四点),所得图形为一直线(图6-7),故选用的函数类型yaebx是合适的。,下列几种类型的曲线方程式可用直线检验法:,2、表差法 若一组试验数据可用一多项式表示,式中含有常数的项多于两个时,则可用表差法来决定方程的次数或检验方程的次数。步骤如下:1.用试验数据画图。2.自图上根据定差x列出xi,yi各对应值。3.根据x,y的读出值做出差值y k,而 为第一阶差 为第二阶差 为第三阶差 表6-10列出了常见方程式类型及用表差法确定这些方程式的次数时的步骤和标准。,表6-10,例6-9 检验表6-11所示观测数据可用 表示。具体检验方法为:第一步:将观测值x与y画图,得图6-8所示的曲线;第二步:自曲线上按x为恒定值(本例取x1),依次读取x、y对应值,列入表中;然后再依次求出、以及。因表中 极接近常数,故此组观测数据可用上式表示。,表6-11,可用直线检验法或一阶表差法检验的曲线回归方程都可以通过变量代换转化为直线回归方程。例6-10 通过试验获得了表中10号变压器油的粘度y与温度x的一组数据:试求出粘度(恩氏粘度)与温度(单位为)之间的经验公式。,二、化曲线回归为直线回归问题,首先把观测数据点在坐标纸上并用一条曲线拟合如图6-9所示,将该曲线与图6-6中的典型曲线比较,该曲线与幂函数 的曲线相似,因此,可取函数类型为对等式两边取自然对数令则函数式可化为此即为普通的直线方程,仍用列表法求解此方程(见表6-12、6-13)。,求曲线回归方程的目的是要使所配曲线与观测数据拟合得较好。因此,在计算回归曲线的残余平方和Q时,不能用 和 以及式(6-28)而应按照定义用 和 及式(6-26)计算。用相关指数R2作为衡量配后曲线效果好坏的指标,即R也称相关系数,但它与经过变量变换后的 的线性相关系数不是一回事。R2(或R)越大,越接近于1,则表明所配曲线的效果越好。与线性回归一样,残余标准差,以它作为根据回归方程预报y值的精度指标。,三、回归曲线方程的效果与精度,例6-11 对例6-10计算残余平方和Q、残余标准差和相关指数R2。计算可按表6-14进行。由上述计算可见,该曲线拟合得比较好。,注意:在化曲线为直线的回归计算中,通常y也作了变换,如幂函数曲线方程式,经变换后为按最小二乘法是使 达到最小值,所以实际上所求的回归线不能说用最小二乘法所配的曲线为最佳的拟合曲线。因此,必要时可用不同类型函数计算后进行比较,择其最优者。比较时,可比较Q、R2这三个量中任一个,Q、小者为优,而R2大者为优。对变量代换后的直线方程与一般直线方程一样也可作显著性检验。它可反映变量代换后的直线拟合情况。一般地说,它可作为曲线拟合好坏的参考,但它并不能确切地表明原始变量x和y之间的拟合情况。,一元非线性回归分析步骤,5、比较不同模型拟合所得的残余平方和、残余标准差和相关指数(任选一项比较),选残余平方和、残余标准差小者而相关指数大者,即为所求。,1、选择回归模型。根据实验数据散点图分布的特点以及所掌握的专业知识和经验,选择合适的模型并进行检验。,2、进行变量代换使其线性化。3、按一元线性回归问题计算待定的系数、残余平方和、残余标准差和相关指数,进行效果和精度检验。,、如果拟合结果不满意,再选择其它模型,重复以上步骤。,第五节 多元线性回归,前面讨论了两个变量之间试验结果的数学表示一元回归问题,但在很多工程技术和科学实验的实际问题中,常常需要讨论多个变量之间试验结果的数学表示,这就是多元回归分析问题。,一、多元线性回归方程,假定因变量y与另M个自变量x1,x2,xM的内在联系是线性的,通过试验得到N组观测数据:(xt1,xt2,xtM;yt)t1,2,N 式(6-67)则多元线性回归的数学模型为:,式中,是M+1个待估计参数;x1,x2,xM是M个可以精确测量或控制的一般变量;1,2,N是N个相互独立且服从同一正态分布N(0,)的随机变量。下面用矩阵来研究多元线性回归问题。令则多元线性回归的数学模型式(6-68)写成矩阵形式为:,仍用最小二乘法估计参数。设b0,b1,bM分别是参数 的最小二乘估计,则回归方程为:由最小二乘法知道,b0,b1,bM应使得全部观测值yt与回归值 的残差平方和得到最小,即 其正规方程为:,正规方程组的系数矩阵为A=XTX。正规方程组(6-73)右端常数项矩阵B为所以,正规方程组(6-73)的矩阵形式为:或。一般情况下,系数矩阵A满秩,设C=A-1为A的逆矩阵,则正规方程组(6-73)的矩阵解为即,或式中b0,b1,bM为所求回归方程式(6-71)的回归系数。系数矩阵A的逆矩阵A-1可用行列式法或初等变换法求解。解线性方程组的方法很多,并不一定要求通过求逆矩阵的方法求解,但是因为在进一步的统计分析中要用到逆矩阵A-1中的元素,所以必须求出逆矩阵A-1,现在应用计算机可以非常方便地求出逆矩阵。,因此在处理多元线性回归问题时,主要是计算X,A,C,B这四个矩阵,其中X为多元线性回归模型中数据yt的结构矩阵;A=XTX为正规方程组的系数矩阵(也称信息矩阵);C=A-1为系数矩阵A的逆矩阵(也称相关矩阵);列向量BXTY为正规方程组的常数项矩阵。在多元线性回归模型中,常用另一种数据结构式相应的回归方程为式中,其结构矩阵X,常数项矩阵B和系数矩阵A分别为:,令,则一定要注意两种模型对应的A和B是不同的,计算时注意区分。上式中矩阵A的逆矩阵C具有如下的形式因此,回归系数为bCB 即,第二种模型的一般计算过程:先求出然后按式(6-80)求出lij和ljy,最后求出逆矩阵L-1,按式(6-81)求出回归系数0,bj,j1,2,M。两种模型求多元线性回归相比较,用第二种模型计算时:常数项回归系数0与b1,b2,bM无关,此外求逆矩阵的运算降低一阶(由M+1阶降为M阶),运算量少。,例6-12 根据经验知道某变量y受变量x1、x2的影响,通过试验获得表6-15中的一批数据,试建立y对x1、x2的线性回归方程。解 设欲求的多元线性回归方程的形式为lij和ljy的计算按表6-16及表6-17进行,其中lyy供进行方差分析用。矩阵L为:其逆矩阵L-1为:按式(6-81)得:所求的回归方程为:或,二、回归方程的显著性和精度,从数学角度看,多元线性回归方程的显著性检验与一元线性回归类似,也可以用数理统计的方法来检验,对多元线性回归进行方差分析。y的总离差平方和S,回归平方和U和残余平方和Q的计算及其相应的自由度如表6-18所示。回归平方和U表示在y的总离差平方和中,变量x1,x2,xM与y的线性关系而引起y变化的部分,其相应的自由度数为自变量的个数M。,表6-18,仍然利用残余平方和对回归平方和的F检验来检验回归方程的显著性。表6-18中的F为F检验的数学统计量:与一元回归一样,当FF(M,N-M-1)时,则认为回归方程在水平上显著。多元回归方程的预报精度由残余标准差来估计。,例6-13 对例6-12中的回归进行方差分析(见表6-19)。总的离差平方和S=lyy=6.0436,自由度S=29-1=28;回归平方和U=b1l1yb2l2y=1.6350,自由度U=2;残余平方和Q=S-U=4.4086,自由度Q=28-2=26。由于F=4.82 F0.05(2,26)=3.37,因此回归方程在0.05水平上显著,即置信概率P95%。残余标准差0.41,于是20.82,用该回归方程进行预报,95%的误差不会超过0.82。,表6-19,三、每个自变量在多元回归中所起的作用,一个多元线性回归方程是显著的,并不意味着每个自变量x1,x2,xM对因变量y的影响都是重要的。在实际应用中,为了建立简单的线性回归方程,以便于更好地对y进行预报和控制,因此希望能分析出众多因素中影响y的主要因素和次要因素,以便从回归方程中剔除哪些次要的、可有可无的变量,简化回归方程。首先需要考察每个特定因素在总回归中所起的作用:回归平方和是所有变量对y变差的总影响。考察的自变量愈多,回归平方和就愈大(尽管增加那些与y关系很小的因素只会使平方和有很小的增加)。因此,在所考察的因素中去掉一个因素,回归平方和只会减少,不会增加。减少的数值愈大,说明该因素在回归中起的作用愈大,也就是说该因素愈重要。,利用偏回归平方和Pi来衡量每个自变量xi在回归分析中所起作用的大小。取消一个自变量xi后回归平方和减少的数值称为y对某个自变量xi的偏回归平方和,记作Pi,即式中,U为M个变量x1,x2,xM所引起的回归平方和;为去除xi后的M-1个变量x1,xi-1,xi+1,xM所引起的回归平方和。直接按式(6-87)计算Pi非常复杂,偏回归平方和Pi一般按下式计算:式中,cii为原M元回归的正规方程系数矩阵A或L的逆矩阵C或L-1中的元素;bi为回归方程的回归系数。,因为各自变量之间可能有密切的相关关系,因此一般不能按偏回归平方和的大小,把一个回归中的所有自变量对因变量y的重要性大小进行逐个排列。在计算偏回归平方和后,按下列步骤对各因素的重要性进行分析:1.凡是偏回归平方和大的变量,一定是对y有重要影响的因素。偏回归平方和Pi的显著性检验也用残余平方和Q来进行F检验,也称为回归系数显著性检验。类似的,有统计量当FiF(1,N-M-1)时,则认为变量xi对y的影响在水平上显著。,2.凡是偏回归平方和小的变量,不一定不显著。但偏回归平方和最小的那个变量,肯定是所有变量中对y作用最小的一个。假如此时变量检验结果又不显著,则可以将该变量剔除。剔除一

    注意事项

    本文(回归分析(新改)New.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开