回归分析(新改)New.ppt
《回归分析(新改)New.ppt》由会员分享,可在线阅读,更多相关《回归分析(新改)New.ppt(107页珍藏版)》请在三一办公上搜索。
1、第六章 回归分析,前几章所讨论的内容均是围绕寻求被测量的最佳估计值及其精度的,在生产和科学实验中,测量与数据处理的目的有时并不在于被测量的估计值,而是为了寻求两个变量或多个变量之间的内在关系。表达变量之间的关系的方法有散点图、表格、曲线、数学表达式等,其中数学表达式能较好地反映事物的内在规律性,形式紧凑,且便于从理论上作进一步分析研究,对认识自然界量与量之间关系有着重要的意义。而数学表达式的获得可通过多种数据处理方法完成。其中回归分析是处理变量之间相关关系的一种数理统计方法,也是广泛用于获得数学表达式的较好方法。本章介绍测量中常用的一元与多元线性回归以及一元非线性回归、线性递推回归的基本方法。
2、,第一节 回归分析的基本概念 第二节 一元线性回归 第三节 两个变量都具有误差时线性 回归方程的确定 第四节 一元非线性回归 第五节 多元线性回归 第六节 线性递推回归,第一节 回归分析的基本概念,一、函数关系与相关关系,在科学实验和生产实践中,经常需要研究事物变量之间的关系,它们之间的关系一般来说可分为两种类型:函数关系(确定性关系)和相关关系(随机性关系)。本节主要介绍这两种关系,并对回归分析的一些基本概念作一个简要的介绍。1.函数关系(确定性关系)functional relation 函数关系指的是变量之间可以用确定的函数来描述。如以速度v作匀速运动的物体,走过的距离s与时间t之间,有
3、如下的函数关系:svt,式中的变量若有两个已知,则可凭借函数关系精确地求出另一个变量。实际上这种确定的函数关系只在理论分析上存在。,2.相关关系(随机性关系)correlation relation 在实际问题中,绝大多数情况下,由于测量误差等原因,变量之间的关系不那么简单。例如,在等间隔时刻t1,t2,tn测得运动物体位移为s1,s2,sn,若已知其为匀速运动,但又存在一些影响准确测量的因素,则如何确定速度v呢?或者事先未知运动规律,需要分析时间与速度之间的关系。这种变量之间既存在着密切关系,又不能由一个或几个变量的数值精确地求出另一个变量的数值,而是要通过试验和调查研究,才能确定它们之间的
4、关系,我们称这类变量之间的关系为相关关系。例如,人的身高与体重之间有联系,但身高与体重之间并不存在确定的函数关系,也即由身高不能确切地知道其体重,但能经过统计大致地知道其体重按一定的概率落在一个范围内。,注意:函数和相关关系虽然是两种不同类型的变量关系,但是实际上它们之间并没有清晰的界限。一方面由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来。例如,尽管从理论上匀速运动的物体,其运动的速度、时间和距离之间存在着函数关系,但如果作多次反复地实测,由于存在许多影响因素,每次测得的数值并不一定满足svt的关系。在实践中,为确定某种函数关系中的常数,往往也是通过试验。另一方面,当对事物内
5、部的规律性了解得更加深刻的时候,经过排除某些主要影响因素后,相关关系又能转化为确定性关系。事实上,试验科学(包括物理学)中的许多确定性的定理正是通过对大量实验数据的分析和处理,经过总结和提高,从感性到理性,最后才能得到更深刻地反映变量之间关系的客观规律。,二、回归分析Regression Analysis主要解决的问题,1.从一组数据出发,确定这些变量之间的数学表达式回归方程或经验公式。2.进行因素分析,例如从对共同影响一个变量的许多变量(因素)中,找出哪些是重要因素,哪些是次要因素。3.对回归方程的可信程度进行统计检验。,由于相关变量之间不存在确定性关系,因此,在生产实践和科学实验所记录的这
6、些变量的数据中,存在着不同程度的差异。英国生物学家兼统计学家高尔顿(Galton)在1889年出版的自然遗传一书中首先提出了回归分析的概念,回归分析是处理变量之间相关关系的一种数理统计方法。它应用数学的方法,对大量的观测数据进行处理,从而得出比较符合事物内部规律的数学表达式。,回归模型的类型,回归模型,一元回归,线性 回归,非线性 回归,线性 回归,非线性 回归,多元回归,一个自变量,两个及两个以上自变量,线性递推回归,动态测量回归方程系数不定,回归分析广泛应用于实验数据处理、经验公式的求得、因素分析、仪器的精度分析、产品质量的控制、某些新标准的制定、气象及地震预报、自动控制中的数学模型的制定
7、及其他许多场合中。回归分析通过回归模型回答“变量之间是什么样的关系?”,第二节 一元线性回归,一元回归是处理两个变量之间的关系,即两个变量x和y之间若存在一定的关系,则可通过试验,分析所得数据,找出两者之间的相关关系。若两个变量之间的关系是线性的就称其为一元线性回归。工程上和科研中常遇到的直线拟合问题即属于一元线性回归问题。,一、一元线性回归方程 one dimensional linear regression equation,下面通过具体实例来讨论如何获得回归方程。,(一)回归方程的求法例6-1 测量某导线在一定温度x下的电阻值y得如下结果:试找出它们之间的内在关系。为了研究电阻x与温度
8、y之间的关系,以温度x为横坐标,电阻y为纵坐标,把测得的数据点在坐标纸上,如所示。这种图叫散点图,从散点图上可以看出,电阻y与温度x大致成线性关系。因此,我们假设x与y之间的内在关系是一条直线,这些点与直线的偏离是实验过程中受其他一些随机因素的影响引起的。这样就可以假设这组测量数据满足如下的关系:,图6-1,式中,1,2,N分别表示其他随机因素对电阻y1,y2,yN影响的总和,一般假设它们是一组相互独立、并服从同一正态分布N(0,)的随机变量(本章对t,t=1,2,N均作这样的假设)。变量x可以是随机变量,也可以是一般变量,不特别指出时,都作一般变量处理,即它是可以精确测量或严格控制的变量。这
9、样,变量y是服从N(0+xt,)的随机变量。式(6-1)即为一元线性回归的数学模型。在本例中,N=7,将表中的数据分别代入式(6-1),得到一组测量方程,该方程与式(5-7)完全相似,只是方程组中每个方程形式都相同即都为式(6-1)的形式,但比式(5-7)中的方程形式更规范。,由式(6-1)组成的方程组中有两个未知数0和,且方程个数(N=7)大于未知数的个数,适合于用最小二乘法求解。由此可见,回归分析只是最小二乘法的一个应用特例。下面用最小二乘法来估计式(6-1)中的未知量0和。设b0和b分别是0和的最小二乘估计,于是得到一元线性回归的回归方程 又称回归直线式式中,b0和b为回归方程的回归系数
10、。对每一个xt由式(6-2)可以确定一个回归值实际测得值yt与这个回归值(yt的最佳估计值)之差就是残余误差vt 应用最小二乘法求解回归系数,就是在使残余误差平方和为最小的条件下求解回归系数b0和b。,用矩阵形式,令则式(6-3)的矩阵形式为Y-Xb=v(对比第五章最小二乘原理v=L-AX,有L=Y,A=X,X=b)假定测得值yt的精度相等,根据最小二乘原理,回归系数b0和b的矩阵解为计算式(6-5)的下列矩阵,将C、B代入式(6-5),解得b0和b为:,式中,lyy是为了以后作进一步分析的需要,在这里一并写出。,将式(6-8)代入回归直线式(6-2),可得回归直线的另一种形式:由此可见,回归
11、直线式(6-2)通过点,明确这一点对回归直线的作图非常有帮助。由式(6-7)、式(6-8)求回归方程的具体计算,通常是通过列表进行。本例的计算见表6-1和表6-2,由此可得回归方程这条回归直线一定通过 这一点,再令x取某一x0,代入回归方程(6-15)求出相应的,连接 和就是回归直线,并把它画在图6-1上。在本例中回归系数b的物理意义是温度上升1,电阻平均增加0.2824。,(二)回归方程的稳定性回归方程的稳定性是指回归值 的波动大小,波动愈小,回归方程的稳定性愈好。和对待一般的估计值一样,的波动大小用 的标准差 来表示。根据随机误差传递公式及回归方程(6-2)有式中,为b0、b的标准差;为b
12、0和b的协方差。设为测量数据y的残余标准差(残差的平方和除以它的自由度所得商称为残余方差,残余方差的平方根称为残余标准差,将在本节的二(三)作详细讨论),由相关矩阵式(6-6)可得,将式(6-17)、式(6-18)、式(6-19)代入式(6-16)得,或,由式(6-21)可见,回归值的波动大小不仅与残余标准差有关,而且还取决于试验次数N及自变量x的取值范围。N愈大,x的取值范围愈小,愈小回归值 的精度愈高。,二、回归方程的方差分析及显著性检验,对于例6-1,回归直线式(6-15)求出来了,但它是否有实际意义呢?这里有两个问题需要解决:其一,就这种求回归直线的方法本身而言,对任何两个变量x和y的
13、一组数据(xt,yt),t1,2,N,都可以用最小二乘法给它们拟合一条直线。要知道这条直线是否基本上符合y与x之间的客观规律,这就是回归方程的显著性检验要解决的问题。其二,由于x与y之间是相关关系,知道了x值,并不能精确地知道y值。那么,用回归方程,根据自变量x值预报(或控制)因变量y值,其效果如何?这就是回归直线的预报精度问题。为此,必须对回归问题作进一步分析。现介绍一种常用的方差分析法,其实质是对N个观测值与其算术平均值之差的平方和进行分解,将对N个观测值的影响因素从数量上区别开,然后用F检验法对所求回归方差进行显著性检验。,(一)回归问题的方差分析 观测值y1,y2,yN之间的差异(称变
14、差),是由两个方面原因引起的:自变量x取值的不同;其他因素(包括试验误差)的影响。为了对回归方程进行检验,首先必须把它们引起的变差从y的总变差中分解出来。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示。N个观测值之间的变差,用观测值y与其算术平均值 的离差平方和S来表示,称为总的离差平方和,记作,因为(见图6-2),可以证明,交叉项因此总的离差平方和可以分解为两个部分,即或者写成称为回归平方和,它反映了在y总的变差中由于x和y的线性关系而引起y变化的部分。因此回归平方和也就是考虑了x与y的线性关系部分在总的离差平方和S中所占的成分,以便从数量上与Q值相区分。,称为残
15、余平方和,即所有观测点到回归直线的残余误差 的平方和。它是除了x对y的线性影响之外的一切因素(包括试验误差、x对y的非线性影响以及其他未加控制的因素)对y的变差作用,这部分的变差是仅考虑x与y的线性关系所不能减少的部分。这样,通过平方和分解式(6-23)就把对N个观测值的两种影响从数量上区分开来。U和Q的具体计算通常并不是按它们的定义式(6-25)和式(6-26)进行,而是按下式计算:因此,在计算S,Q,U时就可以利用回归系数计算过程中的一些结果。,对每个平方和都有一个称为“自由度”的数据跟它相联系。如果总的离差平方和是由N项组成,其自由度就是N-1。如果一个平方和是由几部分相互独立的平方和组
16、成,则总的自由度等于各部分自由度之和。正如总的离差平方和在数值上可以分解成回归平方和与残余平方和两部分一样,总的离差平方和的自由度S也等于回归平方和的自由度U与残余平方和的自由度Q之和,即在回归问题中,S=N-1,而U对应于自变量的个数,因此在一元线性回归问题中U=1,故根据式(6-29),Q的自由度Q=N-2。,两端平方后求和得到,总偏差平方和,回归平方和,残余平方和,三个平方和的关系,自由度,计算公式,在总的偏离中除了对线性影响之外的其它因素而引起变化的大小,在总的偏差中因和的线性关系而引起变化的大小,总偏差平方和,回归平方和,残余平方和,意义,反映因变量的n个观测值与其均值的总偏差,三个
17、平方和的意义,(二)回归方程显著性检验 由回归平方和与残余平方和的意义可知,一个回归方程是否显著,也就是y与x的线性关系是否密切,取决于U及Q的大小,U愈大Q愈小说明y与x的线性关系愈密切。回归方程显著性检验通常采用F检验法,因此要计算统计量F对一元线性回归再查附录表4F分布表。F分布表中的两个自由度1和2分别对应于式(6-30)中的U和Q,即式(6-31)中的1和N-2。检验时,一般需查出F分布表中对三种不同显著性水平a的数值,设记为Fa(1,N-2),将这三个数与由式(6-31)计算的F值进行比较:,若FF0.01(1,N-2),则认为回归是高度显著的(或称在0.01水平上显著;若F0.0
18、5(1,N-2)FF0.01(1,N-2),则称回归是显著的(或称在0.05水平上显著);若F0.10(1,N-2)FF0.05(1,N-2),则称回归在0.1水平上显著;若FF0.10(1,N-2),一般认为回归不显著,此时,y对x的线性关系就不密切。(三)残余方差与残余标准差 残余平方和Q除以它的自由度Q所得商称为残余方差,它可以看做在排除了x对y的线性影响后(或者当x固定时),衡量y随机波动大小的一个估计量。残余方差的正平方根称为残余标准差,与2的意义相似,它可以用来衡量所有随机因素对y的一次性观测的平均变差的大小,愈小回归直线的精度愈高。当回归方程的稳定性较好时,可作为应用回归方程时的
19、精度参数。,回归方程的显著性检验,1、检验因变量和所有的自变量之间的是否存在一个显著的线性关系,也被称为总体的显著性检验,2、具体方法是将回归平方和和残余平方和加以比较,应用F检验来分析二者之间的差别是否显著,如果是显著的,因变量与自变量之间存在线性关系,如果不显著,因变量与自变量之间不存在线性关系,2、计算检验统计量,3、在给定显著性水平 下,由分布表查得临界值。,4、作出决策。若,拒绝,则认为该回归效果显著。反之,则不显著。,即,检验步骤,1、提出假设,线性关系不显著,估计残余标准误差,4、残余标准差的计算公式,1、表征除了与线性关系之外其它因素影响值偏离的大小,2、反映实际观测值在回归直
20、线周围的分散状况,3、从另一个角度说明了回归直线的拟合程度,(四)方差分析表 上述把平方和及自由度进行分解的方差分析,所有,所有结果可以归纳在一个简单的表格中,这种表称为方差分析表,见表6-3。,表6-3,例6-2 在例6-1电阻温度的回归中,由表6-2及表6-3可得表6-4的方差分析结果。F0.01(1,N-2)=F0.01(1,5)=16.20;F0.05(1,N-2)=6.61;F0.10(1,N-2)=4.06;F=1180F0.01(1,N-2)=16.20回归在0.01水平上显著。即显著性=0.01,表明前面所得的回归方程(6-15)在=0.01水平上显著,即可信赖程度为99%以上
21、,这是高度显著的。利用回归方程,可以在一定显著性水平上,确定与x相对应的y的取值范围。反之,若要求观测值y在一定的范围内取值,利用回归方程可以确定自变量x的控制范围。,表6-4,注意:由于残余平方和中除包括试验误差外,还包括了x和y线性关系以外的其他未加控制的因素的影响。因此,用残余平方和检验回归平方和所作出的“回归方程显著”这一判断,只表明相对于其他因素及试验误差来说,因素x的一次项对指标y的影响是主要的,但它并没有告诉我们:影响y的除x外,是否还有一个或几个不可忽略的其他因素,以及x和y的关系是否确实为线性。换言之,在上述意义下的回归方程显著,并不一定表明这个回归方程是拟合得很好的。为了检
22、验一个回归方程拟合得好坏,可以做些重复试验,从而获得误差平方和QE和失拟平方和QL(它反映非线性及其他未加控制的因素的影响),用误差平方和对失拟平方和进行F检验,就可以确定回归方程拟合得好坏。,三、重复试验情况,设取N个试验点,每个试验点都重复m次试验,此时各种平方和及其相应的自由度按下列各式计算:,例6-3 用标准压力计对某固体压力传感器进行检定,检定所得数据如表6-5所示。表中xt为标准压力,yti为传感器输出电压,为四次读数的算术平均值。试对仪器定标,并分析仪器的误差。仪器要求线性定标,故应拟合一条回归直线。可以证明,用平均值的11个点拟合的回归直线与用原来的44个点拟合的回归直线完全一
23、样。具体计算见表6-6和表6-7(表中yt即为表6-5中的)。进行方差分析:当用 求回归直线时,各平方和可按下式顺序计算。,计算结果见表6-8。表中F栏为用误差平方和对相应的平方和项进行F检验的数学统计量,其中第一行第二行,表6-8,由表6-8或式(6-41)可知对失拟平方和进行F检验结果高度显著,说明失拟误差相对于试验误差来说是不可忽略的,这时有如下几种可能:1.影响y的除x外,至少还有一个不可忽略的因素。2.y和x是曲线关系。3.y和x无关。总之,所选择的一元线性回归这个数学模型与实际情况不符合,说明该直线拟合得并不好。失拟平方和QL或失拟方差反映了拟合误差,通常称为模型误差。如果F1检验
24、结果不显著,说明非线性误差(相对于试验误差讲)很小,或者基本上是由试验误差等随机因素引起的。于是可把失拟平方和QL与误差平方和QE合并,对回归平方和进行F检验,即,如果第二次F检验结果显著,说明一元回归方程拟合得好。对于给定的显著性水平a,如果F2不显著,那么这时有两种可能:1.没有什么因素对y有系统的影响。2.试验误差过大。当然所求的回归方程不理想。现在继续对例6-3作进一步分析。F1检验结果显著,回归方程是否就没有用了呢?不妨再用QE对U进行第二次F检验结果高度显著。再用QE QLQ对U进行第二次F检验也高度显著。,由于F1检验结果显著,虽然相对于试验误差来讲,此方程不能说拟合得很好,但是
25、由于两种F2检验都高度显著,试验误差和残余误差都很小,只要残余标准差小于该仪器所要求的精度参数,就可以使用此方程对该仪器进行定标。当然,如有必要,可进一步查明原因,重作回归方程。在一般情况下,重复试验可将误差平方和与失拟平方和从残余平方和中分离出来,利于统计分析。同时,在精密测试仪器中,通常失拟平方和及误差平方和分别与仪器的原理误差(定标误差、非线性误差)及仪器的随机误差相对应。应用这种方法分析传感器或非电量电测仪器及其他类似需要变换参量的参量仪器的精度,可以将系统误差与随机误差分离开来,并可用回归分析方法进一步找出仪器的误差方程,从而可以对仪器的误差进行修正。不需要对仪器作任何改进,只是通过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 New
链接地址:https://www.31ppt.com/p-6557811.html