实验数据分析方法-回归分析.ppt
实验数据分析方法_Chap.6,1,第二部分 实验数据的统计分析第五章 误差理论与最小二乘法第六章 回归分析第七章 多变量分析第八章 功率谱与周期分析,实验数据分析方法,基本理论+具体实例+上机实习(课后),实验数据分析方法_Chap.6,2,第六章 回归分析,回归分析是处理变量与变量之间统计相关关系的一种数理统计方法。在观测天文学中,它是最基本的、被频繁使用的统计工具。变量间的统计相关关系是指变量间的关系是非确定性的。例如,某一天的气温与气压的关系;星系中氢含量与色指数、光度的关系;太阳耀斑与黑子相对数、某波段太阳射电辐射流量等因素的关系等。造成变量间关系的不确定性的原因通常有两个方面:一是,在影响一个量的众多因素中,有些是属于人们尚未认识或掌握的;另一个原因是,与所用仪器的精度或观测条件有关的观测误差及其它随机因素的影响。但人们也发现,只要对这种存在不确定性关系的变量进行大量观测或实验,就可能会找到它们蕴藏的内在规律。也就是说,在一定条件下,从统计的意义上来说,它们又可能存在某种确定的关系。通常,把变量之间这种不完全确定的关系称为统计相关关系。,实验数据分析方法_Chap.6,3,虽然统计相关关系和函数关系(变量间的关系完全是确定的)是两种不同类型的变量关系,但它们之间也不是一成不变的:一方面,在理论上有函数关系的几个变量由于观测误差的影响,每次测得变量的数值之间并不是准确的满足这种函数关系,造成某种不确定性;另一方面,当人们对事物的规律性了解得更加深入时,相关关系又可能转化为函数关系。事实上,自然科学中的许多定理、公式正是通过对研究对象的大量观测数据的分析处理,通过总结和提高得到的。回归分析就是利用大量的观测数据来确定变量间的相关关系的一种数学方法。在观测天文学中,回归分析常被用来定量描述某一研究对象两个特征量之间的显式关系;校准和量化对宇宙大尺度结构研究极其重要的“宇宙距离尺度”;在激光测月的资料处理中,回归分析也起了很重要的作用。,实验数据分析方法_Chap.6,4,总的来说,回归分析所要解决的主要问题是:1、从一组数据出发,确定这些变量之间的数学表达式回归方程或经验公式;2、对回归方程的可信程度进行统计检验;3、进行因素分析,例如从对共同影响一个变量的许多变量(因素)中,找出哪些是重要因素、哪些是次要因素。,实验数据分析方法_Chap.6,5,在许多情况下,两个变量之间的相关关系呈线性关系,它是统计相关关系中最简单的一种,也是天文上实际问题中最常见的情况。我们的目的则是要找出能描述这两个变量之间的线性相关关系的定量表达式。对于两个大致成线性关系的变量y和x,通常用如下的回归模型来描述它们之间的线性相关关系:,6.1 一元线性回归,6.1.1 一元线性回归模型及参数估计,式中,x称为自变量或预测变量,y为因变量,0,为待定的模型参数,是随机误差项,它表示除自变量x以外的随机因素对因变量y影响的总和。,实验数据分析方法_Chap.6,6,设由观测得到y,x的N组数据(yk,xk),k1N,代人上式得:对误差项k,规定E(k)0,2(k)=2,当kj时,k与j不相关,即协方差cov(k,j)0。鉴于对随机误差项k的上述规定,不难得知因变量yk是随机变量,它们都来自均值E(yk)0+xk。方差为2的概率分布,且任何两个观测值之间是互不相关的。上面我们对k的分布没有作任何规定,无论k具有什么样的分布函数,我们都可以使用最小二乘法求得参数0,的估计值。但是在进行区间估计和检验时,需要对k的分布函数的形式作出假设,通常的假设是误差项kN(0,2),即k服从均值为0、方差为2的正态分布。因为误差项通常代表模型中略去的许多因素的影响,这些因素在一定范围内影响因变量取值,并且随机的变化:依中心极限定理,它们近似服从正态分布。,实验数据分析方法_Chap.6,7,当假设误差项k为正态分布时,上述模型被称为正态误差回归模型。下图给出了正态误差回归模型的图示:对于形如前式的模型,回归分析的任务是找到回归参数0,的“好”的估计量,从而得到一条最能描述y和x关系的回归直线(见上图中的直线),它的方程可表为:,式中b0,b 为参数0,的估计值,yk为y的回归值。,实验数据分析方法_Chap.6,8,下面我们利用最小二乘准则给出b0,b 的计算公式:由最小二乘原理,b0,b应该是满足残差 平方和最小的解,记 则利用Qmin可得正规方程组:解之可得:,实验数据分析方法_Chap.6,9,其中在给定参数估计值b,b0后,可得到相应的回归方程(或回归函数)为:由于yk是均值为 方差为2的随机变量,对上述正规方程组及其解的形式稍加改变,并利用概率统计知识,可以得到:,这表明回归参数的最小二乘估计是无偏估计,它们的方差和随机变量的方差2,观测数据的个数N及自变量的取值范围的大小有关;在相同2的条件下,观测次数越多,自变量取值范围越大,估计值的方差就越小。,实验数据分析方法_Chap.6,10,在前一小节中,我们在两个变量大致成线性关系的假定下,利用最小二乘法得到了描述这两个变量相关关系的回归直线方程。就这种数学方法本身而言,可以不加任何条件的约束:对任一组数据(xk,yk),k1-N,都可由回归方程组求出一组b0,b,从而得到一条回归直线。但并非对每一组数据配的回归直线都有实际意义:例如对平面上分布完全杂乱无章的散点所配的直线就毫无意义。因此,通常在求得直线回归方程以后必须进行检验,判别所配直线是否有实际意义。如果检验结果回归方程是显著的,则表明所配回归直线揭示了因变量y与自变量x之间有较强的线性相关性;如果检验结果回归方程不显著,则表明所配回归直线没有实际意义。衡量回归效果好坏的标准,6.1.2 回归方程的显著性检验,在回归分析中,通常把因变量y看作为随机变量,并称某一次观测的实际观测值yk与它的平均值 的差 为离差,N次观测的离差平方和称为总平方和,用lyy表示,即:,实验数据分析方法_Chap.6,11,将总平方和进行分解,有:上式右边第一项是观测值与回归值之差的平方和,也就是残差平方和,有时也称它为剩余平方和,用Q表示。Q又可表为:它是除了x对y的线性影响之外的一切因素(包括x对y的非线性影响)对y值变化的影响。上式右边第二项是回归值与平均值 之差的平方和,我们称它为回归平方和,并记为U:,可以看出,回归平方和U是由于x的变化而引起的。因此U反映了在y的总的变化中由于x和y的线性关系而引起的y的变化部分。这样我们就把引起因变量y变化的两方面原因从数量上分开了。,实验数据分析方法_Chap.6,12,即,从回归平方和U和剩余平方和Q的意义很易说明,回归效果的好坏取决于U和Q的大小。下面我们从假设检验的角度来给出衡量回归效果好坏或判别回归方程显著与否的标准。,(一)F检验法,假设检验必须要给出原假设,在讨论两个变量之间是否有线性关系时,主要就是要检验模型中模型参数是否为零:如果0,则两个变量之间无线性关系。因此,我们把“0”作为检验的原假设H0。有了原假设后就要构造一个统计量,这个统计量必须满足三个条件:(1)能用样本值计算得到;(2)和原假设有关;(3)已知这个统计量的分布。根据这三个条件,统计量应该从反映y变化的回归平方和及剩余平方和中去找。利用正交线性变换可以证明:总平方和、回归平方和、剩余平方和都是变量2,且有:,实验数据分析方法_Chap.6,13,并且,当O成立时回归平方和与剩余平方和是相互独立的。故构成如下的统计量:因总平方和lyy的自由度F总FU+FQ,所以统计量F是服从第一自由度为l,第二自由度为N2的F分布。,确定了统计量F的分布以后,对给定的显著水平(0.01,0.05,0.1),由F分布表查出置信限F(1,N-2):这意味着p(FF(1,N-2)1-,而FF(1,N-2)是否定域。因此,如果由样本算出的统计量FF(1,N-2),说明原假设H0不成立,我们则称回归直线方程是显著的:且对于FF0.01(1,N-2)的情况属于高度显著,对FF0.05(1,N-2)的情况,称为在0.05水平上显著,对F F0.1(1,N-2)的情况是在0.1水平上显著。当FF(1,N-2)时,则称回归方程在水平上不显著,表明所求得回归直线没有实际意义。这种检验方法就称为F检验法。在统计学中,也通常把上面的检验过程称为方差分析。,(),实验数据分析方法_Chap.6,14,F检验的步骤可归纳如下:(1)建立原假设H0:0。(2)确定统计量,确定其分布(3)给定显著水平,由分布表查得置信限:F(1,N-2)(4)由样本计算统计量F,(5)作出显著性判断:若FF(1,N-2),则回归方程显著;若FF(1,N-2),则回归方程不显著,例 试利用40个B型旋涡星系SD的氢含量(MHMT)、色指数(BV)0的资料,求出它们之间的回归关系,并检验回归结果是否显著。(见书P125),实验数据分析方法_Chap.6,15,回归平方和U反映了在y的总变化中由于x与y的线性关系而引起的部分。因此,可以用U在总平方和lyy中所占的比例大小来衡量回归效果好坏通常,用r2表示比值Ulyy,并称 为x与y的相关系数。,(二)相关系数检验法,由r的定义可知rl。当r的绝对值较大时,说明y与x的线性相关较密切;r的绝对值较小时,说明y与x的线性相关程度较弱,这时散点离回归直线较分散;当r1时,所有的点都在回归直线上,表示y与x完全线性相关;而当r0时,则表示y与x毫无线性关系。下图显示了不同线性相关系数散点的分布情况。,实验数据分析方法_Chap.6,16,实验数据分析方法_Chap.6,17,从上面的讨论看出,相关系数r可用来衡量两变量之间线性相关的密切程度。但在一个具体问题中,r应大到什么程度才能认为它们之间确实存在线性相关关系,方可用一条回归直线来表示?这需要规定一个指标,作为鉴定回归方程是否有效的标准:当实际计算的相关系数r达到或超过该指标时,就认为r显著。为此,应建立相关系数的显著性检验方法,并列出在各个显著水平下,由相关系数的概率分布计算得到的相关系数检验表:表中是显著水平,N为观测数据个数。对于某一和N,可在表中查得相应的相关系数r达到显著的最小值r。如由观测数据算出的rr,则认为相关系数在水平上显著,这时就认为对x和y所配的回归直线有意义;反之,若相关系数不显著,对x和y所配的回归直线就没有实际意义。例如,样本个数N 30,对0.05由N-228,查得r0.36l:若由样本算得r0.361,则说明它在0.05的水平上显著;但若r0.463(r0.01)则说明它在0.0l水平上不显著。越小,显著程度越高。,可以证明,相关系数显著性检验和回归方程F检验是完全等价的。,实验数据分析方法_Chap.6,18,实验数据分析方法_Chap.6,19,对回归方程的显著性检验实际上是对回归模型的检验。在这一小节中,我们进一步对回归系数及回归值的精度进行讨论,即给出它们的置信区间,这对了解利用回归方程进行预测的精度很有实际意义。,6.1.3 回归系数和回归值的估计精度,(一)回归系数的置信区间,由回归系数的估计值b的计算公式,在k为正态分布的假定下,我们可以得到 故有:,利用参数的区间估计的基本原理可得的区间估计为,实验数据分析方法_Chap.6,20,或说估计量b的精度为 这里N为正态分布位数,由正态分布表查得,2为误差项的方差。一般情况下,2是未知的,常使用它的无偏估计量剩余均方差来代替,即:这时有 相应的区间估计为 在得到回归方程以后,对于任一给定的自变量xi,回归值就是实际值的估值。但由于参数估值b0,b是随机变量,因此因变量yi的估值是有误差的。下面我们推出这个估计值的精度公式,进而讨论利用回归方程进行预测的问题。,1/2,1/2,yy,yy,(二)回归值的置信区间,实验数据分析方法_Chap.6,21,定义残差i为实际值yi与回归值之差,有:及:,实验数据分析方法_Chap.6,22,若用代替i,用x代替xi,则 这表明,回归值对实际值的偏离 和随机误差项的方差2、观测数据量及观测点x与x的偏离有关,N越大,x越靠近x,相应残差的方差就越小。由于,y均属于正态分布,所以也属正态分布,由前式可得:于是,对于给定的显著水平,利用概率统计知识可得:式中,实验数据分析方法_Chap.6,23,则得y的置信区间或置信带为:根据正态分布理论,y将以 99.7%概率落在区间3N内;95.4%概率落在区间2N内;68.3%概率落在区间N内。,y的置信带的示意图,实验数据分析方法_Chap.6,24,由上图不难看出,对于某一自变量x0,因变量的取值是以 为中心对称分布的,分布的范围由N的大小决定。由于一般情况2是未知的,若用它的无偏估计代替,则得回归的误差为:当N较大,且x靠近 时,有:这时估计值 的误差仅由剩余均方差 决定,故而通常将剩余的均方差Sy2作为衡量回归方程精度的指标。,预测问题与回归方程的误差问题是密切联系的:对观测数据以外的任一给定的自变量xo,相应的因变量可由回归方程 得到。根据回归方程的误差范围可知,是预测的最佳值,而回归方程的误差范围也就是预测值的误差范围:N愈大,且靠近自变量的平均值 附近时,预测的精度就愈高。这说明,回归方程的适用范围一般仅局限于原来观测数据范围,即适用于用来进行所缺数据的补插,而超出这个范围时预测精度就较差。,实验数据分析方法_Chap.6,25,一元回归模型有以下几个基本假定:1)变量间真正的关系是线性的;2)因变量y是随机变量,x是自变量并不包含误差;3)随机误差项为零均值、同方差;4)因变量观测值是相互独立的。当这些假定中的任一个不满足时,所得回归方程就不是严格有效的。,6.1.4 一元线性回归及其在天文上的应用,控制是预测的逆问题。要求因变量y在某区间(y1,y2)内取值时,则应把自变量x控制在什么范围内?也就是要求相应的(x1,x2),使x1xx2时,相应的y至少以1-的置信水平落在区间(y1,y2)内。,实验数据分析方法_Chap.6,26,例如在哈勃图中,一个星系样本可能具有精度为0.1的星等测量误差和精度为0.001的红移测量误差,但不同星系本身的光度和非哈勃运动可能导致大于星等测量不确定度一个量级的弥散!又如,观测数据也具有各种各样的特性,有的可能是正态分布,有的则非正态,有的又是异方差的;离散的程度有的只依赖于一个变量,有的则依赖于两个甚至多个变量!另外,回归分析的目的也不总是相同:有的是需要最佳的斜率估计,而有的则是利用回归方程进行预测。鉴于上述这些情况,对具有线性统计相关关系的两个变量总用基于因变量y的残差平方和最小的一元回归方法得到回归结果并不是最佳的,反之有时甚至是错误的!,在实际应用中,由于多种原因这些假定不一定都满足。观测天文学中最常见的是:x通常也是观测量,它是有误差的,因此两个变量所处的位置是对称的,不能明确指定哪个是因变量哪个是自变量;另外,数据的内禀离散和观测误差相比占了很大的比例,亦即我们在前面提到过的除了观测误差之外,两个变量间关系本身的不确定性较突出。,实验数据分析方法_Chap.6,27,正因为如此,在19世纪就已问世的线性回归方法的统计研究在目前仍十分活跃。除了提出一些非最小二乘线性回归,如稳健回归和对于多变量问题的贝叶斯回归外,还提出了好几种最小二乘线性回归方法。90年代初期,美国天文学家Isobe&Feigelson等对双变量数据提出了五种线性回归方法:普通最小二乘回归(OLS(Y|X)、X对Y的回归(OLS(X|Y)、正交回归(orthogonal regression,简记为OR)、简化主轴回归(reduced major-axis regression,简记为RMA)和回归平分线,并讨论了它们的特性及在观测天文学特别是在宇宙距离尺度研究中的应用。,实验数据分析方法_Chap.6,28,a)OLS(Y|X):观测点和回归直线上同一x的y的差,b)逆回归 OLS(X|Y):观测点和回归直线上相应点x值之差,即点到回归线的水平距离,c)正交回归线OR:观测点到回归线的垂直距离,即 d)简化主轴回归RMA:观测点对回归线在垂直、水平两个方向测量的距离。,实验数据分析方法_Chap.6,29,利用观测点到回归直线距离的极小化原理和估计理论,经过复杂的推导可以得到各种方法的斜率j及其方差var(j)的估计(见书),下面我们首先给出把五种回归方法应用到一个实际的天文例子中,即椭圆星系中恒星的速度弥散和其光学光度之间的关系:Ln(Faber-Jackson关系)。研究这个问题的目的是:从的测量值估计星系的光度,亦即到星系的距离;比较n的经验测量值和从椭圆星系形成模型预测的值。下图示出L和的测量数据及利用五种回归方法的系数公式得到的5根回归线。计算的斜率是:OLS(L|):2.40.4;OLS(|L):5.40.8;OLS平分线:3.40.4;RMA:3.60.4和OR:5.20.8。这个结果表明关于距离和星系形成模型的结论明显依赖于所采用的回归方法,而五种回归线之间的离差大于任何一种估计的方差!,实验数据分析方法_Chap.6,30,1.OLS(Y|X)2.OLS(X|Y),3.OLS 平分线(点虚线)4.OR(虚线)5.RMA(点线),实验数据分析方法_Chap.6,31,为了说明各种回归方法的特性和它们的适用性,可以利用模拟试验。即对具有均值为零、且有不同的标准偏差x,y和不同的相关系数模拟出二维正态分布的数据点,然后应用五种回归方法,得到各自的回归系数及相应的方差。试验结果表明,五种方法给出的回归系数相互间是不同的,它们并不是同一量的不同估计。只有在1这个特殊情况下,所有五种回归的斜率才是相同的。对于0。当xy时,有3451。另外,模拟试验表明,正交回归斜率的不确定度比其它方法要大,故一般情况它只能用于无量纲变量间的拟合;又如对观测值取对数的情况,简化主轴回归的斜率和相关系数无关,因此在讨论X和Y的基本关系时,使用这种方法是无助的。模拟结果还指出,对于足够大的N(观测点)和相关系数,所有方法斜率方差正确反映了斜率系数的弥散,但对于小的N和,得到的方差估计都偏小。,实验数据分析方法_Chap.6,32,根据最近几年一些天文学家和其它领域的科学家对这五种回归的应用研究,可以得到如下几点结论:(1)如果观测数据的散布基本上是由于测量过程造成的,并且测量误差已知,那么一般采用前面介绍的常规的一元线性回归。而这里介绍的五种回归方法主要是针对数据点的散布是由未知的变化引起的情况;(2)一般来说,人们可以先对给定数据点拟合所有五条回归线,如果各条线之间的差异并不大于任何一条回归线的误差,那么回归方法的选择就不会严重影响结果。在这种情况下,通常使用OLS(Y|X)回归,因为它简单明了;(3)如果我们研究的问题是这样的情况,即两个变量中一个变量明显是因变量,另一个是原因变量,那么亦应利用OLS(Y|X),这里X是原因变量。如果我们的问题是从另一个变量的测量值来预测一个变量的值,则也应使用OLS(Y|X)回归,这里Y是被预测的变量。后一种情况在宇宙距离尺度应用中普遍存在,因为天文学家常常需要从一些已知距离的样本中产生的一条线性回归线来预测另外某一天体的距离。(4)如果研究目的是了解变量间的基本关系,那么处理对称变量的三种回归方法(OLS平分线,OR方法和RMA方法)都可以使用,但普遍认为OLS平分线方法是值得推荐的。,实验数据分析方法_Chap.6,33,在许多实际问题中,两个变量之间的关系并不是线性相关关系,而是某种曲线相关关系。例如,大多数新星在亮度下降阶段光度和时间的关系;恒星的光谱型和光度的关系(即恒星赫罗图)。这时,选择适当的曲线来表征它们之间的关系比直线更符合实际情况,或者说能得到更好的回归效果。曲线回归分析包括三个内容:一是确定曲线回归方程的类型:二是确定曲线回归方程中的参数;三是回归效果的检验。,6.1.5 曲线回归分析,(一)曲线回归类型的确定,实验数据分析方法_Chap.6,34,为了确定两个变量之间的曲线关系类型,常采用两种方法。一种方法是利用观测数据的散点图,根据散点图的分布形状和特点,对比各种函数形式已知的标准曲线的图形,把与散点图分布最接近的标准曲线作为观测数据所属的回归方程的类型。,实验数据分析方法_Chap.6,35,另一种方法是采用多项式回归。有时观测数据的散点图呈现的趋势较为复杂,难以用一条已知合适的曲线类型去拟合它们,这时可用自变量x的m次多项式:作为描述变量y和x关系的回归模型,即多项式回归。因此多项式可用来拟合相当广泛的一类曲线,其中二次多项式即二次曲线回归是最常用的一种类型。在多项式回归中,多项式次数m的选择也是一个很重要的问题,但在实际应用中往往并不能确知m等于多少,通常是采用统计检验的方法。关于两个变量间的曲线回归类型的确定,有一点需要说明的是,所确定的类型均可通过变量代换转化为一元线性回归来处理。,实验数据分析方法_Chap.6,36,曲线回归类型确定以后,可采用变量变换的方法将曲线模型转化一元线性回归模型,然后利用前面介绍过的解一元线性回归的方法求解,得到一元线性回归参数,最后再进行变量的逆变换得到曲线回归参数以及曲线回归值。例如,对y和x关系确定的曲线类型为 作变量代换 则上面的曲线类型可转化为直线关系:引进随机误差项得到一元线性回归模型:,(二)回归参数的确定,利用一元线性回归分析,由N组观测值(xk,yk)可以解得回归参数,的估计值,利用变量代换关系可以得到曲线回归参数的估值:及曲线回归值:,+,实验数据分析方法_Chap.6,37,为了检验对两个变量的非线性关系所配曲线的适宜性,我们给出两个指标:相关指数和剩余标准差。在曲线回归中,亦用类似于上文中定义的相关系数r来衡量所配曲线效果的好坏,即:并称它为相关指数,式中 为曲线回归值,为因变量观测值的平均值。一般来说,R越接近于1,表明所配曲线的效果越好;另外,剩余标准差 亦可以用来衡量所配的效果,Sy越小,表明所配曲线精度越高。在选择曲线类型时,有时很难一下确定,这时可同时选择两种或两种以上曲线类型进行曲线回归,然后进行比较。选取相关指数较大或剩余标准差较小者为最佳的曲线类型。,(三)一元曲线回归的有效性检验,实验数据分析方法_Chap.6,38,课后练习(5月9日交),测量某导线在一定温度x下的电阻值y得到如下结果:请采用一元线性回归找出y与x间关系的表达式,画出散点与回归线图,并用相关系数检验其显著性,实验数据分析方法_Chap.6,39,在相当多的实际问题中,影响因变量的因素有很多,例如。太阳耀斑可能和一群黑子面积、半球面黑子相对数、日面综合谱斑指数、某波段太阳射电辐射流量等10多个因素有关;激光测月观测中,时延的观测值与理论值之差可能和望远镜位置坐标、月球反射器位置坐标、月球和地球轨道参数等40多个参数采用值有关。为此,需要用多元回归来描述它们之间的统计相关关系。另外,我们在前面提到的多项式回归,最后也必须转化为多元线性回归问题.,6.3 多元线性回归,实验数据分析方法_Chap.6,40,在研究因变量y与多个自变量xi之间的统计关系时,常常利用多元线性回归模型:式中i(i0m)称为y对xi的回归系数,为正态随机变量。上式表示了多维空间的一个“超平面”.和一元回归类似,多元线性回归就是要利用N组观测数据:,根据最小二乘法,对模型参数作出估计。设b0,b1,.bm为参数0,1,.m的最小二乘估计,则所得回归方程应为,6.3.1 多元线性回归方程的求解,实验数据分析方法_Chap.6,41,由最小二乘原理,估计值b0,b1,.bm 应使剩余平方和最小:由极值定理,将Q分别对i(i 0 m)求偏导数,并令它们为零,则得到b0,b1,.bm所满足的方程组:又,式中:,实验数据分析方法_Chap.6,42,常称lij为协方差,上页之线性方程组被称为正规方程组。解此方程组就可以求得各回归系数bi(i1 m),再由此求得常数项b0。为了方便,通常用矩阵形式表示上述正规方程组:令:则正规方程组可表为:LB=Ly 线性方程组的解法很多,一般的情况可用消元法,或求逆阵法。在多元回归分析中,正规方程组的系数矩阵的逆阵有其特殊的作用,因此常用求逆矩阵的方法。不难看出,L为对称阵,其逆矩阵用C表示,即:C=L-1=(Cij),实验数据分析方法_Chap.6,43,则正规方程组有唯一解,并可表为:B=CLy 或:,在多元回归中,由于各自变量的量纲往往是不一致的,这会使正规方程中各系数之间产生较大差异,影响了求解精度。如果我们采用标准化回归模型,则可在一定程度上避免这方面误差的影响。另外。从最后得到的标准回归系数的大小,可以观察各自变量对因变量关系的密切程度。所谓标准化模型,就是将原来的数据进行标准化变换,而对变换后的数据建立的回归模型。将原观测数据作如下的标准化变换:其中:,实验数据分析方法_Chap.6,44,则得到标准化数据:处理标准化数据还有很多方便之处:因为由标准化变换定义式不难得到:对标准化数据仍用最小二乘法可得一组新的正规方程组:式中:b为标准化回归系数,记,实验数据分析方法_Chap.6,45,则得到标准化正规方程组:通常,定义rij为自变量xi与xj的简单相关系数。而由它们构成的矩阵称为相关阵,用R表示,即:并用C表示R的逆阵;Ry表示列向量,rjy(j1 m);B表示标准化回归系数的列向量,即:,实验数据分析方法_Chap.6,46,则上页之标准化正规方程组可写成 解此方程组,得标准回归系数:即:由推导可知,故得标准化正规方程:同时可得标准回归系数与实际回归系数之间的转换关系:利用这个关系最后可把标准回归系数化回到实际回归系数。,实验数据分析方法_Chap.6,47,和一元回归分析一样,对于给定的一组观测数据,总可以利用多元线性回归模型按最小二乘原理配一个回归超平面。但这个回归超平面是否有实际意义,则需要通过显著性检验才能作出判断。多元回归的显著性检验,包括对总的回归效果的检验及对每个自变量的回归系数的检验两个方面。,6.3.2 多元线性回归的显著性检验,(一)回归方程的显著性检验,多元线性回归的显著性检验又称多元回归的方差分析,和一元回归的检验类似。我们仍然利用假设检验,并用全部回归系数均不为“0”的假设的对立假设为原假设。即:,实验数据分析方法_Chap.6,48,通过将总平方和进行分解,确定检验用的统计量及其分布,然后对给定的显著水平确定置信限,将它和由观测资料算得的统计量进行比较,从而作出对原假设接受与否的判断。在多元情况,我们仍然定义:总平方和 回归平方和 剩余平方和,原假设H0成立的条件下,U 2(m),Q 2(Nm1),且U和Q相互独立。于是,统计量 服从第一自由度为m,第二自由度为Nm1的F分布。,实验数据分析方法_Chap.6,49,对于给定的显著水平,由F分布表可查得置信限F(m,Nm1),当由样本值算出的FF(m,Nm1)时,拒绝原假设,也就是说,对这组数据用模型拟合得到的回归方程可以接受,且称它为显著的;如若FF(m,Nm1),则说所得的回归方程不显著。,和一元回归类似,多元回归方程的显著性检验也可以应用相关系数检验法。定义:,为y与各个自变量xi(i1 m)的复(或全)相关系数。R的大小在一定的程度上反映了y与这些变量之间的密切程度:R越大表明y与这些变量之间的线性关系越密切;反之则表示这种线性关系不密切。但是必须提出,我们不能单纯从R的大小来评定回归效果的好坏,因为R的大小还与自变量个数m及观测组数N有关。,实验数据分析方法_Chap.6,50,因此,必须将算得的R与和F等价的相关系数临界值R进行比较来决定,具体方法和一元回归的情况也相同。由R的定义式可以得到关系式:,(二)回归系数的显著性检验,在多元回归中,我们并不只满足于回归方程是显著的这个结论。因为回归方程显著只是拒绝了“回归系数全部为0”这一假设,但这并不意味着每个自变量对因变量y的影响都是重要的;即可能其中的某些回归系数为或接近零。我们总是希望在线性回归方程中包含与y有显著关系的那些变量,不包含那些次要的、可有可无的变量。因此对于多元回归来说,除了进行回归方程的显著性检验以外,还必须对每个变量相应的回归系数进行检验。,实验数据分析方法_Chap.6,51,式中,Um是m个变量的回归平方和,Ujm-1表示y对去掉xj 之后的m-1个变量的回归平方和。因此,不难看出,偏回归平方和可以用来衡量每个自变量在回归中所起作用的大小。凡偏回归平方和大的变量,一定是对y有重要影响的因素;凡偏回归平方和小的变量,虽然不一定不显著,但可以肯定,偏回归平方和最小的那个变量,肯定是所有变量中对y贡献最小的一个。,为了进行回归系数的显著性检验,必须考察每个自变量在多元回归中所起的作用,故而引入偏回归平方和概念。回归平方和是所有自变量对y变差的总贡献,所考虑的自变量愈多,回归平方和就愈大。如果在所考虑的几个变量中,剔除一个变量,回归平方和就会减少;减少的数值愈多,说明该变量在回归中所起的作用愈大。我们把取消一个自变量x后回归平方和减少的数值称为y对自变量xj的偏回归平方和,记作pj,即,检验的基本方法,实验数据分析方法_Chap.6,52,因此,检验就从这个变量开始。我们将检验的原假设取为:H0:j=0 可以证明,在j 0成立的条件下,服从第一自由度为l,第二自由度为N-m-1的F分布。于是对给定的置信度,由F分布表可查得F(1,N-m-1)。当统计量FjF(1,N-m-1)时,则认为变量xj对y的影响在水平上显著,在回归方程中应保留这个变量。由于xj是所有变量中对y贡献最小的一个,所以对其他变量可不必再作检验。如果计算的统计量FjF,则接受原假设,认为和xj对应的回归系数不显著,应从回归方程中将变量xj剔除,然后,重新建立m1元的新的回归方程,计算回归系数和偏回归平方和,再按上面的方法进行回归系数的显著性检验。,实验数据分析方法_Chap.6,53,在进行回归系数的显著性检验时,必须要计算偏回归平方和。而由偏回归平方和的定义式要计算每个变量的偏回归平方和pj(j1 m),必须要计算剔除每个变量xi(i1 m)后重新建立的m1元回归方程的回归平方和Uim-1(i1 m)。这个重新建立的m1元回归方程,回归系数和原方程的回归系数是不同的,为了避免重建方程的大量计算,人们找到了原方程回归系数与剔除某个变量后重新建立的回归方程的系数的关系,大大地简化了计算。设bj(j 1 m)为m个自变量的回归方程的回归系数,bj*(jk)为在m元回归方程中剔除变量xk后,m-1元回归方程的新回归系数。利用行列式的雅可比定理可以证明,新、老回归系数之间有如下关系:,偏回归平方和的计算,其中ckk,ckj是原m元回归方程中系数矩阵的逆阵C中对应的元素,实验数据分析方法_Chap.6,54,我们由此可以得到一个直接利用m元回归方程的结果计算偏回归平方和的公式:,6.3.3 残差检验,在实用回归分析中,除了对回归方程和回归系数的显著性检验以外,还可以通过对残差的分析来检验模型的适度。残差即因变量观测值yi和回归值 之差,记为ei:这个差是回归方程不能解释的量,如果模型正确,可将ei看作观测误差。在进行回归之前,对误差(未知的真误差iyiE(yi))已作了假定,即误差相互独立、具有零均值和固定方差2;为了求置信区间和进行假设检验,又假定误差服从正态分布。因此,如果拟合的模型正确,残差就应当呈现出所假定的误差的特性。如果回归函数非线性,误差项不独立,误差项方差不相等,模型中缺少一个或几个自变量等偏离模型的情况,都可以通过残差图直观地反映出来。,实验数据分析方法_Chap.6,55,所谓残差图是指以残差为纵坐标、以任何其它指定的量为横坐标的散点图。这里的横坐标可以是自变量xi,可以是回归值,也可以是时间(如果观测数据是按时间顺序获得的)。下图是几种典型的残差图:,(一)残差图分析,线性模型适合,模型不适,应包含更多项,方差不是常数,误差项不独立或缺少自变量,实验数据分析方法_Chap.6,56,另外,从残差图中还可以检测是否有异常观测值存在。在残差图中,异常值的残差绝对值比其它残差大得多,一般离残差均值有34个标准误差的距离。当出现异常残差时,必须仔细分析其来源,如果确认是由观测的异常值(可利用观测数据的散点图)引起,则应予以放弃。如果模型中缺少某一自变量也会产生残差异常值,这时异常值可能提供重要信息,不能随便剔除。因此比较稳妥的办法是,只有探查出异常值是由过失误差造成的,才将其剔除。残差的图示分析能比较直观地检验模型的适度。而且因为任何一种回归分析都能很方便提供拟合值和残差,因此得到各种类型的残差图也是简单易行的。,实验数据分析方法_Chap.6,57,残差的统计检验是指用统计的方法检验残差的随机性、等方差性及正态性等:它们是在残差图分析的基础上的进一步检验。当残差图显示出方差可能系统地随着X或E(y)增加或减小时,一种简单的等方差的检验方法是按X把观测值分为两段,分别拟合回归函数,然后计算误差均方,用F检验法检验方差是否相等。检验一个分布是否为正态的方法很多,常用的一个较简单的方法是利用残差的直方图:如果直方图中间高、两边低,呈正态密度曲线形状,则可认为残差来自正态母体。考虑一组残差,设共有n个符号,其中n1个正号,n2个负号,每种符号都被另外一种符号隔成一些子序列,每个子序列称为一个游程,两种符号的游程总数记为R,(二)残差的统计检验,实验数据分析方法_Chap.6,58,如看下面的一个符号序列:则n111,n212,n23,共有R10个游程。假定n个元素的任一排列出现的概率是相等的,则游程总数R的概率函数为:及,实验数据分析方法_Chap.6,59,利用概率函数可以证明,离散随机变量R的均值和方差分别为:,对给定的显著水平,由R的概率分布可得拒绝域0,R(n1,n2)的临界值R(n1,n2),它可以从数理统计表中的“游程总数检验表”查出。例如对前面列出的残差符号排列,n111,n212,R10,取显著水平0.05,查“游程总数检验表”得R0.05(11,12)8,则有RR0.05,应该接受残差序列为随机的假设。,实际上,当n1,n210时,游程总数R渐近服从正态分布,即,服从标准正态分布。其中的 是连续性修正值,用以补偿用连续型分布近似离散型分布所造成的损失,因此可以其进行游程数检验。,实验数据分析方法_Chap.6,60,游程检验不仅用于检验残差的随机性,也可以用来检验样本的随机性。只要先确定样本的中位数,对中位数以上的数记以“”,中位数以下的数记以“”,对应于观测样本原来的次序得到一个符号序列,这样就可以利用游程检验了。另外,游程数检验也可以作为分布函数的2检验的一个补充。因为皮尔逊2量的数值只依赖于实测频数与理论频数偏差的绝对值,同偏差的符号无关,因此2检验没有利用偏差的符号含有的信息,而游程数检验可以弥补这一不足。只要将实测频数超过理论频数的偏差记为“”,否则记为“”,将它们按原序号排列又可得到一个符号序列。如果游程数检验的结果是只在否定域内,表明随机变量的概率密度比假设的概率密度可能偏大或偏小,因而应拒绝假设H:p(x,)f(x,)。从上面可以看出,游程数检验可用在按照任何一种标准把样本中的各个随机数划分成两类元素(即“”、“”元素)的情况,只要出现“”元素的概率p和出现“”元素的概率q1p是一定的,游程总数R就服从前文所述之分布和极限分布。,实验数据分析方法_Chap.6,61,残差分析是在回归模型建立之后对模型适度的检验;如发现所得模型和观测数据不适,则需重新建模。那么如何在众多的因素中挑选因子,以建立一个最优的回归方程呢?这是实用回归分析中最重要,往往也是最困难的问题之一。所谓最优回归方程,应从两个方面来考虑:一方面,一个最优的回归方程应该只包含对因变量有显著影响的自变量,而不包含不显著的变量;另一方面,从回归方程的精度来看要求剩余标准差比较小。综合来说,所谓最优回归方程就是包含的变量都是显著的而且标准差较小的回归方程。,6.4 逐步回归分析简述,6.4.1