《静态数据处理》PPT课件.ppt
第七讲 静态测试数据处理,本讲的主要内容有测量误差、测量列的处理步骤与测量结果的表达、一元线性回归和多元线性回归方法等。,7.1 测量误差,一、测试精度与误差 测试精度:又称为精确度,用来描述测量结果与真值的接近程度。测试误差:在任何测量中,由于各种因素的影响,测量所得到的数值与被测参数的真值不可能完全相同,而总会有差别,这个差别称为测量误差。测量误差按其性质的不同分为三类,即:系统误差 随机误差 过失误差(粗大误差),系统误差 保持一定数值或按一定规律变化的误差,称为系统误差。如:由于仪器标度尺刻划的不准确;测量者观察仪器指针时习惯于斜视等原因引起的误差,就具有系统误差的特性。随机误差 即使在相同的条件下,对同一参数重复的进行多次测量,所得到的测定值也不可能完全相同。其测量误差具有各不相同数值与符号,这种误差称为随机误差。过失误差 由测量工作中的错误、疏忽大意等原因引起的误差,称为随机误差。,二、测量误差的分析与处理,测量误差的分析就是研究误差的性质与规律。即:研究和确定过失误差与随机误差之间的界限,以便舍弃那些含有过失误差的测定值;研究系统误差的规律,寻找将系统误差从随机误差中分离出来的方法,并设法消除其影响;研究随机误差的规律,分析和确定测量的精密度;从一系列测定值中求出最接近于被测参数真实值的测量结果。,1、随机误差,实践表明,测试结果 的随机误差大多服从正态分布如图7-1所示。正态分布的概率密度函数为:(7-4)式中:为测量误差;均方根误差。从图可以看出,值愈小,正态分布密度曲线愈陡峭,幅值愈大,测量误差小;反之,值愈大,曲线愈趋平坦,测量误差大。图7-1正态分布密度曲线,1)算术平均值,设,为n次等精度测量所得的值,其算术平均值 为:(7-6)由于被测参数的真实值无法知道,因此在直接测量中常将测量列的算术平均值作为真值的估计值。如此测量列的残差为:(7-7)式中:表残差;第i个测量值,i=1,2,n,2)标准差,在一个等精密度测量列中,当测量次数趋于无穷大时,测量列的标准差 为:(7-8)而在实际测量过程中,测量次数是有限的,由数理统计学可知,标准差的无偏估计可用贝塞尔法进行计算,即:(7-9)根据积分概率表可知,绝对值小于 的随机误差出现的概率约为0.68,而绝对值小于2 和3 的随机误差,出现的概率分别为0.95和0.997。由此可知,绝对值大于3 的随机误差出现的概率仅为0.027,即在370次测量中才可能出现一次。而在一般测量工作中,测量次数远小于370次,因此,如果出现绝对值大于3 的误差,就可以认为,这个误差属于过失误差。因此,可以把3 作为区分随机误差和过失误差的一种界限。,图7-3是标准差 与测量次数n的关系曲线,从图中可以看出,当测量次数较少时,增加测量次数,可明显减小测量误差;但当测量的次数超过1520次时,再增加测量次数,则测量误差几乎不变。图7-3 与测量次数n的关系曲线,2、系统误差,1)系统误差的分类 根据系统误差特性的不同,可将系统误差分为如下两大类。定值系统误差 在整个测量过程中,误差的大小和方向始终保持不变。变值系统误差 误差的大小和方向按一定的规律变化。变值系统误差的种类较多,有的还比较复杂,常见的系统误差有:线性变化的系统误差:误差的大小随时间线性递增或递减的系统误差,称为线性变化的系统误差。周期性变化的系统误差:误差的大小随时间周期性交替变化的系统误差,称为周期性变化的系统误差。复杂的系统误差:误差按比较复杂规律变化的系统误差。,2)系统误差的发现,系统误差的数值往往比较大,而且会直接影响测量的准确度。因此必须消除或减小系统误差。有时系统误差不易查明,下面介绍两种发现系统误差的方法,即:残差分析法 分布检验法,残差分析法,测量列的残差为:(7-22)在随机误差小于系统误差的情况下,的正负号将主要取决于变化的系统误差。因此,根据残差 的符号,可以发现变化的系统误差的存在。将测定值的残差 按测量顺序列表或作图以观察系统误差的变化规律。若系统误差的数值不超过随机误差,可采用下述的方法:a.将残差 按测量的先后顺序排列,如前一半残差和与后一半残差和之差显著地不等于零,则该测量列包含累进系统误差。b.在一个测量列中,如条件改变前测定值的残差与条件改变后测定值的残差和之差显著地不等于零,则该测量列包含随测量条件的改变而出现的固定的系统误差。,分布检验法,因为随机误差服从正态分布,所以只包含随机误差的测定值也服从正态分布。如果发现测定值不服从正态分布,就有理由怀疑测定值中包含变化的系统误差,这就是分布检验法的基本思想。显然,分布检验法只适用于重复测量次数足够多的情况。,3)系统误差的消除,由于产生系统误差的原因非常复杂,消除系统误差不可能有统一的方法,因此需根据具体情况,采取适当的措施。消除系统误差可从以下两方面着手。防止系统误差的产生 采用完善的测量方法,正确地安装、调整和使用测量仪器、设备,保持稳定的测量条件,防止外界的干扰等。对测定值引入更正值 在测量工作之前,对测量仪器和设备进行校正,取得仪器示值与准确值之间的关系,确定各种修正公式、修正表或修正曲线,用修正的方法消除系统误差。,3.过失误差与异常数据的取舍,1)过失误差与异常数据 过失误差是由于在测量过程中某些突然发生的不正常因素(外界干扰、测量条件意外改变,测量者疏忽大意)所造成的、与其它大多数误差相比明显偏大的误差。在一个测量列中,可能出现个别过大或过小的测定值,这种包含巨大误差的测定值,通常称为异常数据。异常数据往往是由过失误差引起的,也可能是由巨大的随机误差引起的。,2)异常数据的取舍准则,来伊达准则 莱伊达准则是以随机误差的正态分布规律为根据的。对于某一测量列,如果各测量值仅含有随机误差,根据随机误差的正态分布规律,其残差v落在 以外的概率仅有0.27,可以认为实际上是不可能发生的。因而,莱伊达准则认为:凡残差超出,即:(7-23)视为过失误差。由于在实际中测量次数有限,因此常用标准差的估计值 代替。凡误差超出 者,便判断为过失误差,应予以剔除。然后重新计算 值,再次对误差进行判断,直至剩下的测量值的残差均小与3。必须注意:经剔除含有过失误差的异常数据后,要重新计算出其余数据的算术平均值和标准误差,再作判别,直至完全剔除含有过失误差的异常数据为止。,7.2 测量结果的表达,直接测量结果的表达 1.简单表达 测量工作的目的是要获取被测量的数值。工程上常用测定值的算术平均值 来近似地代替真值X,这时,测量结果可以表达为(7-25)这种表达方式常用于粗略的测量中,原因是测定值的算术平均值也存在随机误差。为此,需用数理统计学中区间估计的方法,求得被测参数的真实值在某个置信概率下的置信区间。,2.测量次数较少时测量结果的表达,t分布反映了重复测量次数n较小时平均值误差的分布规律,常用于估计重复测量次数较少时的极限误差。设少量的n次重复测量的一组测量值为;,标准差的估计值为:(7-26)测定值的算术平均值服从正态分布,即:LN(X,),所以 是个标准化正态分布的随机变量,而 则是一个自由度为f=n-1的 分布随机变量,这两个变量互相独立,所以:(7-27),如预先选定置信概率p,即可由t分布表查得 使得,由此可得:(7-28)所以测量结果可以表达为:(7-29)上式的含义为:被测参数的真实值X在置信概率区间,内的置信概率为p。,3.测量次数较多时测量结果的表达,如果重复测量次数较多,则 与 的差别可以忽略不计,可近似地看作标准化正态分布的随机变量。这时,测量结果可以表达为:(p=0.997)(p=0.95)(7-30)(p=0.68),4.对测定值进行处理的步骤,1)用系统误差的判定方法判断测量列,中是否含有系统误差,如有,予以消除;2)求出算术平均值;3)计算各测定值的残差,并用残差分析法进一步判断是否存在系统误差,如有,则将其消除;4)计算测量列的标准误差的估计值;5)用异常数据的取舍准则消除过失误差;6)计算算术平均值的标准偏差;7)写出测量结果的表达式。,二、间接测量结果的表达,间接测量是通过对与被测量有固定函数关系的其它量的测量计算出被测量。间接测量可用下式表示:(7-31)式中 彼此独立的可以直接测量的量(简称自变量)。要描述间接测量的结果,需要研究间接测量的测量误差。在间接测量中,测量误差是各个直接测量参数误差的函数,即需研究函数的总误差问题。,1.平均误差传递(累积定律),已知,对 分别进行n次测量,则将测定值代入函数中,可得间接测量列,。如果 用(i1,2,m)表示 测量列的标准误差,以 表示参数Y测量列的标准误差,则 是 的某种组合。根据数理统计学的知识可知:(7-32)令,称之为误差传递(累积)系数,则上式可写为:(7-33)如果参数Y的间接测定值 服从正态分布,则上式可以表示为:(7-34)式中,可以代表测量列的精密度参数,也可以代表测量结果的精密度参数。式(7-34)即为误差累积定律。,2.间接测量结果表达,1)间接测量最可信赖值 如果已知,对 分别进行n次测量,则将测定值代入函数中,可得间接测量列,。可以证明,在等精密度测量的情况下,将各自变量的算术平均值 代入间接测量函数式,所得的数值等于间接测定值的算术平均值,这个值就是间接测量的最可信赖值,即:(7-35),2)间接测量结果的表达,在测量结果粗略的表达中,可用算术平均值 来近似地代替真实值Y,这时测量结果可以表达为:(7-36)间接测量参数的的真值Y的区间估计比较复杂,如果间接测定值 服从正态分布,而且测量过程的重复次数较多,那么 可近似地看作标准化正态分布的随机变量,这时,间接测量结果可以表达为(p=0.68)(7-37)式中 算术平均值 的标准误差估计值;P 置信概率。将各自变量的算术平均值 标准误差的估计值,代入式(7-37),即可求得参数。,如果测量次数较少,则不宜用式(7-37)表示间接测量参数Y的置信区间,而用下式表达比较合适,即:(7-38)式中,为参数Y 的算术平均值 的绝对极限误差,可以用下式计算:(7-39)式中 各自变量算术平均值 的绝对极限误差。在极端的情况下,如果对每个自变量只进行一次测量,这时,只能根据测量仪器本身的精密度,估计各自变量的极限误差,并用式(7-39)表达间接测量结果。,3)间接测量的最有利测量条件,间接测量时,测量结果与多个测量因素有关,在怎样的条件下确定这些测量因素才能使测量结果的误差为最小,这就需要确定最有利的测量条件。分析式(7-39)可知,为了减少间接测量结果的误差,可以从以下两个方面考虑:(1)选择最有利的函数误差公式。在一般情况下,总的函数误差会随着自变量的数目的减少而减少。因此,应选取包含自变量数目最少的函数公式。函数的自变量数目相同,则应选取误差较小的自变量的函数公式。(2)使各误差传递系数 等于零或为最小。若使各误差传递系数 等于零或为最小,则函数误差可相应减小。若,则该项误差也将为零,即该自变量的误差对函数误差没有影响。若 为最小,则可减小该自变量误差 对函数误差的影响。,7.3 一元回归分析,为了便于用数学方法研究汽车试验中各被测量之间的规律,在静态测量数据处理中,寻求用简便的经验公式表达各变量之间的关系是很重要的。根据最小二乘法原理确定经验公式的数理统计方法称为回归分析。处理两个变量之间的关系称为一元回归分析。,一、一元线性回归分析,如果对两个变量x 和y 分别进行了n次测定,得到n对测定值(,),(i1,2,n),将其描在直角坐标图上,就得到n个坐标点。若各点都分布在一条直线附近,则可用一条直线来代表变量x与之间的关系。(7-40)式中:回归直线上的理论计算值;线性回归系数。,用示例介绍一元线性回归分析的方法和步骤,例:某车辆在水平道路上行驶,测得车辆行驶的距离和时间的数值如表7-2所示。求距离与时间的函数关系。表7-2 解:1、回归方程的确定 将表7-2中的数据画在坐标纸上,如图7-4所示。图7-4 某车行驶时时间距离关系,从图7-4看出,这些点近似于一条直线,于是可以利用一条直线来代表变量之间的关系(7-42)式中:公式中算出的值;距离L的值;线性回归系数。2、确定函数中的各参数 用这条直线算出的 值,代表测定数据的平均值,实测值与平均值之差代表残差,残差值越小说明回归直线越接近理想直线。因此确定回归直线的原则是找出一条直线使其与实测数据之间的误差比任何其他直线与实测数据之间的误差都小,即残差的平方和最小,这就是最小二乘法的基本思想。记为:min(7-43),回归方程的确定就是确定系数a,b,据数学分析知,使Q取最小的a,b必须满足如下方程组:即 解得:(7-44)(7-45)或(7-46)(7-46)式中:,3、对曲线拟合所得经验公式的精度进行检验,尽管最小二乘法反映的是误差最小原则,但所求得的经验公式的精度并非一定可以满足要求。因为,由前面的分析过程不难看出,前面计算中的误差最小只是测试结果与我们所选定曲线类型之间的误差最小,或许实测结果的规律原本就与选定曲线的类型不符。我们需对曲线拟合的精度进行检验。关于“精度”检验,人们提出过多种方法,在此仅介绍一种在工程上最常用的方法,即相对误差法。所谓“精度”,事实上就是相对误差的大小。若能将经验公式的检测结果与实测值之间的相对误差控制在要求的范围内,显然是符合工程上的要求的,即:(7-47)式中:允许的相对误差。,二、一元非线性回归,一元线性回归是工程实际中最简单的一种形式,但更多的是一些非线性的问题。下面介绍如何利用线性回归方法解决非线性问题。1、确定经验公式类型 将测试结果描在坐标图上,并用光滑曲线将其连起来。江实验曲线与数学手册上的典型曲线(图7-5种列出了一些)进行比较,选取与试验曲线最接近的曲线方程作为经验公式的类型。2、将曲线进行直线化变换 如:双曲线方程 令 则:变为:,对数曲线 令:则:指数曲线 对上式两边取对数得:令:,则:3、按照前面所介绍的直线(一元线性)拟合的方法进行计算。4、检验其曲线拟合的精度,若达不到所需精度的要求,则应重新选择曲线类型进行拟合,直至满足精度要求为止。5、再将直线方程变换为原曲线方程。,图7-7几种常见的典型函数曲线 a)双曲线 b)指数曲线 c)幂函数曲线 d)对数曲线 e)指数曲线 f)S型曲线,三、将试验结果拟合成多项式,前面所讲的典型曲线往往是有限的,当试验结果与任何一条典型曲线都不相符时,就要寻找新的曲线,显然那就是多项式。(7-48)1、多项式次数的确定 多项式次数的确定一般采用差分法。设自变量的取值是等间距的,即:计算出因变量 的相邻值之间的差值,即一阶差值,二阶差值 为,三阶差值 为,n阶差值 为,,当某阶差值满足下列关系式时,(7-49)式中:的测量误差。2、确定多项式的系数 同样用最小二乘法,即:(7-50)令,即可求出,的数值 3经验公式精度的检验 多项式的曲线拟合,其拟合精度的检验方法与一元线性回归相同。,7.4 多元线性回归分析,一、多元线性方程 对一组样本,设其与 线性相关,即:(7-51)式中:为待定系数;为n个相互独立相等精度的正态偶然误差。采用矩阵记号,如此式(7-51)可记为:(7-52)按最小二乘原理可得关于B的正则方程组(7-53)解之得:(7-54)多元线性回归方程为:(7-55)二、多元线性拟合的精度检验 多元线性拟合的精度检验方法与意愿线性拟合的检验方法相同。,二、多元线性方程的分步拟合,多元回归需要评估各变量作用的大小进行分布拟合,即逐个地引入变量进行拟合。当由于新变量的引入变得不显著时,则随时从方程中剔除,直到既不能引入又不能剔除其它变量时为止,从而得到最优的回归方程。在具体实施过程中,主要是求解正则方程组,对每个过渡回归方程用偏回归平方、作方差分析和F显著性检验。,