误差分布与精度指标.ppt
第二章 误差分布与精度指标本章重点 1.正态分布与偶然误差的规律;2.衡量精度的指标;3.精度、准确度、精确度以及测量不确定度的概念;2-1 正态分布 概率论中的正态分布是误差理论与测量平差基础中随机变量的基本分布。为什么正态分布是一种重要分布?(1)设有相互独立的随机变量X1,X2,Xn,其总和为X=Xi,无论这些随机变量原来服从什么分布,也不论它们是同分布或不同分布,只要它们具有有限的均值和方差,且其中每一个随机变量对其总和X的影响都是均匀地小,即没有一个比其他变量占有绝对优势,其总和X将是服从或近似服从正态分布的随机变量。,换句话说,当对某个量进行观测时,总是不可避免地受到若干偶然因素的影响,其中每一个引起的基本误差项为i,而总的测量误差=i,如果每一个对其总和的影响都是均匀地小,那么,总和就是服从正态分布的随机变量。(2)有许多种分布,如二项分布、t分布等等,当n 时,它们多趋近于正态分布,或者说许多种分布都是以正态分布为极限分布的。一、一维正态分布1.概率密度:其中和是分布密度的两个参数。正态分布也称为高斯分布。对一维随机变量数字特征为和的正态分布,一般记为 x。,2.一维正态随机变量X的数学期望和方差推导:作变量代换,令则有 因为 故等号右边第二项的积分详见李庆海、陶本藻编概率统计原理在测量中的应用293页。,数学期望 有甲乙两射手他们射击技术如下表:,试问哪一个射手技术好呢?甲:80.3+90.1+100.6=9.3 乙:80.2+90.5+100.3=9.1平均起来甲的技术好些。这种平均值就是随机变量的数学期望。定义1.1:设离散型的随机变量的分布律为 PX=xi=pi,i=1,2,若级数 绝对收敛,则称级数 为随机变量X的数学期望或算数平均值,记为,定义1.2:若连续型的随机变量X的概率密度为f(x),若积分绝对收敛,则称积分 为X的数学期望或平均值,记为,一维正态随机变量X的数学期望,推导:,概率=1,由数学期望看出甲乙两射手中甲的技术好些,还需要研究谁的技术稳定,即各次射击的环数偏离平均值的程度,也就是研究随机变量相对其均值的离散程度,最直观的方法求偏差的数学期望,即但上式带有绝对值,运算不方便,通常用 来度量随机变量相对其均值的离散程度。方差定义:设X是一随机变量,若 存在,则称之为随机变量的方差,记为,在应用中为了与随机变量有相同的量纲,引入标准差(或均方差),记为,由定义可知,方差就是随机变量X的函数 的数学期望,对于离散型的随机变量,若X的分布律为 则有,对于连续型的随机变量X,若X的概率分布密度函数为f(x),则有,推导,令,推导作变量代换,令即证毕。,3.一维正态随机变量出现在给定区间 内的概率则有由正态分布概率数值表查得:,如果令,二、N维正态分布 设随机向量 服从正态分布,则n维正态分布的随机向量X的联合概率密度函数是n维正态随机变量 的数学期望和方差(数字特征)分别为其中:是随机变量Xi的方差,是随机变量Xi对随机变量Xj的互协方差。,2-2 偶然误差的规律性,任何一个观测量,客观上总是存在着一个能代表其真正大小的数。这一数值就称为该观测量的真值。从概率和数理统计的观点看,当观测量仅含偶然误差时,其数学期望也就是它的真值。一、真误差偶然误差的定义 设进行了n次观测,其观测值为L1、L2、Ln,假定观测量的真值为、,由于各观测值都带有一定的误差,因此,每一观测值Li与其真值或E(Li)之间必存在一差数,设为,(2-2-1),式中 称为真误差,有时简称为误差。,(2-2-3),若记,则有,(2-2-2),如果以被观测量的数学期望,表示其真值,则,测量平差中所要处理的观测值是假定不包含系统误差和粗差的,仅仅是指偶然误差。人们从无数的测量实践中发现,在相同的观测条件下,大量偶然误差的分布表现出一定的统计规律性,那就是它服从正态分布。,1.统计表 在某测区,在相同的条件下,独立地观测了358个三角形的全部内角,由于观测值带有误差,故三角观测值之和不等于其真值180,根据(2-2-1)式,各个三角形内角和的真误差可由下式算出:式中(L1+L2+L3)i表示各三角形内角和的观测值。现取误差区间的间隔d为0.20,将一组误差按其正负号与误差值的大小排列;统计误差出现在各区间内的个数,以及“误差出现在某个区间内”这一事件的频率(n=358),其结果列于表2-1中。,二、偶然误差的统计规律,表 2-1,从表2-1中可以看出,误差的分布情况具有以下性质:(1)误差的绝对值有一定的限值;(2)绝对值较小的误差比绝对值较大的误差;(3)绝对值相等的正负误差的个数相近。为了便于以后对误差分布互相比较,选取另一测区的421个三角形内角和的一组真误差,按上述方法作了统计,其结果列于表2-2。表2-2中所列的421个真误差,尽管其观测条件不同于表1-1中的真误差,但从表中可以看出;愈接近于零误差的区间,其频率愈大;随着离开零误差愈来愈远,其频率亦逐渐递减;且出现在正负误差区间内的频率基本上相等。表2-2的误差分布情况与表2-1内误差分布的情况具有相同的性质。,表 2-2,2.直方图 横坐标表示误差的大小,纵坐标代表各区间内误差出现的频率除以区间的间隔值,即 取间隔值d=0.20,分别根据表2-1和表2-2绘出图2-1和图2-2。此时图中每一误差区间上的长方条面积就代表误差出现在该区间内的频率。例如,图2-1中画出斜线的长方条面积,就是代表误差出现在0.00+0.20区间内的频率为0.128。,图2-1,图2-2,3.偶然误差的经验分布与理论分布,图2-3,在相同观测条件下所得到的一组独立观测值的误差,只要误差的数量n足够大,误差出现在各区间内的频率就总是稳定在某一常数(理论频率)附近。当n时,各频率也就趋于一个完全确定的数值,这就是误差出现在各区间的概率。即在一定的观测条件下,对应着一种确定的误差分布。在n的情况下,由于误差出现的频率已趋于完全稳定,如果此时把误差区间间隔无限缩小,图 2-1及图2-2中各长方条顶边所形成的折线将分别变成如图2-3所示的两条光滑的曲线。这种曲线也就是误差的概率分布曲线,或称为误差分布曲线。由此可见,偶然误差的频率分布,随着n 的逐渐增大,都是以正态分布为其极限。通常也称偶然误差的频率分布为其经验分布,而将正态分布称为它们的理论分布。在以后的理论研究中,都是以正态分布作为描述偶然误差分布的数学模型.,图2-1,图2-2,4.偶然误差的特性 1)在一定的观测条件下,误差的绝对值有一定的限值,或者说,超出一定限值的误差,其出现的概率为零;2)绝对值较小的误差比绝对值较大的误差出现的概率大;3)绝对值相等的正负误差出现的概率相同;4)根据(2-2-3)式可知,偶然误差的数学期望为零,即 换句话说,偶然误差的理论平均值为零。对于一系列的观测而言,不论其观测条件是好是差,也不论是对同一个量还是对不同量进行观测,只要这些观测是在相同的条件下独进行的,则所产生的一组偶然误差必然具有上述的四个特性。,(2-2-4),(2-2-6),图2-1,图2-2,图2-3,图2-1和图2-2中各长方条的纵坐标为,其面积即为误差出现在该区内的频率,这种分布为经验分布。其理论分布为(图2-3),纵坐标就是的密度函数 f(),而长方条的面积为f()d,即代表误差出现在该区间内的概率,即 P()=f()d,顾及为偶然误差,可写出的概率密度式为,式中 为中误差。当 参数确定后,即可画出它所对应误差分布曲线。由于E()=0,所以曲线是以横坐标为0处的纵轴为对称轴。,当 不同时,曲线的位置不变,但分布曲线的开头将发生变化。例如,图2-3中就是表示 不相等时的两条曲线。偶然误差是服从 N(0,)分布的随机变量。,2-3 衡量精度的指标 考察上节两个实例中误差在一定区间出现的频率(概率):表2-1:-0.20+0.20区间的频率为0.254(25.4%),-0.60+0.60区间内的频率为0.665(66.5%),绝对值大于0.6误差的频率为0.335(33.5%)表1-2:-0.20+0.20区间的频率为0.183(18.3%)-0.60+0.60区间内的频率为0.492(49.2%),绝对值大于0.6误差的频率为0.508(50.8%).上述数字说明表2-1中的误差更集中于零附近,因此说这一组误差分布得为密集,或者说它的离散度小;相对而言,表2-2中的误差分布得较为离散或者说它的离散度大。相应的直方图和分布曲线也能说明这一点。,图2-1,图2-2,图2-3,在表2-1中所列的358个观测结果是在相同观测条件下测得的,各个结果的真误差并不相等,有的甚至相差很大(如有的出现于0.00-0.20区间,有的出现于0.40-1.60区间),但是,由于它们所对应的误差分布相同,因此,其对应的内角和的观测结果是同精度的。将表2-1及表2-2中数值相比较可知,表2-2中的误差分布比表2-1中的误差分布较为离散,因此,表2-2中所涉及的421个内角和的观测值,其精度低于表2-1中相应的内角和观测值。为了衡量观测值的精度高低,可把在一组相同条件下得到的误差,用误差分布表、绘制直方图或画出误差分布曲线的方法来比较。但在实际工作中,这样做比较麻烦,有是甚至很困难,而且人们还需要对精度有一个数字概念。这种具体的数字应该能够反映误差分布的密集或离散的程度,即应能够反映其离散度的大小,因此称它为衡量精度的指标。衡量精度的指标有很多种,下面介绍几种常用的精度指标。,一、方差和中误差1、随机变量X的方差 设有随机变量X,其数学期望为E(X),其方差 定义为 式中,f(x)为 X 概率分布密度函数。X的方差也可记为Dx。2、观测值L与观测值的真误差的方差 L和均为随机变量,它们的方差是:顾及 则 任一观测值的方差与观测值误差的方差恒等。误差的概率密度函数为式中 是误差分布的方差。,(2-3-1),3、中误差 由方差的定义知 式中 就是中误差 不同的 将对应着不同形状的分布曲线,愈小,曲线愈为陡峭,愈大,则曲线愈为平缓。正态分布曲线具有两个拐点,它们在横轴上的坐标为为变量X的数学期望。对于偶然误差而言,由于其数学期望E()=0,所以拐点在横轴上的坐标应为 由此可见,的大小可以反映精度的高低。故常用中误差作为衡量精度的指标。如果在相同的条件下得到了一组独立的观测误差,可由(2-3-2)式,可以写出 或,(2-3-2),(2-3-3),(2-3-4),图2-4,4、方差和中误差的计算 方差,是真误差平方()的数学期望,也就是 的理论平均值。在分布律为已知的情况下,它是一个确定的常数。或者说,方差 和中误差,分别是 和 的极限值,它们都是理论上的数值。实际上观测个数n总是有限的,由有限个观测值的真误差只能求得方差和中误差的估值。方差 和中误差 的估值将用符号 表示,即,(2-3-5),(2-3-6),举例说明,二、平均误差 1.定义:在一定测量条件下,一组独立的偶然真误差绝对值的数学期望称为平均误差,并用表示,即,2.在有限观测值个数的条件下,观测值和真误差的平均误差估值的计算,(2-3-7),(2-3-11),三、或然误差(中位数)1.随机变量 X 落入区间(a,b)内的概率为2.偶然误差落入区间(a,b)的概率为 3.或然误差的定义:误差出现在(-,+)之间的概率等于1/2,即 如图2-5所示,图中的误差分布曲线与横轴所包围的面积为1,则在曲线下(-,+)区间的面积为1/2。,(2-3-12),(2-3-13),中位数:将在相同观测条件下得到的一组误差,按绝对值的大小排列,个数为奇数时,取中间的一个为;当个数为偶数时,取中间两个的平均值为。,将的概率密度代入(2-3-13)式,并作变量代换,令则得由概率积分表可查得,当概率为1/2时,积分限为0.6745,即得 上式是或然误差与中误差的理论关系。由此式也可以看到不同的也对应着不同的误差分布曲线,因此,或然误差也可以作为衡量精度的指标。,(2-3-14),可知(k)=0.25,查概率积分表得/=0.6745=k,在实用上,通常都是先求出中误差的估值,然后按(2-3-14)式求出。也可按中位数的方式求出。,4.中误差、平均误差、或然误差的比较1)只有当观测次数较多时,、和才能够比较准确地反映测量的精度。2)当观测次数较少时,比和更能灵敏反映大的真误差的影响,在计算或然误差时,往往是先计算出中误差,故国际上通常采用中误差作为衡量精度指标。3)一定的测量条件对应于确定的、和数值,反之亦然。4)等精度观测是指每次观测的(或者和)相同,并非指每次观测的真误差相同。5)由一系列等精度观测结果求得的、和,反映了这一系列观测结果的精度,它又是其中每个单一观测值的精度,也可以是相同测量条件下另外一系列观测结果的精度。例题(p15-16):用两台经纬仪分别独立地观测某已知角度各30次,真误差列于表2-3,并用定义计算出中误差、平均误差、或然误差比较测量精度的高低。,四、极限误差 中误差不是代表个别误差的大小,而是代表误差分布的离散度的大小,它是代表一组同精度观测误差平方的平均值的平方根极限值,中误差愈小,即表示在该组观测中,绝对值较小的误差愈多。按正态分布表查得,在大量同精度观测的一组误差中,误差落在(-,+),(-2,+2)和(-3,+3)的概率分别为(2-3-15)即,绝对值大于中误差,其出现的概率为31.7%;绝对值大于二倍中误差的偶然误差出现的概率为4.5%;绝对值大于三倍中误差的偶然误差出现的概率为0.3%,是概率接近于零的小概率事件,或者说这是实际上的不可能事件。通常取三倍中误差作为偶然误差的极限值限,并称为极限误差。即 限=3 测量实践中为了保证精度,取两倍中误差作为极限误差,限=2=2,超过极限误差的测量误差就是错误。,概率区间、置信概率与中误差概率区间:对应于某一置信概率真误差落入的区间,当置信概率确定之后可利用中误 差对应误差出现的区间进行估计。置信概率:真误差落入的某区间的概率,可表达在一定的置信概率下真误差与中误 差的关系。五、相对误差 对于某些观测结果,有时单靠中误差还不能完全表达观测结果的好坏。例如,分别测量了1000m及80m的两段距离观测值的中误差均为2cm,虽然两者的中误差相同,但就单位长度而言,两者精度并不相同。显然前者的相对精度比后者要高。此时,须采用另一种办法来衡量精度,通常采用相对中误差,它是中误差与观测值之比。如上述两段距离,前者的相对误差为,而后者则为。相对中误差=,相对真误差=,相对极限误差=绝对误差:真误差、中误差、极限误差。,2-4 精度、准确度和精确度一、精度精度:是指误差分布的密集或离散的程度,也就是观测值与数学期望的接近程度,是衡量偶然误差大小程度的指标。n维随机向量的精度指标是随机向量的方差-协方差阵。1、协方差的基本概念方差:设两个随机变量X和Y,其真值分别为、,真误差分别为、,并且、;那么它们的方差分别定义为:,1)协方差的定义:设随机变量X和Y,则X关于Y的协方差定义为,(2-4-1),(2-4-3),假设Z=X+Y,Z=X+Y,分别对X、Y观测n次,则有X1,X2,Xn;Y1,Y2,Yn,则有 Z1=X1+Y1,Z2=X2+Y2,Zn=Xn+Yn。根据方差的定义,有,求中误差,2)当观测次数n为有限次时,协方差的估值记为3)协方差的含义 当X和Y的协方差 时,表示这两个观测值的误差之间互不影响,它们的误差是不相关的,并称这些观测值为不相关的观测值;如果 则表示它们的误差是相关的,称这些观测值为相关观测值,相关程度为xy。由于测量上所涉及的观测值和观测误差都是服从正态分布的随机变量,对于正态随机变量而言,“不相关”与“独立”是等价的,所以把不相关观测值也称为独立观测值,同样把相关观测值也称为不独立观测值。由于 x与 y相互独立,其乘积也是偶然误差,顾及偶然误差的特性,则有 在测量工作中,直接观测得到的高差、距离、方向等,都是独立观测值,而经过数据处理才得到的观测量,如根据直接观测值求得的各点的坐标就是不独立观测值,或称为相关观测值。,(2-4-3),2、观测向量的精度指标协方差阵(自协方差阵)在实际测量和数据处理中,经常遇到由n个不同精度的相关的物理量组成的向量(矩阵)的问题。设有随机向量X,其矩阵表达式是:,,其真误差向量是,这里 是n个不同精度的相关的随机变量(物理量),则随机向量X的自协方差阵是,,,。,(2-4-5),当X向量中各分量两两相互独立时,其协方差等于零,协方差阵为对角阵。,3、互协方差阵若有随机向量 和,组成新的随机向量,即,则有 协方差阵是,其中,DXX和DYY分别为X和Y的自协方差阵,DXY和DYX是互协方差阵:,(2-4-6),Z的方差阵Dzz为,其中DXX和DYY分别为X和Y的自协方差阵,称DXY为观测值向量X关于Y的互协方差阵:,且有,当X和Y的维数均为1时(即X、Y都是一个观测n次的均值),互协方差阵就是X关于Y的协方差 若DXY=0,则称X与Y是相互独立的观测向量。互协方差阵DXY DYX是表征两观测向量间两两观测值相关程度的指标。,(2-4-7),为了说明观测值的可靠性,引入精度(精密度)、准确度和不确定度的概念。二、准确度 准确度(偏差):是指观测值(随机变量)的真值与其数学期望的接近程度,是衡量系统误差大小程度的指标,即,用光电测距测量AB距离,若真值为,各次观测值为Lr,为算术平均值。1如果测距误差中偶然误差很小,但包含有相当大的系统误差(甚至粗差),这时观测数据LT表现得重复性很强,围绕着 很密集,但离真值 却较远(见左下图)。2如果测距误差中偶然误差成分很大,但不包含系统误差(粗差亦剔除了),这时观测数据LT表现得重复性很差,围绕着 很分散,但这样确定出来的算术平均值却比第一种情况更接近真值(见右下图)。,(2-4-8),三、精确度精确度:是精度和准确度的合成,是指观测值与真值的接近程度,是衡量偶然误差和系统误差联合影响的大小程度。衡量精确度的指标是均方误差。1、观测值的均方误差 设观测值为X,含有偶然误差和系统误差,其均方误差定义为,2、观测向量的均方误差 设观测随机向量为X,它的均方误差定义为,即X的均方误差等于X的偶然方差加上偏差的平方。,当剔除了系统误差后,衡量精确度的指标均方误差就是方差。精度就是精确度。,(2-4-9),(2-4-11),2-5 测量的不确定度1、测量数据的不确定性:是指一种广义的误差,它既包含偶然误差,又包含系统误差和粗差,也包含数值上和概念上的误差以及可量度和不可量度的误差。不确定性的概念很广,数据误差的随机性和数据概念上的不完整性、模糊性,都可视为不确定性问题。2、不确定度:是预期一个观测误差将落在的区间。设观测值(随机变量)的真值是,其真误差是,则观测值X的不确定度定义为x绝对值的一个上界,即其在该区间出现的概率为当x主要是系统误差影响,表现为单向误差时,不确定度定义为x的上下界,即其在该区间出现的概率为,(2-5-1),(2-5-3),(2-5-2),(2-5-4),不确定度评定的关键是已知x的概率分布。例如,x是偶然误差,并服从正态分布,若取p=95.5%,则有,U=2,为X和x的中误差,不确定度U就是偶然误差的最大限差。一定的概率水平对应着一个不确定度,当误差的概率分布已知,可由按相应的概率公式估计不确定度,此时称其为可测的不确定度,否则,就是不可测的,就要设法合理地区估计不确定度。,习题:第二章全部(误差理论与测量平差基础习题集p3-4),