误差理论第二章 测量误差分布.ppt
1,第2章 测量误差分布,2,通过本章内容的学习,可以让读者熟悉误差分布的基本概念、常见误差分布特征与处理方法。为学好本课程内容打下重要理论基础。,教学目标,3,直方图的绘制概率密度分布图误差分布的特征值常见的误差分布常用的统计量分布误差分布的统计检验,教学重点和难点,4,第一节测量误差的统计特性,5,一、某钢球工件直径重复测量150次的测量点列图,单峰性:数据集中在7.335附近,如不存在系统误差,其约定真值即为7.335,有界性:数据分布在7.085至7.585之间,即可确定误差分布的大致范围,对称性:正负误差的数目大致相同;,抵偿性:误差的总和大致趋于零,它是判定随机误差最本质的一个统计特征。,6,二、统计直方图,(1)分组数=11,组距=0.05mm;(2)依次定各组的频数、频率和频率密度;(3)以数据为横坐标,频率密度为纵坐标,在横坐标上划出等分的子区间,划出各子区间的直方柱,即为所求统计直方图。,7,7.1,7.2,7.3,7.4,7.5,7.6,0,5,10,15,20,25,7,绘制统计直方图注意事项,(1)样本大小:确定误差的分布范围时,取 n=50200 确定误差分布规律时,最好取n=2001000,()子区间个数、间距:当n=50100时,个数=610当n=100200时,个数=912当n=200500时,个数=1217当n=500以上时,个数=20,可用下列两个公式之一来计算分组数 或间距,或,8,三、概率密度(分布)图,把各直方柱顶部中点用直线连接起来,便得到一条由许多折线连接起来的曲线。当测量样本数n无限增加,分组间隔趋于零,图中直方图折线变成一条光滑的曲线,即测量总体的概率(分布)密度曲线,记为。这就是用实验方法由样本得到的概率密度分布曲线。,7,7.1,7.2,7.3,7.4,7.5,7.6,0,5,10,15,20,25,9,概率密度曲线完好的描述了随机误差的统计规律。,概率密度函数的几何意义,置信区间,显著性水平(又称显著度或危险率),置信概率(或置信水平),简记为符号,概率密度的性质,有两个性质,10,误差分布的统计方法小结,测量样本 点列图,测量样本 统计直方图,测量总体 概率密度函数图,11,四、统计分布特征值,尽管误差分布反映了该误差的全貌,但在实际使用中更关心代表该误差分布的若干数字特征量。,12,数学期望,定义,一阶原点矩,它表示随机变量分布的位置特征。它与真值之差即为系统误差,如果系统误差可以忽略,则 就是被测量的真值,三条测量值分布曲线的精密度相同,但正确度不同。,数学期望代表了测量的最佳估计值,或相对真值的系统误差大小,13,标准偏差,二阶中心矩,称为X的标准(偏)差,的大小表征了随机误差的分散程度,即大部分分布在 范围内,可作为随机误差的评定尺度,定义,三条误差分布曲线的正确度相同,但精密度不同,标准差代表了该测量条件下的测量结果分散性的大小,或是该测量分布的随机误差大小,14,偏态系数,定义,三阶中心矩,将 无量纲化,称为偏态系数,描述了测量总体及其误差分布的非对称程度,曲线具有正(右)偏态,曲线具有负(左)偏态,15,峰态系数,定义,表征了测量总体及其误差分布的峰凸程度。是将 无量纲化,也称峰度,而 是按标准正态分布归零,即对于正态分布超越系数 视为零,较尖峭的分布有,较平坦的分布有,16,协方差,定义,式中,协方差 表示了两变量间的相关程度,17,相关系数,定义,表示了两个变量间线性相关的程度,越小,X,Y之间线性相关程度越小,取值越大,X,Y之间线性相关程度越大,当,X与Y正相关,当,X与Y负相关,线性相关,正相关,负相关,线性不相关,18,数学期望,名称,定义,方差,几何意义,误差意义,偏态系数,峰态系数,协方差,位置特征,实际值正确度,弥散,分散性,精密度,不对称,误差分布不对称性,尖峭,误差分布尖峭程度,两误差关联程度,统计分布常用的特征值,19,第二节常见测量误差分布,本节介绍几种常见的误差分布,包括正态分布、均匀分布、三角分布、瑞利分布、反正弦分布、投影分布、分布。,20,一、正态分布,21,服从正态分布的条件,误差因素多而小,无一个占优,彼此相互独立(中心极限定理)。,一般认为,当影响测量的因素在15个以上,且相互独立,其影响程度相当,可以认为测量值服从正态分布;若要求不高,影响因素则应在5个(至少3个)以上,也可视为正态分布。,22,概率密度函数,正态分布的密度函数,为测量总体的数学期望,如不计系统误差,则 即为随机误差,为测量总体的标准差,也是 随机误差的标准差,23,(1)单峰性:小误差出现的概率比大误差出现的概率大。(2)对称性:正误差出现的概率与负误差出现的概率相等。(3)抵偿性:随测量次数增加,算术平均值趋于零。,分布的误差特性,正态分布的这三个特点与误差大样本下的统计特性相符。但在理论上,正态分布无界,这也是正态分布与实际误差有界性不相符之处。,24,正态分布的置信概率,误差在分布区间 的置信概率,式中,68.26%,95.45%,99.73%,置信概率,正态积分函数,已制成正态积分表,置信因子,25,正态分布的某些k值的置信概率,3.3,3.0,2.58,2.0,1.96,1.645,1.0,0.6745,0.999,0.9973,0.99,0.954,0.95,0.90,0.683,0.5,0.001,0.0027,0.01,0.046,0.05,0.10,0.317,0.5,26,(1)经典误差理论都是建立在正态分布的基础上。凡是有3、5个以上的、差不多微小的、独立影响的合成分布都趋近正态分布。这是被前人早已证明了的中心极限定理告诉我们的一个事实。,正态分布在误差理论和实践中的地位,(2)许多非正态分布可以用正态分布来表示。,(3)正态分布的概率密度函数具有简单的数学形式和优良的性质。,(4)也有不少的误差分布并不能简单地用正态分布来描述。因而,现代误差理论及其实践需要进一步研究非正态分布的问题。,27,二、均匀分布,若误差在某一范围中出现的概率相等,称其服从均匀分布,也称为等概率分布。,概率密度函数,数学期望,方差,标准方差,置信因子,o,-a,a,28,服从均匀分布的可能情形,(1)数据切尾引起的舍入误差;(2)数字显示末位的截断误差(3)瞄准误差;(4)数字仪器的量化误差;(5)齿轮回程所产生的误差以及基线尺滑轮摩擦引起的误差;(6)多中心值不同的正态误差总和服从均匀分布。,29,三、三角分布,概率密度函数,数学期望,标准方差,当两个分布范围相等的均匀分布,其合成误差就是三角分布。,30,四、反正弦分布,概率密度函数,数学期望,标准方差,a,-a,o,服从反正弦分布的可能情形,度盘偏心引起的测角误差;,正弦(或余弦)振动引起的位移误差;,无线电中失配引起的误差。,31,五、瑞利分布,概率密度函数,数学期望,标准方差,服从瑞利分布的可能情形,偏心值,在非负值的单向误差中,由于偏心因素所引起的轴的径向跳动,刻度盘、圆光栅盘的最大分度误差,齿轮和分度盘的最大齿距累积误差,32,六、贝塔分布,概率密度函数,数学期望,标准方差,33,在给定分布界限下通过参数取不同值,贝塔分布可呈对称分布、非对称分布、单峰分布、递增或递减分布等,可逼近常见的正态、三角、均匀、反正弦、瑞利等各种典型分布。贝塔分布具有可逼近各种实际误差分布的多态性。,贝塔分布在理论上就是有界的。不像正态、瑞利等呈拖尾型分布,完全符合误差的基本特性即有界性。,贝塔分布的性质与密度函数图,34,常见分布的数字特征量,名称,正态分布,区间半宽度,标准差,期望,等价,均匀分布,三角分布,反正弦分布,瑞利分布,35,第三节常见的统计量分布,本节介绍常用的统计量分布,包括t分布 F分布,分布。,36,一、分布,定义,若为独立服从同分布 的随机误差,则,称服从为自由度为的分布。,概率密度函数,数学期望,标准方差,37,二、t分布,定义,若随机误差,随机误差,且和相互独立,则,服从的分布称为自由度为的t分布。,概率密度函数,数学期望,标准方差,o,38,当自由度足够大时,t分布趋近于正态分布。,t分布在误差理论和实践中的应用,t分布在研究正态小子样(测量次数较少时),是一个严密而有效的理论分布。,正态样本的算术平均值构成的如下统计量,服从自由度为的t分布。,其测量算术平均值满足,t分布的临界值,满足,39,三、F分布,定义,若,则,称服从为自由度为的F分布。,概率密度函数,数学期望,标准方差,40,第四节误差分布的分析与检验,本节介绍确定误差分布规律的几种方法,包括物理来源法,函数关系法以及图形判断法。最后介绍有关分布检验的知识,包括正态分布统计检验(夏皮罗-威尔克检验、偏态系数和峰态系数检验)和一般分布检验(皮尔逊检验)。,41,一、误差分布的分析与判断,42,物理来源判断法,根据测量误差产生的来源,可以判断其属于何种类型,如其测量受到至少有三个以上独立的、微小而大小相近的因素的影响,则可认为它服从或接近正态分布。,测量值在某范围内各处出现的机会相等,则可认为它服从均匀分布。,43,函数关系法,利用随机变量的函数关系,来判断误差属于何种分布。,若与都在-a,a内服从均匀分布,则服从三角分布,若与都服从正态分布,则 服从偏心分布(瑞利分布),若服从均匀分布,则 服从反正弦分布,44,图形判断法,对重复测量获得的样本数据绘出频率密度直方图,并与各种常见的概率密度分布曲线相比较,判断它与何种分布相接近。,45,二、误差分布的统计检验,46,什么是统计检验?,1、概念,事先对分布形式作出某种假设,然后利用样本信息来判断原假设是否成立,2、类型,正态分布统计检验,一般分布检验,夏皮罗-威尔克检验,偏态系数检验,峰态系数检验,皮尔逊检验,47,皮尔逊 检验(),1、提出原假设,总体 的分布函数 未知,某个已知的分布函数,2、计算统计量,总体中抽取出一个容量为 的样本,把整个数轴分成 个区间,频数,样本的观察值落在第 个区间的个数,由 计算出总体 在各区间内取值的概率,48,检验(续),3、在给定显著性水平 下,由分布表查得临界值。,4、作出决策。,若,拒绝,则认为。反之,,49,皮尔逊检验(分布中含有参数),1、提出原假设,总体 的分布函数 未知,某个已知形式的分布函数,未知参数,2、计算统计量,总体中抽取出一个容量为 的样本,50,在 下利用样本给出 的极大似然估计,把整个数轴分成 个区间,频数,样本的观察值落在第 个区间的个数,由 计算出总体 在各区间内取值的概率,3、在给定显著性水平 下,由分布表查得临界值。,4、作出决策。,若,拒绝,皮尔逊检验(续),51,【例2-1】,用阿贝比较仪测量某轴承直径 100次,依次测得,的数据见下所列,的单位0.1。检验 是否服从正态分布。,0-5 11-10 17-3-13 6 4 7 1-5-6-3 13-1-1 5 9 7-3 9-8 3-2-24-30-2 1-2 4 2-5-13 1-7-1 0-4-7 0 7 17 5 10 0-2 6 3 8 6-3-3-10 0 5 2-8 0 4 2 2 6-11 5 2 7-1 12 0-19 10-1 7 9 2-5 14-6-5 8 3 8-9 4-5-8 8-8 4-13-9-10-10 2 13 2-4 6-7,52,计算步骤,【解】,检验,由于 中含有未知参数,故需先进行参数估计。在正态分布下,和 的极大似然估计为,将 取值分成8组,然后计算概率,53,计算结果,频数,7,0.107,10.75,-3.75,1.31,15,0.160,16.01,-1.01,0.06,13,0.133,13.37,-0.37,0.08,9,0.098,9.87,-0.87,0.08,10,0.098,9.87,0.13,0,16,0.133,13.37,2.63,0.52,21,0.160,16.01,4.99,1.56,9,0.107,10.75,-1.75,0.28,100,3.82,54,结论,给定显著性水平,自由度8-2-1=5,由 分布表查得临界值,因为,所以,接受,故可认为这些测量服从正态分布,55,夏皮罗威尔克检验,夏皮罗-威尔克检验又称W检验,时检验效果最佳,并且计算简便。,只能用于正态性检验,56,W检验的实施步骤,从总体中抽取出一个容量为 的样本,(1)将样本的观测值按由小到大排列成为其次序统计量,(2)计算检验统计量,(3)查表。由夏皮罗-威尔克值表查出,为给定的显著性水平;,(4)判断。若,则拒绝正态性假设,57,【例2-2】,用夏皮罗-威尔克法检验该组数据是否来自正态分布。,将某量独立测得结果按从小到大排列成(n=10),108,109,110,110,110,112,112,116,119,124,【解】,查夏皮罗-威尔克系数 表得出,58,计算结果,计算,给定显著性水平,查表得,因为,故拒绝正态性假设,59,偏态系数检验,(1)给出备择假设(正偏)或(负偏),(2)计算检验统计量,(3)查表。根据显著性水平 和样本容量,由偏态统计量的分位数表查出,(4)判断。当备择假设为 时,若,则拒绝正态性假设;当备择假设为 时,若,则拒绝正态性假设,60,【例2-3】,有下列一组测量数据,确定这批数据是否来自正态分布,-0.40-1.80-2.14 0.40-1.40 0.67-1.40-1.51 1.40-1.40-1.38-1.40 1.20-2.14-0.60-2.33 1.24-0.40-0.32-0.22-1.60-1.40-0.51-0.20-1.40-1.72-1.60-1.20-1.80 1.20-1.40-0.80-1.72-0.71-1.40-1.20-1.91-0.69-1.60-1.39-2.20-1.40-0.40 0.40-1.80-1.80-1.60 0-1.95 1.20,61,计算结果,计算统计量,由,得,因此,选择备择假设,给定显著性水平,当n=50时,查表得,因为,故拒绝正态性假设,62,峰态系数检验,(1)给出备择假设(正偏)或(负偏),(2)计算检验统计量,(3)查表。根据显著性水平 和样本容量,由峰态统计量的分位数表查出 或,(4)判断。当备择假设为 时,若,则拒绝正态性假设;当备择假设为 时,若,则拒绝正态性假设,63,【例2-4】,利用某测量仪器进行40次测量,测得与理论值的如下一系列偏差数据,确定这批数据是否来自正态分布,0.038 0.240 0.124 0.054-0.061-0.004-0.004-0.006 0.007 0.001 0.061 0.043 0.035 0.163-0.008-0.010 0.006-0.008-0.024 0.007 0.028 0.108 0.155-0.159-0.032 0.003-0.007-0.018-0.008-0.011 0.060 0.067-0.025-0.096-0.223 0.004-0.007-0.007-0.010 0.014,64,计算结果,计算统计量,由,得,因此,选择备择假设,给定显著性水平,当n=40时,查表得,因为,故拒绝正态性假设,