中国矿业大学环境与测绘学院测绘工程测量平差第七章 误差分布与平差参数的.ppt
第七章 误差分布与平差参数的统计假设检验,前面几章所讲述的几种经典的平差数学模型,在最小二乘原则下进行平差计算时,得到的平差值和参数估值均是最优无偏估计量,但必须有下列情况成立:其一是假定观测值中只含有偶然误差(又称为随机误差),或者说偶然误差是观测误差的主要成分,其它类型的误差很小,与偶然误差相比,可以忽略不计,因此,可视观测值为服从正态分布的随机变量,也就是说,其数学期望等于真值,即(或说观测误差是服从正态分布的随机变量,其数学期望为零,即);,其二是在平差前确定观测值的权时,假定母体的方差 为已知,用式 或用基于上式的导出式计算(例如,在水准测量中,用式 或)。如果上述两个条件不能成立,则最小二乘平差得到的平差值和参数估值不是最优无偏估计量。因此,必须对上述假定或者说对误差分布与平差参数的正确性进行检验。,由于采用的检验方法在数学上是数理统计学的内容,故本章阐述误差分布与平差参数的统计假设检验方法。,7-1 概述,一、统计假设检验的概念,统计假设 在母体的未知分布上所作的某种假设称为统计假设(习惯上将原假设记为;备选假设记为)。统计假设分为参数假设和非参数假设。所谓参数假设就是对母体分布中的参数所作的假设;非参数假设就是对母体分布函数所作的假设。,参数假设 例如,某糖厂用自动包装机将糖装箱,每箱规定的重量为100斤。每天开工时,需要先检验一下包装机工作是否正常。根据以往的经验知,用自动包装机装箱,其各箱重量的标准差 斤,且包装的重量变化服从正态变化。某日开工后,抽测了9箱,其重量如下(单位:斤):,99.3,98.7,100.5,101.2,98.3,99.7,99.5,102.1,100.5试问此包装机工作是否正常。,在这个例子中,我们关心的问题是:包装机工作是否正常,即包装机装出的糖箱的平均重量是否符合标准100斤。因此,此例可作如下处理:先假设母体的平均值u=100斤(原假设记为:u=100斤),然后利用上述抽取的9个数据,来推断我们所作的这一假设的正确性,从而判定接受还是拒绝这种假设。,如果知道母体的均值u=100斤,那么就知道母体的真分布是。正由于母体的真分布完全被几个未知参数所决定,因此将这种仅涉及到母体分布中所包含的几个未知参数的统计假设称为参数假设。,非参数假设 某种建筑材料,其抗断强度的分布,以往的监测表明,符合正态分布,现在,生产厂家改变了原来的配料方案,生产出新的产品,希望确定新产品的抗断强度的分布是否仍为正态分布?与前例类似,先建立假设:假设改变了配料方案后生产出的该建筑材料的抗断强度仍服从正态分布(原假设记为:)。然后通过抽取子样来推断上述的这种假设的正确性,从而判定接受还是拒绝这种假设。这种对母体分布函数的统计假设称为非参数假设。,统计假设检验 假设提出之后,就要判断它是否成立,以决定接受假设还是拒绝接受假设,这个过程就是假设检验的过程。在统计学上,称判断给定统计假设 的方法为统计假设检验,或简称统计检验。相应于统计假设的划分,统计假设检验也分为参数假设检验和非参数假设检验。在检验时,要有一定量的抽样数据(或说成子样),以概率论知识为基础,运用数理统计的方法进行。因此,统计假设检验所解决的问题,就是根据子样的信息,通过检验来判断母体分布是否具有指定的特征。,二、进行统计假设检验的思想,我们知道,即使包装机工作正常,波动性总是存在的,所以,包装机所包装的每包糖的净重不会都等于,总是有一些差异,从而观测值的平均值 也不见得恰好等于。,但若平均值 与 有显著的差异,即 相当大时,则我们就认为机器工作不正常;若平均值 与 没有显著的差异,即 相当小时,则我们就认为包装机工作正常。,上述问题用数理统计的语言来说就是:如果,(其k中为某一适当的常数),则我们接受假设,即认为包装机工作正常;如果,则我们拒绝假设,即认为包装机工作不正常,上述的叙述可用概率的形式描述如下,即,也就是说,假设检验的判断依据是小概率推断原理。所谓小概率推断原理就是:概率很小的事件在一次试验中实际上是不可能出现的。如果小概率事件在一次试验中出现了,我们就有理由拒绝它。,因此说,统计假设检验的思想是:给定一个临界概率,如果在假设 成立的条件下,出现观测到的事件的概率小于等于,就作出拒绝假设 的决定,否则,作出接受假设 的决定。,习惯上,将临界概率 称为显著水平,或简称水平。,三、接受域和拒绝域,接受域 接受假设 的区域称为检验的接受域。例如上面的例子,当根据子样算术平均值满足的时候(或),我们接受假设,也就是说计算的结果 落在了(或)区间之内,通常把区间(或)称之为接受域。如图7-1,拒绝域 拒绝接受假设 的区域称为检验的拒绝域。例如上面的例子,如果计算的结果 落在了 区间之外,这就表示概率很小(=a)的事件居然发生了。根据小概率事件在一次实验中实际上不可能出现的原理,就有足够的理由否定原来所作的假设,通常把区间(或)以外的区域称之为拒绝域。如图7-1,四、两类错误,由上述假设检验的思想可知,假设检验是以小概率事件在一次实验中实际上是不可能发生的这一前提为依据的。但是,小概率事件虽然其出现的概率很小,但这并不是说这种事件就完全不可能发生。事实上,如果我们重复抽取容量为n的许多组子样,由于抽样的随机性,子样均值不可能完全相同,因而由此算得的统计量的数值也具有随机性。若检验的显著水平定为,那么,即使原假设 是正确的(真的),其中仍约有5%的数值将会落入拒绝域中。,由此可见,进行任何假设检验总是有作出不正确判断的可能性,换言之,不可能绝对不犯错误。只不过犯错误的可能性很小而已。,第一类错误 当 为真(正确)而遭到拒绝的错误称为犯第一类错误,也称为弃真的错误,如图7-2。犯第一类错误的概率就是a。,第二类错误 同样地,当 为不真(不正确)时,我们也有可能接受,这种错误称为犯第二类错误,或称为纳伪的错误,如图7-2。犯第二类错误的概率为。,显然,当子样容量n确定后,犯这两类错误的概率不可能同时减小。当a增大,则 减小;当a减小,则 增大。,五、统计量和抽样分布,在统计假设检验中,被检验的对象往往不是单个的子样,而经常是对子样的某种函数进行检验,例如在本节的第一个例子的检验问题中,是要对子样平均值 进行检验,我们知道 也是随机变量,也服从某种概率分布。,六、进行统计假设检验的步骤,概括起来说,进行假设检验的步骤是:1根据实际需要提出原假设 和备选假设;2选取适当的显著水平a;3确定检验用的统计量,其分布应是已知的;4根据选取的显著水平a,求出拒绝域的界限值,如被检验的数值落入拒绝域,则拒绝(接受)。否则,接受(拒绝)。,7-2 常用的参数假设检验方法,一、u检验法,由于正态分布是母体中最常见的分布,所抽取的子样也服从正态分布,由此类子样构成的统计量是进行假设检验时最常用的统计量,以下的几种参数假设检验方法均是此类统计量。,1u检验法的概念,设母体服从正态分布,母体方差 为已知。从母体中随机抽取容量为n的子样,可求得子样均值,利用子样均值 对母体均值u进行假设检验,则可用统计量,其分布为标准正态分布。即,2u检验法的类型 根据检验问题的不同,利用u检验法对母体均值u进行检验时,可选用双尾检验法、单尾检验法(左尾检验法或右尾检验法)。,当 或 时,接受,拒绝;反之,拒绝,接受;,当 或 时,拒绝,接受;反之,接受,拒绝;,例7-1 已知基线长,认为无误差。为了鉴定光电测距仪,用该仪器对该基线施测了34个测回,得平均值,已知,问该仪器测量的长度是否有显著的系统误差(取)。,解:(1)(2)当 成立时,计算统计量值,u检验法不仅可以检验单个正态母体参数,还可以在两个正态母体方差 已知的条件下,对两个母体均值是否存在显著性差异进行检验。,设两个正态随机变量 和,从两母体中独立抽取的两组子样为 和。子样均值分别为 和,则两个均值之差构成的统计量也是正态随即变量,即,在实际测量工作中,真正的 经常是未知的,一般是利用实测结果计算的估值代替,数理统计中已说明,这种代替,当子样容量n200,则可认为是严密的,当一般n30,用 代 进行u检验则认为是近似可用的。当母体方差未知,检验问题又是小子样时,u检验法便不能应用。须用以下的t检验法对母体均值进行u检验。,二、t检验法,1t检验法的概念,设母体服从正态分布,母体方差 未知。从母体中随机抽取容量为n的子样,可求得子样均值 和子样中误差,利用子样均值 和子样中误差 对母体均值u进行假设检验,则可利用统计量,但统计量已不服从正态分布,而是服从自由度为n-1的t分布。即,2t检验法的类型 根据检验问题的不同,利用t检验法对母体均值u进行检验时,可选用双尾检验法、单尾检验法(左尾检验法或右尾检验法)。(1)双尾检验法,当 或 时,接受,拒绝;反之,拒绝,接受;,例7-3 为了测定经纬仪视距常数是否正确,设置了一条基线,其长为100m,与视距精度相比可视为无误差,用该仪器进行视距测量,量得长度为:,100.3,99.5,99.7,100.2,100.4,100.099.8,99.4,99.9,99.7,100.3,100.2,试检验该仪器视距常数是否正确。,解:,同样,t检验法不仅可以检验单个正态母体参数,还可以对两个母体均值是否存在显著性差异进行检验。,从两母体中独立抽取的两组子样为 和。子样均值分别为 和,子样方差分别为,则两个均值之差构成如下服从t分布的统计量,即,(7-2-6),三、检验法,1 检验法的概念,这种用统计量 对母体方差进行假设检验的方法,称 检验法。,如果统计量 的计算值 大于以显著水平和自由度n-1查得的 值,则拒绝原假设,接受。否则接受。,(3)查得因为 落在了(2.700,19.023)区间,故接受,即认为在 的显著水平下,新旧两种仪器的测角精度相同。,四、F检验法 1F检验法的概念,设有两个正态母体 和,母体方差 和 未知。从两个母体中随机抽取容量为 和 的两组子样,求得两组子样的子样方差 和,则,利用子样方差 和 的上述信息对母体方差 和 是否相等进行假设检验,则可利用统计量,在实际检验时,我们总是可以将其中较大的一个子样方差作为,另一个作为,这样就可以使 永远大于1。因为,故,这样,就只须考察 是否落入右尾的拒绝域就可以了,不必再去考虑左尾的拒绝域。在这种情况下,可写成,由于前面讲过的理由,我们总是可以使,所以进行单尾检验时,就没有必要再考虑备选假设为 的情况了。,例7-6 用两台经纬仪对同一角度进行观测,用第一台观测了9个测回,得一测回测角中误差估值,用第二台也观测了9个测回,得一测回测角中误差估值,问两台仪器的测角精度差异是否显著(取)?,在F分布表查得,,成立,测距仪乙的测距精度不比甲差。因在F分布表中的值均大于1,发现F值小于1,必成立。,7-3 误差分布的假设检验,分布假设检验 上一节介绍的几种检验方法,都是认为母体分布形式已知,在这种前提下进行讨论,对母体的参数进行假设检验的。但是,在许多的实际问题中,母体服从何种分布并不知道,这就需要对母体的分布先做某种假设,然后用样本(观测值)来检验此项假设是否成立,这种检验就是分布假设检验。,在前面的学习中,我们知道,如果观测误差服从正态分布,平差计算所得的结果是最优无偏估计量。但是,如果观测误差包含了系统误差或粗差,所得的平差结果不会再是最优无偏估计,甚至是无效的结果。因此,要想使平差得到最优无偏估计的结果,必须对误差分布的正态性进行检验。,一、偶然误差特性的检验,在第二章的学习中知道,测量的偶然误差服从正态分布,并给出了偶然误差的四个特性,即,1.在一定的观测条件下,偶然误差的绝对值不会超过一定的限值;2.绝对值较小的误差比绝对值较大的误差出现的概率大;3.绝对值相等的正误差与负误差出现的概率相等;4.偶然误差的算术平均值,随着观测次数的无限增加而趋向于零(或偶然误差的数学期望等于零),即,或,当我们进行了一系列的观测时,若出现的误差是偶然误差或者是以偶然误差为主导的,那么,它们应该符合或基本上符合上述几个特性。通过下面几项检验基本上可以判断观测误差是否服从正态分布。1误差正负号个数的检验基本思想 依据偶然误差特性的第三个特性,如果观测误差是偶然误差,则正误差和负误差的个数应相等。(1)用正误差个数进行检验,(7-3-1),在概率论中知道,S是服从二项分布的变量,即(误差为正的概率为p,为负的概率为q),且S标准化后的极限分布服从N(0,1)分布,即,为了检验p是否等于1/2,可作出如下假设:,根据标准正态分布知,随机变量X落在 的概率等于0.9545。,对统计量 而言,则。若以二倍中误差作为极限误差,;对于(7-3-4)式,若在取,则,于是有,(2)用负误差个数进行检验同理,若以 表示负误差的个数,则有,这就是用正负误差个数之差进行检验 是否成立的公式。,2正负误差分配顺序的检验 基本思想 如果观测误差是偶然误差,根据偶然误差的特性,误差为正或为负应该具有随机性,也就是说,基本上应该是正负交替出现,当前一个误差为正时,后一个误差为负的可能性应该比较大。同样,当前一个误差为负时,后一个误差可能为正的可能性应该比较大。,如果在观测过程中受到某种因素的影响,就会破坏上述的规律,在某一因素段内误差大多为正,而在另一因素段内则大多为负,但是,正负误差的个数有可能基本相等。如果只用“误差正负号个数的检验”方法进行检验,就难以发现是否存在着上述系统性的变化。所以,就应将误差按某种因素排列(如时间、地点的先后顺序等),从而检验其是否随某种因素而发生着系统性的变化。(1)用相邻两误差正负号相同的N个数进行检验,在概率论中知道,是服从二项分布的变量,即(取值1的概率为p,取值0的概率为q),且S标准化后的极限分布服从N(0,1)分布,即,如果上式成立,应接受;否则,拒绝,因此就有理由认为误差中可能存在着某种系统误差的影响。,若检验结果不满足上式,则应否定 的假设,即表明该误差列可能受到某种固定因素的影响而存在系统性的变化。,3误差数值和的检验 基本思想 依据偶然误差特性的第三、第四特性,如果观测误差是偶然误差,则绝对值相等的正误差和负误差应成对出现,因此,其代数和应互相抵消。,4正负误差平方和之差的检验 基本思想 依据偶然误差特性的第三、第四特性,如果观测误差是偶然误差,则绝对值相等的正误差和负误差应成对出现,设为 和,他们的平方带上各自的符号的代数和也应互相抵消,即。,根据偶然误差的第三特性可知,在理论上应等于零,其中 取值1的p概率与取值-1的q概率相等,即p=q=1/2,因而,5单个误差的检验 基本思想 依据偶然误差特性的第一特性,在一定的观测条件下,偶然误差的绝对值不会超过一定的限值。如果某一个误差很大,超过了一定的限值,就认为这个误差中含有非偶然因素。设某次观测共有N个观测值,对应的真误差为,其中不为零的有n个。,上式表明误差绝对值大于 的概率仅为4.55,这是小概率事件,在一次试验中(观测中)不应该出现。当某一误差的绝对值大于 时,就认为该误差含有非偶然因素,应查找原因,或把其对应的观测值舍弃不用。作出如下假设:,例7-8 在某地区进行三角观测,共30个三角形,其闭合差(以秒为单位)如下,试对该闭合差进行偶然误差特性的检验。,+15+10+08 11+06+11+02-03-05+06 20 07-08-12+08 03+06+08-03-09 11 04 10 05+02+03+18+06 11 13,(5)最大误差值的检验 此处最大的一个闭合差为-2.0,如以二倍中误差 作为极限误差,可见该闭合差超限.如以三倍中误差作为极限误差,则该闭合差不超限。从上面的检验可知,当用二倍中误差作为极限误差时,该误差列不能算是服从正态分布;但是如果用三倍中误差作为极限误差时,就可以说该误差列服从正态分布。,二、误差分布的假设检验,1分布假设检验的一般概念 前面讲述的对偶然误差特性的检验,是根据偶然误差属于正态分布这一事实为根据的,也就是说,母体分布形式是已知的。但是在许多实际问题中,对于母体分布的类型不一定预先知道,这就需要对母体分布先作某种假设,然后用子样(观测值)来检验所作假设是否成立,这就是分布假设检验。,母体分布函数为(或)式中 是我们事先假设的某一已知的分布函数。分布函数 不限定是正态分布,也可以是其它类型的分布。,2 检验法的步骤(1)分组并求频数先将n个观测值 按一定的组距分成k组,并统计子样值落入各组内的实际频(个)数。,(2)估计 中的参数 在用 检验法检验假设 时,要求在假设 下,的形式及其参数都是已知的。比如说,如果我们所假设的 是正态分布函数,那么其中的两个参数 和 应该是已知的。可是实际上参数值往往是未知的,因此要根据子样值来估计原假设中分布函数 中的参数,从而确定该分布函数的具体形式。,(3)求各分组概率 当 确定后,就可以在假设 下,计算出子样值落入上述各组中的概率(即理论频率),以及将 与子样容量n的乘积算出理论频数。,(4)检验的统计量组成 由于子样总是带有随机性,因而落入各组中的实际频数 不会和理论频数 完全相等。可是当 为真,与 的差异应不显著;若 为假,这种差异就显著。因此,应该找出一个能够描述它们之间偏离程度的一个统计量,从而通过此统计量的大小来判断它们之间的差异是由于子样随机性引起的,还是由于 所引起的。,注意:(7-3-36)式中的统计量只有观测数n足够大时才能成立,而且 也不应太小,一般要求。如果,则应将某些组并成一组,使得。,例7-9 某地震形变台站在两个固定点之间进行重复水准测量,测得100个高差观测值,取显著水平a=0.05,试检验该列观测高差是否服从正态分布。解:(1)分组并求频数为了简化计算,将100个高差观测值按等间隔分组,根据经验,当观测值个数多于50个时,分成1025组为宜。现按0.0ldm的间隔(或称组距)将其分成10组,(此例k=10)并求出各组的频数,见表7-1。,(2)估计 中的参数,表7-1,根据表7-1中各组的组限(其中第一组下限应为,末组上限应为,),同时根据正态分布表算得,其计算结果列于表7-2中。,表7-2,(4)检验的统计量计算 由表7-2计算结果知,统计量之值为,7-4 平差参数的显著性检验,一、概述,1平差参数的显著性检验的意义经典的测量平差的最主要任务,就是在最小二乘准则下,求出平差参数和观测值的最优估值,供各种建设工程使用。但是在一些测量问题中,还需要对所求的参数是否满足“一定的条件”进行检验,以验证所求参数是否正确;或检验所求参数是否与“一定的条件”存在某种影响关系。,例如,在某测区进行高程控制测量时,有几个已知高程点,经过实地踏勘,怀疑其中有些点的点位有可能发生了变化,为了稳妥起见,在布网时,暂时将其当作未知点进行平差计算,求出平差后的高程,并检验和原有高程之间的差异,如果差异显著,则说明此点已发生了变化,其原有高程不能作为起算数据使用,反之,其原有高程可以使用,并能作为已知点,对全网重新平差,以提高整网的精度。,又例如,用钢尺或测距仪测定两点间距离,所测的距离值与测量时的温度是否有关系,是否受大气折光的影响等,也可以通过平差后对所求参数进行假设检验,如果影响显著,说明受到温度或大气折光的影响,测量时必须认真对待,加以考虑;反之,可以忽略其对测量成果的影响。2检验假设,二、平差参数显著性检验,例7-10 为了考察经纬仪视距乘常数C在测量时随温度变化的影响,选择10段不同的距离进行了试验。测得10组平均C值和平均气温,结果列于表7-3。设c与t呈线性关系,试在a=0.05下检验平差参数的显著性。,表7-3,解:设函数模型(回归方程)为,以a和自由度n-t=10-2=8,查t分布表,得。因,故拒绝,即,说明参数 显著,回归模型有效,说明视距常数与温度有关。,例7-12 如图7-4所示的水准网,A、B为已知高程点,P1、P2为待定点。1988年进行第一次观测,采用间接平差法进行平差,选取P1、P2 二点的高程为参数、,平差后得如下有关结果,因此可以说,P1点在19881992年间其高程有显著变化;而P2点在19881992年间其高程没有显著变化。,三、平差参数显著性的线性假设检验法,按此模型进行平差,求得的单位权方差估值与单独平差(7-4-6)式求得的单位权方差估值相比较,如果两者无显著差别,则可认为原假设 成立,否则 不成立。,从上式可以看出,附有条件间接平差的改正数平方和,是不带条件的改正数平方和与向量 的一个二次型R之和,R是考虑假设 作为条件方程后对的影响项。,如果,则表示由R/c估计的单位权方差与平差问题本身的单位权方差 有显著差别,线性假设 不成立。反之,则接受。这是对平差参数显著性检验的一般理论和方法,它是由Koch提出的。由(7-4-20)式可见,的计算仅用到原间接平差中的量,所以做检验时不需要多做附加计算。,7-5 后验方差的检验,一、平差模型检验概述,在前面的学习中知道,测量平差的数学模型包含函数模型和随机模型,平差是在给定的函数模型和随机模型下进行的。要想得到正确的结果,除了要有正确的观测数据外,还要使用正确的、符合实际情况的数学模型。如果给定的数学模型本身不正确(或者说有缺陷),那么,即使观测数据没有误差,我们也不会得到正确的结果。,例如,水准测量中应顾及大气折光影响而平差模型中并未涉及;起算数据误差较大,但我们认为精度很高,从而当作没有误差;观测数据中包含系统误差或粗差,但我们认为只包含偶然误差;定权可能不正确等等,这些都将使平差结果遭到扭曲。为了保证平差成果的正确性,必须对各种有可能影响其正确性的原因,通过统计假设检验方法予以查明,然后再改进和完善平差模型。后验方差的检验方法,是一种对平差模型的总体检验方法,又称为平差模型正确性检验。其原假设是平差模型正确,备选假设则是不正确,如果拒绝原假设,说明在一定显著水平下,平差成果值得怀疑,平差模型有缺陷。,二后验方差检验的基本思想,定权时先验单位权方差 是已知的,通过平差,可求得其估值即后验方差,两者应该统计一致,即满足,如果不满足此等式,说明所求的 并非 的无偏估计,这是平差模型不正确所致。因此,后验方差检验的假设是,服从自由度n-t的 分布,故采用 检验法。给定显著水平a,查得 和,得区间,如果统计量 不在此区间内,则拒绝,认为平差模型不正确。只有在通过后验方差检验后才能使用平差成果,因此平差模型的检验是平差中一个组成部分,不应省略,但在实际工作中,往往被忽略,这是不应该的.,解:因为定权时以1km观测高差为单位权观测,实际上就是取1km观测高差的中误差作先验单位权中误差,虽然例中未说明 是何值,但按什么等级进行水准测量是已知的,因此,就取规范规定的值,例如,若是二等水准测量,则,如是三等水准测量,则。,检验通过,平差模型正确,成果适用。从该例看,如果平差后测量精度达不到预期的精度,可以降级使用。,例7-15 有一测边网,两个待定点,使用光电测距仪测量了18条,最长边8.2km,最短边4.3km,平均边长为65km,测距仪的标称精度为。平差时按等权对待。算得,试在 a=0.05 下进行平差模型正确性检验。,从该例看,平差模型不正确的主要原因可能是定权不正确,因为,边长不应视为等权;在实际工作中,如果测边等级较高,应采用不等权平差;如果等级较低,用等权平差也是可以的。也可能起始数据误差较大或测边中存在系统误差所致,要进一步查明原因。,7-6 习 题,7.1统计某地区控制网中420个三角形的闭合差,得其平均值,已知,问该控制网的三角形闭合差的数学期望是否为零(取a=0.05)。,7.5 某一测区的平面控制网,共有50个三角形,其三角形闭合差结果见表72,试用偶然误差的特性检验三角形闭合差是否服从正态分布(取a=0.05)。,表72,7.6 数据同第5题,试用 检验法检验三角形闭合差是否服从正态分布(取a=0.05)。7.7 某单位新购置了一台光电测距仪,为了求取测距精度与距离的关系,对长度不同的8段距离进行观测,计算出各段距离的中误差,其数据见表73。假设精度与距离呈线性关系,即,试检验平差参数的显著性。,表73,