半参数核估计理论及应用毕业论文.doc
本科毕业论文(设计)题目: 半参数核估计理论及应用 摘 要 现代科学技术的飞速发展,为测绘科学提供了一个良好的发展机遇,同时也对测绘科学提出了更高的要求。首先由于现代测量仪器发展和观测数据的复杂性,测绘学界对测量数据处理的精度要求越来越高,但是整个测量平差系统是由众多因素共同确定的,其中一些影响因素与观测值函数关系并不明确,得到的一些复杂的观测数据导致经典最小二乘准则失效,最终导致没有明确了解的观测值部分系统误差影响无法消除等。半参数模型包含一个参数分量和一个非参数分量,对于与观测值函数关系已知部分的参数采取与最小二乘估计类似的方法,即将这部分参数完全参数化;对于函数关系未知或难以用函数关系表达的因素不采用任何具体函数表达,而是采用抽象的函数给与表达,即事先不规定具体函数形式,其函数关系形式可以任意的,具体应用时,根据实际情况不同构造不同函数,其可以克服参数和非参数模型表达不完善的部分,弥补了参数模型和非参数模型的不足,能够解决许多的实际问题,具有更强的模型解释能力和适应能力。大量的研究表明半参数模型在处理观测量与待估参数之间的复杂关系时有很明显的优点,因此在很多领域得到了研究与应用。半参数模型估计能够很好的处理系统误差和粗差,并且能分离出系统误差和粗差,提供更加可靠的解算成果。半参数核估计包括偏核光滑估计、偏残差估计、近邻核估计、最小二乘核估计以及N-W核估计等。本文主要研究半参数的最小二乘核估计和偏核光滑估计,通过解算其参数分量和非参数分量及推导其期望、偏差、方差及均方误差等统计性质,研究窗宽参数的选取,并通过模拟算例证明和对比最小二乘核估计和偏核光滑估计各自在参数和非参数分量估计以及估计系统误差等方面的有效性和可行性,并将半参数核估计应用到平面坐标转换中。本论文共分为五章,第一章绪论主要阐述了半参数模型在统计领域的研究现状及半参数回归模型在测量数据处理应用的两种主要方法:补偿最小二乘法和基于外延预测预测的核估计;着重介绍了半参数核估计理论方面的国内国外研究现以及本文研究的内容。半参数核估计包括偏核光滑估计、偏残差估计、近邻核估计、最小二乘核估计以及N-W核估计等,本文主要研究半参数最小二乘法和偏核光滑估计法。第二章主要研究半参数核估计的理论,包括核权函数和核函数的选取问题;介绍了核估计的两种方法,即最小二乘核估计和偏核光滑估计,分析了这两种方法的各自特点,并解算了其参数和非参数分量;同时讨论了窗宽参数在核估计中的重要作用,在小样本估计中,样本的大小,核函数的选取以及窗宽参数共同决定了核估计性能的好坏。第三章主要是推导了半参数核估计量(即参数分量和非参数分量)的统计性质,其估计性质包括期望、方差、偏差、均方误差。同时也讨论了窗宽参数的选取问题,窗宽参数是一个非常重要的光滑参数,它对曲线的拟合程度和光滑程度起平衡作用,实际上是起到一个平滑因子的角色,它的选择好坏对估计量的性质影响很大。窗宽越小,则核估计的偏差越小,但估计的方差却越大。在窗宽参数的选取中,讨论了最小均方误差法和经典的CV和GCV法等等。窗宽的变化,不可能使核估计的偏差和方差同时变小。因此,最佳窗宽选择的标准必须在核估计的偏差和方差之间进行权衡。第四章对测量误差进行了概述,介绍了系统误差相关特性。通过模拟算例证明半参数核估计在估计参数分量,剔除粗差和分离系统误差方面的可行性,通过半参数核估计可明显提高估计效果。将半参数核估计理论应用到平面坐标转换,此前,并未有过用核估计进行坐标转换,本章通过实际算例证明了核估计在高低精度坐标系转换之间可以消除系统误差,取得较高精度。关键词:半参数模型,核估计,统计性质,系统误差,坐标转换AbstractThe rapid development of modern science and technology not only provides a good opportunity for the development of surveying and mapping science, but also a higher requirement on Surveying and Mapping .First, as the development of modern measuring instruments and the complexity of observational data ,the precision of the measurement data processing becomes increasingly demanding, but the entire survey adjustment system is determined by numerous factors, some of which affect the observation function not clearly.The complex observational data lead classical least squares criterion to failure, resulting in some systematic error can not be eliminated and so on. Semi-parametric model contains a parameter component and a non-parametric component, for a function with the observed values of the parameters of the known part of the pre-squares estimation taken a similar approach, some parameters about which fully parameterized; For the function is unknown or difficult to use the function relationship factor expression expression does not use any specific function, instead of using abstract functions give expression, that does not require prior specific functional form, which can be any function of the form, the specific application, different configurations according to the actual situation of different functions, and its can overcome the parametric and non-parametric models expressing the imperfect parts, make up the parameters of the model and the lack of non-parametric model that can solve many practical problems, with more models to explain and adaptability. Numerous studies indicate that semi-parametric model in dealing with the concept of measurement parameters to be estimated when the complex relationship between the obvious advantages, so in many fields research and application. Semi-parametric estimation model can well handle system errors and outliers, and can be isolated from system errors and gross errors, provide more reliable solver results.Semi-parametric kernel estimation including migraine kernel smooth estimation, partial residuals estimated neighbor kernel estimation, least squares estimation and NW kernel kernel estimation. This paper studies the migraine kernel smooth estimation and least squares estimation, solves parametric component and non-parametric components, derives their expectations, deviation, variance and mean square error,discuss the problem of window width parameter selection , find the model scope;and through simulations and comparative examples demonstrate that kernel smooth estimation and least squares estimation is effective and feasible in parametric and non-parametric estimation,namely we can estimate the system error. The thesis is divided into five chapters, first chapter mainly describes the research of semi-parametric models in the field of statistics and two methods that semi-parametric regression model applies in the measurement data processing: Compensation based on least squares method and the epitaxial Forecast Forecast kernel estimation; highlights the semi-parametric estimation theoretical aspects of kernel research at home and abroad ,and the contents of this paper are: semi-parametric kernel estimation including migraine kernel smooth estimation, partial residuals estimated neighbor kernel estimation, least squares estimation and NW kernel estimation, this paper mainly studies migraine kernel smooth estimation and least squares estimation. The second chapter studies the theory of semi-parametric kernel estimation.including kernel weight functions and kernel function selection problem.introduces two kernel estimation method, namely migraine kernel smooth estimation and least squares estimation,analysis of the characteristics of each of these two methods,and extract forget their parametric and nonparametric component.in a small sample estimates, the sample size, the selection of kernel function and window width parameters together determine the kernel estimation performance quality.Finally, numerical examples demonstrates that the component parameters of two methods is correct and we compare the result. The third chapter is to derive a semi-parametric kernel estimation (parametric and non-parametric component component) of the statistical properties, according to which We can infer the scope of application of the model.The properties includes its estimated expectation, variance, bias, mean square error. It also discusses the problem of the window width parameter selection, window width is an important parameter smoothing parameter, It Plays a balancing role on the degree of curve fitting and smoothness,in fact, it is to play a role as a smoothing factor,that it is good or not influences the properties of the estimation,.The smaller Window width is, the smaller the kernel estimation bias is, but the greater estimates of the variance is. In the window width parameter selection, we discuss minimum mean square error method and classic GCV method and so on.When window width changes, it is impossible to make kernel estimation bias and variance simultaneously smaller. Therefore, the optimal window width selection criteria must be balanced in the kernel trade-off between bias and variance. This chapter provides an overview of the measurement error and introduces the related characteristics of systematic errors . Through simulation examples and examples of measurements, it Proves that semi-parametric kernel estimation is feasible in removing outliers and separating system errors.applying the semi-parametric kernel estimation theory to the gravity measurements,through the practical examples given in this chapter, we prove that kernel estimation is effective in Coordinate transformation.KeyWords: Semi-parametric model, Kernel estimation,Statistical properties,Systematic errors, Coordinate transformation目录第一章 绪论1§1.1 引言1§1.2 半参数核估计理论应用研究现状5第二章 半参数核估计方法7§2.1 半参数核估计理论7§2.2 最小二乘核估计10§2.3 半参数偏核光滑估计11第三章 估计量的统计性质和窗宽参数的选取13§3.1 最小二乘核估计估计量的性质13§3.2 半参数偏核光滑估计量的性质16§3.3 半参数核估计中窗宽参数的选取193.3.1 最小均方误差法193.3.2 CV和GCV法19第四章 算例分析21§4.1 模拟算例21§4.2 在坐标系换算中的应用25第五章 结论与展望27致谢28参考文献29第一章 绪论§1.1 引言 半参数模型是八十年代发展起来的一种重要的统计模型,它既含有参数分量,描述了观测量中已知函数关系;又包含有非参数分量,用来表示函数关系中未知的的系统误差和模型偏差,因此可以概括和描述众多实际问题,因而引起测绘界的广泛关注;在统计领域中,处理数据的半参数模型是将我们常用的参数回归模型和非参数回归模型结合在一起,这样就为我们求解系统误差或者模型误差提供了思路,但它并不仅仅是这两种模型的叠加,半参数模型比一般的回归模型都更为复杂,其解算也更加困难。所以,半参数模型在测绘领域是一种既有用又充满挑战性的理论。目前,一些学者对半参数模型已经做了一些研究,并取得了一定的成果:Engle1,Green&Silverman(1994)2,Heckman(1986)3等人对样条光滑估计的内容做了研究;Robinson(1988)对基于半参数的回归模型做了深入探讨;在此基础上Severini&Staniswalis(1994)4、Härdle,Mammen&Müller(1998)5等学者对广义的半参数回归模型做了研究;Eubank(1990)7对于半参数模型中的三角级数估计法做了研究;由David等学者编著的书Semi-paremetric Regression对半参数回归模型做了详细介绍;还有一些学者对基于大样本的半参数模型中的分量性质做了深入研究。我国对于半参数回归的研究,主要在统计领域内,其中主要研究内容包括:洪圣岩13对于半参数回归模型中的一系列估计理论做了研究;柴根象和孙平14对于大样本估计的性质和半参数中估计量的性质做了研究;朱仲义(1999)15用统计的方法对于半参数非线性模型做了系统的研究;曾林蕊(2004)18对广义的半参数模型中的统计诊断方法做了研究;其中,柴根象、洪圣岩(1995)17的著作-半参数回归模型对于半参数中的理论与方法做了系统的介绍和研究。基于半参数模型较于参数模型和非参数模型不可替代的优点,半参数模型近几年来被广泛地运用到工业、农业、经济、医药、金融等各种不同领域:基于半参数统计模型的中长期电量负荷预测应用,中外股票市场联动性的非参数与半参数建模研究,中国人口预测的具有外生变量的半参数回归模型等。从以上内容分析可以看出,对于半参数回归模型国内外的研究主要有以下几个方面:一、在模型基础上,研究各种不同方法求解参数和非参数的估计量,以及不同误差情况下,估计量的一些大样本性质分析;二、将半参数模型引入到测量数据处理中进行参数估计处理系统误差,并有效的探测粗差;三、在统计中的应用,即将半参数模型引入到CPI的研究中去,分析居民的消费结构及分析框架;四、在经济中的应用,半参数模型应用于通货膨胀、商品房价格指数、市场风险度量以及人口预测等方面。近些年来学者将半参数模型应用到在测绘领域,利用半参数回归模型来解决实际测量数据中含有系统信号的问题,与参数平差模型、非参数平差模型相比,半参数平差模型能利用其参数信号和非参数信号解决参数平差模型、非参数平差模型等单一解决方法不能解决的实际问题,并且所得的估计量效果要好一些。Green、Engle et al和Silverman利用半参数模型相比较参数模型有明显的优点研究了半参数平差模型在解决观测量与待估参数之间的复杂关系;Moritz提出了正则化的数据平滑处理方法是为了解决重力测量问题;在美国导航协会技术会议上,Minghaijia(2000)首次提出利用半参数模型中的非参数分量表示电磁波穿过电离层的系统误差,分析GPS测量中的多路径效应的影响等等;陶本藻(1997)23研得出函数模型误差和随机模型误差之间是可以相互转化的,并从理论上研究了模型误差对参数分量的估值是如何影响的;武大测绘学院的孙海燕、陶本藻、王新洲、张松林、胡宏昌、丁士俊等人把统计领域的半参数模型应用到测量数据处理中来:孙海燕(2002)24将半参数模型引入到测量学界,并研究了半参数平差模型的相关算法,证明了半参数平差模型能够发现并识别模型误差或观测值中的系统误差,还进一步讨论了正规化矩阵半正定时的计算方法;吴云(2003)30利在研究半参数模型中的参数估计时对正则化矩阵的求解运用了数学中的三次样条函数;张松林(2003)26在基于最小二乘准则下对线性半参数模型的一系列估计理论做了系统分析,同时也研究了非线性半参数模型中对参数分量的估计值的求解和推导了参数分量的统计性质,并将非线性模型运用到实际问题中提取和分离GPS定位中包含的系统误差;胡宏昌(2004)28对于半参数模型中的附有系统参数的平差模型做了深入研究,解算出半参数模型中非参数分量的结果并推导其统计性质,对半参数补偿最小二乘法中的关键问题如何选取正则矩阵和光滑因子用做了较为系统的研究;潘雄(2005)27主要研究了半参数补偿最小二乘法,计算出半参数模型中各估计量的结果并推导出估计量统计性质的计算公式,最后根据其统计性质判断出不同平差模型的适用范围;丁士俊25(2005)在参数回归诊断方法的基础上研究了半参数模型的数据诊断方法,提出了稳健估计方法并推算出估计量的基本公式,同时探讨了半参数平差模型中的广义最小二乘估计,提出了抗差广义补偿最小二乘估计方法,最后将半参数平差模型应用到GPS变形分析等问题中;王振杰(2006)29基于不同的正则化参数和正则化矩阵,对半参数补偿最小二乘法中的不适定问题做了研究。观测数据是我们进行测绘研究和分析的基础,然而人们运用各种测量手段得到测量数据,由于观测条件、系统误差、偶然误差等原因,观测结果与被观测量的真实值产生了差异,这就是测量中产生的各种误差,如何提高观测数据的质量和有效地减小测量中的误差,最终得到观测数据的最佳平差值,这是测量平差中即测量数据处理中,我们所要解决的最重要问题。而我们所用的经典平差模型是高斯一马尔柯夫模型,具体形式如下: 函数模型: (1-1) 随机模型: (1-2)在上述平差模型中,观测值只包含参数分量,表现为参数分量的线性形式,但是这种平差模型求解有一个前提条件:观测值只含有偶然误差。在这种理想情况下,偶然误差的数学期望为零,运用最小二乘准则,最终解得参数分量的解,根据其统计性质可以验证参数解的偏差为零,即为无偏估计量。但是随着科学技术的不断进步与发展,先进的观测技术、精度更高的仪器已经应用到测量数据采集中,这样使得所测数据不含有系统误差或者模型误差这种理想的情况不存在。总而言之,随着测量数据的复杂性增加和解算精度要求增高,使得经典的平差模型已经难以处理现代测绘数据。一是因为影响观测值的因素众多,往往无法全面得考虑到所有的影响因素;其二是由于参数与观测量的函数关系较为复杂,只是用简单的线性模型来对实际问题进行近似描述往往也是不精确的。最后是随机模型也会产生难以消除的误差。所以,经典的高斯平差模型并没有从根本上消除观测数据中的误差,也没有从本质上区分系统误差与粗差,当平差模型存在系统误差或者粗差时,经典平差模型就会失去处理数据的能力。综上所述,对不同的平差模型进行深入研究,更加精确地解算观测量的最佳估值是现代测量数据处理中的基本首要内容。对于较为复杂的测量数据,一般情况下影响观测量的因素可分为两方面:一部分影响因素与的关系表现为是己知的线性关系,并且是观测值的主要影响项,最终可以用参数通过数学关系式或者经验来表达;而另一部分影响因素与的关系完全是未知的,某些学者将这些因素作为观测量的干扰项来处理,并不是误差项的一部分。如果运用参数模型处理,则忽略了干扰项;但是若采用非参数模型处理,又会失去观测值的主要影响项,模型对实际问题的描述能力也明显降低。为了弥补参数和非参数模型的各自不足,测绘学界又将统计领域中的偏线性回归模型引入到测量数据处理中,这就是现在的半参数平差模型,并取得了显著的研究成果。 半参数回归模型是统计领域的一种重要的估计模型,形式如下,给我们解决上述问题提供了思路: (1-3)上式中:是表示观测值函数关系中的系统误差量或者是模型误差,是关于参数个数的函数,由于数据来源的复杂性,造成了作为模型误差或系统误差的的形态难以用单一的回归模型进行模拟,不能仅仅只用少数的参数表示,所以在这个因个观测方程中都添加一个未知量,这个未知量组成的维列向量就是半参数模型中的非参数分量,这样的形式比一般的平差模型具有更强的求解最佳估计量的特性:一是因为半参数回归模型克服了传统平差模型在处理复杂数据时的不适应性;二是半参数模型与客观实际更加趋近;三是在已知观测值和参数关系的情况下再运用一定准则对半参数模型进行求解可以分别求出模型中的估计量即参数分量、非参数分量、,它们分别代表观测中的真值、系统误差、偶然误差。因此,我们可以将半参数模型与测量中许多方面结合进行系统误差提取等。 当今统计界对半参数模型的估计方法研究得较多的主要有样条估计,最小二乘核估计,三角级数估计和分块多项式估计,而且参数部分的模型只适用于线性函数模型,对于非线性模型研究得较少。在统计领域,关于半参数模型的估计问题被认为是一个带有无穷维多余形状参数的欧氏空间的点估计问题。半参数模型的估计途径归纳起来有三种:第一种是对函数空间施加一定的限制;第二是两步估计,本文主要研究的最小二乘核估计就是典型的两步估计;第三是两阶段估计。在测量数据处理中,目前有研究的主要是基于补偿最小二乘准则的光滑样条估计,而近邻估计、小波估计、二阶段估计、分块多项式估计、核估计、三角级数估计等其他估计方法却没有进行深入探讨。 到目前为止,在测绘界中对半参数平差模型研究具体主要分为以下两种:(1)附加系统参数的半参数平差模型: (1-4)上式中,观测值为维列向量,参数向量为维列向量,为是经典平差模型中求得唯一解的必需观测数,代表了参数分量的关系,是一个列满秩矩阵,观测误差向量为维列向量,维未知向量是描述了模型误差或者观测中的系统误差。其误差方程的形式为: (1-5)根据最小二乘准则,求得法方程为: (1-6)在上式中为观测值的权阵,是一个对称正定方阵;和是待求参数分量(个)和非参数分量(个),但是观测值方程只有个,因而无法求得唯一解。这时就必须引入新的平差准则对结果进行约束:定义一个光滑因子和矩阵,它们在和之间起平衡作用,通过改变和得出最佳值,具体形式如下: (1-7)(2)基于外延预测的半参数平差模型,其具体表达形式为: (1-9)在上式中:观测向量为维向量;待估参数为维向量;模型非参数部分为维向量,由于它可以表达出与观测值函数关系不确定的因素部分,对观测值进行部分调整,其拟合程度更加精确,使得最终平差值与真实值很接近。,为某一函数空间上的关系未知函数;为代表了参数关系,是一个维列满秩矩阵;观测误差向量为维向量。上面这两种模型的主要区别是在于解算的过程中:模型(1-4)是先计算非参数分量再计算参数分量;模型(1-9)是先计算参数分量再计算非参数分量。参数平差模型中的函数形式是已知的,而非参数平差模型中的回归函数是未知的,所以参数模型只是需求解待定参数。由以上内容分析可知,半参数平差模型的两个特例是参数平差模型与非参数平差模型,当时为非参数平差模型,将归入误差项则为参数平差模型。§1.2 半参数核估计理论应用研究现状目前国内外对于核估计已经做了很多研究:在国外,Silverman(1986)对自适应核估计做了研究;M.Hagmann(2007)对非对称核密度估计进行了研究,并深入讨论了如何偏差校正;Scott(1992)、Jones(1995)研究了核光滑估计;Peter M.Robinson(2003)对高阶核半参数估计做了研究;T.Alberts、R.J.Karunamuni(2003)对如何运用核密度估计来消除半参数边界误差以及交替的核混合密度估计做了研究;Sebastiano Manzan(2005)对基于偏线性相加模型下的核密度估计做了研究;Eva Ferreira(1997)对在不稳定情况下的相关误差,讨论了核回归估计中的曲线如何增长;Tae Yoon Kim(1995)对较强混合过程中的核密度估计做了研究;D.CHAUDHURI(1996)对数据驱动密度估计及其相关应用做了研究;Nils Lid Hjort(2000)对核密度估计中的最佳窗宽选取做了研究;Bert van Es(1997)对非光滑核密度估计中的积分均方误差进行了分析;Yuri Goegebeur(2010)对极值统计中的参数核估计做了研究; R.J. Karunamuni(2006)对有限混合模型核估计的渐进正态自适应性做了研究;Fateh Chebana(2006),Michel Carbon,Carlos Tenreiro,Abdelkader Mokkadem,Delaigle等学者均深入研究了核估计。在国内,洪圣岩对如何在核估计中选取最佳窗宽做了研究;薛留根对密度函数核估计进行了相关问题的研究;赵林城(1984)将核估计同近邻估计进行了对比,并且通过的自适应估计最终可以得到最优收敛速度;秦更生对随机删失场合中的部分线性模型的核光滑方法进行了研究;王启华对随机删失情况下概率密度核估计中的光滑Bootstrap逼近进行了分析;朱仲义、李朝晖对最小二乘估计与半参数函数模型的核进行了研究。将半参数回归模型同核估计理论相结合并应用到测绘领域,是一种全新的测量平差方法,虽然目前不管在理论研究还是实际应用方面都研究得较少,但是也取得了许多的成就:丁士俊25将详细分析了偏核光滑估计和偏残差核估计方法,并对两种方法的估计性能和效果进行了对比分析;张松林26解算出最小二乘核估计的非参数分量和参数分量的公式,对参数分量的估计结果的有偏性和渐近正态性进行了证明;潘雄32用半参数模型中的非参数分量来模拟系统误差,提出了处理测量中系统误差的一种新方法等等。第二章 半参数核估计方法§2.1 半参数核估计理论目前,研究半参数平差模型的主要方法有偏样条估计、最小二乘估计、分块多项式估计、二阶段估计、多项式估计、三角级数估计、小波估计等,但是目前只有张松林26、丁士俊25等对于半参数平差模型中的核估计进行了研究。 本文所要研究的半参数核估计理论方法,其模型形式为式(1-9)。在本章,主要研究的核估计理论,包括核函数和核权函数的定义与选取;介绍了偏核光滑估计和最小二乘核估计两种估计方法。在小样本的情况下,选取不同的核权函数,不同的核函数,估计结果也就不一样,不同的核估计方法有不同的特点,因而两种半参数核估计方法也有各自的适用范围。在数理统计学中,我们在判断和估计一个数学模型的主要思想就是用从总体样本中所随机抽取的部分样本来对总体进行估计,而本文研究的核估计就是来源于这种思想。在此基础上,数理界定义了核估计:设为己知给定样本空间中独立同分布的一维随机变量,且的密度函数未知,则可以得到一组形式如下的函数: (2-1)其中为定义在()上的一个Borel可测函数,称为概率密度核权函数,也成为核函数。窗口参数>0为常数,称为窗宽,它是与样本容量有关的一列正实数,并且当时,。因此,称这样的一组为未知函数的核估计。同非参数平差模型一样,一提到半参数核估计理论就不得不引入权函数。权函数对于相应变量的空间分布具有较大的影响,在测绘数据处理中,使用比较广泛的权函数有概率密度权函数、最小二乘权函数、丹麦法权函数、Huber权函数、Andrews权函数、Turkey权函数、Hampel权函数以及IGG权函数等等,当然,不同的权函数所产生的估计结果也就不一样。模型为(1-9),则的权函数估计可表示为: =其中为权函数,设是选定的n个依赖于t的 Borel函数,总是的线性组合,一个对应一个,与一般无对应关系,的构造可能与全体或部分的有关,视具体函数而定,故一般写为,是整个样本相对于点的权,它反映了在估计时,样本作用的大小。在一般的实际问题中,设概率权函数 ,权函数其满足下面的条件:, (2-2)满足以上条件的权函数为概率权,由不同的权函数形式衍生出不同的估计方法,核权