数据质量的检查与控制.docx
《数据质量的检查与控制.docx》由会员分享,可在线阅读,更多相关《数据质量的检查与控制.docx(8页珍藏版)》请在三一办公上搜索。
1、数 据 质 量 检 查 与 质 量 控 制 要想清楚并深层次的了解数据质量检查与质量控制的原理,首先应该知道数据质量的基本概念以及数据误差的来源。因为在某些情况下,数据质量问题在很大程度上可以看作是数据误差问题。下面我就详细的为大家介绍数据质量的基本概念和误差来源及其分析,并就其误差,我们再结合相应的检查方法进行精度分析的探讨。一、数据质量的基本概念1、准确性(Accuracy)即一个记录值(测量或观察值)与它的真实值之间的接近程度。这个概念是相当抽象的,似乎人们已经知道存在这样的事实。在实际中,测量的知识可能依赖于测量的类型和比例尺。一般而言,单个的观察或测量的准确性的估价仅仅是通过与可获得
2、的最准确的测量或公认的分类进行比较。空间数据的准确性经常是根据所指的位置、拓扑或非空间属性来分类的。它可用误差(Error)来衡量。2、精度(Precision)即对现象描述的详细程度。如对同样的两点,精度低的数据并不一定准确度也低。精度要求测量能以最好的准确性来记录,但是这可能误导提供了较大的精度,因为超出一个测量仪器的已知准确度的数字在效率上是冗于的。因此,如果手工操作的数字化板所返回的坐标不可能依赖于比0.1mm还要准确的一个“真正的”数值,那么就不存在任何的点,在十分之一的地方是以mm表示的。3、空间分辨率(Spatial Resolution)分辨率是两个可测量数值之间最小的可辩识的
3、差异。那么空间分辨率可以看作记录变化的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个边界,分辨率通常由最小线的宽度来确定。地图上的线很少以小于0.1mm的宽度来画。在一个图形扫描仪中最细的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是一英寸的300分之一,而且在高质量的激光扫描仪上,这会细化十倍。如果没有放大,最细的激光扫描仪的线是看不到的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离。4、
4、比例尺(Scale)比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个1:10000比例尺的地图上,一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小的宽度,那么就不可能表示小于5m的现象。5、误差(Error)定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数目的而言,它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、线的位置的误差和多边形的位置的误差;属性误差;位置和属性误差之间的关系。6、不确定性(Uncertainty)地理信息系统的不确定性包括空间位置的不
5、确定性、属性不确定性、时域不确定性、逻辑上的不一致性及数据的不完整性。空间位置的不确定性指GIS中某一被描述物体与其地面上真实物体位置上的差别;属性不确定性是指某一物体在GIS中被描述的属性与其真实的属性之差别;时域不确定性是指在描述地理现象时,时间描述上的差错;逻辑上的不一致性指数据结构内部的不一致性,尤其是指拓扑逻辑上的不一致性;数据的不完整性指对于给定的目标,GIS没有尽可能完全地表达该物体。二、空间数据质量问题的来源从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数据的应用,在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性,从几个方面来阐述空间数
6、据质量问题的来源。1、空间现象自身存在的不稳定性空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身存在的不稳定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确定性指其在空间位置分布上的不确定性变化;空间现象在时间上的不确定性表现为其在发生时间段上的游移性;空间现象在属性上的不确定性表现为属性类型划分的多样性,非数值型属性值表达的不精确性。因此,空间数据存在质量问题是不可避免的。2、空间现象的表达数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响,这对于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投影转换必然产生误差;用
7、于获取各种原始数据的各种测量仪器都有一定的设计精度,如GPS提供的地理位置数据都有用户要求的一定设计精度,因而数据误差的产生不可避免。3、空间数据处理中的误差在空间数据处理过程中,容易产生的误差有以下几种:投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形式下,地理特征的位置、面积和方向的表现会有差异。地图数字化和扫描后的矢量化处理:数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。数据格式转换:在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征的位置具有差异性。数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的误差
8、,如知识性误差和数据所表达的空间特征位置的变化误差。建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保证各数据层之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移,导致误差。数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位置和属性值的差异。数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其中位置误差、属性误差都会出现。数
9、据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差。数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计和扩散的,前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的误差的产生。4、空间数据使用中的误差在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对数据的解释过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不同,处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。另外,缺少对某一地区不同来源的空间数据的说明,如缺少投影类型、数据定义等描述信息,这
10、样往往导致数据用户对数据的随意性使用而使误差扩散。表:数据的主要误差来源数据处理过程误差来源数据搜集野外测量误差:仪器误差、记录误差遥感数据误差:辐射和几何纠正误差、信息提取误差地图数据误差:原始数据误差、坐标转换、制图综合及印刷数据输入数字化误差:仪器误差、操作误差不同系统格式转换误差:栅格-矢量转换、三角网-等值线转换数据存储数值精度不够空间精度不够:每个格网点太大、地图最小制图单元太大数据处理分类间隔不合理多层数据叠合引起的误差传播:插值误差、多源数据综合分析误差比例尺太小引起的误差数据输出输出设备不精确引起的误差输出的媒介不稳定造成的误差数据使用对数据所包含的信息的误解对数据信息使用不
11、当三、常见空间数据的误差分析GIS中的误差是指GIS中数据表示与其现实世界本身的差别。数据误差的类型可以是随机的,也可以是系统的。归纳起来,数据的误差主要有四大类,即几何误差、属性误差、时间误差和逻辑误差。在这几种误差中,属性误差和时间误差与普通信息系统中的误差概念是一致的,几何误差是地理信息系统所特有的,而几何误差、属性误差和时间误差都会造成逻辑误差,因此下面主要讨论逻辑误差和几何误差。1、误差的类型(1)逻辑误差数据的不完整性是通过上述四类误差反映出来的。事实上检查逻辑误差,有助于发现不完整的数据和其他三类误差。对数据进行质量控制或质量保证或质量评价,一般先从数据的逻辑性检查入手。如图1所
12、示,其中桥或停车场等与道路是相接的,如果数据库中只有桥或停车场,而没有与道路相连,则说明道路数据被遗漏,使数据不完整。图1:各种逻辑误差(2)几何误差由于地图是以二维平面坐标表达位置,在二维平面上的几何误差主要反映在点和线上。(21)点误差关于某点的点误差即为测量位置(x,y)与其真实位置(x0,y0)的差异。真实位置的测量方法比测量位置的要更加精确,如在野外使用高精度的GPS方法得到。点误差可通过计算坐标误差和距离的方法得到。坐标误差定义为:x=x-x0 ; y=y-y0为了衡量整个数据采集区域或制图区域内的点误差,一般抽样测算(x,y)。抽样点应随机分布于数据采集区内,并具有代表性。这样抽
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 质量 检查 控制
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1688998.html