地理信息系统数据库的组织.ppt
地理信息系统Geographic Information System,第四章 地理信息系统数据库的组织,组织地理信息系统:(1)确定收集数据;(2)数据预处理;(3)按区域框架和图层结构将收集的数据输入计算机;(4)数据处理;(5)空间数据库的管理;(6)空间查询、分析等;(7)结果输出。,GIS,以数据为处理线索 硬件软件数据=12 7,数据在GIS中的地位,空间区域框架及图层结构空间数据的录入及处理空间数据管理,4.1 空间区域框架与图层结构,一、空间区域框架空间区域框架:就是按区域储存和表达空间信息的一套规则。1、分为:自然区域框架,行政区域框架,自然-行政综合区域框架,和地理网格区域框架。2、地形图都是以地理网格区域框架作为储存和表达空间数据的基础。一般的专题图或以所研究的自然区域,或行政区域,或以自然-行政综合区域框架为基础。,3、地形图区域框架的划分(国际分幅法规),(1)国际标准图幅以1100万的地图为基础划分纬差4度,从赤道向南北各自分成22带,用A,B,C,V表示带名;经差6度,从东经180度起,由西向东分成60带,用1,2,3,60,表示带名;纵横交错形成地理网格,每个网格作为1100万 地图的空间区域框架,用横、纵带名双编码表 示,如L52(北纬4448,东经126132),各种比例尺的地形图的地理区域框架是一致的,具有包容性。只要两种地图具有相同的投影方式,大比例尺地形图可定位在小比例尺地形图上,图层概念:计算机内二维阵列中的每个单元仅能容纳一个数值,为表达不同的地图数据,必须被分离成不同的二维阵列来储存,每个储存层及储存的数据被称为图层。图层结构:不同的图层组织在一起形成了图层结构。,栅格数据分层,X,空间数据分层方法:1)专题分层 每个图层对应一个专题,包含某一种或某一类数据。2)时间序列分层 即把不同时间或不同时期的数据作为一个数据层。3)地面垂直高度分层 把不同高度的数据作为一个数据层。,空间数据分层的目的:便于空间数据的管理、查询、显示、分析等。1)管理简单 2)可加快查询速度 3)增加了图形显示的灵活性 4)对不同数据层进行叠加,可进行各种目的的空间分析,4.2 空间数据库的总体结构,一、数据库概述,1、数据库概念:一个数据库就是有关事物及其它们彼此之间关系的信息集合,这些信息的集合是按一定的数据模型和逻辑结构被储存一个或多个适合于计算机的数据文件之中。,2、计算机对数据的管理经历的三个发展阶段:1)程序管理阶段:2)文件管理方式:顺序、随机、索引、倒排文件等3)数据库管理系统:层次模型、网状模型和关系模型等,1)程序管理:10 Read x,y,z20 a=x+y 100 data 3,7,8,3,4,10,2)文件管理:顺序文件:按记录进入文件的先后顺序存放。优点:结构简单,连续存取速度快缺点:不便于插入、删除和修改等操作随机文件:采用关键字变地址方法组织文件。优点:文件随机存放,插入删除方便,查找速度快,节省空间。,索引文件:带有索引表的文件,在索引表中存放记录的关键字和记录在文件中的位置。索引区:存放索引表数据区:存放主文件查询:先查索引表,再按索引表所指地址查记录。在GIS中,空间数据量大,使用索引文件可以提高系统运行速度。,数据文件,弧索引表,倒排文件:在多关键字文件中,建立一系列次关键字索引表。这种次关键字的索引表称作倒排文件。次关键字索引表中每个索引项应包含次关键字及具有同一次关键字的多个记录的主关键字或物理记录号。优点:对复杂的多关键字查询时,可在倒排表中先完成查询的“交”、“并”等逻辑运算,然后将得到的结果再对主文件中记录进行存取。即把对记录的操作转换成地址集合的运算,提高了查询的速度。,土地资源文件,在土地资源数据文件中,地块号为关键字,地貌类型、坡度、坡向、利用现状为次关键字。对次关键字分别建立倒排表。,地貌类型倒排表,坡向倒排表,利用现状倒排表,现在要查询土地资源数据库中,利用现状为林地,地貌类型为缓坡、坡向为半阳的地块。,方法:查询倒排文件并进行逻辑运算。(1)查利用现状倒排表得林地的地块号为:1,4,5,6,10;(2)查地貌类型倒排表得缓坡的地块号:1,5,6,10;(3)查坡向倒排表得半阳的地块号:4,6,10;(4)对(1),(2),(3)所得结果求交得:6,10。符合条件的地块为6号和10号地块。,层次数据库模型,它的特点是将数据组织成一对多关系的结构。层次结构采用关键字来访问其中每一层次的每一部分。层次数据库结构特别适用于文献目录、土壤分类、部门机构等分级数据的组织。,3)数据库管理,层次数据库模型,优点:存取方便且速度快结构清晰,容易理解数据修改和数据库扩展容易实现检索关键属性十分方便缺陷:结构呆板,缺乏灵活性同一属性数据要存储多次,数据冗余大(如公共边)不适合于拓扑空间数据的组织,网络数据库模型,网络模型用连接指令或指针来确定数据间的显式连接关系,采用图数据结构,具有图数据结构的一系列特点。表达的数据关系是多对多,且数据之间具有显式的连接关系,但没有层次关系。,网络数据库模型,优点:能明确而方便地表示数据间的复杂关系数据冗余小缺陷:网状结构的复杂,增加了用户查询和定位的困难。需要存储数据间联系的指针,使得数据量增大数据的修改不方便(指针必须修改),关系数据库模型是以记录组或数据表的形式组织数据,以便于利用各种地理实体与属性之间的关系进行存储和变换,不分层也无指针,是建立空间数据和属性数据之间关系的一种非常有效的数据组织方法。,点,关系数据库模型,点,关系数据库模型,优点:结构特别灵活,满足所有布尔逻辑运算和数学运算规则形成的查询要求能搜索、组合和比较不同类型的数据增加和删除数据非常方便缺陷:数据库大时,查找满足特定关系的数据费时 对空间关系无法满足,标准DBMS存储空间数据的局限性,空间数据记录是变长的(如点数的可变性),而一般的数据库都只允许把记录的长度设定为固定在存储和维护空间数据拓扑关系方面存在着严重缺陷一般都难以实现对空间数据的关联、连通、包含、叠加等基本操作不能支持复杂的图形功能单个地理实体的表达需要多个文件、多条记录,一般的DBMS也难以支持难以保证具有高度内部联系的GIS数据记录需要的复杂的安全维护,数据库与传统文件系统的差别:(1)数据独立于应用程序而集中管理,实现了数据共享,减少了冗余,提高了效益;(2)在数据间建立了联系,从而使数据库能反映出现实世界中信息的联系。,数据库的主要特征(与传统文件管理相比):(1)数据集中控制;(2)数据冗余度小;(3)数据独立;(4)复杂的数据模型;(5)数据保护。,二、GIS空间数据库,1、GIS空间数据库特点,1)复杂性,A.数据类型复杂:空间数据和属性数据紧密相连B.数据结构复杂:包括矢量和栅格两种结构C.数据之间关系复杂:空间数据与属性数据既相互独立又密切联系,2)多样性,查询与检索同时涉及空间与属性数据,经常引入算法与模型。,3)数据量大,空间数据量大,记录长度多变,需用合理的算法,数据结构及编码方式,2、GIS空间数据库组织与管理,(1)地图数据(空间数据)采用文件处理方式,应用程序知道每个数据文件的数据结构。,空间数据管理模块包括以下功能:a.地图数据输入:地图数字化、坐标变换、空间数据编辑、拓扑变换、注记等b.空间数据管理和维护:图库管理、数据格式变换、数据编码变换、地图投影变换、地形数据管理、空间数据组合与分解等c.标准查询 等,(2)属性数据采用数据库管理方式(DBMS),如dbase,Foxbase,Oracle等。,(3)图形数据与属性数据的连接根据属性表中的唯一公共标识来连接,(5)混合式空间数据库和一体化空间数据库功能结构举例(以ArcGIS为例),1)以ArcGIS为例,理解混合式空间数据结构,ArcGIS中,每生成一矢量或栅格专题,会自动产生一个属性表,可以对属性表进行编辑、连接等操作。,2)ArcGIS 中的SDE集成方式体现了使用一体化的空间数据库的结构。SDE扩展了传统的关系数据库只存储和管理属性数据的模式,允许把空间数据加入到关系数据库,提供地理要素的空间位置几何形状等信息。,4.3 空间数据的数字化,GIS空间数据库的主要数据源:地图类:数字化;图像类:遥感成图,然后数字化;扫描后进行图像处理、判读;文件类:调查报告、文件、统计数据、实验数据、野外调查的原始记录等,数据源与相应设备,一、地图数字化处理过程的框架 1.地图数字化过程的总体框架,2、系统分析过程,系统分析过程是根据任务的具体情况出发,全面地分析目标、经费、时间、现有条件等之间的关系,平衡目标和约束条件之间的矛盾,制定出地图数字化过程的方案,和对各个技术环节的具体要求。,3、地图文件预处理和编修过程,1)收集的空间数据不同:地图、航片或遥感图像等2)成像年代、投影类型、比例尺及精度可能不一致3)属性分类及度量单位也不会完全一致 所以要进行预处理。,地图文件预处理和编修过程,4、地图数字化过程,矢量数据:1)数字化仪数字化 2)屏幕数字化:先扫描然后数字化栅格数据:1)用手工方法 2)在GIS平台上由矢量转栅格。,5、数字化结果的检查与编辑,二、专题图的编篡方法,建立GIS数据库时,可能会遇到缺少某些专题图,或所收集的专题图在编图时间、比例尺、投影方式、精度等方面不相同,需要编篡。四种方法:直接转绘法;遥感成图法;利用航片修订现存专题图法;野外调查、测量成图法。,直接转绘法比例尺不同:先归正比例尺,再转绘。用方格纯手工或用转绘仪或光学缩放仪等方法。比例尺相同:直接转绘区域框架不同:修正位置和边界,把基本图和工作图配准线性综合:边界与线性特征的取舍补充,与相邻图幅是否一致,属性编码是否一致,利用遥感或航片成图法:1、判读:根据图象判定地物,不同程度上进行地物的分类和区划2、成图:把图象判读区划结果定位到基本图上。,野外调查测量成图方法:使用遥感图像进行区划判读,确定空间位置,通过 野外调查获得各区划类型的属性数据。,三、专题地图一体化预处理过程,一体化预处理过程就是把这些专题地图定位在所选定的区域框架上,并统一各区划边界及分类单位。在数字化之前进行称为预处理,在数字化之后进行称为后处理。,1、统一专题图的区域框架,制作一体化底图。2、统一区划边界线。3、统一属性数据的分类系统。,四、地图数据的数字化方式,1、数字化仪的输入方式数字化仪由数字化平板和鼠标控制器组成,GIS早期较多用。受精度限制,现在少用,2、扫描仪数字化输入方式 先用扫描仪对地图或文件扫描,然后用计算机软件处理,提取点、线、面等。分自动矢量化和交互式矢量化。,3、计算机屏幕数字化方式 把航片、卫星图象,地图扫描成数字化位图数据。GIS 系统工具把这些数据作为一个图象专题加载到GIS系统内。在GIS 功能模块支持下,把这些专题显示在屏幕上,以这些图象为底图,进行目视轮廓判读、地物与边界的识别等,然后利用GIS的绘图功能,绘出点、线、面等不同地图要素的专题图数据。,4、遥感数据源输入GIS方式 遥感数据分为航片和卫片。经过图像处理软件的处理和分析,卫片可直接加载到GIS中,5、CAD数据、栅格数据手工输入和文本等空间数据输入方式 CAD绘图与图形编辑功能强大,成为很好的数字化软件,五、空间数据质量误差来源:数据收集、数据录入、数据存储、数据处理、数据输出、数据应用。质量控制:准确度、精度、不确定性、相容性、一致性、完整性、可得性、现势性。,数据质量,准确度:与真值的接近程度;精度:对象表达的详细程度 不确定性:不能精确描述的对象 相容性:两个来源数据在同一应用中的难易程度 一致性:同类现象表达的一致性 完整性:数据的完整性 可得性:数据获取的容易程度 现势性:数据反映对象目前的程度,常见数据输入错误,图纸移动 图纸变形 制图误差 数字化误差 各种误差将影响到GIS数据处理的各个环节,制图错误,图幅接边误差,数字化误差,数据编辑内容与方法,空间数据编辑的必要性 修正数据输入错误 维护数据的完整性和一致性 更新地理信息 空间数据编辑内容 数据不完整、重复 空间数据位置不正确 空间数据比例尺不准确 空间数据变形 几何和属性连接有误 属性数据不完整 主要方法 叠合比较法 目视检查法 逻辑检查法,4.4 空间数据管理,三个坐标系之间的转换:数字化仪坐标系图幅坐标系屏幕坐标系变换表现为三方面:平移,旋转,缩放,一、地图数据的坐标变换与图象的地理编码,1、数字化仪与图幅坐标系之间的变换(平移和旋转),其中:x1,y1地图上一点在图幅坐标系中的坐标;x,y该点在数字化仪坐标系中的坐标;x0,y0 图幅坐标系中的原点在数字化仪坐标系中的坐标值;A 图幅坐标系的坐标轴与数字化仪坐标系的坐标轴逆时针的夹角。,如何求X0,Y0与A的值,在数字化仪上先测得图幅四个角点P1、P2、P3、P4的x和y坐标,2、屏幕与图幅的坐标变换,比例变换因子:,其中:,X与Y方向上屏幕窗口与图幅比例变换因子,其中:x1与y1是图幅内任意点的图幅坐标x2与y2是该点在屏幕上的屏幕坐标,变换公式:,二、空间数据格式变换,栅格数据格式 矢量数据格式(一)两种数据格式变换的基础1、矢量数据格式:空间位置是用它们在某一参照坐标系中的坐标来表达。点:单个的坐标 线:一组坐标值 面:封闭的边界线2、栅格数据格式:表达空间位置数据的基本单位是栅格单元(像素),3、将一个网格系统覆盖在笛卡儿坐标系统上,可生成一个网格坐标系统。向量地图上线和面的边界可以用网格线近似表达。精度取决于网格密度。4、栅格坐标系统左上角为坐标原点,矢量坐标系统左下角为坐标原点。两坐标系之间存在着相互转换的关系。,(二)由栅格数据转换成拓扑向量数据的算法分析(多边形),设给定网格数据是一个NN矩阵间隔:矩阵中同一行内相互邻接,且具有 相同专题属性值的元素构成一个间 隔段。区域:分布在不同行,但相互邻接的间隔组 成一个区域。,(1)对网格型数据所描述的区域赋给一个标志值,A.对第一行的每一个间隔段按先后顺序给定一个标志值 B.从第二行开始到最后一行,如果某一间隔的第一个元素的专题属性值等于上一行相邻的间隔段的专题属性值,则该间隔的标志值采用上一行与其相邻间隔的标志值,否则赋给一个新的标志值。如果在一间隔内第一个元素以外的其它元素与上一行相邻接的元素有着相同的专题属性值,而这两个元素所在的间隔段的标志值又不相同,则这两个间隔段要建立一个关系。,C.在所有的间隔都赋给了一个间隔值后,则获得一个包含相邻间隔之间的关系表和关系子图。每个子图把属于同一区域的间隔段连结在一起。每个区域取值为间隔段的最小标志值。这样同一区域的所有间隔段都被赋给了一个相同的唯一标志值。为去掉断号现象,按从小到大的次序重新对区域标志编号。,D.专题属性值转变成标志值后,形成二者的关系表,进行空间处理分析时应用。提取每个区域间隔段时,每个间隔段用R-L 码进行编码(行列编码),编码值与区域标志值储存在一起。,(2)区域和邻域关系表,每个区域的邻域用开“窗口”方法获得(22)。如果两个或三个元素的区域标志值在“窗口”中不同,则表明这些标志值所代表的区域具有邻域关系。,区域与邻域关系表,(3)提取边界线,并用链码编码,为提取边界线及结点,开设22的窗口进行游动搜索。窗口内结点及边界结果如图,探测结点并编码之后,从第一个结点开始提取隐含的边界线。每个结点提取3条以上的隐含的边界线。一条链只能提取一次。每条链的首尾结点坐标以及该链的左右区域的标志值均被存储在同一个拓扑文件之中,而把组成隐含边界线的链编码存储在另一文件中。在每个链的拓扑记录中有一个指针指向链编码文件中该链首结点的物理地址。对提取的边界线进行平滑处理。,(三)由拓扑向量数据结构向网格数据结构变换,要点:确定栅格元素的大小,即分辨率。如地形起伏大应用高分辨率了解矢量数据和栅格数据的坐标。如矢量数据的坐标是直角坐标系,原点在图的左下方,栅格数据坐标是行列坐标,原点在图左上方,转换时,一般使直角资本x,y轴与栅格数据行列平行,转换公式:X=(Xmax-Xmin)/JY=(ymax-ymin)/I其中:xmax xmin ymax ymin 表示矢量坐标中x,y的最大值,最小值。I,J表示栅格的行数和列数xy表示每个栅格单元的边长,基本要素的转换,(1)点的转换行 i=1+Integer(ymax-y)/y列 j=1+Integer(x-xmin)/xInteger-取整i,j-行,列值,(2)线的转换,线的转换实质是完成相邻两点间直线的转换。设直线AB端点坐标为A(x1,y1),B(x2,y2)则需把A,B两点矢量坐标转换成栅格数据,同时求出直线AB经过的中间栅格数据。1 利用点转换法,将A,B转换成栅格数据,求出行列值2 由上述行列值求出直线所在行列范围3 确定直线经过的中间栅格点,B i(x,y)A,求出直线经过的起始行号为i1,终止行号为im,则中间行号为i2,i3im-1现在要求出相应行号相交于直线的列号1)求相应i行中心处同直线相交的y值y=ymax-y(i-1/2)2)用直线方程求y值对应的x值X=(x2-x1)(y-y1)/(y2-y1)+x13)由x,y值求相应i行的列值jJ=1+Integer(x-xmin)/x如此不断求直线经过的各行的列值,完成转换,已知某矢量坐标系,坐标原点为O(0,0),X坐标的最大值为150,Y坐标的最大值为300,其中有两点P1和P2,坐标分别为P1(51,100)、P2(53,103)试将P1、P2所连成的直线转为栅格坐标,栅格坐标系的分辨率为300行150列。,P1点的行列值:i=1+Integer(300-100)/1=201 j=1+Integer(51-0)/1=52P2点的行列值:i=1+Integer(300-103)/1=198 j=1+Integer(53-0)/1=54直线经过的行范围:198-201,199行中心处同直线相交的y值:y=300-199*1+1/2=101.5该行y值对应的x值:x=(53-51)(101.5-100)/(103-100)+51=52x坐标对应的栅格列值为:j=1+Integer(52-0)/1=53,200行中心处同直线相交的y值:y=300-200*1+1/2=100.5该行y值对应的x值:x=(53-51)(100.5-100)/(103-100)+51=51.3x坐标对应的栅格列值为:j=1+Integer(51.3-0)/1=52P1、P2所连成的直线的栅格坐标为(201,52),(200,52),(199,53),(198,54),(3)区域填充,区域矢量数据转成栅格数据是通过矢量边界轮廓的转换实现的。矢量边界线段转成栅格数据后,还要进行面域的填充。1)射线法判断疑问点p(x,y)是否在多边形内,从点向左引水平扫描线(射线)与区域边界相交次数为c,若c为奇数,在多边形内,c为偶数,则在多边形外。作一系列水平扫描线,求出扫描线和区域边界交点,将交点按x值大小排序,其相邻坐标点之间的射线在区域内。,产生奇异性,奇异性:射线遇到极值点出现判断失误。a.采用邻点分析法区分出极值点。对极值点看作2个同值交点,对非极值点看作一个斜交点,从而解决奇异性。判断极值点:极值点为两直线交点,若两直线在扫描线的同一侧,则为极值点,否则为非极值点。,b.简化方法:它对组成多边形的每条直线的高端点y值坐标进行负修正,避开了奇异性。又称上闭下开法。即在二直线的交点处扫描线上面的边与扫描线交点有效,扫描线下面的边与该扫描线交点无效,扫描线与多边形重合时不作求交运算。,2)边界点跟踪法 从边界上某一点栅格单元开始按顺时针方向跟踪边界上各栅格,对多边形中岛则按逆时针方向跟踪,将跟踪的每个栅格分别赋予R,L,N。R-该栅格同相邻元素的行数不同,且行数增加的单元L-该栅格同相邻元素的行数不同,且行数减少的单元N-该栅格值单元同相邻单元行数相同最后,逐行扫描,根据填充字符值,填充L-R之间的栅格。,3)边界代数法前提:已知组成多边形边界(弧段)的拓扑关系,即边界前进方向的左右多边形号。方法:假定沿边界前进方向y值下降时称下行,y值上升时称上行。上行时填充值为左多边形号减右多边形号,下行时为右多边形号减左多边形号,将每次填充值同该处的原始值作代数运算得到最终填充值。,4)种子法(内部点扩散法)由多边形的一个内部点开始,向其他八个方向的邻点扩散,判断每个新加入点是否在多边形边界上,如果是边界点,则新加入点不作为种子点。如不是边界点,则把新加入点作为种子点与原有种子点一起进行扩散运算,并将该种子点赋予多边形的编号。重复上述过程,直到所有种子点填满该多边形并遇到边界为止。,三、空间数据配准,概念:是对空间数据进行几何变换,把地面坐标分配给地图数据进行地理编码,或对空间数据层(图层结构)之间进行空间位置的精确配准,以便使它们能够在空间分析时进行叠加操作。过程:把不同的数据层配准到一个共同的坐标系统中,或配准到标准的数据层。,1、绝对位置配准,概念:绝对配准是把每一个图幅的空间数据及每一个数据层的空间数据先后分别独立地与同一地理坐标系配准,然后再把它们彼此配准。,2、相对位置的配准,把从属层与主数据层(基本图)的数据配准,不强调是高斯坐标或其它的大地坐标系,以基本图层在ArcGIS中的现有坐标为基准坐标。选择控制点和形成匹配参数文件的过程同绝对位置,只是控制点要在基本图层和拟匹配的图层分别去取,两个图层必须是同一的、明显的地物点。,3、局部位置配准把某些地物局部位置一体化。如某一图层上的边界线可能和另一图层上的河流或道路是吻合的。由于这些数据来源不同,位置上可能出现偏差,需要进行局部位置上的配准。配准时要以基本图层的地图要素为准。ArcGIS中通过绘图要素的修改来实现局部配准(vertex edit)。对具有拓扑数据结构的图层修改时应十分小心,以免破坏结构。,4、图幅之间的地图要素配准 同一地图要素分幅输入,存在输入误差,或图纸收缩变形等原因,可能造成它们之间没有连接。在形成空间数据库的最后阶段要对相邻图幅进行接边检查和修正编辑,消除或使它们限定在一定的范围之内。方法是调入相邻图幅逐边检查与编辑。,边界匹配(图幅接边)不同图幅的连接自动、手工第一种方法是小心地修改空间数据库中点和矢量的坐标,以维护数据库的连续性;第二种方法是先对准两幅图的一条边缘线,然后再小心地调整其它线段使其取得连续。,四、空间数据的组装定义:将按区域框架和图层结构输入和存储的空间数据(分幅的数据)连接起来。方法:建立倒排索引文件。注意:不同图幅地图要素属性值的统一和综合;图例编辑的一致性;表达分类单位的一致性;考虑不要破坏拓扑关系。,本章作业1、我国基本比例尺地形图分幅与编号的计算 方法 2、矢量数据结构与栅格数据结构转换的方法。3、如何进行空间数据的配准?,Thank You!,