空间数据的统计分析-2-本.ppt
第七章 空间数据的统计分析方法(2),武汉大学遥感信息工程学院遥感科学与技术本科生教案(2012),秦 昆,2,空间点模式分析方法面状数据空间模式分析方法,3,空间点模式分析方法,4,空间点模式分析方法,在地图上,居民点、商店、旅游景点、流行病、犯罪现场、交通事故发生地等都表现为点的特征,有些是具体的地理实体对象,有些则是曾经发发生的事件的地点。这些地理对象或事件(点)的空间分布模式对于城市规划、服务设施布局、商业选址、流行病的控制等具有重要的作用。根据实体或事件的空间位置研究其分布模式的方法称为空间点模式。,5,空间点模式分析方法,点模式分析技术曾经在20世纪60年代的计量革命时代十分盛行,但是早期的系统和方法缺乏直观的地图表示。随着GIS的发展和地理空间数据的丰富,以及对GIS空间分析能力的广泛需求促进了空间数据分析方法的发展。点模式空间统计分析方法重新引起了人们的兴趣,基于GIS或地图环境的交互式模式分析工具不断出现,或作为方法库被统计分析程序所调用,或作为GIS软件包的宏模块,或作为空间分析软件包的函数。,6,空间点模式分析方法,空间点模式的概念,点模式是研究区域R内的一系列点的组合S1=(x1,y1),S2=(x2,y2),Sn=(xn,yn)其中,Si是第i个观测事件的空间位置。研究区域R的形状可以是矩形,也可以是复杂的多边形区域。,7,空间点模式分析方法,点在空间上的分布千变万化,但不会超出从均匀到集中的模式。一般将点模式区分为三种基本类型:聚集分布、随机分布、均匀分布。,区域内点集对象或事件分布模式的基本问题:这些对象或事件的分布是随机的、均匀的、还是聚集的?研究分布的模式对于探索导致这一分布模式形成的原因非常重要。例如:在一个城市区域中大型商业网点的空间分布模式是否显著地影响了餐饮网点的分布,这是二元空间点模式问题。,8,从统计学的角度,地理现象或事件出现在空间任意位置都是有可能的。如果没有某种力量或者机制来“安排”事件的出现,那么分布模式最有可能是随机分布的,否则将以规则或者聚集的模式出现。对于此类问题,地理世界中的事物可能存在某种联系。一种现象的分布模式是否对另一种现象的分布模式产生影响也是点模式需要解决的重要问题。,空间点模式分析方法,9,点模式空间分析方法,空间模式的研究一般是基于所有观测点事件在地图上的分布,也可以是样本点的模式。点模式关心的是空间点分布的聚集性和分散性问题,地理学家在研究过程中发展了两类点模式分析方法:(1)以聚集性为基础的基于密度的方法:主要有样方计数法和核函数方法两种;(2)以分散性为基础的基于距离的技术:通过测度最近邻点的距离分析点的空间分布模式,主要包括最邻近指数、G-函数、F-函数、K-函数方法等。,空间点模式分析方法,10,基于密度的方法样方计数法与核函数法,样方分析:,样方分析(quadrat analysis,QA)是研究空间点模式最常用的直观方式。基本思想:通过空间上点分布密度的变化探索空间分布模式,一般使用随机分布模式作为理论上的标准分布,将QA计算的点密度和理论分布做比较,判断点模式属于聚集分布、均匀分布还是随机分布。,11,基于密度的方法样方计数法与核函数法,样方分析:,QA的一般过程:(1)将研究区域划分为规则的正方形网格区域;(2)统计落入每个网格中点的数量。由于点在空间上分布的疏密性,有的网格中点的数量多,有的网格中点的数量少,有的网格中点的数量甚至为零;(3)统计出包含不同数量点的网格数量的频率分布。(4)将观测得到的频率分布和已知的频率分布或理论上的随机分布(如泊松分布)作比较,判断点模式的类型。,12,样方分析方法QA中对分布模式的判别产生影响的主要因素:样方的形状,采样的方式,样方的起点、方向和大小等,这些因素会影响到点的观测频次和分布。QA分析中样方的形状一般采用正方形的网格覆盖,也可以自己定义样方的形状,如圆形、正六边形等,以适合于所要研究的问题。无论采用何种形式的样方要求网格形状和大小必须一致,以避免在空间上的采样不均匀。,13,样方分析方法除了规则网格外,采用固定尺寸的随机网格也能得到同样的效果。从统计意义上看,使用大量的随机样方估计才能获得研究区域点密度的公平估计。,14,样方的尺寸选择对计算结果会产生很大的影响。(b)和(c)两种不同尺寸的网格,可能会导致不同的分析结论。根据专家的研究,最优的样方尺寸是根据区域的面积和分布于其中的点的数量确定的,计算公式为:Q=2A/n式中,Q是样方的尺寸(面积);A为研究区域的面积;n为研究区域中点的数量。最优样方的边长取。,样方分析方法,15,当样方的尺寸确定后,利用这一尺寸建立样方网格覆盖研究区域或者采用随机覆盖的方法,统计落入每个样方中的数量,建立其频率分布。根据得到的频率分布和已知的点模式的频率分布的比较,判断点分布的空间模式。,2)样方分析方法,核密度估计法(kernel density estimation,KDE)认为地理事件可以发生在空间的任何位置上,但是在不同的位置上,事件发生的概率不一样。点密集的区域事件发生的概率高,点稀疏的地方事件发生的概率低。KDE反映的就是这样一种思想:使用事件的空间密度分析表示空间点模式。和样方计数法相比较,KDE更加适合于可视化方法表示分布模式。,核密度估计法,16,在KDE中,区域内任意一个位置都有一个事件密度,这是和概率密度对应的概念。空间模式在点S上的密度或强度是可测度的,一般通过测量定义在研究区域中单位面积上的事件数量来估计。最简单的事件密度估计方法是在研究区域中使用滑动的圆来统计出落在圆域内的事件数量,再除以圆的面积,就得到估计点S处的事件密度。,核密度估计法,17,核密度估计法,18,根据概率理论,核密度估计的一般定义为:设X1,Xn 是从分布密度函数f的总体中抽取的独立同分布样本,估计f在某点x处的值f(x),通常有Rosenblatt-Paren核估计:,19,核密度估计法,核密度估计法,20,核密度估计法,核密度估计法的特点:,21,关于KDE中的带宽,22,核密度估计法,23,核密度估计法,KDE中的边缘效应,这是位于R内的体积,当R是一个非规则的多边形区域时,将导致计算量的急剧增加。,24,KDE方法在热带气旋源地分析中的应用:,25,我们还对11经纬度的网格用样方计数法进行了计算。通过两种方法对比可以看出KDE方法能够更好地揭示台风源地的模式。,26,KDE方法在热带气旋源地分析中的应用:,基于距离的方法,最近邻距离法:,27,最邻近距离法(也称为最邻近指数法)使用最邻近的点对之间的距离描述分布模式,形式上相当于密度的倒数(每个点代表的面积),表示点间距。最邻近距离法首先计算最邻近的点对之间的平均距离,然后比较观测模式和已知模式之间的相似性。一般将随机模式作为比较的标准,如果观测模式的最邻近距离大于随机分布的最邻近距离,则观测模式趋向于均匀,如果观测模式的最邻近距离小于随机分布模式的最邻近距离,则趋向于聚集分布。,最邻近距离:,28,基于距离的方法,最邻近距离是指任意一点到其最邻近的点之间的距离。图4.10中编号1的点的最邻近点是2,最邻近距离为3.67。,CSR模式:完全随机模式,29,基于距离的方法,最近邻指数测度方法,30,基于距离的方法,为了使用最邻近距离测度空间点模式,1954年Clark和Evans提出了最邻近指数法(NNI)。NNI的思想:首先对研究区内的任意一点都计算最邻近距离,然后取这些最邻近距离的均值作为评价模式分布的指标。对于同一组数据,在不同的分布模式下得到的NNI是不同的,根据观测模式的NNI计算结果与CSR模式的NNI比较,即可判断分布模式的类型。聚集模式由于点在空间上多聚集于某些区域,计算得到的NNI应当小于CSR模式的NNI;均匀分布模式下,点之间的距离比较平均,计算得到NNI大于CSR模式的NNI。因此,通过最邻近距离的计算和比较就可以评价和判断分布模式。,NNI的一般计算过程:,31,基于距离的方法,NNI的一般计算过程:,32,基于距离的方法,33,基于距离的方法,34,在现实世界中,观测模式的分布呈现出各种各样的状态,在理论上还存在极端聚集和极端均匀的情况。极端聚集的状态:所有事件发生在研究区域的某一个位置上,R=0;极端均匀的分布模式:均匀区域上邻近的3个点构成等边三角形,即空间被正六边形划分,点位于正六边形的中心。R=2.149。在现实世界中,地理现象或事件的分布方式完全凝聚于一点或被组织为正六边形的情况十分罕见。,显著性检验,35,36,显著性检验,实例研究,37,NNI中通过简单的概念揭示了分布模式的特征,但是只用一个距离的平均值概括所有邻近距离是有问题的。在点的空间分布中,简单的平均最近邻距离概念忽略了最邻近距离的分布信息在揭示模式特征中的作用。如果最近邻距离是均匀分布的,那么均值是唯一的稳健估计。图中给出了用实例数据计算得到的最邻近距离的频率分布直方图,显然这是一种偏态分布,更多点的最邻近距离小于均值99.48km。此外,NNI中,模式的显著性信息被忽略了。,G函数与F函数,38,G函数和 F函数就是用最近邻距离的分布特征揭示空间点模式的方法。这两个函数是关于最邻近距离分布的函数。,G函数,39,G函数与F函数,G函数,40,示例,如图所示的研究区域中分布有10个事件(点),计算其G函数,G函数,41,首先,计算最邻近距离,并按照升序对这些距离排序。,G函数,42,G函数,43,根据G(d)曲线的形状分析空间点模式:如果点事件的空间分布趋向聚集,具有较小的最邻近距离的点的数量就多,那么G函数会在较短的距离内快速上升;如果点模式中事件趋向均匀分布,具有较大的最邻近距离的点的数量多,那么G函数值得增加就比较缓慢。,如果G(d)在短距离内迅速增长,表明点空间分布属于聚集模式;如果G(d)先缓慢增长后迅速增长,表明点空间分布属于均匀模式。,G函数,44,图4.16是聚集、随机、均匀三类点模式的G函数曲线的形状。在实际应用中还需要进行显著性检验。,45,F函数,46,F函数,47,F函数,48,实例分析,F函数,49,F函数,50,K函数和L函数,为了在更加宽泛的尺度上研究地理事件空间依赖性与尺度的关系,Ripley提出了基于二阶性质的K函数方法,随后,Bessage又将K函数变换为L函数。K函数和L函数是描述在各向同性或均质条件下点过程空间结构的良好指标。,51,K函数,52,1.定义与K函数估计,K函数,53,1)定义,(4.36),K函数,54,(4.36),K函数,55,K函数,56,K函数,57,3)K函数的边缘效应与校正,K函数,58,2.K函数的点模式判别准则,实例研究,K函数,59,K函数,60,L函数,61,62,L函数:实例,63,面状数据空间模式分析方法,面状数据是地理学研究中的一类重要数据,很多地理现象都通过规则的或不规则的多边形表示,这类地理现象的显著特点是空间过程与边界明确的面积单元有关。面状数据通过各个面积单元变量的数值描述地理现象的分布特征。例如气候类型区、土壤类型区、土地利用类型区、行政区、人口普查区等。面状数据的空间模式研究的是面积单元的空间关系作用下的变量值的空间模式。面积单元之间的邻接与否、距离远近等对于变量的空间分布具有重要影响。,面状数据空间模式分析方法,64,空间邻接性就是面积单元之间的“距离关系”,基于“距离”的空间邻接性测度就是使用面积单元之间的距离定义邻接性。测度任意两个面积单元之间的距离的两种方法:(1)按照面积单元是否有邻接关系的邻接法,(2)基于面积单元中心之间距离的重心距离法。,空间接近性与空间权重矩阵,65,(1)边界邻接法:面积单元之间具有共享的边界,被称为是空间邻接的,用边界邻接可以定义一个面积单元的直接邻接,然后根据邻接的传递关系还可以定义间接邻接,或者多重邻接。(2)重心距离法:面积单元的重心或中心之间的距离小于某个指定的距离,则面积单元在空间上是邻接的。这个指定距离的大小对于一个单元的邻接数量有影响。,66,空间权重矩阵是空间邻接性的定量化测度。假设研究区域中有n个多边形,任何两个多边形都存在一个空间关系,这样就有n n对关系,需要n n的矩阵存储这n个面积单元之间的空间关系。根据不同准则可以定义不同的空间关系矩阵,主要的空间权重矩阵包括以下几种类型:(1)左右相邻权重:空间对象间的相邻关系从空间方位上考虑,有左右相邻的关系。左右相邻权重的定义如下:,67,空间接近性与空间权重矩阵,68,空间接近性与空间权重矩阵,(2)上下相邻权重:空间对象间的相邻关系从空间方位上考虑,也有上下相邻关系。上下相邻权重的定义为:,(3)Queen权重的定义:,(4)二进制权重的定义:,(5)K最近点权重的定义:,69,空间接近性与空间权重矩阵,70,空间接近性与空间权重矩阵,空间数据的一阶效应反映了研究区域上变量的空间趋势,通常用变量的均值描述这种空间变化。研究一阶效应使用的方法主要是利用空间权重矩阵进行空间滑动平均估计。,面状数据的趋势分析,71,72,面状数据的趋势分析,空间滑动平均是利用邻近面积单元的值计算均值的一种方法,称之为空间滑动平均。设区域R中有m个面积单元,对应于第j个面积单元的变量Y的值为yi,面积单元i邻近的面积单元的数量为n个,则均值平滑的公式为:,最简单的情况是假设近邻面积单元对i的贡献是相同的,即wij=1/n,则有:,空间自相关是空间地理数据的重要性质,空间上邻近的面积单元中地理变量的相似性特征将导致二阶效应。在面状数据的背景上,二阶效应又称为空间自相关。空间自相关描述的是在空间域中位置上的变量与其邻近位置上同一变量的相关性。对于任何空间变量(属性)Z,空间自相关测度的是的近邻值对于Z相似或不相似的程度。如果邻接位置上相互间数值接近,空间模式表现出正空间自相关;如果相互间的数值不接近,空间模式表现出负空间自相关。,空间自相关分析,73,空间自相关是指一个区域分布的地理事物的某一属性和其他所有事物的同种属性之间的关系,它研究的是不同观察对象的同一属性在空间上的相互关系。空间自相关性使用全局和局部两种指标来度量全局指标用于探测整个研究区域的空间模式,使用单一的值来反映该区域的自相关程度;局部指标计算每一个空间单元与邻近单元就某一属性的相关程度。,空间自相关分析,74,(1)全局空间关联指标计算全局空间自相关时,可以使用全局Morans I统计量、全局Gearys C统计量和全局Getis-Ord G统计量等方法,它们都是通过比较邻近空间位置观察值的相似程度来测量全局空间自相关的。,75,空间自相关分析,1)Morans I统计量Moran首次提出用空间自相关指数(Morans I)研究空间分布现象。Morans I系数是用来衡量相邻的空间分布对象及其属性取值之间的关系。其计算公式如下:,76,空间自相关分析,Morans I是最常用的全局自相关指数。其取值范围在-1到1之间,正值表示具有该空间事物的属性取值分布具有正相关性,负值表示该空间事物的属性取值分布具有负相关性,零值表示空间事物的属性取值不存在空间相关,即空间随机分布。,77,空间自相关分析,78,空间自相关分析,79,空间自相关分析,Gearys C 统计量,全局Gearys C 统计量测量空间自相关的方法与全局Morans I 相似,其分子的交叉乘积项不同,即测量邻近空间位置观察值近似程度的方法不同。二者的区别:全局Morans I 的交叉乘积项比较的是邻近空间位置的观察值与均值偏差的乘积,而全局Gearys C 比较的是邻近空间位置的观察值之差。Gearys C的计算公式:,80,空间自相关分析,81,空间自相关分析,Getis-Ord G统计量,Getis-Ord G统计量首先设定一个距离阈值,在给定阈值的情况下,决定各数据的空间关系,然后分析其属性乘积来衡量这些空间对象取值的空间关系。计算公式:,82,空间自相关分析,Getis-Ord G统计量直接采用邻近空间位置的观察值之积来测量其近似程度,Getiss G的统计空间自相关性是通过得分检验来进行的:,当为正值时,表示属性取值较高的空间对象存在空间聚集关系,当值为负值时,表示属性取值较低的空间对象存在着空间聚集关系。,83,空间自相关分析,对于全局Morans I 和全局Gearys C 两个统计量,如果邻近空间位置的观察值非常接近,并且有统计学意义,提示存在正空间自相关。如果邻近空间位置的观察值差异较大,提示存在负空间自相关。但是,当观察值大的空间位置相互邻近时,全局Morans I 和全局Gearys C 将得到存在正空间自相关的结论,这种正空间自相关通常称为“热点区(hot spots)”;它同样可以由观察值低的空间位置相互邻近而得到,这种正空间自相关通常称为“冷点区(cold spots)”。而全局Getis-Ord G的优势则在于可以非常好地区分这两种不同的正空间自相关。因此,3 个统计量的结合使用可以较全面地反映空间的全局自相关。,84,空间自相关分析,全局空间关联指数仅使用一个单一值来反映整体上的分布模式,难以探测不同位置局部区域的空间关联模式,局部空间关联指数能揭示空间单元与其相邻近的空间单元属性特征值之间的相似性或相关性,可用于识别“热点区域”以及数据的异质性。局部空间自相关统计量(local indicators of spatial association,LISA)的构建需满足两个条件:局部空间自相关统计量之和等于相应的全局空间自相关统计量;能够指示每个空间位置的观察值是否与其邻近位置的观察值具有相关性。局部空间自相关分析能够有效检测由于空间相关性引起的空间差异,判断空间对象属性取值的空间热点区域或高发区域等,从而弥补全局空间自相关分析的不足。,(2)局部空间关联指标,85,局部空间自相关的度量有三种方式:,(2)局部空间关联指标,1)局部Morans I统计量空间位置的局部Morans I 的计算公式为:,局部Morans I 的值大于数学期望,并且有统计学意义时,提示存在局部的正空间自相关;小于数学期望,提示存在局部的负空间自相关。,86,2)局部Gearys C局部Gearys C的计算公式:,局部Gearys C 的值小于数学期望,并且有统计学意义时,提示存在局部的正空间自相关;大于数学期望,提示存在局部的负空间自相关。,87,(2)局部空间关联指标,3)局部Getis-Ord G局部Getis-Ord G同全局Getis-Ord G一样,只能采用距离定义的空间邻近方法生成权重矩阵,其公式为:,当局部Getis-Ord G的值大于数学期望,并且有统计学意义时,提示存在“热点区”;当局部Getis-Ord G 的值小于数学期望,提示存在“冷点区”。局部Morans I和局部Gearys C的缺点是不能区分“热点区”和“冷点区”两种不同的正空间自相关。而局部Getis-Ord G的缺点是识别负空间自相关时效果较差。,88,(2)局部空间关联指标,89,89,谢 谢!,