大数据探索性分析版课件第5章.pptx
《大数据探索性分析版课件第5章.pptx》由会员分享,可在线阅读,更多相关《大数据探索性分析版课件第5章.pptx(261页珍藏版)》请在三一办公上搜索。
1、第五章 时空数据分析,本章的主要内容,第1节 空间数据基本知识第2节 空间统计介绍第3节 探索性空间数据分析第4节 空间自相关分析第5节 时空扫描统计分析第6节 空间回归分析第7节 空间面板分析第8节 贝叶斯时空模型第9节 空间估算第10节 空间分析的综合应用发病率数据第11节空间分析的综合应用企业创新数据,第1节 空间数据基本知识,空间数据定义(场,对象概念模型),有空间坐标或相对位置的数据通称空间数据。如发病率在县区、乡村的分布;气象台监测的气温、降水;大气污染物分布;土壤重金属在区域各抽样点的数值;全国各省、直辖市、自治区的GDP,区域社会经济调查(抽查或普查数据)等。用来描述来自于现实
2、的目标,将数据统一化,从而来表明空间实体的形状大小以及位置和分布特征。定位是指在已知的坐标系里空间目标都具有唯一的空间位置;定性是指有关空间目标的自然属性,它伴随着目标的地理位置;,空间数据定义(场,对象概念模型),时间是指空间目标是随时间的变化而变化;空间关系通常一般用拓扑关系表示。空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。是数字地球的基础信息,数字地球功能的绝大部分将以空间数据为基础。,矢量数据结构和栅格数据结构,矢量数据结构就是通过记录坐标的方式,将抽象的点、线、面等地理实体精确地表达为计算机可以识别、存储和处理的格式。栅栏数据结构是指将地理
3、实体表面划分为均匀分布、大小相等、紧密相邻的网格阵列,每个网格作为一个像元或栅格,由行、列号确定其位置,即用二维坐标中的(x,y)来表示,并包含一个代码,表示该像元的属性类型。,空间数据类型,点数据(piont data)连续数据(continuous data)面数据(areal data),也称格数据(lattice data)线数据,空间数据特性,空间数据的分析还必须研究空间数据的特殊性质。研究表明,空间数据的特殊性质是多方面的,包括空间异质性、空间自相关、可塑性面积单元问题、不确定性等,这些性质直接影响了空间数据分析和建模的方法。,空间依赖性,空间数据最为著名的特征就是Tobler的地
4、理学第一定律所描述的特征:空间上距离相近的地理事物的相似性比距离远的事物相似性大,它所反映的就是空间数据的空间依赖性。其含义可表示在空间的某体位置i处,某个变量的值与其近邻位置j上的观测值有关,可写成如下形式: = ,=1,2,;传统的统计学理论假设观测值是独立的,并独立同分布。因为空间依赖性的存在,在空间分析环境中是一个不能接受的假设,此外关于残差分布同样受到空间依赖性的影响。,空间依赖性,由于空间数据的聚集性及空间相互作用的存在,一个空间位置上的样本数据会依赖于其他位置上的观测值。空间依赖程度是通过空间自相关测度的,可以认为空间自相关就是空间依赖性概念的数学表达,空间自相关的指标多样,可分
5、为两种类型:全局测度和局部测度。全局方法对研究区域的整体给出一个参数或指数,而局部方法提供数据观测点等量的参数或指标。,空间异质性,异质性源于各地方的独特性质,表示空间数据的变化缺少平稳性。空间异质性与空间上行为关系缺乏稳定性有关,这一特征也成为空间非平稳性,意味着功能形式和参数所研究领域的不同个地方是不一样的,但在区域局部,变化是一致的。空间非平稳性是空间数据这一特征的数学表达,对大部分空间数据而言,假设空间过程非平稳和各向异质性能更为真实地反映地理问题的实质。,空间异质性,根据空间异质性的特征,在一般情况下,期望空间上每一个点的地理要素之间有不同的关系,最简单的情况,可将其描述为线性关系:
6、 = + i表示在空间位置i=1,2,n处的观测数据 表示和参数 相关联的(1k)阶的解释变量(向量) 是位置i处的因变量 为随机误差项。,空间异质性,比上式复杂的表示方式是因变量和自变量之间的一般函数关系的情况: =f + 不失一般性,讨论现定于线性关系,首先不能期望根据n个观测数据的样本估计出n个参数向量 ,因为没有充分的样本信息并据此对每一个点进行估计,即统计学中的“自由度”问题。关于异质性的模型一般需要借助于贝叶斯方法,有助于空间异质性的完整分析。,可塑性面积问题,数据分析的结果随着面积单元的定义不同而发生变化,就是所谓的可塑性面积单元问题。面积单元对于分析结果的影响来源于两类效应:其
7、一是尺度效应,即当空间单元经过聚合而变化改变其尺度大小时,空间数据的统计分析结果也会相应发生变化,由于从精细空间尺度聚集到大的空间单元的组合途径通常很多不同聚集到大的空间单元的组合途径通常很多,不同聚集方案得到的结果是不同的。其二是划区效应,即在同一粒度或聚合水平上,由于聚合方式的不用或划分方案的不同导致的分析结果的变化。,可塑性面积问题,概而言之,可塑性面积单元问题(MAUP)是由区域的数量、规模、形状对空间数据分析的结果所产生的不确定性影响。,不确定性问题,空间数据的不确定性关心的主要问题是空间数据的质量因为空间数据的质量对于建模分析、表示、结果以及决策的正确性等都有十分重要的影响。空间数
8、据质量的特殊性在于它包括两个方面:属性数据的质量和空间对象的质量,而两者之间又是相互依赖的。由于数据还具有时间坐标,记录的时间误差也隐含在数据集中,因此空间数据包括空间和时间坐标上的属性值,三者之间相互影响。,不确定性分类,至少有4种类型:空间不确定性对象定义的不确定性关系不确定性分区问题,空间不确定性,当对象不具有离散、确定的范围时,就会产生空间的不确定性这种不确定性是因为对象定义的主观性而产生的,可能存在不清晰的边界(例如湿地在哪里精确终止),其影响超出了它们的边界,或者空间对象仅仅是统计上的实体。,对象定义的不确定性,当不能清晰或严格定义对象时,就会导致模糊性的产生,如在治安管理中,管区
9、犯罪发生率为多少时才能定义为高犯罪地域,这些都依赖于一些人为的规定。,关系不确定性,地理要素之间通常具有各种关系,当y被用作x的替代或指示器时,因为x不可用,此时就会产生模糊性,可分为直接指示器或间接指示器两种情况。直接指示器表明现象之间的联系是直接的和相当清晰的,例如土壤的养分水平(y)是作物产量(x)的直接指示器。非直接的指示器趋向于更加模糊和不透明,例如湿地(y)是动物多样性(x)的非直接指示器。,分区问题,区域是为了识别地理现象,分析研究或管理的需要而进行的定义,所以产生了分区问题,例如气候类型区的划分问题,专家对于哪些特征的组合定义一个类型区域的观点并不一致,这些特征如何加权生成一个
10、复核指标,以及确定区域最小规模的阈值是多少,都会影响类型的划分。在GIS中涉及空间数据的获取,表示和分析等系列过程,而在这个过程的各个阶段都会产生不确定性。从来源上看可归结为测量的不确定性,空间数据表示的不确定性和空间数据分析的不确定性,其中分析的不确定性主要是和空间尺度依赖有关的MAUP问题。,分区问题,地理现象刻度的不确定性主要是空间数据和属性数据获取过程中产生的误差,包括对象的物理测量误差、社会经济属性记录误差,数字化数据的误差,以及不同来源数据集整合时的误差。地理现象的表示的不确定性表示与测量之间密切相关,表示绝非仅仅是分析的输入,而且还是分析的结果,主要包括栅栏数据表示的不确定性和矢
11、量数据表示的不确定性。,第2节 空间统计介绍,空间统计由来,应用空间统计分析思想最早可以追溯到150多年前一次重大的公共卫生事件,1854年英国伦敦霍乱大流行。在这次事件中,John Snow博士利用基于地图的空间分析原理,将死亡病例标注在伦敦地图上,同时还将水井的信息也标注在地图上,通过相关分析,最后将污染源锁定在城中心的一个水井的抽水机上。在他的建议下市政府将该抽水机停用,此后霍乱大幅度下降,并得到有效的控制。,空间统计由来,John Snow利用空间分析思想控制疫情这件事具有重要的里程碑意义,它被看成了空间统计分析和流行病学两个学科的共同起源;但是此后相当长的一段时间内由于缺乏刻画数据的
12、空间相关性和异质性的方法,人们在分析空间属性的数据时,往往把所涉及的数据自身空间效应作为噪声或者误差来处理,这种缺乏对空间自相关和异质性的刻画,限制了以地图为基础的空间属性数据在公共卫生领域中应用的深入研究。,空间统计由来,直到1950年Moran首次提出空间自相关测度来研究二维或更高维空间随机分布的现象,1951年南非学者Krige提出了空间统计学萌芽思想,后经法国数学家Matheron完善,于1963年和1967年提出了地统计学和克里金技术。1973年, Cliff和Ord发表了空间自相关(Spatial Autocorrelation)的分析方法,1981年出版了Spatial Proc
13、ess:Model and Application专著,形成了空间统计理论体系,以及GetisG和Lisa提出的空间异质性的局部统计使空间统计理论日趋成熟。,空间统计由来,近年来随着空间分析技术以及空间分析软件(如GIS、Geoda、SaTScan、Winbugs等)的迅速发展,与疾病分布有关的空间统计分析也得以较快发展。,空间统计与经典统计区别,空间统计具有明显的多学科交叉特征,其显著特点是思想多源、方法多样、技术复杂,并随着相关学科如计算机软硬件技术的发展而发展。空间统计分析是以地理实体为研究对象,空间统计模型为工具,以地理实体空间相关性和空间变异性为出发点,来分析地理对象空间格局、空间关
14、系、时空变化规律,进而揭示其成因的一门新科学。,从研究变量类型来看,首先从研究变量类型来看,经典统计学研究的是纯随机变量,该随机变量的取值遵循某种概率分布变化而空间统计学研究的是区域化变量,该区域化变量根据其在一个区域内的空间位置不同而取不同的值,即随机变量是与位置有关的随机函数。因此,空间统计学研究的变量具有随机性和结构性特点。,从假设前提来看,在经典统计学中,待分析的变量一般应具有独立性。而空间统计学的区域化变量是在不同空间位置上的抽样,因而邻近的样本之间通常不独立,存在某种程度的空间相关性。,从研究样本来看,经典统计学以频率分布图为基础,研究样本的各种数字特征(如均值、方差),并对总体进
15、行推断。而空间统计学主要考虑变量空间分布理论和估算方法。,从研究结果来看,经典统计学与GIS结合不紧密,而空间统计学能与GIS有效结合,很容易实现空间可视化。此外,试验次数不同,经典统计学所研究的变量理论上可以无限次重复或进行大量重复观测试验。而空间统计学所研究的区域化变量一旦在某一空间位置上取得样品后,就不可能再在同一位置取得该样品,即区域化变量取值只有一次。当然空间统计并不是抛弃所有的经典统计学理论,而是对这些理论加以完善,以便更适用于空间数据统计分析。,空间统计学应用综述,目前空间统计学技术主要基于3S技术,即GIS(Geographic Information System)、RS(R
16、emote Sensing )、GPS(Global Positioning System)。3S技术就好比人的两只眼睛和一个大脑,一只眼睛GPS进行定位,另外一只眼睛RS采集周边环境信息,GIS对采集过来的数据进行统一存储、加工与处理。GIS具有功能完善空间分析模块,可以进行疾病的探索性和证实性分析,进行疾病或传播媒介与潜在地理、气候、社会、经济等因素之间的关联分析。,空间统计学应用综述,例如通过环境因素与疾病的叠加分析、空间相关分析和空间回归分析、疾病的遥感模型、传染病模型等来探索和描述疾病的传播规律和寻求病因,评估潜在的环境和特定时空交互行为对疾病发生的影响这一方面对决策人员制定科学的防
17、治策略、确定防范重点、分配有限医疗资源等具有重要的指导意义另一方面,也有助于卫生领域的研究人员设计合理的科学实验进行传染病的病毒学和分子流行病学研究,加速彻底战胜传染病的进程。,疾病的空间插值分析,在疾病预防研究中,疾病空间样点资料是有限的,如何利用有限的空间样点资料去掌握整个区域的全局流行特征,突破人为行政区划的限制,从一种整体宏观全局角度来把握疾病和健康的空间分布格局,从而为公共卫生资源的配置和防控策略的制定提供依据。空间插值数据是根据相邻样点的相似原理来生成表面,即用已知的样点的值生成表面来预测整个研究区域内每个位置的值,并评估预测表面的误差和变异性。,疾病的空间插值分析,克里金插值又称
18、之为地统计学,以空间自相关为前提,区域化变量理论为基础,以变异函数为主要工具的一门新学科。其实质是利用区域化变量的原始数据和变异函数的结构特点,对未采样点的区域化变量的取值进行线性无偏、最优估计。半变异函数主要块金值、变程、基台值、偏基台值几部分组成。,半变异函数图详解,块金基台比,块金基台比C0C0+C1,其大小反映空间自相关部分引起疾病空间异质性程度的大小。如果块金基台比较大,说明随机部分引起的疾病空间异质性起主要作用,空间自相关弱。反之,块金基台比较小,说明空间自相关部分引起的疾病空间异质程度起主要作用,空间自相关性强。,疾病的空间插值分析,描述污染物空间分布是风险评估的一个重要组成部分
19、Cattle等人采用指示克里金技术基于已知抽样点污染物浓度去估计非抽样点污染物浓度。Asmarian等人采用泊松克里金插值对2003-2007年336个县食道癌发病数据进行分析,得出了Ardebil、 Mazandaran 、 Kordestan三省与其他省相比有较高的风险。Adhikar等人采用指标和概率克里格方法描述印度德里市Najafgarh街区地下水铜、铁、锰污染情况。,疾病空间聚集性研究,疾病的聚集性分析目的在于研究潜在危险因素的时空聚集性,从整体上检验疾病的空间分布是随机还是聚集?如果是聚集分布,进一步回答:聚集在什么地方?疾病聚集程度高低及与周边地区关系如何?聚集在多大的空间尺度
20、才有效?这些与地点相关的聚集因素可以是未知的感染因子、地方污染物等。,疾病空间聚集性研究,Xiao等人采用局部GetisG热点探测发现了中国大陆2008-2011年在县区水平上手足口病空间聚集性及随时间的变化趋势。于石成等利用时空扫描技术对全国重症手足口病例进行了时空聚集性分析,发现重症病例聚集区域,为进一步研究重症病例成因奠定了基础。Wang等采用Satscan时空扫描工具探测北京2008-2012年手足口病时空聚集模式。同时在其他传染病分析中也得到广泛应用,如细菌性痢疾、丙型肝炎、出血热病 、HFRS 、H7N9等疾病分析。,疾病空间聚集性研究,同样在癌症研究中,研究人员使用空间聚集分析确
21、定地理区域的高危人群,然后筛选人群疾病可以改善癌症控制。,疾病时空预警分析,通过时空模型分析不同时期疾病或媒介的空间动态变化,了解疾病随时间的变化规律,对疾病未来的发展趋势做出分析、预测和评估,从而在疾病的预警系统中发挥作用。在这些时空模型中,Kulldorff于1998年提出了时空扫描统计量,以及在2001年提出的前瞻性时空重排扫描统计量,在传染病暴发预警中具有较好的应用前景。,疾病时空预警分析,前瞻性时空重排扫描统计量以动态变化的扫描窗口对不同的时间和区域进行扫描,可以有效地对未知的时空聚集性进行探索性分析,达到早期预警的目的。该方法最大的优势在于,由于采用了重排算法,该模型在建模过程中不
22、需要使用人口数据。而基于Poisson分布的时空扫描统计量,在计算过程中需要各区域的人口数据,但确切的人口数据常常很难获得。,疾病时空预警分析,Mostashari等利用死禽数据进行空间统计扫描分析对西尼罗病毒暴发进行早期预警。Mugglin等采用贝叶斯时空模型通过对苏格兰流行性感冒病例资料进行分析和预测,可以让医院在应诊能力准备上做得更好。,疾病制图和病因探索,疾病制图是空间统计学的基本功能其目的是将疾病的危险的空间变异或时空变异在地图上呈现出来,为进一步病因学研究或其他研究提供线索。地理环境相关性研究是研究与环境有关的地理变量(如空气、水体、土壤等)或生活方式等因素与健康之间的相互关系,能
23、够环境危险因素的研究提供必要的信息。自然与社会环境、营养、基因、行为、病媒生物等是许多疾病的致病因子,通常具有空间分布。,疾病制图和病因探索,疾病分布如同自然景观的概念一样,不同疾病的分布结构来自于不同的病因分布结构,这种结构的变化同样影响着疾病的发生、传播和消长的变化。通过分析这些要素和疾病空间分布之间的关系,可以探测是否存在威胁健康的环境危险因素,这些危险因素是否存在交互作用,地理探测器,“地理探测器”(GeoDetector)方法基于空间方差分析来分析来探测环境风险因子。主要包括四个方面的功能:风险探测器可以指示风险区域;因子探测器可以定量评价不同的环境因子的风险程度;生态探测器可以分析
24、不同的环境因子的影响是否有显著差异;交互探测器可以分析环境因子是独立作用还是多种因子交互作用的结果。自从地理探测器问世以来,在公共卫生领域得到了广泛的应用。,地理探测器,Wang等利用了地理探测器发现了引起山西省和顺县神经管畸形的环境致病因子以及致病因子之间的相互关系。Wu等(2004)等人通过空间探索分析为获得导致出生缺陷的环境致病因子,为进一步分析致病因子奠定了基础。HU等利用地理加权回归分析了气象因子对我国手足口病影响在地理空间上的异质性。Deng等采用空间面板模型分析广东气象因素对手足口病的影响。层次贝叶斯时空模型方法在疾病制图及分析疾病的影响因素方面取得较好的效果,获得了疾病危险的空
25、间及时空变异的信息。,第3节 空间模型应用实例,探索性空间数据分析,探索性空间数据分析指基于数据的空间属性,利用空间统计学原理和图表相结合,对空间数据的性质进行探索性分析。ESDA提供直方图、QQ图、变异云图、趋势图、地区分布图、泰森多边型(voroni map),对数据的离群值、正态性、趋势性及变异性进行分析。通过地区分布图和三维趋势分析,可直观描述疾病分布的趋势性及不均匀性。,疾病地区分布图,疾病地区分布图是一种常用的空间数据可视化方法。将疾病数据根据区域进行统计,使每个区域得到一个描述疾病发生的聚合信息;然后根据该信息通过不同的填充颜色或图案对各个地区进行渲染,最后得到的图即为疾病地区分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 探索 分析 课件
链接地址:https://www.31ppt.com/p-1748757.html