第七章 空间数据的统计分析 1 本ppt课件.ppt
《第七章 空间数据的统计分析 1 本ppt课件.ppt》由会员分享,可在线阅读,更多相关《第七章 空间数据的统计分析 1 本ppt课件.ppt(88页珍藏版)》请在三一办公上搜索。
1、1,第七章 空间数据的统计分析方法(1),武汉大学遥感信息工程学院遥感科学与技术本科生教案(2012),秦 昆,时间和地点:星期一: 1-2节(8:00-9:35), 附3-303;星期三: 7-9节(14:05-14:50, 14:55-15:40, 15:45-16:30),附3-303.授课对象:2009级遥感科学与技术(地理信息工程)本科生答疑地点:五号楼406(周一),2,主要内容:GIS属性数据一般统计分析探索性数据分析探索性空间数据分析方法空间点模式分析方法格网或面状数据空间统计分析方法地统计分析概述空间变异函数克里金估计方法地统计分析研究展望空间统计分析软件,3,GIS属性数据
2、,4,GIS属性数据属性数据是GIS的重要特征。属性数据包含了两方面的含义:它是什么,即它有什么样的特性,划分为地物的哪一类;(类别属性)实体的详细描述信息,例如一栋房子的建造年限、房主、住户等。 (描述属性),5,一般统计分析,6,一般统计分析指对GIS地理空间数据库中的属性数据进行常规统计分析。先对数据进行描述性统计分析,再选择进一步分析的方法。描述性统计分析:对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据的离散程度分析、数据的分布、以及一些基本的统计图形。,7,对于空间数据来说,描述性分析是空间数据分析的第一步,通过描述性分析,提取有价值的空
3、间信息,便于后续的空间分析和处理。,8,数据的频数分析频数: 将变量xi(i=1,2,n)按大小顺序排列,并按一定的间距分组。变量在各组出现或发生的次数称为频数。频率:各组频数与总频数之比叫做频率。频率分布图:计算出各组的频率后,就可以做出频率分布图。频率直方图:若以纵轴表示频率,横轴表示分组,就可做出频率直方图,用以表示事件发生的概率和分布状况。,9,数据的集中趋势分析数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。,10,数据的集中趋势
4、分析算术平均值:将所有数据相加,再除以数据的总数目。,加权算术平均值:考虑数据对数据总体的影响的权重值的不同,将每个数据乘以其权值后再相加,所得的和除以数据的总体权重数。,Pi为数据xi的权值,11,调和平均值:各个数据的倒数的算术平均数的倒数,又称为倒数平均值。调和平均值也分为简单调和平均数和加权调和平均数,简单调和平均数:,加权调和平均数:,12,几何平均数:是n个数据连乘的积开n次方根。,13,中位数:一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。众数:在数据中发生频率最高的数据值。 如果各个数据之间的差异程度较小,用平均值就有较好
5、的代表性;如果数据之间的差异程度较大,特别是有个别极端值的情况,用中位数或众数有较好的代表性。,14,数据的离散程度分析数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有:方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。 反映数据的离散程度的指标还包括:极差、离差、平均离差、离差平方和、变差系数等。,15,方差和标准差方差是均方差的简称,是以离差平方和除以变量个数求得的。,16,方差和标准差标准差是方差的平方根。,17,极差极差是一组数据中最大值与最小值之差,即:R=maxx1, x2, , xn - minx1, x2, , xn,18,离差、平均离差与离
6、差平方和离差:一组数据集中的各数据值与其平均数之差称为离差。一个数据集的离差和恒等于0。平均离差:将离差取绝对值,然后求和,再取平均数,就得到平均离差。,离差平方和:对离差求平方和就得到离差平方和。,19,数据的分布在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度:衡量的是样本分布的偏斜方向和程度;峰度:衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。,20,统计图表分析用图形的形式表达数据,比用文字表达更清晰、更简明。对于属性数据,统计图的主要类型有柱状图、扇形
7、图、直方图、折线图和散点图等。,21,柱状图:用水平或垂直长方形表示不同种类间某一属性的差异,每个长方形表示一个种类,其长度表示这个种类的属性数值。扇形图:将圆划分为若干个扇形,表示各种成分在总体中的比重,各种成分的比重可以用扇形的面积或者弧长来表示,当有很多种成分或成分比重差异悬殊时表示效果不好。,22,散点图:以两个属性作为坐标系的轴,将与这两种属性相关的现象标在图上,表示出两种属性间的相互关系,在此基础上可以分析这两种属性是否相关和相关关系的种类。折线图:反映某一属性随时间变化的过程,它以时间为图形的一个坐标轴,以属性为另一坐标轴,将各个时间的属性值标到图上,并将这些点按时间顺序连接起来
8、,反映实体发展的动态过程和趋势。,23,直方图:表示单一属性在各个种类中的分布情况,可以确定属性在不同区间的分布,如某种现象的分布是否是正态分布。统计表格:是详尽表示非空间数据的方法,它不直观,但可提供详细数据,可对数据再处理。统计表格分为表头和表体两部分,除直接数据外有时还有汇总、比重等派生项。,24,探索性空间数据分析,25,Hoaglin D C, Mosteller F, Tukey J W美著. 陈忠琏, 郭德媛译. 1998. 探索性数据分析. 北京: 中国统计出版社,探索性数据分析:,26,探索性数据分析:统计学是数据分析的主要工具,大量的统计分析方法以数据总体满足正态假设为依据
9、,并在此基础上建立模型和推演。然而实践中大量的数据不能满足正态假设,并且基于均值、方差等的模型在实际数据分析中缺乏稳健性,于是导致很多统计分析方法不能满足海量数据分析的要求。19世纪60年代的Tukey面向数据分析的主题,提出了探索性数据分析(exploratory data analysis, EDA)的新思路。,27,探索性数据分析:探索性数据分析(EDA)的特点:对数据来源的总体不作假设,并且假设检验也经常被排除在外。这一技术使用统计图表、图形和统计概括方法对数据的特征进行分析和描述。EDA技术的核心:“让数据说话”,在探索的基础上再对数据进行更为复杂的建模分析。,28,探索性数据分析的
10、基本方法EDA是不对数据总体做任何假设(或很少假设)的条件下识别数据特征和关系的分析技术。主要有两类方法:计算EDA方法:包括从简单的统计计算到高级的用于探索分析多变量数据集中模式的多元统计分析方法图形EDA方法:即可视化的探索数据分析。常用的图形方法有直方图(histogram)、茎叶图(stem leaf)、箱线图(box plot)、散点图(scatter plot)、平行坐标图(parallel coordinate plot)等。,29,(1)直方图与茎叶图直方图和茎叶图用于表述数据的分布信息,可根据数据的分布进一步作出相关的假设。直方图:是一种二维统计图表,它的两个坐标分别是统计样
11、本和该样本对应的某个属性的度量。在图像处理领域的常用概念是灰度直方图,描述的是图像中具有该灰度级的像素的个数:横坐标是灰度级,纵坐标是该灰度出现的频率(像素个数)。,30,茎叶图:又称“枝叶图”,将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样可以清楚地看到每个主干后面的几个数,每个数具体是多少。茎叶图是一个与直方图类似的工具,茎叶图保留了原始资料的信息,直方图则失去原始数据的讯息。,茎 | 叶 频数0 | 1569 41 | 0569 42 | 24 23 | 1 14 | 016 35 | 257 36 |
12、 0159 47 | 0159 48 | 59 29 | 124 3,41, 52, 6, 19, 92, 10, 40, 55, 60, 75, 22, 15, 31, 61, 9, 70, 91, 65, 69, 16, 94, 85, 89, 79, 57, 46, 1, 24, 71, 5,31,茎叶图的特征:用茎叶图表示数据有两个优点:(1)从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;(2)茎叶图中的数据可以随时记录、随时添加,方便记录与表示。茎叶图只便于表示两位有效数字的数据。,茎 | 叶 频数0 | 1569 41 | 0569 42 | 24 23 |
13、1 14 | 016 35 | 257 36 | 0159 47 | 0159 48 | 59 29 | 124 3,41, 52, 6, 19, 92, 10, 40, 55, 60, 75, 22, 15, 31, 61, 9, 70, 91, 65, 69, 16, 94, 85, 89, 79, 57, 46, 1, 24, 71, 5,32,(2)箱线图(盒须图)箱线图(Box plot),亦称箱须图(Box-whisker plot),或骨架图(Schematic Plot)。箱线图能够直观明了地识别数据集中的异常值,利用数据中的五个统计量:最小值、第一四分位数Q1、中位数F、第三
14、四分位数Q3、最大值来描述数据。,第一四分位数Q1:又称“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 中位数F:又称第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 第三四分位数:又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。,33,(2)箱线图(盒须图)箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;箱线图判断异常值的标准以四分位数和四分位距为基础。四分位距(QR, Quartile range):上四分位数与下四分位数之间
15、的间距,即上四分位数减去下四分位数(Q3-Q1)。,箱线图识别异常值的结果比较客观,在识别异常值方面有一定的优越性。,34,箱线图的制作过程:画一个矩形盒,两端边的位置分别对应数据集的上下四分位数。在矩形盒内部的中位数位置画一条线段为中位线。 在Q3+1.5QR(四分位距)和Q1-1.5QR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3QR和Q1-3QR处画两条线段,称其为外限。,内限以外位置的点表示的数据都是异常值(x Q3+1.5QR)在内限与外限之间的异常值为温和异常值(Q1-3QR x Q1-1.5QR; Q3+1.5QR x Q3+3QR)在外限以外的为
16、极端异常值。一般的统计软件中表示外限的线并不画出,这里用虚线表示,35,(3)散点图与散点图矩阵散点图用于初步图示两个数据之间的关系,是分析两个要素或变量之间关系时常用的方法和技术。散点图的作法:将两个变量的坐标点对画在(x, y)坐标平面上。在分析变量之间的关系、判断异常点以及数据的分类等方面,散点图都有重要的作用。,36,1)散点图与变量之间关系的可视化,4组数据:统计分析的结果是相同的(忽略残差),37,散点图展示了变量之间的差异性信息,38,2)散点图与异常点分析,异常数据或者有着特别的价值,或者会引起错误的结果或判断。异常数据一般是非典型的,较少见的观测数据。在回归线的确定中,异常数
17、据的出现将对回归方程的斜率和数据的相关关系产生深远的影响,由于异常点参与了计算,可能导致虚假的关系。,39,在异常点消除之前,两个变量的的相关系数r=0.88,表明存在很强的正相关;消除了异常数据后,r=0.08,出于随机水平。在回归模型建立之前通过散点图技术进行数据的探索性分析,有利于消除异常数据,寻找更为合理的关系或模式。,40,如果样本的规模相对较小,是否包含“异常数据”不是非常清晰,需要仔细判断。是否剔除数据可能会对变量之间的关系产生很大的影响。,41,3)散点图与不同类别的数据,散点图中的两个变量是房屋价格和人口密度的关系(a)反应了房屋的价格和人口密度之间存在正的空间相关关系。(b
18、)这些数据来自两个不同的地区,按照区位做出散点图后,就可轻易地发现:任何一个区位的人口密度和价格之间都变现出负的相关关系。,有些异常数据可能来自于另外的类型。,42,4)散点图矩阵,散点图矩阵通过建立任意两个变量之间的关系的图形表示来初步获得相关信息和异常信息,相当于在由m个变量构成的矩阵中,用相应的两个变量之间的散点图替代矩阵中的元素构成的图形。,5个变量间的散点图矩阵,在对角线上是变量自身的关系,在这些位置上一般由测量这个变量分布特征的图形(直方图、箱线图等)构成,43,平行坐标图平行坐标图将高维数据在二维空间上表示,为可视化地探索分析高维数据空间中的关系建立可行的途径。平行坐标图提供的是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七章 空间数据的统计分析 本ppt课件 第七 空间 数据 统计分析 ppt 课件
链接地址:https://www.31ppt.com/p-1429775.html