地学统计-第一章.ppt
《地学统计-第一章.ppt》由会员分享,可在线阅读,更多相关《地学统计-第一章.ppt(231页珍藏版)》请在三一办公上搜索。
1、2023/11/1,1,地学计算方法,资源与环境学院 杨勇,2023/11/1,2,华中农业大学 资源与环境学院,设想一下这样的问题,?,这块地的土壤养分情况如何?不仅需要知道一个总体情况而是要知道每个地方的不同含量方便为那些含量低的地方施肥该怎么办呢?,2023/11/1,3,华中农业大学 资源与环境学院,方案一,Step1:密集采样Step2:把土样运回实验室Step3:晒干,磨碎,.化学分析耗时,耗力,耗财得到的是点状数据面状连续分布呢?未采样地的状况如何呢?,2023/11/1,4,华中农业大学 资源与环境学院,方案二,算法分析,2023/11/1,5,华中农业大学 资源与环境学院,实
2、例:,(a)有机质,(b)全氮,(c)有效磷,2023/11/1,6,华中农业大学 资源与环境学院,安排,共32学时,讲授教材中的大部分章节考核方法:平时成绩(40%)+期末考试成绩(60%,闭卷考试),2023/11/1,7,华中农业大学 资源与环境学院,1.1 地统计学的发展和概念,一、地统计学发展简史地统计学(Geostatistics)是20世纪50年代初在南非采矿业中为了计算矿石储量而发展应用起来的,首先被采矿工程师Krige和统计学家Sichel应用于南非的采矿工作中。50年代后期,法国Matheron在此基础上提出了区域化变量理论,形成了地统计学的基本框架。,2023/11/1,
3、8,华中农业大学 资源与环境学院,地统计学发展简史,70年代,计算机的出现,这项技术被引入到地学领域。1975年在罗马举行了关于该学科的第一个国际性会议后,陆续有多个相关国际会议举行。我国的地统计学研究和应用是1977年由侯景儒、黄竞先等首先进行的。现已广泛运用于地质、土壤、农业、气象、海洋、生态、森林和环境治理等方面,2023/11/1,9,华中农业大学 资源与环境学院,二、地统计学的概念,定义:地统计学是以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性,或空间相关性和依赖性的自然现象的科学。(王政权,1999),2023/11/1,10,华中农业大学
4、资源与环境学院,地统计学与经典统计学的区别1,经典统计学的变量必须是纯随机变量,即其取值按某种概率分布而变化;地统计学研究的变量不是纯随机变量,而是区域化变量,该区域化变量根据其在一个域内的空间位置取不同值,它是随机变量与位置有关的随机函数。因此,地统计学中的区域化变量既有随机性,又有结构性。,2023/11/1,11,华中农业大学 资源与环境学院,地统计学与经典统计学的区别2,经典统计学所研究的变量理论上可无限次重复或进行大量重复观测试验。而地统计学研究的变量不能进行这样的重复试验。因为区域化变量一旦在某一空间位置上取得一次样品后,就不可能在同一位置再次取得该样品,即区域化变量取值仅有一次。
5、,2023/11/1,12,华中农业大学 资源与环境学院,地统计学与经典统计学的区别3,经典统计学的每次抽样必须独立进行,要求样本中各个取值之间相互独立。而地统计学中的区域化变量是在空间不同位置取样,因而,两个相邻样品中的值不一定保持独立,具有某种程度的空间相关性。,2023/11/1,13,华中农业大学 资源与环境学院,地统计学与经典统计学的区别4,经典统计学以频率分布图为基础研究样本的各种数字特征。地统计学除了要考虑样本的数字特征外,更主要的是研究区域化变量的空间分布特征。因此,地统计学的主要研究室围绕着变量的空间分布理论和估计方法。,2023/11/1,14,华中农业大学 资源与环境学院
6、,1.2 地统计学的应用(土壤),土壤属性的空间分布特征是土壤污染治理、土地管理和现代农业的重要依据之一。土壤是一个形态和过程都相当复杂的自然综合体,成土过程中不同的物理、化学、生物等因素的影响,使得土壤性质具有高度的空间异质性。人类活动进一步加剧了土壤属性的变异性和不确定性。同时,土壤本身处于一个时刻变化的动态过程,因此,对土壤空间性质进行描述和定律研究相当困难。,2023/11/1,15,华中农业大学 资源与环境学院,1.2 地统计学的应用(土壤),自上世纪七八十年代地统计学引入土壤学研究中以来,随着学科发展和应用方向的扩展,地统计学方法已经成为土壤学特别是大尺度土壤学研究的一个重要工具。
7、地统计学在土壤物理性质空间变异中的应用地统计学在土壤化学性质空间变异中的应用地统计学在土壤重金属污染空间变异中的应用地统计学在采样策略中的应用地统计学在其他特性中的应用,2023/11/1,16,华中农业大学 资源与环境学院,地统计学在土壤物理性质空间变异中的应用,湖北咸宁据:罗勇,陈家宙,2008,土壤容重空间变异,土壤饱和导水率空间变异,2023/11/1,17,华中农业大学 资源与环境学院,地统计学在土壤化学性质空间变异中的应用,(a)有机质,(b)全氮,(c)有效磷,(d)速效钾,湖北沙洋据:杨勇,贺立源,2010,2023/11/1,18,华中农业大学 资源与环境学院,地统计学在土壤
8、重金属污染空间变异中的应用,武汉市东湖高新技术开发区据:张贝,杨勇,2010,2023/11/1,19,华中农业大学 资源与环境学院,1.3 地统计学在土壤科学中的应用展望,地统计学和土壤多源数据的处理 利用多源的相关数据预测目标属性的分布地统计学和土壤过程的空间建模 利用多源数据模拟土壤发生发展的过程 地统计学和土壤特性的不确定性模拟 土壤属性超过某一阈值的概率地统计学和土壤过程的时空变异 地统计学与精确农业土壤综合特性的空间变异性研究,2023/11/1,20,第二章 样本数据的统计分析和预处理,资源与环境学院 杨勇,2023/11/1,21,华中农业大学 资源与环境学院,目录,描述性统计
9、频数分布集中趋势的度量离散型度量偏度和峰度数据检验和分布分析异常值的识别和处理正态分布的检验方法数据转换处理相关分析和回归分析回归分析相关分析,2023/11/1,22,华中农业大学 资源与环境学院,总体,样本和随机样本,总体是指根据统计分析或研究目的而确定的同类事物或现象的全体,有时也把具有共同性质的元素所组成的集合称为总体。从总体中抽取若干个元素而构成的集合叫样本在抽选样本时,总体的每一个元素被抽中的概率相同,这时样本就称为随机样本。在随机抽取的样本的条件下,样本的分布规律与总体的分布规律相似,即样本在一定程度上反映了总体的分布。,2023/11/1,23,华中农业大学 资源与环境学院,2
10、.1 描述性统计,频数分布:测量尺度中的类在某测量集合中出现次数的汇总,说明实测值在测量尺度上的分布情况。离散型频率分布:连续型频率分布:(直方图),实例见表2-3 和 图2-2,2023/11/1,24,华中农业大学 资源与环境学院,集中趋势的度量,反映数据分布集中趋势的参数算术平均数:中位数:如果样本数据资料中的全部观测值从小到大一次排列,处于中间位置的观测值称为中位数。分位数:众数:频率直方图中对应最大频数的那一组中的组中值。,2023/11/1,25,华中农业大学 资源与环境学院,离散型度量,极差:四分位差:离均差:方差:总体方差:样本方差:,:总体标准差,:样本标准差,2023/11
11、/1,26,华中农业大学 资源与环境学院,离散型度量,变异系数:样本变量的相对变异量,可以比较不同样本相对变异程度大小标准分和标准化变量:标准分:,用于刻画数据与均值相对于标准差的偏离程度,2023/11/1,27,华中农业大学 资源与环境学院,偏度和峰度,偏度系数:描述分布的偏斜程度,Sk=0,对称分布;Sk0,正偏(右偏),较小的数据比较集中;Sk0,负偏(左偏),较大的数据比较集中,2023/11/1,28,华中农业大学 资源与环境学院,偏度和峰度,峰度系数:统计数据分布陡峭程度的度量,Ku0,频数分布的曲线峰高于正态分布,称为尖顶峰度Ku0,频数分布的曲线较正态分布更为平坦,称为平顶峰
12、度Ku=0,等于或接近于正态分布,2023/11/1,29,华中农业大学 资源与环境学院,2.2 数据检查和分布分析,在进行地统计学分析前,为了保证分析结果的可靠性,经常需要对数据进行检查和预处理,剔除异常值的影响,进行正态分布检验和转换,使参与计算的数据尽量符合正态分布。异常值的识别和处理正态分布的检验方法数据转换处理,2023/11/1,30,华中农业大学 资源与环境学院,异常值的识别和处理,异常值:样品数据中出现概率很小的值,往往在分析前需要剔除。方法:1、平均值加标准差法2、四倍法3、格拉布斯法4、狄克松法5、t检验法,2023/11/1,31,华中农业大学 资源与环境学院,异常值的识
13、别和处理平均值加标准差法,正常数据的上下限等于平均值加二倍标准差,适用于数据分布简单均一的情况:对于数据分布相对复杂的情况,可采用3S法,2023/11/1,32,华中农业大学 资源与环境学院,异常值的识别和处理平均值加标准差法,(5.2932,7.941),(4.63125,8.60295),2023/11/1,33,华中农业大学 资源与环境学院,异常值的识别和处理四倍法,某观察数据与该样品平均值的差数(d)大于平均偏差 的4倍时视为异常值。其中平均偏差就是所有观察数据与样本平均值之间的差数的平均值。即:计算过程:,2023/11/1,34,华中农业大学 资源与环境学院,异常值的识别和处理格
14、拉布斯法,过程:测量数据:例如测量10次(n10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。计算平均值x-和标准差s:x-7.89;标准差s2.704。计算时,必须将所有10个数据全部包含在内。计算偏离值:平均值与最小值之差为7.894.73.19;最大值与平均值之差为14.07.896.11。,2023/11/1,35,华中农业大学 资源与环境学院,异常值的识别和处
15、理格拉布斯法,确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。计算Gi值:Gi(xix-)/s;其中i是可疑值的排列序号10号;因此G10(x10 x-)/s(14.07.89)/2.7042.260。计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP(n)与两个参数有关:检出水平(与置信概率P有关)和测量次数n。,2023/11/1,36,华中农业大学 资源与环境学院,异常值的识别和处理格拉布斯法,定检出水平:如果要求严格
16、,检出水平可以定得小一些,例如定0.01,那么置信概率P10.99;如果要求不严格,可以定得大一些,例如定0.10,即P0.90;通常定0.05,P0.95。查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)2.176。比较计算值Gi和临界值G95(10):Gi2.260,G95(10)2.176,GiG95(10)。,2023/11/1,37,华中农业大学 资源与环境学院,异常值的识别和处理格拉布斯法,判断是否为异常值:因为GiG95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除.余下数据考虑
17、:剩余的9个数据再按以上步骤计算,如果计算的GiG95(9),仍然是异常值,剔除;如果GiG95(9),不是异常值,则不剔除。本例余下的9个数据中没有异常值。,2023/11/1,38,华中农业大学 资源与环境学院,格拉布斯表临界值GP(n),2023/11/1,39,华中农业大学 资源与环境学院,异常值的识别和处理狄克松法,如有一组数据:排序后:怀疑0.167为异常值,计算Q查表的,对于10个观测数因此,0.167在90%的置信概率内被剔除,但 因此,0.167在95%的置信概率内被保留,狄克松检验临界值表,2023/11/1,40,华中农业大学 资源与环境学院,异常值的识别和处理t检验法,
18、2023/11/1,41,华中农业大学 资源与环境学院,异常值的识别和处理,对于大样本(样本容量大于100)的异常值判断,通常用二倍或三倍标准差法;对于小样本的异常值判断,一般使用狄克松、格拉布斯和t检验法。但这三种方法仅适用于用来剔除正态小样本的异常数值,若样本不符合正态分布,则要进行转换。,2023/11/1,42,华中农业大学 资源与环境学院,正态分布的检验方法,概率论中最重要的一种分布,也是自然界最常见的一种分布。该分布由两个参数平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近。,2023/11/1,43,华中农业大学 资源与环境学院,正态分布的检验方
19、法直方图法,直方图(Histogram)又称柱状图、质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。有各种形状:正常型,孤岛型,双峰型,折齿型,陡壁型,偏态型,平顶型等。直方图只能初步判断数据是否符合正态分布。,2023/11/1,44,华中农业大学 资源与环境学院,正态分布的检验方法PP和QQ,P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。,2023/11/1,45,华中农业大学 资源与环境学院,
20、正态分布的检验方法PP和QQ,Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图.要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,与P-P图不同的是,Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。P-P图和Q-Q图的用途完全相同,只是检验方法存在差异,2023/11/1,46,华中农业大学 资源与环境学院,2023/11/1,47,华中农业大学 资源与环境学院,正态分布的检验方法其他,偏度峰度联合检验法,2者越接近0,越符合正态分布夏皮洛-威尔克检验科尔莫戈洛夫-斯
21、米尔诺夫检验法(K-S),2023/11/1,48,华中农业大学 资源与环境学院,数据转换处理,将原始数据的频数分布,通过一定的尺度转化,转换为另外的频数分布,而正态转化是最为常用的一种。地统计学分析中,分析数据最好接近正态分布,转换方法主要有对数转换:X-lnX平方根转换:反正弦转换,2023/11/1,49,华中农业大学 资源与环境学院,2.3 相关分析和回归分析,回归分析:是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果
22、在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。,2023/11/1,50,华中农业大学 资源与环境学院,回归分析,如一元线性回归模型:X,Y的联合观测结果:则估计参数为:标准估计误差:,2023/11/1,51,华中农业大学 资源与环境学院,回归分析,回归效果显著性检验:总平方和:数据总的变动回归平方和:被回归方程解释的部分残差平方和:未被回归方程解释的部分,2023/11/1,52,华中农业大学 资源与环境学院,回归分析,回归效果
23、显著性检验:(1)决定系数:用来度量回归值与实际观测值拟合的优良程度,越接近1,拟合效果越好(2)F检验:若,则认为回归效果显著,否则认为不显著,其中 是自由度为(1,n-2)的F分布水平a上侧的分位数。,2023/11/1,53,华中农业大学 资源与环境学院,相关分析,研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关系数:,取值范围为-1,1,大于0为正相关,小于0为负相关,绝对值越接近1,相关性越大。,2023/11/1,54,第三章 地统计学基础理论,资源与环境学院 杨勇,2023/11/1,55,华中
24、农业大学 资源与环境学院,目录,随机函数及其实现区域化变量概率分布平稳假设平稳性二阶平稳性本证假设变异函数和协方差函数协方差和变异函数的关系等式协方差函数、自相关函数和变异函数的一些性质,2023/11/1,56,华中农业大学 资源与环境学院,地统计学是统计学在地学领域应用的分支,所以统计学的一些基本概念,如均值,方差,协方差等,在地统计学中仍有用,但地统计学也存在区别,2023/11/1,57,华中农业大学 资源与环境学院,随机函数及其实现,如在某地所采的样品,每个实测值都是一个区域化值,即实测值z(xi)都来自于随机变量Z(xi)。在每个点xi处,值的作用机制可能不同。经典统计学:所有样品
25、都是随机和独立的,不考虑样品的确切位置及样品之间的相互关系。趋势面分析(运用最小二乘法拟合一个二元非线性函数):每个点就是随机变量的样品点,整个面上不同点的随机变量有同种类型的概率分布,但有不同的总体平均值,这样,其涉及的空间结构仅仅指样品的位置,2023/11/1,58,华中农业大学 资源与环境学院,随机函数及其实现,地统计学:每个点都表达了遵从某类概率分布的一个随机变量的样品点,这些随机变量的平均值、方差和分布形式可能完全不同于面上其他点处随机变量的平均值、方差和分布形式。因此,样品点来自于具有不同分布的随机变量组,地统计学通过样品间的关系来研究其空间结构。,2023/11/1,59,华中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 地学 统计 第一章

链接地址:https://www.31ppt.com/p-6453590.html