地学统计第二章ppt课件.ppt
《地学统计第二章ppt课件.ppt》由会员分享,可在线阅读,更多相关《地学统计第二章ppt课件.ppt(34页珍藏版)》请在三一办公上搜索。
1、2022/12/27,1,第二章 样本数据的统计分析和预处理,资源与环境学院 杨勇,2022/12/27,2,华中农业大学 资源与环境学院,目录,描述性统计频数分布集中趋势的度量离散型度量偏度和峰度数据检验和分布分析异常值的识别和处理正态分布的检验方法数据转换处理相关分析和回归分析回归分析相关分析,2022/12/27,3,华中农业大学 资源与环境学院,总体,样本和随机样本,总体是指根据统计分析或研究目的而确定的同类事物或现象的全体,有时也把具有共同性质的元素所组成的集合称为总体。从总体中抽取若干个元素而构成的集合叫样本在抽选样本时,总体的每一个元素被抽中的概率相同,这时样本就称为随机样本。在
2、随机抽取的样本的条件下,样本的分布规律与总体的分布规律相似,即样本在一定程度上反映了总体的分布。,2022/12/27,4,华中农业大学 资源与环境学院,2.1 描述性统计,频数分布:测量尺度中的类在某测量集合中出现次数的汇总,说明实测值在测量尺度上的分布情况。离散型频率分布:连续型频率分布:(直方图),实例见表2-3 和 图2-2,2022/12/27,5,华中农业大学 资源与环境学院,集中趋势的度量,反映数据分布集中趋势的参数算术平均数:中位数:如果样本数据资料中的全部观测值从小到大一次排列,处于中间位置的观测值称为中位数。分位数:众数:频率直方图中对应最大频数的那一组中的组中值。,202
3、2/12/27,6,华中农业大学 资源与环境学院,离散型度量,极差:四分位差:离均差:方差:总体方差: 样本方差:,:总体标准差,:样本标准差,2022/12/27,7,华中农业大学 资源与环境学院,离散型度量,变异系数:样本变量的相对变异量,可以比较不同样本相对变异程度大小标准分和标准化变量: 标准分:,用于刻画数据与均值相对于标准差的偏离程度,2022/12/27,8,华中农业大学 资源与环境学院,偏度和峰度,偏度系数:描述分布的偏斜程度,Sk=0,对称分布;Sk0,正偏(右偏),较小的数据比较集中;Sk0,负偏(左偏),较大的数据比较集中,2022/12/27,9,华中农业大学 资源与环
4、境学院,偏度和峰度,峰度系数:统计数据分布陡峭程度的度量,Ku0,频数分布的曲线峰高于正态分布,称为尖顶峰度Ku0,频数分布的曲线较正态分布更为平坦,称为平顶峰度Ku=0,等于或接近于正态分布,2022/12/27,10,华中农业大学 资源与环境学院,2.2 数据检查和分布分析,在进行地统计学分析前,为了保证分析结果的可靠性,经常需要对数据进行检查和预处理,剔除异常值的影响,进行正态分布检验和转换,使参与计算的数据尽量符合正态分布。异常值的识别和处理正态分布的检验方法数据转换处理,2022/12/27,11,华中农业大学 资源与环境学院,异常值的识别和处理,异常值:样品数据中出现概率很小的值,
5、往往在分析前需要剔除。方法:1、平均值加标准差法2、四倍法3、格拉布斯法4、狄克松法5、t检验法,2022/12/27,12,华中农业大学 资源与环境学院,异常值的识别和处理平均值加标准差法,正常数据的上下限等于平均值加二倍标准差,适用于数据分布简单均一的情况:对于数据分布相对复杂的情况,可采用3S法,2022/12/27,13,华中农业大学 资源与环境学院,异常值的识别和处理平均值加标准差法,(5.2932,7.941),(4.63125,8.60295),2022/12/27,14,华中农业大学 资源与环境学院,异常值的识别和处理四倍法,某观察数据与该样品平均值的差数(d)大于平均偏差 的
6、4倍时视为异常值。其中平均偏差就是所有观察数据与样本平均值之间的差数的平均值。即:计算过程:,2022/12/27,15,华中农业大学 资源与环境学院,异常值的识别和处理格拉布斯法,过程:测量数据:例如测量10次(n10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。 计算平均值x-和标准差s:x-7.89;标准差s2.704。计算时,必须将所有10个数据全部包含在内。
7、计算偏离值:平均值与最小值之差为7.894.73.19;最大值与平均值之差为14.07.896.11。,2022/12/27,16,华中农业大学 资源与环境学院,异常值的识别和处理格拉布斯法,确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。 计算Gi值:Gi(xix- )/s;其中i是可疑值的排列序号10号;因此G10( x10 x- )/s(14.07.89)/2.7042.260。计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 地学 统计 第二 ppt 课件
链接地址:https://www.31ppt.com/p-1933213.html