《数据挖掘在》PPT课件.ppt
《《数据挖掘在》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据挖掘在》PPT课件.ppt(62页珍藏版)》请在三一办公上搜索。
1、,数据挖掘在地震预测中的应用,2005-12,数据挖掘在地震预测中的应用,1、关联规则2、时间序列的相似性3、神经网络及其集成4、支持向量机5、粗糙集6、主成分分析7、因子分析8、数据挖掘在地震领域中的应用研究展望,1 基于关联分析的地震相关地区查找,(1)地震的地区相关性,寻找地震相关地区,进而预报相关地震是人们较为熟悉的地震预报方法之一。,提出基于主从模式设计的并行关联规则挖掘算法 FPM-LP(Fast Parallel Mining of Local Pruning),以期实现高效发现地震相关地区的关联规则挖掘。结果解释和说明:区域编号1571:新疆乌孜别里山一带;区域编号1098:云
2、南丽江一带。规则“15711098”的支持度为40%,可信度为60%,说明在1960到2003的400多个月里,有大约40%的时间段,即160多个月新疆和云南同时发生了地震。而新疆、云南相伴发生地震的可能性为60%。,(2)用FPM_LP算法寻找地震相关地区,1571 1098 support=40%,confidence=60%,(3)用FPM_LP算法寻找地震相关地区,在三种不同数据组合实验中,每次的挖掘结果都发现云南与新疆之间的地震关联和新疆各地区之间的地震关联。经归纳,云南与新疆之间的地震关联大致如图中所示,地震关联地区用方框标明。,(4)用FPM_LP算法寻找地震相关地区,事实上,从
3、1970年到2003年,两地区地震的M-T图(震级与时间关系图,其中M为震级,T为地震发生时间)如下:,每当新疆发生一次地震,在云南地区不超过1个月就会相伴发生一次地震,从1970年到2003年都有这样的规律。,地震时间序列相似性度量模型,定义:设S和R为两个不同的地震时间序列,则S和R的相似性可用两序列中对应元素的相似性记分函数加权和来度量。相似性度量模型定义为:,2 基于序列相似性的地震相关性分析,这里,(1)S和R分别是在指定时间范围内对S和R补充了空元素以后形成的稠密地震序列。如果将S和R中的空元素除去后则还原为S和R。(2)|S|=|R|;(即S、R两序列长度相等)(3)W(x,y)
4、是权重函数,定义为:W(x,y)=maxx(t),y(t);如果x(t)M 或者 y(t)M W(x,y)=minx(t),y(t);如果x(t)M 并且 y(t)M,实验1:固定时间差为1年的粗粒度序列相似性分析选取1980年1月1日开始的5.0级以上地震转换成时间序列,地理位置按地理坐标进行55分块,时间间隔为1年,=1,相关地震支持数阈值Sup-min为10。得到部分实验结果如下表所示:,例,下图为区域452(位置在四川-云南境内,其经度范围100 105,纬度范围2530)和区域492(台湾省周围,其经度范围120125,纬度范围为2025)相匹配的地区相关性分析M-T图。图中匹配的次
5、数为18次,即在四川云南境内的每一次5级以上地震几乎都可以在台湾省周围找到与之匹配的一次地震记录。,实验2:较小时空窗口的细粒度序列相似性分析采用自1972年1月1日开始的震级在3.0以上的地震数据,用WSM3S算法进行较小时空窗口的细粒度序列相似性分析。实验中具体参数为:地理位置按地理坐标进行1 1 分块,时间间隔为10天,=1,地震相关支持数阈值Sup-min为100,无固定时间差。,时间间隔为10天的地区相关性比较实验结果,以表3-3中第一条记录为例进行分析,算法发现块11821和块11260的地震相关次数为129次,说明它们很可能是地震相关地区。11821块处于我国台湾省台北市的下方,
6、位于我国较大的一个地震频繁发生的地震带上,而11260块处于云南和四川交界处,位于另一个地震带上。从1980年到1985年这两块区域中每月取一个3级以上最大地震所得到的对应MT图。,3.神经网络集成,MEm/EPb值k值Mmax T2.0,1:主震-余震型2:震群型3:孤立型,地震序列类型,判断指标,DOEERBF,提出了一种基于正交设计和均匀设计的异构RBF神经网络集成方法DOEERBF。3.1 地震序列类型判断,比较实验和结果,单个RBFNN外推精度为68.33%,内符精度77.12%固定集成结构和训练参数外推精度65%,内符精度69.64%均匀设计确定集成结构和参数外推精度78.33%,
7、内符精度81.36%,提出了一种自动确定神经网络集成结构和参数调整的构造选择性RBF神经网络集成算法CSERBF,前兆及地震学异常的持续时间和种类多少与未来地震震级大小有一定关系,14项异常指标的持续时间+异常的数量,未来地震震级,CSERBF,3.2 地震震级预测,震级预报,3.3 基于特征加权的神经网络集成 FWEART 地震序列类型判断中的应用,4.支持向量机,SVM方法的基本思想:基于Mercer核展开定理,通过非线性映射,把样本空间映射到一个高维乃至于无穷维的特征空间,使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。,最优超平面的分类函数为,4.1
8、 我国大陆强震预测的支持向量机方法,全球强震主要分布在环太平洋地震带和欧亚地震带。许多学者研究表明,我国大陆强震与全球主要板块边界的强震活动之间具有一定的关系,但是这种关系具有较强的非线性。将板板块边界的强震活动分为16个区域,取这16个区域在一年中的Ms7.0级地震次数Ni为支持向量机输入项;输出项为次年我国大陆是否发生7级以上强震。如果发生,取值为1;否则为0。,表1 使用支持向量机和BP神经网络对14个待检验样本的检验结果,通过支持向量机对上述65个样本的学习,据此对学习样本的内符检验全部正确;对14个待检验样本的检验结果(表1)表明,有12个样本的检验结果正确,两个报错(1969、20
9、03年),报准率为1214=0.86。使用BP神经网络模型进行外推检验,报准率为 1114=0.79。支持向量机的预测检验结果要优于BP神经网络。,4.2.1 地震时间序列预测方法(1)依次取前13年中我国大陆每年的最大地震震级 Mi+1,Mi+2,Mi+13,预测第14年的我国大陆最大地震震级Mi+14,(i=1,2,m)。这样支持向量机的输入项为前13年中每年的最大地震 Mi+1,Mi+2,Mi+13;输出项为1个,即为第14年的我国大陆最大地震震级 Mi+14。,4.2 中国大陆强震时间序列预测的支持向量机方法,表1 预测方法()的预测样本检验结果,取预测与实际最大地震震级之差小于等于0
10、.5为报准,则有12个样本的检验结果正确,2个报错。这样报准率为12/14=0.86。,4.2.2 地震时间序列预测方法(2)支持向量机的输入项为前13年中每年的最大地震震级 Mi+1,Mi+2,Mi+13。还增加8个输入项,它们分别是全球地震活动第12和13年的年频次,第13年的年释放能量,第12和13年与前一年的释放能量的差分值,第13年的太阳年平均黑子数,第12和13年与前一年的太阳黑子数差分值。这样支持向量机的输入项共为21个;输出项为1个,仍为所预测的我国大陆第14年的最大地震震级。,表2 预测方法(2)的预测样本检验结果,取预测与实际最大地震震级之差小于等于0.5为报准,则有13个
11、样本的检验结果正确,1个报错。这样报准率为13/14=0.93,,支持向量机与神经网络预测方法预测检验结果比较,与神经网络预测方法比较,本文所用的支持向量机预测方法无论在报准率、预测的平均误差还是均方差这三个方面,都要优于神经网络方法。,粗集(Rough Set,或粗糙集)理论是近年来发展起来的一种处理不确定和模糊信息的重要工具。粗糙集的核心内容是属性重要性的度量和属性约简。其中,约简是应用粗集理论的基础,其内涵即为去掉多余的属性,或者说属性约简的目的就是发现不重要的属性并去掉它们。因此,粗集非常适合于用来处理地震预测指标的独立性问题。,5.粗糙集,基于可辨识矩阵的属性约简方法ODMA(Opt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘在 数据 挖掘 PPT 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5519577.html