《数据挖掘在》PPT课件.ppt
,数据挖掘在地震预测中的应用,2005-12,数据挖掘在地震预测中的应用,1、关联规则2、时间序列的相似性3、神经网络及其集成4、支持向量机5、粗糙集6、主成分分析7、因子分析8、数据挖掘在地震领域中的应用研究展望,1 基于关联分析的地震相关地区查找,(1)地震的地区相关性,寻找地震相关地区,进而预报相关地震是人们较为熟悉的地震预报方法之一。,提出基于主从模式设计的并行关联规则挖掘算法 FPM-LP(Fast Parallel Mining of Local Pruning),以期实现高效发现地震相关地区的关联规则挖掘。结果解释和说明:区域编号1571:新疆乌孜别里山一带;区域编号1098:云南丽江一带。规则“15711098”的支持度为40%,可信度为60%,说明在1960到2003的400多个月里,有大约40%的时间段,即160多个月新疆和云南同时发生了地震。而新疆、云南相伴发生地震的可能性为60%。,(2)用FPM_LP算法寻找地震相关地区,1571 1098 support=40%,confidence=60%,(3)用FPM_LP算法寻找地震相关地区,在三种不同数据组合实验中,每次的挖掘结果都发现云南与新疆之间的地震关联和新疆各地区之间的地震关联。经归纳,云南与新疆之间的地震关联大致如图中所示,地震关联地区用方框标明。,(4)用FPM_LP算法寻找地震相关地区,事实上,从1970年到2003年,两地区地震的M-T图(震级与时间关系图,其中M为震级,T为地震发生时间)如下:,每当新疆发生一次地震,在云南地区不超过1个月就会相伴发生一次地震,从1970年到2003年都有这样的规律。,地震时间序列相似性度量模型,定义:设S和R为两个不同的地震时间序列,则S和R的相似性可用两序列中对应元素的相似性记分函数加权和来度量。相似性度量模型定义为:,2 基于序列相似性的地震相关性分析,这里,(1)S和R分别是在指定时间范围内对S和R补充了空元素以后形成的稠密地震序列。如果将S和R中的空元素除去后则还原为S和R。(2)|S|=|R|;(即S、R两序列长度相等)(3)W(x,y)是权重函数,定义为:W(x,y)=maxx(t),y(t);如果x(t)M 或者 y(t)M W(x,y)=minx(t),y(t);如果x(t)M 并且 y(t)M,实验1:固定时间差为1年的粗粒度序列相似性分析选取1980年1月1日开始的5.0级以上地震转换成时间序列,地理位置按地理坐标进行55分块,时间间隔为1年,=1,相关地震支持数阈值Sup-min为10。得到部分实验结果如下表所示:,例,下图为区域452(位置在四川-云南境内,其经度范围100 105,纬度范围2530)和区域492(台湾省周围,其经度范围120125,纬度范围为2025)相匹配的地区相关性分析M-T图。图中匹配的次数为18次,即在四川云南境内的每一次5级以上地震几乎都可以在台湾省周围找到与之匹配的一次地震记录。,实验2:较小时空窗口的细粒度序列相似性分析采用自1972年1月1日开始的震级在3.0以上的地震数据,用WSM3S算法进行较小时空窗口的细粒度序列相似性分析。实验中具体参数为:地理位置按地理坐标进行1 1 分块,时间间隔为10天,=1,地震相关支持数阈值Sup-min为100,无固定时间差。,时间间隔为10天的地区相关性比较实验结果,以表3-3中第一条记录为例进行分析,算法发现块11821和块11260的地震相关次数为129次,说明它们很可能是地震相关地区。11821块处于我国台湾省台北市的下方,位于我国较大的一个地震频繁发生的地震带上,而11260块处于云南和四川交界处,位于另一个地震带上。从1980年到1985年这两块区域中每月取一个3级以上最大地震所得到的对应MT图。,3.神经网络集成,MEm/EPb值k值Mmax T2.0,1:主震-余震型2:震群型3:孤立型,地震序列类型,判断指标,DOEERBF,提出了一种基于正交设计和均匀设计的异构RBF神经网络集成方法DOEERBF。3.1 地震序列类型判断,比较实验和结果,单个RBFNN外推精度为68.33%,内符精度77.12%固定集成结构和训练参数外推精度65%,内符精度69.64%均匀设计确定集成结构和参数外推精度78.33%,内符精度81.36%,提出了一种自动确定神经网络集成结构和参数调整的构造选择性RBF神经网络集成算法CSERBF,前兆及地震学异常的持续时间和种类多少与未来地震震级大小有一定关系,14项异常指标的持续时间+异常的数量,未来地震震级,CSERBF,3.2 地震震级预测,震级预报,3.3 基于特征加权的神经网络集成 FWEART 地震序列类型判断中的应用,4.支持向量机,SVM方法的基本思想:基于Mercer核展开定理,通过非线性映射,把样本空间映射到一个高维乃至于无穷维的特征空间,使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。,最优超平面的分类函数为,4.1 我国大陆强震预测的支持向量机方法,全球强震主要分布在环太平洋地震带和欧亚地震带。许多学者研究表明,我国大陆强震与全球主要板块边界的强震活动之间具有一定的关系,但是这种关系具有较强的非线性。将板板块边界的强震活动分为16个区域,取这16个区域在一年中的Ms7.0级地震次数Ni为支持向量机输入项;输出项为次年我国大陆是否发生7级以上强震。如果发生,取值为1;否则为0。,表1 使用支持向量机和BP神经网络对14个待检验样本的检验结果,通过支持向量机对上述65个样本的学习,据此对学习样本的内符检验全部正确;对14个待检验样本的检验结果(表1)表明,有12个样本的检验结果正确,两个报错(1969、2003年),报准率为1214=0.86。使用BP神经网络模型进行外推检验,报准率为 1114=0.79。支持向量机的预测检验结果要优于BP神经网络。,4.2.1 地震时间序列预测方法(1)依次取前13年中我国大陆每年的最大地震震级 Mi+1,Mi+2,Mi+13,预测第14年的我国大陆最大地震震级Mi+14,(i=1,2,m)。这样支持向量机的输入项为前13年中每年的最大地震 Mi+1,Mi+2,Mi+13;输出项为1个,即为第14年的我国大陆最大地震震级 Mi+14。,4.2 中国大陆强震时间序列预测的支持向量机方法,表1 预测方法()的预测样本检验结果,取预测与实际最大地震震级之差小于等于0.5为报准,则有12个样本的检验结果正确,2个报错。这样报准率为12/14=0.86。,4.2.2 地震时间序列预测方法(2)支持向量机的输入项为前13年中每年的最大地震震级 Mi+1,Mi+2,Mi+13。还增加8个输入项,它们分别是全球地震活动第12和13年的年频次,第13年的年释放能量,第12和13年与前一年的释放能量的差分值,第13年的太阳年平均黑子数,第12和13年与前一年的太阳黑子数差分值。这样支持向量机的输入项共为21个;输出项为1个,仍为所预测的我国大陆第14年的最大地震震级。,表2 预测方法(2)的预测样本检验结果,取预测与实际最大地震震级之差小于等于0.5为报准,则有13个样本的检验结果正确,1个报错。这样报准率为13/14=0.93,,支持向量机与神经网络预测方法预测检验结果比较,与神经网络预测方法比较,本文所用的支持向量机预测方法无论在报准率、预测的平均误差还是均方差这三个方面,都要优于神经网络方法。,粗集(Rough Set,或粗糙集)理论是近年来发展起来的一种处理不确定和模糊信息的重要工具。粗糙集的核心内容是属性重要性的度量和属性约简。其中,约简是应用粗集理论的基础,其内涵即为去掉多余的属性,或者说属性约简的目的就是发现不重要的属性并去掉它们。因此,粗集非常适合于用来处理地震预测指标的独立性问题。,5.粗糙集,基于可辨识矩阵的属性约简方法ODMA(Optimized Discernibility Matrix based Approach)使用约简算法分析地震预测参数的独立性 据中国震例库取测震学指标41项。1:地震条带;2:地震空区(段);3:地震活动分布(时间、空间、平静或增强);4:前兆震(群);5:震群活动;6:地震活动性指标(综合指标A值,地震活动熵、地震活动度、模糊地震活动度);7:地震强度因子Mf值;8:震级容量维(D0值);9:地震节律;10:应变释放(能量释放);11:地震频度;12:b值;13:h值;14:地震窗;15:缺震;16:诱发前震;17:前震活动;18:震情指数(A(b)值);19:地震集中度(集中度C、空间集中度C1、带状集中度Cb);20:地震时间间隔;21:小震综合断层面解;22:P波初动符号矛盾比;23:地震应力降;24:环境应力值;25:介质因子(Q值);26:波速(波速、波速比);27:S波偏振;28:地震尾波(持续时间比、衰减系数、衰减速率p);29:振幅比;30:地脉动;31:地震波形;32:断层面总面积(t)值);33:小震调制比;34:地震缺信量;35:地震非均匀度(GL值);36:算法复杂性(Ac);37:空区参数(sH);38:有震面积数(A值);39:E、N、S三项指标;40:h值;41:D值。,5.1 地震预测指标独立性的粗集约简方法,使用ODMA分析地震预报指标与地震的关系,决策表的构造111项预测指标(41项测震学预报指标,70项前兆指标)地震预报情况结果41项测震学预报指标中17项指标是绝对必要彼此独立的70项前兆指标中只有12项指标是绝对必要彼此独立的,应用ODMA算法的属性约简结果,得到下列五组属性约简集:1,2,3,4,6,10,11,12,13,14,15,17,26,28,29,31,33 1,2,3,4,6,10,11,12,13,14,15,17,21,26,28,29,33 1,2,3,4,6,10,11,12,13,14,15,17,20,26,28,29,33 1,2,3,4,6,10,11,12,13,14,15,17,18,26,28,29,33 1,2,3,4,6,10,11,12,13,14,15,16,17,26,28,29,33。5组中都不出现的属性 5,7,8,9,19,22,23,24,25,27,30,32,34,35,36,37,38,39,40和41为冗余属性。在每组均出现的核属性 1,2,3,4,6,10,11,12,13,14,15,17,26,28,29和33则为属性核,为最有必要属性。,5.2 基于粗集约简的支持向量机集成方法使用RRESVM判断地震序列类型,1:M2:Em/E3:P4:b值5:k值6:Mmax 7:T2.0,使用RRESVM判断地震序列类型,在地震活动性分析中有许多预报指标,如 b值、值、C值、D值、Mf值等。这些指标都从不同侧面反应了地震活动时间、空间和强度特征。目前这类参数较多,同时它们之间还可能存在着一定的相关性。另外在实际预报中,这些参量的变化各有所异。这些都给实际预报带来困难。主成分分析是一种数据约减的有效方法,它可以把描述样本特征的多个有一定相关性的指标化为少数几个综合指标的一种统计分析方法。,6.主成分分析法,选择与地震活动强度有关的一些参量:3级以上地震频次N(ML3.0)、b值、值、A(b)值、Mf 值、Ac 值这6个参量进行主成分分析。图1为6.0级地震发生前后震中周围200km范围内的一些地震活动性参数随时间变化曲线,可以看到,6.0级地震前地震频次N、Mf值、A(b)值等出现相对较为明显的异常,另一些参数的异常变化则不明显。,6.1 1979年江苏溧阳6.0级地震震中附近地区地震活动参数的主成分分析,在实际预报中,我们如何将上述反应地震强度异常特征的指标用一个综合指标来表示,本文根据主成分分析得到的主成分Z i 和相应的权值(贡献率)e i 计算定义综合指标:这里将根据累计贡献率Em85确定最小主成分个数m(mp)。,表1 各参量在各主成分中的系数(特征向量)、特征值与贡献率,溧阳6.0级地震前后震中附近地区地震强度综合指标W随时间的变化,6.2 一些中强以上地震前综合指标W随时间的变化取 N3、b、A(b)、Mf、Ac、C、D 8个参量,因子分析法是主成分分析方法的推广和深化,也是一种数据约减的有效方法,它是把一些可能有一定相关性的变量归结为少数几个综合因子的一种多元统计分析方法。因子分析从一组观测数据出发,通过研究其相关矩阵的内部结构,找出对变量起支配作用的几个互不相关的因子。在尽量减少原始数据信息损失的前提下,用少数几个公共因子去代替数量较多且有一定联系的原始变量,从而达到揭示原始变量之间的内在联系、合理解释原始变量与主要因子关系的目的。,7.因子分析法,选择九江5.7级地震前与地震活动强度有关的6个参量,即地震频次N(ML3.0)、b值、值、A(b)值、Mf值和Ac值进行因子分析。图1为6.0级地震发生前后震中周围200km范围内的一些地震活动性参数随时间变化曲线,可以看到,6.0级地震前地震频次N、Mf值、A(b)值等出现相对较为明显的异常,另一些参数的异常变化则不明显。,7.1 江西九江5.7级地震前地震活动参数的因子分析,计算反映地震活动时、空、强特征的综合指标 根据各公共因子得分 和相应的权值(贡献率)ei,本文定义反映地震活动时、空、强特征的综合指标为:,表1 各因子的特征值与贡献率,表2正交旋转后的因子载荷,九江5.7级地震前后6参数因子分析综合指标Wfa随时间的变化,九江5.7级地震前后8参数因子分析综合指标Wfa随时间的变化,8、数据挖掘在地震领域中的应用研究展望,8.1 数据挖掘在地震预报中的可能应用,前兆干扰因素的排除(数据清洗、属性约简、关联规则)地震异常的识别(分类、聚类、离群数据挖掘、关联规则)异常地震活动异常识别(关联规则、序贯模式、分类、聚类、神经网络、SVM)地震综合预报(分类、聚类、神经网络、粗集)地震序列类型判定和强余震预报的研究 地震序列的相似性研究 如 前震序列的相似性研究 地震序列类型判定的研究(分类树、神经网络、SVM)地震预报知识的学习和地震异常的发现(分类、聚类、关联规则、离群数据挖掘)地震主要预报指标的提取和无用指标的排除(属性约简),前兆干扰因素的排除(数据清洗)数字化动水位的固体潮汐效应,扣除固体潮汐的影响,聊古一井气氡影响因素分析,气象因素影响,8.1 数据挖掘在地震预报中的可能应用,前兆干扰因素的排除(数据清洗、属性约简、关联规则)地震前兆异常的识别(分类、聚类、离群分析、关联规则)异常地震活动的识别(关联规则、序贯模式、分类、聚类、神经网络、SVM)地震综合预报(分类、聚类、神经网络、粗集)地震序列类型判定和强余震预报的研究 地震序列的相似性研究 如 前震序列的相似性研究 地震序列类型判定的研究(分类树、神经网络、SVM)地震预报知识的获取(关联规则、决策树、神经网络、SVM)地震主要预报指标的提取和无用指标的排除(粗糙集),8.2 数据挖掘在地震波数据的实时处理中的可能应用,1、地震波的识别(在干扰中识别地震波信号)2、地震震相的识别3、天然地震与人工地震(爆破、核爆、矿爆等)的识别4、风扰、海浪、汽车等干扰的识别,上海地震台网地震记录图(2001年5月20日18时16分江苏昆山0.7级地震),台阵定位结果(2001年5月20日18时16分江苏昆山0.7级地震),2001年9月15日汤加6.0级地震O:23:04:37.0 Epc:22.39 S,175.04 W Ms:6.0(资料来源IRIS),台阵16个子台记录波形,P,S,聚束波形,10 m,2001年9月15日汤加6.0级地震震中距83.2度,2003-12-15浙江桐乡爆破,2004-11-20常熟1.6级地震,地震与爆破的识别,8.3 数据挖掘在地震工程中的可能应用,1、建构筑物抗震性能评估2、强地震的长期预测3、地震震害预测4、地震震害损失评估5、地震安全性评价,目前,在地震预测中使用的数据处理方法仍然主要是一些常用统计方法。数据挖掘在地震预测以及地学领域的应用还是初步的。数据挖掘在地震预测以及地震领域有着广泛的应用前景。,更新地震监测预报设施二期工程,谢谢!,