数学建模论文基于多元统计模型的地震数据分析和处理.doc
题 目 基于多元统计模型的地震数据分析与处理摘 要:本文研究了地震数据的处理与分析问题。地震的发生是一个极其复杂的过程,存在大量不确定因素与不确定信息,给地震的预测带来诸多的困难。本文用主成分分析方法构建综合指标用于描述地震发生前的数据规律,并用贝叶斯判别分析方法对地震的样本数据进行学习、验证及预测,取得了较好的效果。针对任务一,我们从原始数据中计算出各项指标的日均值,绘制出各指标分年度的时间序列图,同时利用一阶差分法分析了这些指标对地震的影响情况(见正文表1),得到了较好的结果。针对任务二,我们选取了附件数据中的十个指标进行主成分分析,为了消除各指标量纲的不统一,我们使用了相关系数矩阵。根据主成分分析,最终确定了5个主成分作为反应地震异常的综合指标,发现电磁波、气温、气压等因素的异常与地震的发生有密切的关系。针对任务三,我们使用了多元统计模型中的贝叶斯判别分析法,假定样本数据只来源于两个总体,即地震前兆的数据总体和正常的数据总体。考虑到地震前兆的样本数据均表现出显著的起伏波动特征,因此我们选取了标准差作为判别变量。在地震前兆的数据总体中抽取5组,在正常的数据总体中抽取6组作为学习和检验样本进行贝叶斯判别分析,判对比率为81.8%,并对2010年上半年的地震数据进行分析,发现里面包含地震前兆特征,后验概率接近于1。任务四中,我们阐述了对地震数据的分析处理步骤,并且指出了地震数据分析平台建立的作用与意义。平台中包含的数据处理程序已在附件中给出。针对任务五,我们提出了一些可行性的设想,如观测站应在分布于不同地域的许多台站同时进行以提供更多的数据,加强震例总结和地震前兆时空分布特征的研究等。关键词:地震数据处理;主成分分析;贝叶斯判别分析参赛密码 (由组委会填写) 参赛队号 043 一、问题重述1.1 背景分析地震是地壳快速释放能量过程中造成的振动。虽然预测地震是世界性难题,但迄今科学界普遍认为,有可能反映地震前兆特征的指标可能不少于10个。已经有专业仪器在多个定点实时按秒记录这些指标的数据,期望通过对记录数据的分析研究找到地震的前兆特征。现已采集到某地2005年1月1日至2010年6月30日按小时观测的10多个指标的数据,和该地区该时期内已发生地震的时刻、经纬度、震级及震源深度的数据。这些数据中隐藏着地震发生的前兆特征。科学地截取这些数据的有用片段,对数据进行合理地预处理,用数学方法揭示地震前兆的数据特征,是一项很有意义的研究工作。题给数据中的这10多个指标,究竟哪些与地震的发生有关,有何种关系,是单一关系还是复合关系;除这10多个指标外还有哪些因素及含题给指标在内的哪些指标的哪种数学模型更能反映地震的前兆特征等等,人们迄今仍不很清楚,需要进行深入地研究。地震数据的观测是持续进行的,随着时间的推移数据的规模会不断扩大。从中挖掘地震的前兆特征,必须有合理的数学模型,也必须有科学高效的算法分析平台。因此,需要我们结合附件中给出的实际记录数据,尝试完成以下任务。1.2 任务的提出任务一:分析数据特征,建立数学模型以度量各指标对地震发生的敏感程度。任务二:构造由某些或全部指标构成的综合指标,使其尽可能地集中反映地震发生前的数据特征的统计规律。任务三:结合题给数据,广泛查阅与地震相关的其它指标的数据和分析方法,建立数学模型来研究地震发生前的数量特征。任务四:将前述各项任务的计算程序集结成地震数据分析平台,使其能够完成形如题给数据的其它地震数据的分析,并能自动输出前述任务的重要的分析结果。任务五:对于进一步的研究设想写一篇切实可行的报告。二、模型假设(1) 地震监测点的监测设施能正常运转;(2) 地震监测设施周围不存在影响其工作效能的干扰源,如飞机场、发电厂等;(3) 由于题目中所监控到的地震均不属于强震,因此不考虑有余震的情况;(4) 对于监测记录中出现的个别数值极大预测量均当作极端异常值予以剔除。三、符号说明:原观测值时间序列,;:为第个指标第个样本的原始数据;:特征值,;:第个指标的贡献率;:表示第个主成分,;:样本综合评价值。四、问题分析根据问题重述,可以知道这是研究地震数据的处理与分析的问题。该问题的关键在于确定哪些指标与地震发生有着密切的关系,哪种数学模型更能反映地震的前兆特征。对此问题,从五个方面出发,分别建立数学模型来度量各指标对地震发生的敏感程度、综合某些或全部指标使其尽可能地集中反映地震发生前的数据特征的统计规律、建立数学模型来研究地震发生前的数量特征、将计算程序集结成地震数据分析平台、对于进一步研究设想写一篇切实可行的报告。对于任务一,要分析附件中所给的数据,建立数学模型以度量各指标对地震发生的敏感程度。附件中已给的10多个指标是按小时给出的,为了更直观的显示各指标与地震的关系,首先剔除极端异常数据,对这些数据进行日平均处理。再对各个指标在地震前三个月的数据进行差分分析,比较分析后得到各指标对地震发生的敏感程度。对于任务二,运用主成分分析法找出由10多个指标的线性组合而成的综合指标。这些主成分可以尽可能地反映原来指标的信息 ,同时彼此间相互独立,以达到集中反映地震发生前数据特征的主要统计规律。在所给的检测数据指标中,有些指标在地震发生前出现较明显的异常,而另一些指标并不出现异常,这些都会给考虑指标与地震关系带来困难。主成分分析法正是解决这一问题的理想工具。任务三中要结合题给数据,建立数学模型来研究地震发生前的数量特征。主要运用贝叶斯判别分析法进行建模,对已给数据进行先验信息、后验信息分析。任务四要将计算程序集结成地震数据分析平台,能够完成其它地震数据的分析,并能自动输出前任务的重要分析结果。任务五是针对进一步的研究设想写一篇切实可行的报告。五、模型的建立与求解5.1 任务一的分析与解答地震是地壳快速释放能量过程中造成的振动,期间会产生地震波的一种自然现象。地震发生时,最基本的现象是地面的连续振动,主要是明显的晃动。由附件中所给的该地区该时期内已发生地震的信息,该地区地震发生频率比较高,在2007年和2008年都发生过两次,地震发生间隔最少为40天。针对题中所给的不同指标数据特征,分析其对地震发生的敏感度。考虑到数据量大,而且由于数据采集过程中,可能仪器出现故障等不可抗因素造成数据错误,所以我们首先必须剔除数据中的极端异常数据,例如:在2008年的数据中,6月2日11:00的雨量为335544.3;3月20日0:00-3:00的水温达到上万甚至几百亿等,像这些数据我们首先就把它们从数据中剔除。只有在数据尽可能真实的情况下再来进行数据分析,才能得出数据的本质特征。5.1.1 指标异常分析在对附件中的数据进行处理修正后,先对各组数据进行分类汇总,计算出各组数据的日平均值,月平均值等,再利用软件画出各指标从2005年至2009年的日均值图,从日均值图来看,在每次地震来之前,电压、电磁波幅度EW、电磁波幅度NS、地温、水位、气温、气压、水温、气氡等指标的年变形态基本完好,但也有的指标由于受季节性的影响,如气温、气压等,不能很好地反映该指标数据的应震能力。为此,我们引入一阶差分方法1来刻画每个指标对地震发生的影响敏感度。一阶差分法是一种压制长周期,突出较短周期的高通线性滤波器。设原观测值时间序列为,则一阶差分时间序列为:短临异常往往表现为测值突跳或离散度增大,而差分序列可以突出这类异常,对信息有一定的放大作用。根据已有专家学者的研究结果,结合前面我们对全年的日均值图的分析,我们发现在题中所给数据中,地震发生前各指标有明显波动异常的数据一般都在地震前的3个月左右,为了分析的方便以及对比,我们截取了每次地震之前90天的数据来进行一阶差分分析,利用统计软件画出了如下差分时间序列图:图5-1-1 2005年11月2日地震前电压一阶差分时间序列图图5-1-2 2006年7月26日地震前电压一阶差分时间序列图图5-1-3 2007年3月22日地震前电压一阶差分时间序列图图5-1-4 2007年5月15日地震前电压一阶差分时间序列图图5-1-5 2009年11月5日地震前电压一阶差分时间序列图从图5-1-1到图5-1-5可以看出,2005年电压的变化起伏比较大,快到11月份的时候电压值也突然增加,表现出了一定的地震预兆特征;2006年电压变化处于平和状态,只有6月初出现了比较大的下降趋势,但很快有走向了平缓,对于这种情况,也有可能是发生地震的征兆;2007年电压变化比较小,未见显著的相关性;2008年和2009年在地震前电压都出现了比较大的变化,而且持续时间一个月左右,表现出了临震异常比较明显的征兆。图5-1-6 2005年11月2日地震前电磁波EW一阶差分时间序列图图5-1-7 2006年7月26日地震前电磁波EW一阶差分时间序列图图5-1-8 2007年3月22日地震前电磁波EW一阶差分时间序列图图5-1-9 2008年5月15日地震前电磁波EW一阶差分时间序列图图5-1-10 2009年11月5日地震前电磁波EW一阶差分时间序列图图5-1-11 2005年11月2日地震前电磁波NS一阶差分时间序列图图5-1-12 2006年7月26日地震前电磁波NS一阶差分时间序列图图5-1-13 2007年3月22日地震前电磁波NS一阶差分时间序列图图5-1-14 2008年5月15日地震前电磁波NS一阶差分时间序列图图5-1-15 2009年11月5日地震前电磁波NS一阶差分时间序列图地震时产生电磁波辐射现象目前已是不争的事实,其产生的主要原因是压电、压磁效应在岩石所受载荷超过其破裂强度产生破裂时,岩石晶格被破坏,产生电位跳跃辐射出电磁波信号。因此,电磁波辐射现象与地震活动有着较为密切的关系,电磁波观测资料是一种捕捉临震信号较有效的手段。图5-1-6至图5-1-15反应了地震前南北方向电磁波幅度和东西方向电磁波幅度的变化状况,总体来说,每次地震前,电磁波都表现出了较大的异常。因此,电磁波对地震的发生有比较明显的预测效应。图5-1-16 2005年11月2日地震前地温一阶差分时间序列图图5-1-17 2006年7月26日地震前地温一阶差分时间序列图图5-1-18 2007年3月22日地震前地温一阶差分时间序列图图5-1-19 2008年5月15日地震前地温一阶差分时间序列图图5-1-20 2009年11月5日地震前地温一阶差分时间序列图大量研究表明,地温增加是比较可靠的地震前兆。从我们分析的数据也可以看出,2005年至2009年中,每次地震发生之前,地温都会表现出比较大的异常,特别是2005年11月2日的那次地震发生前,地温表现出了明显的上升趋势。图5-1-21 2005年11月2日地震前水位一阶差分时间序列图图5-1-22 2006年7月26日地震前水位一阶差分时间序列图图5-1-23 2007年3月22日地震前水位一阶差分时间序列图图5-1-24 2008年5月15日地震前水位一阶差分时间序列图图5-1-25 2009年11月5日地震前水位一阶差分时间序列图地震会给地下水带来严重的影响,会引起地下水位的升降。反之,如果正常的地下水位突然出现水位升降的异常,可能是受到外力的作用而变化的,这时就 有可能发生地震,应做好准备,及时跟踪捕捉更可靠的信息。从2005年到2009年的数据我们也发现地震发生前该地区的水位出现异常,在做了一阶差分后,异常表现的更突出,因此,水位的变化也是一个地震前兆的一个重要因素。图5-1-26 2005年11月2日地震前气温一阶差分时间序列图图5-1-27 2006年7月26日地震前气温一阶差分时间序列图图5-1-28 2007年3月22日地震前气温一阶差分时间序列图图5-1-29 2008年5月15日地震前气温一阶差分时间序列图图5-1-30 2009年11月5日地震前气温一阶差分时间序列图气温这一指标是最容易受季节性影响的,从气温的日均值图中可以看出,气温变化呈现出周期性的变化,很难发现地震前气温的异常变化。在对温度数据进行一阶差分处理后,从图5-1-26到图5-1-30中我们可以看到图像的变化也是一直趋于平缓,未见很大的跳跃,据此,我们认为由于气温受外界影响的因素太多,比如天气、季节,等因素,因此我们不能武断地说气温不是地震前兆的一个指标,还有待进一步的研究。图5-1-31 2005年11月2日地震前气压一阶差分时间序列图图5-1-32 2006年7月26日地震前气压一阶差分时间序列图图5-1-33 2007年3月22日地震前气压一阶差分时间序列图图5-1-34 2008年5月15日地震前气压一阶差分时间序列图图5-1-35 2009年11月5日地震前气压一阶差分时间序列图 气压的变化跟气温的变化类似,也是受外界太多的因素的影响,就题中的数据说明气压对地震的发生有一定的异常反应。图5-1-36 2005年11月2日地震前水温一阶差分时间序列图图5-1-37 2006年7月26日地震前水温一阶差分时间序列图图5-1-38 2007年3月22日地震前水温一阶差分时间序列图图5-1-39 2008年5月15日地震前水温一阶差分时间序列图图5-1-40 2009年11月5日地震前水温一阶差分时间序列图水温前兆异常中,临震异常最为显著,一般认为获取水温临震异常时预测地震发生的有效手段。对该地区的每次地震前的数据进行分析,发现水温可以很好的反映地震的前兆。特别是在一阶差分方法处理后的数据中,2005年到2009年发生地震前,水温的一阶差分曲线都出现了比较大的波动。所以如果某观测点测得的水温数据突然异常,应该对其进行跟踪,并作出相应的处理。图5-1-41 2005年11月2日地震前气氡一阶差分时间序列图图5-1-42 2006年7月26日地震前气氡一阶差分时间序列图图5-1-43 2007年3月22日地震前气氡一阶差分时间序列图图5-1-44 2008年5月15日地震前气氡一阶差分时间序列图图5-1-45 2009年11月5日地震前气氡一阶差分时间序列图氡是一种放射性气体,是镭衰变的中间产物。氡在岩石的孔隙和裂隙中以自由氡、吸附氡和封闭氡的形式存在,在地下水中以溶解氡的形式存在。自由逸出水面的氡称为气氡。通过附件中数据,选取的是2005年以来该地区发生的几次地震,从图5-1-46知,2006年1月至6月初呈锯齿状,6月15日以后呈急剧上升状态直到到7月初气氡量超过20,2006年7月26日发生地震。图5-1-46 2006年日均值2007年3月22日发生地震,震前气氡呈锯齿状在10附近上下摆动,无明显异常状态。震后气氡持上升状态,3月28日起气氡量持续3天超过20,4月5日发生地震。图5-1-47 2007年日均值2008年2月至4月初气氡值持续在5以下,之后不断升高超过40,在5月15日发生地震。受地震影响气氡值在30左右跳动,6月21日跳到20以下后突然升高,6月27日高过40,7月5日再次发生地震。图5-1-48 2008年日均值 2009年6月中旬至7月中旬水氡异常,之后趋于平稳状态,11月5日发生地震。图5-1-49 2009年日均值研究表明,氡反应灵敏,气氡在地震分析预报中起着十分重要的作用。5.1.2 各指标对地震的敏感程度通过分析上面2005年至2009年的数据,由于题中给的数据中雨量、倾斜仪等数据缺失太多,所以我们在此问中不予考虑,留在后面再做分析,通过分析其他指标数据,我得出如下表格来评价各指标对地震发生的敏感程度。表1 地震时间及各指标在震前是否记录到异常地震时间电压电磁波幅度EW电磁波幅度NS地温水位气温气压水温气氡2005-11-02是是是是是否是是是2006-07-26是是是是是否是是是2007-03-22是是是是是是是是是2007-04-05是是是是否是是否是2008-05-15是是是是是是是是是2008-07-05否是是否是是否是是2009-11-05是是是是是是是是是5.2 任务二的解答近年来,对短临地震预报的研究渐趋增多。但是,定量的、综合地研究短临前兆指标体系的文章还不多2。随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长。面临浩渺无际的数据,人们期望获得从汪洋数据中去粗取精、去伪存真的技术。于是,从数据库中发现知识及其核心技术数据挖掘便应运而生。在数据挖掘中,数据清洗是数据挖掘前的一个重要环节,包括去噪声、填补丢失的域、删除无效数据、保持数据的完整性和正确性等,还包括对时序数据的整理和归并以及对数据相关指标的分析等。本文将用主成分分析方法对附件给出了10多个指标进行分析,集中确定反映地震发生前的数据特征的统计规律。5.2.1 模型的建立与求解主成分分析法旨在力保原始数据信息丢失最小的情况下,对高维变量空间进行降维处理,即在保证原始数据信息损失最小的前提下,经过线性变换和舍弃部分信息,以少数的综合变量取代原有的多维变量。基于主成分分析法的地震前综合指标评价模型 1、主成分分析原理及计算过程 (1)将样本数据标准化,得到标准化后的数据矩阵为,其中:,为原始样本数据。 (2)计算相关系数矩阵 R =(3)计算R的特征方程的个非负特征值。(4)计算对应特征值的相应的特征向量,个特征向量成的特征向量矩阵(5)由特征向量C组成个新因子,有。(6)选择(个主分量,这p个主分量的累积方差贡献率大于等于85%以上,即。 (7)根据Z=XC,计算p个主成分的值。(8)计算样本综合评价值,式中。2、地震发生前数据特征的主成分分析评价根据前面问题的分析,在众多指标中降雨量受到外界因素影响很大,倾斜仪所得数据依赖仪器精确度较高,故我们选取除这些指标外的9个指标构成综合指标,表2为通过主成分分析法得到的各参数在各主成分中的特征值及贡献率。由表2可以看到,取5个主成分时累计贡献率已达到90.58%,取6个主成分时累计贡献率已达到97.87%。这表明前5个主成分已包含了样本中的绝大部分信息量。表2 各参数在各主成分中的特征值、贡献率项目2.940792.375781.143180.8946170.7977190.4005060.255630.1656270.02615140.32680.2640.1270.09940.08860.04450.02840.01840.00290.32680.59070.71780.81720.90580.95030.97870.99711表3为所选指标在5个主成分中的系数(特征向量),由表3可知主成分1中的x2电磁波幅度EW值、x3电磁波幅度NS值、x6气温值、x7气压值系数较大,是构成主成分1 的主要参数;主成分2中x5水位值、x6气温值、x9气氡值系数较大,是构成主成分2 的主要参数;主成分3中x1电压值、x4地温值系数较大,是构成主成分3的主要参数;主成分4中x1电压值、x4地温值、x7气压值系数较大,是构成主成分4的主要参数;主成分5中x4地温值、x8气氡值系数较大,是构成主成分5的主要参数。表3 5个主成分的载荷指标主成分z1z2z3z4z5x1-0.0855-0.24220.7664-0.48070.3011x2-0.70480.2930.085-0.3522-0.3141x30.83610.28340.06420.1840.1424x40.2686-0.01850.69920.477-0.4431x5-0.3119-0.87060.03740.0076-0.1435x60.8076-0.4892-0.1042-0.2279-0.1507x7-0.72680.46750.14840.34050.3037x8-0.0414-0.740.02860.2620.4671x90.62140.62220.1428-0.20370.1953主成分的得分及综合得分见附录1。图5-2-1 综合指标的时间序列图本文取前5个主成分进行分析,并根据主成分来计算地震发生前数据的综合指标Y。图5-2-1为该地区地震综合指标Y随时间的变化曲线。可以看到在2005年11月2日该地区2.3级地震前和2006年7月26日发生的3.6级地震前不到一年的时间内。该地区的指标数据出现了明显的下降后,在升高的过程中,异常幅度明显大于0.25,尽管在地震前数据综合指标Y在上述一些地震前出异常升降现象,Y值总体是渐增趋势,但异常幅度一般小于0.25,。这反应了地震前该区各指标出现一定的增强,但增强的水平仍不高。图5-2-2 第一主成分的时间序列图图5-2-3 第二主成分的时间序列图图5-2-4 第三主成分的时间序列图图5-2-5 第四主成分的时间序列图图5-2-6 第五主成分的时间序列图图5-2-2至图5-2-6是根据综合得到主成分1至主成分5随时间变化的曲线 ,从中可以看到图5-2-1中综合指标Y的基本形态主要由主成分1确定。这是由于主成分1的贡献率最大 ,已达到33%。表明地震强度综合指标Y主要由该地区发生地震的、及4个参数值确定,这是由于其他成分贡献率较小的缘故。比较图中上述5个反应地震前期数据特征的参数随时间的变化,由于这些参数分别反映了地震发生前的数据不同侧面的特征,可以看出有的图中的一些参数在地震发生前的异常变化不明显,而一些参数在其他时段反而变化比较大,总体预报效果不好。而通过主成分分析发现,综合指标Y则比较好地反映了地震发生前数据特征的综合特征。5.3 问题三的模型与解答近年来世界各地不断发生灾难性地震, 造成大量的人员伤亡和经济损失, 尤其是 2008 年震惊世界的“5·12” 汶川大地震, 更是让人触目惊心。此后, 地震预测研究再次引起多方重视。所谓地震预测即根据所认识到或摸索出的规律, 用科学的方法对未来地震发生的时间、地点和强度做出预先估计。而地震预报则是在具备一定可靠程度的前提下, 将地震预测的意见向公众宣布。可见,科学的地震预测是成功实现地震预报的基础。地震前相关指标的出现成为地震前兆已成为无可厚非的客观事实。为了减少地震带给人类的生命与财产损失,对短临地震预报的研究渐趋增多,对人类认识地震及防御工作起到了十分重要的作用。董晓娜3给出震例数据概要,中国震例中提到的异常进行系统整理,总计209条震例,涉及到106个异常指标,其中测震指标41个,前兆指标65个(见3中表1)。夏洪瑞在文献4中针对目前地震数据拟合方法中需要解决的主要问题进行了分析与讨论,提出了应用常规二次多项式拟合地震数据的方法,给出了具体实施步骤,并利用理论模型和实际地震资料对方法进行了验证。董瑞树5分别介绍了特征地震模型与混合地震模型的建立,采用正态分布拟合得到满意的结果,在中国西部特征地震原地复发价格经验概率分布选用对数正态分布,利用对数正态分布条件概率建立混合地震模型。目前地震活动性分析有许多指标参量,各参量在不同时段变化各异,预报效果不理想。由于各参量之间通常具有一定的相关性,王炜在6中选择了地震频次 N( ML3.0)、b值、值、A(b)值、Mf值、Ac值、C值和D值8个参量进行因子分析,得到的反映地震活动时、空、强异常特征的综合指标W。并在2005年江西九江5.7级地震和华北14次5.7级以上地震前出现明显的异常变化,可以较好地反映地震活动时、空、强异常特征。并对因子分析的有关问题进行了讨论。本文应用贝叶斯判别分析,建立数学模型来研究地震发生前的数量特征。5.3.1 贝叶斯判别分析原理Bayes学派将人类的经验信息与抽样数据信息协调,得到后验分布进行决策。因为他的实用性使得某些专家认为21世纪可能是Bayes学派思想占主导地位。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。设有定义明确的 g个类,,分别为,的多元正态分布,对任何一个个体,若己知P个变量的观察值,要求判断该个体最可能属于哪一个类。如果制订了一个判别规则,难免会发生错分现象,若把实属于第i类的个体错分到第j类的概率记为,这种错分造成的损失记为,那么在这个判别分类规则下实属第i类的个体错分到其他类别的损失为: 记第类个体出现的概率为,从而这个判别分类规则错分的平均损失为: 贝叶斯判别准则就是根据平均损失最小原则来寻找一个判别规则来进行判别。但在实际问题中,要精确地给出的值,使之真正反映客观需要是比较困难的,因为不论何种错分都同样不受欢迎,故可把它们看作完全相等,则令,.这时平均损失量L变为: 就相当于错分概率,平均损失最小就相当于错分类的概率最小。5.3.2 任务三的求解针对任务三,由于地震发生前各指标体现出的起伏波动程度较大的离散状态,在数据处理时我们采用日均值的标准差,这样能更好的与正常状态下的数据进行区分。我们假定样本数据只来源于两个总体,即地震前兆的数据总体(组别1)和正常状态下的数据总体(组别2)。对于样本容量的选择,组别1选自地震前90天指标的数据,组别2选自正常状态下90天的数据。运用贝叶斯判别分析原理,结合经过处理的数据,通过Minitab软件分析,结果如表4。表4 贝叶斯判别分析结果编号电压电磁波幅度EW电磁波幅度NS地温水位气温气压水温气氡组别拟合组别10.09160.49660.53920.06775021.62835.32857.59750.13431.60351220.38200.64350.71880.03111059.50924.26235.22770.15423.06951130.11720.37930.41380.0013434.91993.38756.65050.25391.87101141.25711.24491.26060.0156906.86376.10067.21820.21757.24121150.08044.03281.33270.03361524.00654.63075.98410.11263.02471160.09200.43470.47730.06555012.83235.28717.94220.13431.53012280.09780.87370.71270.01894948.65762.57526.29000.41102.74302290.07232.31730.87000.0579887.85795.55956.55490.16121.107121100.95430.75550.66130.0119920.97372.92986.41620.25491.651322110.50330.49460.85460.01295529.75823.61976.80310.20208.229022120.08003.94521.29340.03321555.09663.96564.80470.11252.707622在上表中,只有观测量1和观测量9的拟合结果是错误的,整个模型的判对率达到了81.8%。同时我们把2010年上半年的数据代入这个模型中,得到的分组判别结果为1,也就是是说在2010年上半年的数据中,包含有地震前兆的特征。后验概率为1.0。(程序见附件)5.4 任务四的模型与解答本任务要求设计地震数据分析平台,使其能够完成形如上述题给数据的其它地震的分析。5.4.1 地震数据分析平台的功能地震无疑是当今世界上最具破坏力的灾难之一。一次大地震,能给人们的生产生活带来难以估计的损失。然而由于地震灾害成因复杂、影响因素众多,是迄今为止最难有效预防的天然灾害之一。为了降低地震灾害给国家和人民所带来的生命财产损失,我们应该完善预警机制,加强地震的预测工作。因而建立一个比较有效的地震数据分析平台就显得十分重要。在了解数据分析平台的整体功能前,我们首先要了解整个的分析过程。本平台进行数据分析的总体步骤如下:一、数据文件的收集与读取。只有拥有了数据,才能进行数据的分析。首先,要对各地震监测站的数据进行收集与整理,并且要确保数据能够被系统所读取。这是我们进行后续处理的前提。二、观测数据项的折线图。在把数据导入系统后,我们可以通过在图形化界面上观察数据变化的整体趋势和数据变化的特点,来发现数据项之间的依存关系,帮助我们进行直观判断,为进一步的分析提供思路。三、层次分析这是一个非常重要的处理过程,因为地震监测站点所监测的数据指标往往比较多,然而太多的变量往往使我们对问题的分析变得复杂。因此,我们希望变量个数较少而得到的信息较多。我们用层次分析法构建矩阵最后通过一致性检验四、贝叶斯判别分析及预测判别分析是一种判定样本所属类型的统计方法。贝叶斯判别法能够保留各总体出现的概率的大小(先验概率),减少误判的发生,是一种非常有效的判别手段。对于地震的前兆指标的数据,它们必定会呈现与正常时各指标所体现出来的数值特征。因此,正常的数据来地震前兆的数据应该来自于两类不同的总体。通过对已经划分好组别的样本数据进行学习,我们可以对当前的地震数据进行判别,得到它所属的组别。5.4.2 地震数据分析平台开发与设计的意义本平台的设计在于突出主成分分析及贝叶斯判别模型的使用效果,通过研究,我们发现它比一般的回归模型更加有效,更贴近真实情况,并且预测也更准确。 通过本平台我们可以完成完整的分析过程,包括对数据的读取与预整理,对数据的分析和对数据的呈现等等,然而,对于地震数据的处理是一个非常复杂的问题,我们的模型还是存在这样或是那样的不足,在以后需要不断完善和加以改进,加入多种决策方法来解决不同性质的问题,满足各种需要。通过构建这个平台,可以验证本文中的模型的实际可用性,同时也起到一个抛砖引玉的作用,让更多的人关注和推动地震活动的分析与预测。5.5 进一步的研究设想由于地震过程的复杂性,地壳深部的不可入性,地震事件的小概率性,决定地震预测是个全球性的科学难题。地震前异常变化与地震关系的不唯一性,各局部地区异常变化关系的复杂性,不同地震前异常现象的差异性,临震异常的短暂性,都使得地震预测的困难重重。综观世界,当代的地震预报仍处于比较低的水平阶段。尚无把握预报准确的发震地点和时间。研究表明短期前兆对地震时间的预报是必要的,但它的性质在许多情况下我们还不清楚。单凭经验企图查明短期前兆出现时间对震级和震中距方面的依赖关系看来是不可靠的。考虑到强烈地震发生较少,预报工作也就更加艰巨,需要相当长的时间,精密的技术装备,系统化的野外观测和对观测结果的反复比较,才有可能事先发出预报。观测应在分布于不同地域的许多台站同时进行。而题中给出的数据是非常有限的,仅仅给出一个观测点12个指标的数据。若有更多地震前兆指标的更多数据,我们即可建立更加精确的模型,从而能够较精确的预测地震的发生。再者我们仍无法预报地震发生的时间、地点、震级的大小。于是我们研究设想找到更多的地震前兆特征指标,并揭示各指标的内在联系,然后根据经验和对地震孕育与发生过程的认识进行的地震预报。今后,不仅应在对各单项观测结果进行分析的基础上,进一步加强震例总结和地震前兆时空分布特征的研究,同时应大力加强有关的基础性研究工作,加强各种预报方法的研究攻关。参考文献1 缑亚江,刘东升,何松毅等石泉4.7级地震前天水深井水温的短临异常特征J.高原地震,2003,15(4):45-51.2 李文英,陈绍绪,张清荣地震短临预报综合指标的研究J.地震, 1994,5:20-30.3 董晓娜,段会川基于粗糙集的属性约简在地震异常指标识别中的应用研究J.山西地震,2010,1:21-24.4 夏洪瑞,董江伟,邹少峰等常规二次多项式拟合地震数据J.石油物探,2006,45(5):492-496.5 董瑞树,染洪流,任国强混合地震模型的建立及其科学意义J西北地震学报,2000,22(4):390-396.6 王炜,林命週,赵利飞等. 地震活动参数约简的因子分析方法J.西北地震学报,2006,28(4):303-308.7 张昱,李英,李永强等.甘肃及邻区数字化气氡观测及其地震前兆监测效能评估J.地震研究,2008,31(3):28-32.8 赵静,但琦.数学建模与数学实验M,北京:高等教育出版社,2003.9 姜启源,谢金星,叶俊.数学模型M,北京:高等教育出版社,2003. 附录:表1 2005年2009年各项指标月平均值年月电压电磁波幅度EW电磁波幅度NS地温水位2005年1月1.3734 2.4823 16.9133 -46833.6613 2005年2月1.1020 2.9491 16.9139 -42790.4307 2005年3月26.7960 2.8678 3.2542 17.177