[工学]时间序列数据可视化工具的设计与实现终稿updated2.doc
《[工学]时间序列数据可视化工具的设计与实现终稿updated2.doc》由会员分享,可在线阅读,更多相关《[工学]时间序列数据可视化工具的设计与实现终稿updated2.doc(52页珍藏版)》请在三一办公上搜索。
1、装订线时间序列数据可视化工具的设计与实现时间序列数据可视化工具的设计与实现软件工程 郭磊 指导老师 穆斌【摘要】时间序列数据是一类普遍而又广泛存在的数据类型,近年来时序数据挖掘越来越受到人们的关注。时间序列分析是对时间序列的规则和模式进行发现的统计学方法。而数据可视化技术可以帮助对于时间序列数据的挖掘。本文设计并实现了一个基于统计分析的数据挖掘可视化原型工具,旨在帮助计量经济学教学,以及针对一维时间序列数据进行可视化挖掘。本文首先介绍了数据可视化的相关技术。其次介绍了时间序列分析的原理,并介绍了利用简单的时间序列分析技术实现的数据挖掘可视化原型工具,具体描述了此原型工具的设计和实现。最后本文利
2、用此工具对一个示例时间序列数据集进行可视化分析挖掘,展示了此原型工具的工作流程和分析表述能力。【关键词】 数据挖掘 可视化 时间序列分析 计量经济学【Abstract】 Time series data is a ubiquitous data type. In recent years, time series data mining is drawing more and more attention. Time series analysis is a statistical method for finding rules and patterns in time series. Me
3、anwhile, data visualization can help with the mining of time series data. In this paper, a statistics-based data mining visualization prototype is designed and implemented, aiming to work as an educational assist to Econometrics and visually mine one-dimension time series data. Firstly relevant tech
4、niques about data visualization were introduced. Then the theory of time series analysis was presented. The design and implementation of the prototype using basic time series analysis techniques were specifically described. Finally, we used the prototype to visually analyze and mine a sample time se
5、ries dataset, presented the working process and analytically expressiveness of this prototype. 【Keyword】 data mining visualization time series analysis Econometrics共 52 页 第 1 页目录1引言41.1项目背景41.2市场背景41.3研究目标51.4本论文组织结构52相关概念和理论知识62.1数据可视化62.1.1数据类型62.1.2可视化技术72.1.3交互和变形技术92.1.4数据挖掘可视化92.2时间序列数据挖掘和时间序列
6、分析102.2.1时间序列数据挖掘简介102.2.2时间序列分析112.2.3时间序列的分析模型122.2.4时间序列的分析步骤132.2.5长期趋势的分析方法142.2.6季节性变动的分析方法152.2.7本文所用的模型152.3MVC模式与Java Swing152.3.1MVC模式152.3.2Java Swing173需求分析与系统概要设计193.1需求分析193.2模块划分193.3系统架构203.4平台选择214各模块详细设计与功能实现224.1控制器概述224.2用户界面模块的设计与功能实现224.2.1概述224.2.2模块功能描述224.2.3功能实现224.3数据模块的详细
7、设计与功能实现244.3.1概述244.3.2模块功能描述244.3.3功能实现254.4输入输出模块的详细设计与功能实现274.4.1概述274.4.2模块功能描述274.4.3功能实现284.5图形模块的详细设计与功能实现294.5.1概述294.5.2模块功能描述304.5.3模块功能实现305案例演示375.1概述375.1.1获取源数据375.1.2数据预处理385.1.3读入文件385.1.4数据可视化395.1.5选取模型进行挖掘结果可视化395.1.6结果编辑和输出426总结与展望456.1总结456.2展望46参考文献47附录48术语表48谢 辞521 引言1.1 项目背景时
8、间序列数据是一个普遍存在的数据集合。在现实生活中,时间序列数据遍及经济、气象、通信、医疗等等多个领域。时间序列数据中包含着很多潜在的有用的信息。对时间序列数据进行挖掘具有很重要的价值它能够帮助人们掌握时间序列中蕴含的规律,为人们提供有力的决策支持。随着电脑的普及和互联网的发展,大量的数据随处可得,对时间序列数据的分析和挖掘也已经在客户行为分析、Web访问模式、序列、疾病监测、自然灾害、科学实验等领域获得了广泛应用。时间数据挖掘可以用作对未来行为的预测,具有重要的研究价值和实际意义。长期以来,数据可视化技术一直被用来进行时间序列数据的分析和挖掘。数据可视化技术能够在数据挖掘的早期引入用户的认识、
9、偏好,从而降低整体的计算复杂度,并且减少无意义结果的数量。使用可视化技术来挖掘时间序列数据,大数据量的数据可以在屏幕上同时进行展示,可以使用户直观地看出时间序列数据中的相似性、趋势,等等。数据挖掘事先并不知道会挖掘出什么结果,也不知道挖掘模型会得到什么样的挖掘结果;可视化为分析大量的复杂的数据提供了帮助。数据挖掘和可视化的结合能够大大提高对数据分析的速度和效率。时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。它包括一般统计分析(如自相关分析,谱分析等),统计模型的
10、建立与推断, 以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上 是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。1.2 市场背景在经济金融领域,存在着大量的时间序列数据,对于这些数据的分析和挖掘,是市场上十分热门的应用。在市场上能够对时序数据进行可视化分析的工具软件相当之多,可以列举出以下三类:(1)针对金融市场的各类分析软件,尤其如股票分析软件等。(2)针对商业分析的各类商业智能(Business Intelligence)软件,如进行销售业绩分析的软件等。(3)针对经
11、济数据分析的计量经济学分析软件。这些软件有一个特点,就是专业性比较强,使用起来比较复杂,而且往往不仅仅针对一类数据。即使是专门针对股票数据的工具,也常常会有很多专业性的指标和术语。这就要求用户投入相当的精力和时间来进行相关的培训,以熟悉各种指标、术语和使用方法。在本工具专注的计量经济学领域,存在着Eviews,SAS等等相当专业的工具。同样的,这些工具也存在着门槛较高,使用方法较复杂的问题。在使用这些软件进行专业的统计分析之前,最好的方法是利用样本数据进行相关术语和分析方法的学习。尤其在计量经济学领域,经济时序数据常常是长期趋势、季节性、周期性都很明显的数据,利用一种简便的工具对样本经济学数据
12、进行分析和学习是很必要的。1.3 研究目标根据以上背景介绍和分析,本课题的目标便产生了:(1)本课题将深入研究时间序列数据,尤其是经济学数据的统计学特征,利用时间序列分析的技术,建立有效而容易理解的统计学模型。(2)利用建立起的统计学模型,本课题将设计和实现一个原型教学工具,展示对于一维时间序列数据进行分析处理,并将最终结果可视化的过程。1.4 本论文组织结构论文结构分成9章,包括相关概念和理论知识的介绍、统计研究过程的设计和具体实现,对统计结果的分析以及对本文的总结。第一章说明了选题的背景意义。第二章介绍了在课题中所用到的相关技术概念和理论知识的介绍。第三章介绍了系统的概要设计和模块划分。第
13、四章详述了系统各模块的设计与实现。第五章以样本数据为例,演示了本系统的功能。第六章总结了论文的主要工作,对未来的工作提出了展望。2 相关概念和理论知识2.1 数据可视化数据可视化研究范围包括三个方面。2.1.1 数据类型数据可视化涉及到数据类型、可视化技术以及对数据进行交互和变形的技术。这三个要素构成了对数据的可视化。待可视化的数据类型包括:(1)一维数据一维数据通常有一个密度维,典型的一维数据的例子是时序数据。在每一个时间点有一个或多个数据值相关联。(2)二维数据二位数据有两个不同维。一个典型的例子是地理数据,有两个不同的维精度和纬度。X-Y坐标是典型的现实二位数据的方法。在数据量不是很大的
14、情况下,可以很容易的处理时序数据或地理数据。(3)多维数据许多数据集包括超过三个的属性,这样就不能简单的作为二维或三维数据来显示。多维数据的典型例子是关系数据库中的表,标的每一列都表示一个属性。可以对多维数据进行描述的方法有:平行坐标、密集像素显示技术、散点图矩阵、星型坐标等等。(4)文本和超文本,不是所有的数据都可以靠维数来表示。文本和超文本是一种重要的数据类型,这些数据不能轻易的被描述为数字,因此许多标准的可视化技术不能被应用。多数情况下,首先把该数据转化为向量描述,然后再应用可视化技术。(5)还有一些数据类型,如图形、层次数据、算法和软件等等。图形可以表示一般数据之间的内部依赖关系。层次
15、数据类型可视化在专门的论文中有叙述。算法和软件的可视化目的是为了帮助对算法的理解,以此来支持软件的开发,例如流程图、代码结构图等等。图2.1 数据可视化的三个方面2.1.2 可视化技术可视化技术包含几个方面,下面逐个介绍每种可视化技术。(1)标准的2D/3D技术:如X-Y(X-Y-Z)坐标,散点图(Scatterplots),条形图(Bar Charts),线条图(Line Graphs)等等,这也是我们最常用到的数据可视化表达方式。散点图又叫散布图,相关图,它是将两个可能相关的变数资料用点画在座标图上,用成对的资料之间是否有相关性。这种成对的资料或许是特性原因,特性特性原因的 关系。通过对其
16、观察分析,来判断两个变数之间的相关关系。这种生产中也是常见的,例如热处理时淬火温度与工件硬度之间的关系,某种元素在材料中的含量与材料强度的关系等。这种关系虽然存在,但又难以用精确的公式或函数,在这种情况下用散点图来分析就是很方便的。假定有一对变数x 和y, x影响因素,y 表示某一质量特征值,通过实验或收集到的x 和y 的资料,上用点表示出来,根据点的分布特点,就可以判断x和y 的相关情况。在我们的生活及工作中,许多现象和原因,有些呈规则的关联,有些呈不规则连。我们要了解它,就可借助散点图统计手法来判断它们之间的相关关系。散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对 数据
17、点进行拟合。 散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通 常用于比较跨类别的聚合数据。图2.2 散点图折线图是用直线段将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布。另外,在折线图中,数据是递增还是递减、增减的速率、增减的规律(周期性、螺旋性等)、峰值等特征都可以清晰地反映出来。所以,折线图常用来分析数据随时 间的变化趋势,也可用来分析多组数据随时间变化的相互作用和相
18、互影响。例如可用来分析某类商品或是某几类相关的商品随时间变化的销售情况,从而进一步预测未来的销售情况。在折线图中,一般水平轴(X轴)用来表示时间的推移,并且间隔相同;而垂直轴(Y轴)代表不同时刻的数据的大小。下图显示了一个包含三个序列的折线图。图2.3 折线图(2)几何转化显示技术(Geometrically-Transformed Displays):几何转化显示技术旨在发现多维数据集的有趣的转化。几何显示技术据研究统计主要包括:点图矩阵(Scatterplots matrices)、解剖视图(Prosection Views)、平行坐标法(Parallel Coordinates)、星型坐
19、标法(Star Coordinates)(3)可视化技术还包括图标显示技术(Iconic Displays)、密集象素显示技术(Dense Pixel Displays)、层叠式显示技术(Stacked Displays)等。散点图与折线图也是本工具所使用的主要可视化技术。2.1.3 交互和变形技术除了数据可视化技术,对于有效的数据研究还需要一些交互和变形技术。交互和变形技术可以使数据分析人员直接和视图交互,并且按照研究对象动态地改变试图。用户根据领域知识和主观判断利用交互变形技术可以使视图以不同的效果显示出来,从不同的角度对数据进行分析观察,达到很好的数据分析效果。不同的数据可视化方法,对视
20、图的交互和变形技术也有所不同,如上面介绍的各个数据可视化方法,都有各自的可视化技术供用户在于数据视图进行交互式使用。下图展示了一个可视化模型:图2.4 可视化模型2.1.4 数据挖掘可视化数据挖掘是从大量的数据中提取或“挖掘”知识。广义的观点是,数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有意义的知识的过程。数据挖掘被视为数据管理与分析技术自然进化的产物。可视化在数据挖掘中是一个多面手,能使人在视觉上理解多维数据中的复杂模式,通过观察数据在多重维数和多重图形窗体中的存在形态,可以直观、迅速地揭示数据趋势,帮助验证数据挖掘模型的可信度。传统的数据挖掘过程以机器为中心,而融和了
21、可视化技术的数据挖掘过程是以人为中心的。这样做的好处是,提高了整个数据挖掘过程的灵活性、有效性、与用户的交互性。可视化技术在数据挖掘中能起到以下作用:(1)通过提供对数据和知识的可视化,可以利用人类的模式识别能力评估和提高挖掘出的结果模式的有效性; (2) 利用可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户能够使用自己丰富的行业知识来规整、约束挖掘过程,改善挖掘结果;(3)提供对挖掘结果的可视化显示,使用户对结果模式能够有深刻直观的理解,从而打破传统挖掘算法的黑盒子模式,使用户对挖掘系统的信赖程度大大提高。下图分别说明了可视化技术在数据挖掘不同阶段的应用。 图2.5可视化技术在数据
22、挖掘中的应用2.2 时间序列数据挖掘和时间序列分析2.2.1 时间序列数据挖掘简介时序数据挖掘是数据挖掘的重要内容。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。而时序数据挖掘则是挖掘时序数据中潜在的有用的知识或信息。时序数据挖掘已经受到众多学者的关注, 并已成为信息领域的研究热点之一。近几年来, 从事时序数据挖掘研究的学者的研究重点主要集中在如何建立时序预测或分析模型, 这些研究的共同特点是建立以数学公式形式表示的模型对时间序列执行趋势分析或预测, 如基于人工神经网络的时序预测模型,Box-Jenkins
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工学 时间 序列 数据 可视化 工具 设计 实现 updated2
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4532990.html