数据挖掘在高速公路收费数据中的应用1.doc
《数据挖掘在高速公路收费数据中的应用1.doc》由会员分享,可在线阅读,更多相关《数据挖掘在高速公路收费数据中的应用1.doc(5页珍藏版)》请在三一办公上搜索。
1、精品论文大集合数据挖掘在高速公路收费数据中的应用1郑长江,沈金星 河海大学交通学院, 南京(210098) E-mail:zhenghhu摘要:数据挖掘技术的发展为分析高速公路收费站海量统计资料提供了便利,通过对数据 挖掘技术内容及其分类的简单介绍,运用关联规则并使用数据挖掘软件 Weka 对广靖锡澄高速公路无锡收费站的部分统计数据进行离散化处理,借助 Apriori 算法对影响收费站收费效 率的收费时段、车辆进站速度、车辆收费平均时耗、收费车辆数、收费车型、收费费用、收费站进口道长度、天气等因素进行关联性挖掘,认为高速公路收费站的收费数据关联性较大 的是收费时间、进站车速、收费车辆数、收费站
2、规模等因素,对于解决收费排队过长、排队车辆控制、收费费率调整、收费站进出口道数量的设置、收费站规模设置等等提供了一定的 参考价值。关键词:交通信息工程及控制;数据挖掘;高速公路;关联规则;Weka 软件 中图分类号:U495随着信息技术的进步,数据充斥着整个社会,或以数值型,或为非数据类型,其背后 隐藏着许多重要的信息。人们希望能够对其进行更高层次的分析,以便更好地使其成为能够 通知、指导、回答或辅助决策和理解的信息。1982 年,John Naisbitt 在其首部著作Mega trends 1中提到:“人类正被信息淹没,却饥渴于知识”。目前的数据库系统可以高效地实现数据的 录入、查询、统计
3、等功能,但很难发现数据中存在的关系和规则,无法根据现有的数据准确 预测未来的发展趋势。截至 2007 年年底,全国公路总里程达 357.3 万公里,其中高速公路 5.36 万公里。2010 年,全国公路总里程将达到 230 万公里(未包含农村公路普查后的 150 万公里村道),其中 高速公路 6.5 万公里、二级以上公路 45 万公里、县乡公路 180 万公里。具备通达条件的乡 镇和建制村 100%通公路,95%的乡镇、80%的建制村通沥青(水泥)路2。随着高等级公路的 修建,收费站数量也随之激增。如何处理高速公路海量收费数据的问题已成为我国交通科技 重点领域之一的智能化数字交通管理技术的一个
4、难点3。1. 数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 他要求数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识 要可接受、可理解、可运用;原始数据可以是结构化,如关系数据库中的数据;也可以是半 结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法 可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用 于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。从商业的
5、角度来看,数据挖掘是一种新的商业信息处理技术,其主要特点是针对商业 数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策 的关键性数据。按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未 知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘与传统分析方法有很大的区别。首先,数据挖掘与传统的数据分析(如查询、1本课题得到国家自然科学基金(50608018)的资助。-2-报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识;其次,数据挖掘所得到的信息应具有先未知,有效和实用个特征。 目前数据挖掘研究的内容包
6、括:基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知 识 发现以 及网上数 据挖掘 等。数 据挖掘所 发现的 知识最 常见的包 括:广 义知识 (Generalization)、关联知识(Association)、分类知识(Classification & Clustering)、预测型知识 (Prediction)、偏差型知识(Deviation)等等。广义知识(Generalization)指类别特征的概括性描述知识。根据数据的微观特性发现其表 征的、带有普遍性的、较高层次概念的知识,反映同类事物共同性质,是对数
7、据的概括、精 炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。数据立方体:基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。面向属性的归约方法:基本思想是收集 数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括 属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。关联知识(Association)是反映一个事件和其他事件之间依赖或关联的知识。如果两项或 多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名 的关联规则发现方法是 R
8、.Agrawal 提出的 Apriori 算法。关联规则的发现可以分为两步:第 一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第 二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。分类知识(ClassificationClustering)是反映同类事物共同性质的特征型知识和不同事 物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中 构造决策树,是一种有指导的学习方法。数据分类还有统计、粗糙集(Rough Set)等方法。线 性回归和线性辨别分析是典型的统计模型。为降低决策树生成代价,人们还提出了一种区间 分类器。最近也有
9、人研究使用神经网络方法在数据库中进行分类和规则提取。预测型知识(Prediction)是根据时间序列型数据,由历史的和当前的数据去推测未来的 数据,也可以认为是以时间为关键属性的关联知识。时间序列预测方法有经典的统计方法、 神经网络和机器学习等。偏差型知识(Deviation)是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如 标准类外的特例、数据聚类外的离群值等。本文主要介绍关联规则在高速公路收费站海量数据中的应用。2. 关联规则和 Apriori 算法关联规则考虑的是数据间存在的关联关系,是在同一事件中出现的不同项之间的相关 性,比如顾客在同一次购买活动中所购买的不同商品之间的相关性
10、4。它是数据挖掘的主要 技术之一,也是无指导学习系统中挖掘本地模式的最普通形式;是大多数人在试图了解数据 挖掘的过程时,所能够想到的最接近于该过程的形式。关联规则的挖掘问题可简单地描述如 下:设 Ii1,i2,im是由 m 个不同项目的集合,对给定的一个事务数据库 D,其中的每 一个事务 T 是 I 中一组项目的集合,任一 T 有唯一的标识符 Tid。当 X I 且 X T,则事务 T 包含集 X。此时,当它具有支持度 S,即事务数据库 D 中至少有 s%的事务包含 XY 或者它 具有置信度 c,即在事务数据库 D 中包含 X 的事务至少 c%同时也包含 Y 时,相联规则 XT成立,其中 X
11、I,Y I,XY=。Apriori 算法最早是由 Agrawal 等在 1993 年提出的挖掘关联规则的重要方法,其主要利用几次迭代来计算数据库中的频繁项集。Apriori 使用一种称作逐层搜索的迭代方法,第 k 项集用于探索第 k+1 项集。首先,找出频繁 1 项集的集合,记为 L1;其次,使用 L1 寻找频 繁 2 项集的集合,记为 L2,通过相同的迭代方法直到找到频繁 k 项集为止。每一次迭代有个步骤:产生候选集;计算和选择候选集。第二的工作是在第一阶段所建立的所有频繁项 集的基础上,来挖掘关联规则。即,如果规则为X1,X2,X3X4,那么项集X1,X2,X3和 项集X1,X2,X3,X
12、4都是必须为频繁的。然后,规则置信度 cs(X1,X2,X3,X4)/(s(X1,X2,X3)。 置信度 c 大于给定的阀值的规则就是强关联规则。但是,并不是所有被发觉出的强关联规则都是有意义的或者都是会用到的。如果没有 充分地意识到这一点,就有可能在使用关联规则进行商业活动或是科学研究时出错5。3. 数据处理及结果分析本文对于关联规则的考虑使用怀卡托智能分析环境 (Waikato Environment forKnowledge Analysis),是现今最完备的数据挖掘工具之一。 本文中使用的数据6为广靖锡澄高速公路无锡收费站。部分数据见表 1。表 1 广靖锡澄高速公路无锡收费站统计数据T
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 高速公路 收费 中的 应用
链接地址:https://www.31ppt.com/p-5196689.html