数据挖掘在高速公路收费数据中的应用1.doc
精品论文大集合数据挖掘在高速公路收费数据中的应用1郑长江,沈金星 河海大学交通学院, 南京(210098) E-mail:zhenghhu摘要:数据挖掘技术的发展为分析高速公路收费站海量统计资料提供了便利,通过对数据 挖掘技术内容及其分类的简单介绍,运用关联规则并使用数据挖掘软件 Weka 对广靖锡澄高速公路无锡收费站的部分统计数据进行离散化处理,借助 Apriori 算法对影响收费站收费效 率的收费时段、车辆进站速度、车辆收费平均时耗、收费车辆数、收费车型、收费费用、收费站进口道长度、天气等因素进行关联性挖掘,认为高速公路收费站的收费数据关联性较大 的是收费时间、进站车速、收费车辆数、收费站规模等因素,对于解决收费排队过长、排队车辆控制、收费费率调整、收费站进出口道数量的设置、收费站规模设置等等提供了一定的 参考价值。关键词:交通信息工程及控制;数据挖掘;高速公路;关联规则;Weka 软件 中图分类号:U495随着信息技术的进步,数据充斥着整个社会,或以数值型,或为非数据类型,其背后 隐藏着许多重要的信息。人们希望能够对其进行更高层次的分析,以便更好地使其成为能够 通知、指导、回答或辅助决策和理解的信息。1982 年,John Naisbitt 在其首部著作Mega trends 1中提到:“人类正被信息淹没,却饥渴于知识”。目前的数据库系统可以高效地实现数据的 录入、查询、统计等功能,但很难发现数据中存在的关系和规则,无法根据现有的数据准确 预测未来的发展趋势。截至 2007 年年底,全国公路总里程达 357.3 万公里,其中高速公路 5.36 万公里。2010 年,全国公路总里程将达到 230 万公里(未包含农村公路普查后的 150 万公里村道),其中 高速公路 6.5 万公里、二级以上公路 45 万公里、县乡公路 180 万公里。具备通达条件的乡 镇和建制村 100%通公路,95%的乡镇、80%的建制村通沥青(水泥)路2。随着高等级公路的 修建,收费站数量也随之激增。如何处理高速公路海量收费数据的问题已成为我国交通科技 重点领域之一的智能化数字交通管理技术的一个难点3。1. 数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 他要求数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识 要可接受、可理解、可运用;原始数据可以是结构化,如关系数据库中的数据;也可以是半 结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法 可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用 于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。从商业的角度来看,数据挖掘是一种新的商业信息处理技术,其主要特点是针对商业 数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策 的关键性数据。按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未 知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘与传统分析方法有很大的区别。首先,数据挖掘与传统的数据分析(如查询、1本课题得到国家自然科学基金(50608018)的资助。-2-报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识;其次,数据挖掘所得到的信息应具有先未知,有效和实用个特征。 目前数据挖掘研究的内容包括:基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知 识 发现以 及网上数 据挖掘 等。数 据挖掘所 发现的 知识最 常见的包 括:广 义知识 (Generalization)、关联知识(Association)、分类知识(Classification & Clustering)、预测型知识 (Prediction)、偏差型知识(Deviation)等等。广义知识(Generalization)指类别特征的概括性描述知识。根据数据的微观特性发现其表 征的、带有普遍性的、较高层次概念的知识,反映同类事物共同性质,是对数据的概括、精 炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。数据立方体:基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。面向属性的归约方法:基本思想是收集 数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括 属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。关联知识(Association)是反映一个事件和其他事件之间依赖或关联的知识。如果两项或 多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名 的关联规则发现方法是 R.Agrawal 提出的 Apriori 算法。关联规则的发现可以分为两步:第 一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第 二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。分类知识(ClassificationClustering)是反映同类事物共同性质的特征型知识和不同事 物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中 构造决策树,是一种有指导的学习方法。数据分类还有统计、粗糙集(Rough Set)等方法。线 性回归和线性辨别分析是典型的统计模型。为降低决策树生成代价,人们还提出了一种区间 分类器。最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。预测型知识(Prediction)是根据时间序列型数据,由历史的和当前的数据去推测未来的 数据,也可以认为是以时间为关键属性的关联知识。时间序列预测方法有经典的统计方法、 神经网络和机器学习等。偏差型知识(Deviation)是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如 标准类外的特例、数据聚类外的离群值等。本文主要介绍关联规则在高速公路收费站海量数据中的应用。2. 关联规则和 Apriori 算法关联规则考虑的是数据间存在的关联关系,是在同一事件中出现的不同项之间的相关 性,比如顾客在同一次购买活动中所购买的不同商品之间的相关性4。它是数据挖掘的主要 技术之一,也是无指导学习系统中挖掘本地模式的最普通形式;是大多数人在试图了解数据 挖掘的过程时,所能够想到的最接近于该过程的形式。关联规则的挖掘问题可简单地描述如 下:设 Ii1,i2,im是由 m 个不同项目的集合,对给定的一个事务数据库 D,其中的每 一个事务 T 是 I 中一组项目的集合,任一 T 有唯一的标识符 Tid。当 X I 且 X T,则事务 T 包含集 X。此时,当它具有支持度 S,即事务数据库 D 中至少有 s%的事务包含 XY 或者它 具有置信度 c,即在事务数据库 D 中包含 X 的事务至少 c%同时也包含 Y 时,相联规则 XT成立,其中 X I,Y I,XY=。Apriori 算法最早是由 Agrawal 等在 1993 年提出的挖掘关联规则的重要方法,其主要利用几次迭代来计算数据库中的频繁项集。Apriori 使用一种称作逐层搜索的迭代方法,第 k 项集用于探索第 k+1 项集。首先,找出频繁 1 项集的集合,记为 L1;其次,使用 L1 寻找频 繁 2 项集的集合,记为 L2,通过相同的迭代方法直到找到频繁 k 项集为止。每一次迭代有个步骤:产生候选集;计算和选择候选集。第二的工作是在第一阶段所建立的所有频繁项 集的基础上,来挖掘关联规则。即,如果规则为X1,X2,X3X4,那么项集X1,X2,X3和 项集X1,X2,X3,X4都是必须为频繁的。然后,规则置信度 cs(X1,X2,X3,X4)/(s(X1,X2,X3)。 置信度 c 大于给定的阀值的规则就是强关联规则。但是,并不是所有被发觉出的强关联规则都是有意义的或者都是会用到的。如果没有 充分地意识到这一点,就有可能在使用关联规则进行商业活动或是科学研究时出错5。3. 数据处理及结果分析本文对于关联规则的考虑使用怀卡托智能分析环境 (Waikato Environment forKnowledge Analysis),是现今最完备的数据挖掘工具之一。 本文中使用的数据6为广靖锡澄高速公路无锡收费站。部分数据见表 1。表 1 广靖锡澄高速公路无锡收费站统计数据Tab 1 Statistics of Wuxi toll station in Guang Jing Xi Cheng expressway数据序列收费端口时间段进站平均速度收费平均消耗时间收费车辆数收费费率收费车型收费费用收费站长度天气1112012.5100.451155110晴221211730.675270110晴331192510.9320110晴4410000.940110晴5510001.250110晴661221650.45175110晴771232570.6752155110晴881212920.9390110晴10342222010.9330110阴104520000.940110阴105620001.250110阴106720000.4510110阴10782202130.6752145110阴10892192030.93245110阴109102192510.94135110阴110112162811.2555110阴由于在 Weka 软件中对于关联规则使用 Apriori 算法时所有的数据属性必须是分类型的,所以,先将数据转换为.ARFF 文件并将其离散化,通过使用 Weka 中的 Associator 功能进行 分析可以得到挖掘结果如下:(1)进站平均速度低于 5km/h 时,收费平均消耗时间低于 6.4s 的可信度为 100%;(2)进站平均速度低于 5km/h,收费平均消耗时间低于 6.4s 时,收费车辆数小于 4.2-5-辆的可信度为 100%;(3)进站平均速度低于 5km/h,收费车辆数小于 4.2 辆时,收费平均消耗时间低于 6.4s的可信度为 100%;(4)进站平均速度低于 5km/h,收费费用小于 106 元时,收费平均消耗时间低于 6.4s的可信度为 100%;(5)进站平均速度低于 5km/h,收费站长度小于 11034m 时,收费平均消耗时间低于6.4s 的可信度为 100%;(6)进站平均速度低于 5km/h,收费车辆数小于 4.2 辆时,收费平均消耗时间低于 6.4s且收费费用低于 106 元的可信度为 100%;(7)进站平均速度低于 5km/h,收费费用小于 106 元时,收费平均消耗时间低于 6.4s, 且收费车辆数小于 4.2 辆的可信度为 100%;(8)进站平均速度低于 5km/h,收费车辆数小于 4.2 辆,收费费用小于 106 元时,收费 平均消耗时间低于 6.4s 的可信度为 100%;(9)进站平均速度低于 5km/h,收费车辆数小于 4.2 辆时,收费平均消耗时间低于 6.4s, 收费站长度小于 11 034m 的可信度为 100%;(10)进站平均速度低于 5km/h,收费车辆数小于 4.2 辆,收费站长度小于 11 034m 时, 收费平均消耗时间低于 6.4s 的可信度为 100%;(11)进站平均速度低于 5km/h,收费费用小于 106 元,收费站长度小于 11 034m 时, 收费平均消耗时间低于 6.4s 的可信度为 100%;(12)进站平均速度低于 5km/h,收费车辆数小于 4.2 辆,收费费用低于 106 元,收费 站长度小于 11 034m 时,收费平均消耗时间低于 6.4s 的可信度为 100%。4. 结语本文通过关联规则进行数据挖掘后可以看出,对于高速公路收费站的收费数据关联性 较大的是收费时间、进站车速、收费车辆数、收费站规模等因素。对于收费站进站的平均车速、收费车辆数、收费站长度能有关联收费消耗时间的规则 可以看出,对于解决现存的收费车辆积压的问题我们可以从提高进站车速的方面来考虑,这 一点,最极端的例子就是当收费站车辆拥堵的时候,我们必须停止收费使车辆直接通行来降 低收费站消耗的时间以解决拥堵。当然,我们现在对于收费站海量数据所作的仅仅是初步的数据挖掘的尝试,当我们考 虑路段因素、收费站排队车辆数、不同收费站收费数据、同一收费站不同收费时段收费数据 等等各种的因素作综合考虑的时候,我们会得到更加有用的信息。这对于解决收费拥堵、排 队车辆控制、收费费率调整、收费站进出口道数量的设置、收费站规模设置等等都会提供很 好的参考依据的。参考文献1 NAISBIT T, MEGATRENDS J. Ten new directions transforming our lives M. American: IEEE Press, 1982. 2李盛霖. 交通部全年交通工作会议N.新华日报,2008,2(3).Li S L. The years traffic work conference of the Ministry of CommunicationsN. Xinhua Daily, 2008,2(3). (inChinese)3中华人民共和国交通部. 公路水路交通中长期科技发展规划纲要(2006-2020)S. 北京:人民交通出版社,2005.The Ministry of Communications of the Peoples Republic of China. The medium and long term scientific and technological development and plane of highway and waterway transport (2006-2020)S.Beijing: China Communications Press, 2005. (in Chinese)4王光宏, 蒋平. 数据挖掘综述J. 同济大学学报,2004, 32(2):3-5.Wang G H, Jiang P. Summary of data mingingJ. Jorunal of Tongji University, 2004,.32(2):3-5. (in Chinese)5 MECHMED, KANTARDZEC. Data Mining concepts, models, methods and algorithms M.American: IEEE Press ,2002 .6广靖锡澄高速公路.广靖锡澄高速公路无锡收费站统计资料R. 2007.Guang Jing Xi Cheng expressway .The statistics from Wuxi toll station in Guang Jing Xi Cheng expresswayR.2007. (in Chinese)Data Mining applications to charge data of expresswaysZheng Changjiang, Shen JinxingCollege of Transportation, Hohai University, Nanjing (210098)AbstractThe developments of Data Mining methods provide the facilitator to analysis the massive statistics of expressways toll stations. Through introduced the content and classification of Data Mining methodbriefly, the authors use the Association Rules algorithm and Weka to discrete the statistics from Wuxi toll station in Guang Jing Xi Cheng expressway, mine the association rules among charge period、 vehicle speed、average time consumed、total number of vehicles,vehicle type,total fees,length ofimport road and weather. At last, the authors make the conclusion that time, velocity, total number of cars and scale of fees station is related to each other more than other factors. It could offer reference toreduce queue length、control queue vehicle、adjustment toll rate、decisions length of import roads andset the scale of a toll station and so on.Keywords:travel information and control project ;data mining; highway charge data; related rule;weka software作者简介:郑长江(1966),男,副教授,博士,E-mail:zhenghhu。