共享单车的借还流量预测分析研究物联网工程专业.docx
《共享单车的借还流量预测分析研究物联网工程专业.docx》由会员分享,可在线阅读,更多相关《共享单车的借还流量预测分析研究物联网工程专业.docx(35页珍藏版)》请在三一办公上搜索。
1、前言2第一章绪论41.1 研究背景及意义41.2 本文的主要工作61.3 本文的组织结构7第二章相关方法82.1 随机森林算法82.2 极端随机树算法92.3 1.ightGBM算法92.4KNN算法9第三章问题定义与分析113.1 问题形式化113.2 问题分析12第四章预测算法141.1 1算法架构141.2 数据预处理151.3 热站点预测算法154.3.1基于随机森林的预测算法154.3.2基于极端随机树的预测算法174.3.3基于LightGBM的预测算法184.3.4力用112O4.4冷站点预测算法201 .4.1KNN回归算法原理214 .4.2冷站点预测21 2 24. 5预测
2、值修正4. 5.1KNN分类算法原理235. 5.2站点分类236. 5.3预测值修正24第五章实验验证255. 1数据集255.2 基线预测器&评分标准275.3 实验结果27第六章总结与展望286. 1本文总结286.2后续工作展望28参考文献30致谢错误!未定义书签。近年来,共享单车系统在各大城市逐渐流行,给大众出行的“最先一公里”和“最后一公里”提供了既方便又属于环境友好型的解决方案。虽然它的出现带来了很多便利,但共享单车系统的分配不平衡特点也给管理者和使用者带来了许多问题。对于管理者来说,由于共享单车不断变化的使用需求,它的分布是不均匀的,不加以干预会造成社会资源的极大浪费;对于使用
3、者来说,共享单车的不均匀分布会导致站点无车可借或无车位可停的现象,这会极大影响使用者的使用体验。由于不同站点在不同时间段的借还需求不平衡,因此我们需要对共享单车系统中的自行车进行再平衡。若利用实时监控手段进行再平衡,则需要花费大量的时间、成本、人力,并且无法很好地解决这个问题。因此,我们需要通过一个有效的再平衡策略来对共享单车资源进行调度,这在很大程度上依赖于共享单车借还流量预测。在本文中,我们提出了一种站点级别的预测模型来依靠历史数据以及气象数据等因素来对共享单车借还流量进行预测。首先我们根据历史数据以及时间、气象等因素对历史数据较多的热站点提出具有一定准确度的预测方法一一随机森林、极端随机
4、树算法以及LightGBM的加权融合算法,然后对于历史数据较少的冷站点单独处理,采用KNN算法对这些站点的借还流量进行预测,最后根据PoI信息采用KNN算法对自行车站点进行分类并根据分类结果对冷热站点预测算法进行改进和修正。我们的模型在永安自行车公司在盐城的公共自行车数据上进行了验证,实验结果证明本文提出的模型好于基线预测器随机森林算法、极端随机树算法和LightGBMo关键词:共享单车;流量预测;再平衡AbstractInrecentyears,bike-sharingsystemhasgraduallybecomepopularinmajorcities,providingaconveni
5、entandenvironmentallyfriendlysolutiontothe,thefirstkilometer*1andthelastkilometerofthepublictravel.Althoughithasbroughtalotofconvenience,theuniquefeaturesofbike-sharingsystemalsobringmanyproblemstomanagersandusers.Forthemanagers,thedistributionisunevenbecauseoftheever-changingusageofthesharedbicycle
6、,whichwillcauseagreatwasteofsocialresources.Fortheusers,theunevendistributionofthesharedbicyclewillleadtothephenomenonthatthereisnocartoborrowornoparkingspacetostop,whichwillleadtoabadimpactontheusersexperience.Weneedtorebalancebicyclesinbike-sharingsystemduetotheunevendemandofdifferentsitesatdiffer
7、enttimeperiods.Ifweusereal-timemonitoringmeanstorebalance,itwilltakealotoftime,costandmanpower,soitcan,tsolvethisproblemwell.Therefore,therebalancingstrategyofsharedbicyclesdependslargelyonthepredictionofsharedbicycles,borrowingandreturningflow.Inthispaper,wepredictthesharedbicycles,borrowingandretu
8、rningflowbasedonhistoricaldataandmeteorologicaldata.Weproposeasitelevelpredictionmodel.Firstly,accordingtohistoricaldata,time,meteorologyandotherfactors,weproposeapredictionmethodwithcertainaccuracy-randomforest,extremelyrandomizedtreesandLightGBMweightedfusionalgorithmforthesehotsites.Then,thecolds
9、iteswithlesshistoricaldataaretreatedseparately,andtheKNNalgorithmisusedtopredicttheborrowingandreturningflowofthesecoldsites.Finally,accordingtothePOIinformation,theKNNalgorithmisusedtoclassifythebicyclesites,andthepredictionalgorithmofthehotandcoldsiteswillbeimprovedandcorrectedaccordingtotheclassi
10、ficationresults.OurmodelisverifiedbytheYbnganbicyclecompanyspublicbikedatainYancheng.Theexperimentalresultsshowthattheproposedmodelisbetterthanthebaselinepredictorsuchasrandomforestalgorithm,theextremerandomtreealgorithmandtheLightGBM.Keywords:Sharedbicycles;Flowprediction;Rebalancing前言近年来,随着智能手机的广泛
11、使用以及共享经济的不断发展,共享单车逐渐成为了流行趋势。共享单车系统已经逐步深入到各大城市,给大众出行的“最先一公里”和“最后一公里”提供了既方便又环保的解决方案。但事物总是存在两面,共享单车的运营管理问题逐渐暴露出来,共享单车缺少有效的调度和维护,潮汐时段与其他时段数量需求的巨大差别以及许多站点出现的单车数量与使用需求不匹配等问题造成了社会资源的浪费。由于不同站点在不同时间段的借还需求是不平衡的,所以我们需要对共享单车系统中的自行车进行再平衡以避免出现站点无车可借或无车位可停的现象。再平衡可以归纳为两种方式,其中一种是实时监控;另一种是根据历史借还数据以及气象数据等其他因素进行预测,并以预测
12、数据作为站点投放自行车的重要依据。现实场景中,企业通常采用实时监控的方式进行再平衡,这需要在自行车数量发生不平衡现象后花费大量的时间、成本以及人力来重新分配自行车,导致站点的使用率以及效率大大降低而根据历史数据以及气象数据等其他因素对共享单车系统未来的借还流量进行预测可以有效地避免共享单车的不平衡现象的产生,指导企业和政府进行共享单车的再平衡以提高共享单车系统的效率以及资源利用率。同时,共享单车作为大众出行的交通工具之一,它的使用情况也能从一定程度上反映出人口流动的特点,对城市交通建设有着重要的参考价值。综上所述,对共享单车的借还流量进行预测有着实际的应用价值。一方面,它可以指导企业和政府进行
13、共享单车的高效投放并在很大程度上避免站点无车可借或无车位可停的现象;另一方面,它可以为城市交通建设提供量化的参考依据。本文提出了一种站点级别的预测模型,其主要由四个部分组成:1)根据历史数据以及时间、气象等因素对历史数据较多的热站点提出具有一定准确度的预测方法随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加权融合算法;2)对于历史数据较少的冷站点单独处理,采用KNN算法对这些站点的借还流量进行预测;3)根据POI信息采用KNN算法对自行车站点进行分类;4)根据步骤3中得到的站点分类结果对步骤1
14、和2中的冷热站点预测算法进行改进和修正。本文所选择的基线预测器是随机森林算法、极端随机树算法和LightGBM。本文的主要研究内容如下:(1)本文指出了传统单一数据预测方法的局限性,从而对历史数据较多的热站点提出了随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加权融合算法。(2)本文针对特定数据集对历史数据较少的冷站点进行了不同于热站点的单独预测处理,从而提高了整体预测的准确度。(3)本文提出了将基于PcH的站点分类信息融入到预测模型中的方法,并通过该方法对冷热站点预测模型进行了改进和修正。(
15、4)本文在真实的数据集上进行了实验,从而验证了本文的方法相较于随机森林算法、极端随机树算法和LightGBM这些基线预测器具有较好的预测结果。第一章绪论本章首先介绍了共享单车借还流量预测的研究背景和意义,然后简单介绍了学术界对交通流预测以及共享单车系统再平衡所做的研究,并概述了本文所做的主要工作和贡献,在本章的最后简要介绍了论文的组织结构。1.1 研究背景及意义近年来,随着智能手机的广泛使用以及共享经济的不断发展,共享单车逐渐成为了流行趋势。共享单车系统已经逐步深入到各大城市,给大众出行的“最先一公里”和“最后一公里”提供了既方便又环保的解决方案。但事物总是存在两面,共享单车的运营管理问题逐渐
16、暴露出来,共享单车缺乏有效的调度和维护,潮汐时段与其他时段数量需求的巨大差别以及许多站点出现的单车数量与使用需求不匹配等问题造成了社会资源的浪费。由于不同站点在不同时间段的借还需求是不平衡的,所以我们需要对共享单车系统中的自行车进行再平衡以避免出现站点无车可借或无车位可停的现象。再平衡可以归纳为两种方式,其中一种是实时监控;另一种是根据历史数据以及气象数据等其他因素进行预测,并以预测数据作为站点投放自行车的重要依据。若采用实时监控的方式进行再平衡,则需要在自行车数量发生不平衡现象后花费大量的时间、成本以及人力来重新分配自行车,导致站点的使用率以及效率大大降低,所以实时监控并不是一个很好的解决方
17、案。而根据历史借还数据以及气象数据等其他因素对共享单车系统未来的借还流量进行预测可以有效避免共享单车不平衡现象的产生,指导企业和政府进行共享单车的再平衡以提高共享单车系统的效率以及资源利用率。同时,共享单车作为大众出行的交通工具之一,它的使用情况也能从一定程度上反映出人口流动的特点,对城市交通建设有着重要的参考价值。综上所述,对共享单车的借还流量进行预测有着实际的应用价值。一方面,它可以指导企业和政府进行共享单车的高效投放并在很大程度上避免站点无车可借或无车位可停的现象;另一方面,它可以为城市交通建设提供量化的参考依据。如今,有一些共享单车企业与一些科研机构进行合作或者把自己的数据公布在数据比
18、赛中使得感兴趣的人可以对通过数学以及计算机手段对数据进行研究从而得到科学合理的分析与预测。一般共享单车企业提供的数据集结构如表1.1所示。表1.1描述了一个共享单车站点间转移数据集,其中各个字段的含义分别对应为:LEASEDATE-借车日期;LEASETIME-借车时间;SHEDlD-借车站点号;RTSHEDlD还车站点号;RTDATE-还车日期;RTnME-还车时间。每一行都对应着一条共享单车从借车站点转移到还车站点的记录,都有一个借车日期(例如1/1/2015)、一个借车时间(例如9:20:27)、一个借车站点号(例如8)、一个还车站点号(例如8)、一个还车日期(例如1/1/2015)和一
19、个还车时间(例如9:21:59)o表1.1共享单车数据集记录IDLEASEDATELEASETIMESHEDIDRtshedidRTDATERTTIME11/1/20159:20:27881/1/20159:21:5922/19/201515:54:4442422/19/201515:56:0736/15/201518:38:171021026/15/201518:39:1744/25/201510:48:501411404/25/201510:50:4657/8/20158:13:401591597/8/20158:15:01当前关于交通流的预测主要分为两大方面进行研究:交通量的预测以及交通
20、速度的预测。而它们都需要根据过去的交通状况来预测未来的情况。研究方向基本可以分为三大类:传统的时序方法Pc】、机器学习方法K”深度学习方法叫文献采用了SeasonalArima模型,文献采用了H-Arima模型;文献4采用了SVR,文献5采用了LR;文献6-8则使用了深度学习方法。目前对于共享单车借还流量的预测,学术界也做出了许多贡献。文献9使用贝叶斯网络对巴塞罗那的Bicing系统中的自行车可用性进行了短期以及中期预测,他们的模型考虑了时间因素,但是没有考虑天气因素对自行车可用性的影响;文献10-13使用了时间序列分析,文献10采用自回归滑动平均(ARMA)时序模型扩展了上述的贝叶斯网络,文
21、献11-12采用时间序列分析来预测维也纳的自行车需求,文献13提出了基于季节性综合ARMA(SARlMA)的时空模型来研究预测Clublinbikes系统;文献14采用信号处理的方法预测里昂的Velo,v系统的整体需求和异常情况;文献15通过将众多外生影响(如日常/每周/季节模式、天气)纳入广义相加模型(GAMS)从而增加了预测的准确性;文献16提出了一个分层次的预测模型,将单个站点自行车借还流量预测转变成了站点集群的借还流量预测,从而使预测更容易、更健壮、更规律,结果更精确;文献17提出了一种基于人工神经网络的站点需求预测模型和平衡预测模型。然而,上述传统的单一的数据预测方法并不能完全满足特
22、定场景的需求。在实际场景中,数据集存在部分站点数据缺失、数据稀缺性大、站点有冷热之分、特征比较复杂、需要预测的数据较多等特点,这使得使用单一预测方法的预测准确性受到了限制。考虑到以上原因,我们根据特定场景中数据的特点,通过对数据进行预处理来解决上述数据的不足,再对传统预测方法进行组合和改进,从而使得数据预测达到了理想的效果。1.2 本文的主要工作本文提出了一种站点级别的预测模型,其主要由四个部分组成:1)根据历史数据以及时间、气象等因素对历史数据较多的热站点提出具有一定准确度的预测方法随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,Ext
23、raTrees)以及LightGBM的加权融合算法;2)对于历史数据较少的冷站点单独处理,采用KNN算法对这些站点的借还流量进行预测;3)根据POI信息采用KNN算法对自行车站点进行分类;4)根据步骤3中得到的站点分类结果对步骤1和2中的冷热站点预测算法进行改进和修正。本文所选择的基线预测器是随机森林算法、极端随机树算法和LightGBM。本文的主要研究内容如下:(1)本文指出了传统单一数据预测方法的局限性,从而对历史数据较多的热站点提出了随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加权融合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 共享 单车 流量 预测 分析研究 联网 工程 专业
链接地址:https://www.31ppt.com/p-7030593.html