共享单车的借还流量预测分析研究物联网工程专业.docx
前言2第一章绪论41.1 研究背景及意义41.2 本文的主要工作61.3 本文的组织结构7第二章相关方法82.1 随机森林算法82.2 极端随机树算法92.3 1.ightGBM算法92.4KNN算法9第三章问题定义与分析113.1 问题形式化113.2 问题分析12第四章预测算法141.1 1算法架构141.2 数据预处理151.3 热站点预测算法154.3.1基于随机森林的预测算法154.3.2基于极端随机树的预测算法174.3.3基于LightGBM的预测算法184.3.4力用112O4.4冷站点预测算法201 .4.1KNN回归算法原理214 .4.2冷站点预测21 2 24. 5预测值修正4. 5.1KNN分类算法原理235. 5.2站点分类236. 5.3预测值修正24第五章实验验证255. 1数据集255.2 基线预测器&评分标准275.3 实验结果27第六章总结与展望286. 1本文总结286.2后续工作展望28参考文献30致谢错误!未定义书签。近年来,共享单车系统在各大城市逐渐流行,给大众出行的“最先一公里”和“最后一公里”提供了既方便又属于环境友好型的解决方案。虽然它的出现带来了很多便利,但共享单车系统的分配不平衡特点也给管理者和使用者带来了许多问题。对于管理者来说,由于共享单车不断变化的使用需求,它的分布是不均匀的,不加以干预会造成社会资源的极大浪费;对于使用者来说,共享单车的不均匀分布会导致站点无车可借或无车位可停的现象,这会极大影响使用者的使用体验。由于不同站点在不同时间段的借还需求不平衡,因此我们需要对共享单车系统中的自行车进行再平衡。若利用实时监控手段进行再平衡,则需要花费大量的时间、成本、人力,并且无法很好地解决这个问题。因此,我们需要通过一个有效的再平衡策略来对共享单车资源进行调度,这在很大程度上依赖于共享单车借还流量预测。在本文中,我们提出了一种站点级别的预测模型来依靠历史数据以及气象数据等因素来对共享单车借还流量进行预测。首先我们根据历史数据以及时间、气象等因素对历史数据较多的热站点提出具有一定准确度的预测方法一一随机森林、极端随机树算法以及LightGBM的加权融合算法,然后对于历史数据较少的冷站点单独处理,采用KNN算法对这些站点的借还流量进行预测,最后根据PoI信息采用KNN算法对自行车站点进行分类并根据分类结果对冷热站点预测算法进行改进和修正。我们的模型在永安自行车公司在盐城的公共自行车数据上进行了验证,实验结果证明本文提出的模型好于基线预测器随机森林算法、极端随机树算法和LightGBMo关键词:共享单车;流量预测;再平衡AbstractInrecentyears,bike-sharingsystemhasgraduallybecomepopularinmajorcities,providingaconvenientandenvironmentallyfriendlysolutiontothe,thefirstkilometer*1and"thelastkilometer"ofthepublictravel.Althoughithasbroughtalotofconvenience,theuniquefeaturesofbike-sharingsystemalsobringmanyproblemstomanagersandusers.Forthemanagers,thedistributionisunevenbecauseoftheever-changingusageofthesharedbicycle,whichwillcauseagreatwasteofsocialresources.Fortheusers,theunevendistributionofthesharedbicyclewillleadtothephenomenonthatthereisnocartoborrowornoparkingspacetostop,whichwillleadtoabadimpactontheuser'sexperience.Weneedtorebalancebicyclesinbike-sharingsystemduetotheunevendemandofdifferentsitesatdifferenttimeperiods.Ifweusereal-timemonitoringmeanstorebalance,itwilltakealotoftime,costandmanpower,soitcan,tsolvethisproblemwell.Therefore,therebalancingstrategyofsharedbicyclesdependslargelyonthepredictionofsharedbicycles,borrowingandreturningflow.Inthispaper,wepredictthesharedbicycles,borrowingandreturningflowbasedonhistoricaldataandmeteorologicaldata.Weproposeasitelevelpredictionmodel.Firstly,accordingtohistoricaldata,time,meteorologyandotherfactors,weproposeapredictionmethodwithcertainaccuracy-randomforest,extremelyrandomizedtreesandLightGBMweightedfusionalgorithmforthesehotsites.Then,thecoldsiteswithlesshistoricaldataaretreatedseparately,andtheKNNalgorithmisusedtopredicttheborrowingandreturningflowofthesecoldsites.Finally,accordingtothePOIinformation,theKNNalgorithmisusedtoclassifythebicyclesites,andthepredictionalgorithmofthehotandcoldsiteswillbeimprovedandcorrectedaccordingtotheclassificationresults.OurmodelisverifiedbytheYbnganbicyclecompany'spublicbikedatainYancheng.Theexperimentalresultsshowthattheproposedmodelisbetterthanthebaselinepredictorsuchasrandomforestalgorithm,theextremerandomtreealgorithmandtheLightGBM.Keywords:Sharedbicycles;Flowprediction;Rebalancing前言近年来,随着智能手机的广泛使用以及共享经济的不断发展,共享单车逐渐成为了流行趋势。共享单车系统已经逐步深入到各大城市,给大众出行的“最先一公里”和“最后一公里”提供了既方便又环保的解决方案。但事物总是存在两面,共享单车的运营管理问题逐渐暴露出来,共享单车缺少有效的调度和维护,潮汐时段与其他时段数量需求的巨大差别以及许多站点出现的单车数量与使用需求不匹配等问题造成了社会资源的浪费。由于不同站点在不同时间段的借还需求是不平衡的,所以我们需要对共享单车系统中的自行车进行再平衡以避免出现站点无车可借或无车位可停的现象。再平衡可以归纳为两种方式,其中一种是实时监控;另一种是根据历史借还数据以及气象数据等其他因素进行预测,并以预测数据作为站点投放自行车的重要依据。现实场景中,企业通常采用实时监控的方式进行再平衡,这需要在自行车数量发生不平衡现象后花费大量的时间、成本以及人力来重新分配自行车,导致站点的使用率以及效率大大降低而根据历史数据以及气象数据等其他因素对共享单车系统未来的借还流量进行预测可以有效地避免共享单车的不平衡现象的产生,指导企业和政府进行共享单车的再平衡以提高共享单车系统的效率以及资源利用率。同时,共享单车作为大众出行的交通工具之一,它的使用情况也能从一定程度上反映出人口流动的特点,对城市交通建设有着重要的参考价值。综上所述,对共享单车的借还流量进行预测有着实际的应用价值。一方面,它可以指导企业和政府进行共享单车的高效投放并在很大程度上避免站点无车可借或无车位可停的现象;另一方面,它可以为城市交通建设提供量化的参考依据。本文提出了一种站点级别的预测模型,其主要由四个部分组成:1)根据历史数据以及时间、气象等因素对历史数据较多的热站点提出具有一定准确度的预测方法随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加权融合算法;2)对于历史数据较少的冷站点单独处理,采用KNN算法对这些站点的借还流量进行预测;3)根据POI信息采用KNN算法对自行车站点进行分类;4)根据步骤3中得到的站点分类结果对步骤1和2中的冷热站点预测算法进行改进和修正。本文所选择的基线预测器是随机森林算法、极端随机树算法和LightGBM。本文的主要研究内容如下:(1)本文指出了传统单一数据预测方法的局限性,从而对历史数据较多的热站点提出了随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加权融合算法。(2)本文针对特定数据集对历史数据较少的冷站点进行了不同于热站点的单独预测处理,从而提高了整体预测的准确度。(3)本文提出了将基于PcH的站点分类信息融入到预测模型中的方法,并通过该方法对冷热站点预测模型进行了改进和修正。(4)本文在真实的数据集上进行了实验,从而验证了本文的方法相较于随机森林算法、极端随机树算法和LightGBM这些基线预测器具有较好的预测结果。第一章绪论本章首先介绍了共享单车借还流量预测的研究背景和意义,然后简单介绍了学术界对交通流预测以及共享单车系统再平衡所做的研究,并概述了本文所做的主要工作和贡献,在本章的最后简要介绍了论文的组织结构。1.1 研究背景及意义近年来,随着智能手机的广泛使用以及共享经济的不断发展,共享单车逐渐成为了流行趋势。共享单车系统已经逐步深入到各大城市,给大众出行的“最先一公里”和“最后一公里”提供了既方便又环保的解决方案。但事物总是存在两面,共享单车的运营管理问题逐渐暴露出来,共享单车缺乏有效的调度和维护,潮汐时段与其他时段数量需求的巨大差别以及许多站点出现的单车数量与使用需求不匹配等问题造成了社会资源的浪费。由于不同站点在不同时间段的借还需求是不平衡的,所以我们需要对共享单车系统中的自行车进行再平衡以避免出现站点无车可借或无车位可停的现象。再平衡可以归纳为两种方式,其中一种是实时监控;另一种是根据历史数据以及气象数据等其他因素进行预测,并以预测数据作为站点投放自行车的重要依据。若采用实时监控的方式进行再平衡,则需要在自行车数量发生不平衡现象后花费大量的时间、成本以及人力来重新分配自行车,导致站点的使用率以及效率大大降低,所以实时监控并不是一个很好的解决方案。而根据历史借还数据以及气象数据等其他因素对共享单车系统未来的借还流量进行预测可以有效避免共享单车不平衡现象的产生,指导企业和政府进行共享单车的再平衡以提高共享单车系统的效率以及资源利用率。同时,共享单车作为大众出行的交通工具之一,它的使用情况也能从一定程度上反映出人口流动的特点,对城市交通建设有着重要的参考价值。综上所述,对共享单车的借还流量进行预测有着实际的应用价值。一方面,它可以指导企业和政府进行共享单车的高效投放并在很大程度上避免站点无车可借或无车位可停的现象;另一方面,它可以为城市交通建设提供量化的参考依据。如今,有一些共享单车企业与一些科研机构进行合作或者把自己的数据公布在数据比赛中使得感兴趣的人可以对通过数学以及计算机手段对数据进行研究从而得到科学合理的分析与预测。一般共享单车企业提供的数据集结构如表1.1所示。表1.1描述了一个共享单车站点间转移数据集,其中各个字段的含义分别对应为:LEASEDATE-借车日期;LEASETIME-借车时间;SHEDlD-借车站点号;RTSHEDlD还车站点号;RTDATE-还车日期;RTnME-还车时间。每一行都对应着一条共享单车从借车站点转移到还车站点的记录,都有一个借车日期(例如1/1/2015)、一个借车时间(例如9:20:27)、一个借车站点号(例如8)、一个还车站点号(例如8)、一个还车日期(例如1/1/2015)和一个还车时间(例如9:21:59)o表1.1共享单车数据集记录IDLEASEDATELEASETIMESHEDIDRtshedidRTDATERTTIME11/1/20159:20:27881/1/20159:21:5922/19/201515:54:4442422/19/201515:56:0736/15/201518:38:171021026/15/201518:39:1744/25/201510:48:501411404/25/201510:50:4657/8/20158:13:401591597/8/20158:15:01当前关于交通流的预测主要分为两大方面进行研究:交通量的预测以及交通速度的预测。而它们都需要根据过去的交通状况来预测未来的情况。研究方向基本可以分为三大类:传统的时序方法Pc】、机器学习方法K”深度学习方法叫文献采用了SeasonalArima模型,文献采用了H-Arima模型;文献4采用了SVR,文献5采用了LR;文献6-8则使用了深度学习方法。目前对于共享单车借还流量的预测,学术界也做出了许多贡献。文献9使用贝叶斯网络对巴塞罗那的Bicing系统中的自行车可用性进行了短期以及中期预测,他们的模型考虑了时间因素,但是没有考虑天气因素对自行车可用性的影响;文献10-13使用了时间序列分析,文献10采用自回归滑动平均(ARMA)时序模型扩展了上述的贝叶斯网络,文献11-12采用时间序列分析来预测维也纳的自行车需求,文献13提出了基于季节性综合ARMA(SARlMA)的时空模型来研究预测Clublinbikes系统;文献14采用信号处理的方法预测里昂的Velo,v系统的整体需求和异常情况;文献15通过将众多外生影响(如日常/每周/季节模式、天气)纳入广义相加模型(GAMS)从而增加了预测的准确性;文献16提出了一个分层次的预测模型,将单个站点自行车借还流量预测转变成了站点集群的借还流量预测,从而使预测更容易、更健壮、更规律,结果更精确;文献17提出了一种基于人工神经网络的站点需求预测模型和平衡预测模型。然而,上述传统的单一的数据预测方法并不能完全满足特定场景的需求。在实际场景中,数据集存在部分站点数据缺失、数据稀缺性大、站点有冷热之分、特征比较复杂、需要预测的数据较多等特点,这使得使用单一预测方法的预测准确性受到了限制。考虑到以上原因,我们根据特定场景中数据的特点,通过对数据进行预处理来解决上述数据的不足,再对传统预测方法进行组合和改进,从而使得数据预测达到了理想的效果。1.2 本文的主要工作本文提出了一种站点级别的预测模型,其主要由四个部分组成:1)根据历史数据以及时间、气象等因素对历史数据较多的热站点提出具有一定准确度的预测方法随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加权融合算法;2)对于历史数据较少的冷站点单独处理,采用KNN算法对这些站点的借还流量进行预测;3)根据POI信息采用KNN算法对自行车站点进行分类;4)根据步骤3中得到的站点分类结果对步骤1和2中的冷热站点预测算法进行改进和修正。本文所选择的基线预测器是随机森林算法、极端随机树算法和LightGBM。本文的主要研究内容如下:(1)本文指出了传统单一数据预测方法的局限性,从而对历史数据较多的热站点提出了随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加权融合算法。(2)本文针对特定数据集对历史数据较少的冷站点进行了不同于热站点的单独预测处理,从而提高了整体预测的准确度。(3)本文提出了将基于Pol的站点分类信息融入到预测模型中的方法,并通过该方法对冷热站点预测模型进行了改进和修正。(4)本文在真实的数据集上进行了实验,从而验证了本文的方法相较于随机森林算法、极端随机树算法和LightGBM这些基线预测器具有较好的预测结果。1.3本文的组织结构本文共分为七个章节,各章节的具体内容如下:第一章:绪论。本章主要介绍了共享单车借还流量预测的研究背景与意义、本文的主要工作,最后介绍了本文的组织结构。第二章:共享单车流量预测的相关方法。本章主要介绍了本文所使用的相关机器学习算法,包括随机森林算法、极端随机树算法、LightGBM以及KNN算法。第三章:主要介绍了本文所涉及的问题定义与描述,同时分析了本文所遇到的问题。第四章:主要介绍了本文所提出的共享单车冷热站点流量预测算法。第五章:主要介绍了本文的实验场景、所使用的数据集以及所选择的基线预测器和评分标准并在最后给出实验结果验证。第六章:总结全文,并对下一步的工作进行展望和分析。第二章相关方法本章介绍了本文所使用的共享单车流量预测相关方法和技术并概括归纳了相关方法和技术的主要特征、优势及基本原理。2.1 随机森林算法随机森林(RandomFOreSt)是传统的集成学习方法,是基于自助采样的并行集成学习方法之一Bagging的变体。在Bagging已具有的样本扰动的基础上,随机森林以决策树作为基学习器,并在每棵决策树的训练中引入了随机属性选择,从而引入了属性扰动,使得基学习器之间的多样性进一步增加。它可用于回归以及分类预测等问题。随机森林算法有很多优势,它能同时处理离散属性和连续属性,训练速度快,实现简单,最值得关注的是由于样本扰动和属性扰动这两个随机性的引入,随机森林算法不太容易发生过拟合,泛化能力也较强,同时也具有较强的抗噪性能。随机森林由许多相互无关联的决策树构成。在用训练集构建随机森林后,测试样本进入该随机森林,森林中每一棵决策树都将对该样本进行决策,最后综合随机森林中每一棵决策树的结果对该样本进行预测。若是分类问题,则随机森林基于每棵决策树的分类结果,采用多数表决对测试样本进行分类;若是回归问题,则每个决策树对测试样本的预测值为叶子节点的均值,测试样本的最终预测结果是所有决策树的预测值的平均值。实现过程可总结如下:(1)使用自助采样法从原始训练集N中采样出T个采样集,由此构建T棵决策树;(2)设有d个属性,在每一棵决策树的每个结点处随机抽取k个属性,之后在这k个属性中选择最优的进行当前结点的划分;(3)不对决策树进行修剪,使之最大限度生长;(4)用已训练好的T棵决策树构建随机森林之后,用它对新的样本进行分类或回归,分类结果由T棵决策树采用多数表决而定,回归结果为T棵决策树预测值取平均而定。随机森林算法在本文中用于对热站点共享单车借还流量进行回归预测。2.2 极端随机树算法极端随机树算法(extremelyrandomizedtrees,ExtraTrees)是随机森林算法的变种。区别在于首先它不再采用自助采样,而是使用所有训练样本获得每一棵决策树,其次它在随机属性基础上再加入随机属性取值。这种方式相较于随机森林增加了随机性,在某些情况下它的泛化能力强于随机森林。同样地,它也可用于分类和回归,在本文中用于对热站点共享单车借还流量进行回归预测。1.ightGBM算法1.ightGBM(LightGradientBoostingMachine)是基于决策树算法的分布式梯度提升框架。它在GBDT基础上实施了改进策略,改进内容包括基于直方图的决策树算法、带深度限制的Leaf-wise的叶子生长策略、直方图做差加速、直接支持类别特征、Cache命中率优化、基于直方图的稀疏特征优化、多线程优化等。它具有以下优势:训练效率高、内存使用低、准确率高、支持并行学习、速度快、可处理规模较大的数据等。GBDT是通过采用基学习器线性组合的方式不断减小训练时产生的残差来实现数据分类或回归预测的算法,最终的强学习器由每轮训练而得到的弱学习器加权求和而成,即加法模型,这里的弱学习器限定了使用CART回归树模型。1.ightGBM被提出主要是为了解决GBDT在处理大量数据时面临的问题,从而使GBDT可以更高效地被用来进行工业实践。1.ightGBM算法可用于分类和回归,在本文中用于对热站点共享单车借还流量进行回归预测。2.3 KNN算法KNN(k-NearestNeighbor,k近邻)是一一种常用监督学习算法,既可以用来做分类,也可以用来做回归任务。KNN没有显示训练过程,属于“懒惰学习”,它在训练阶段仅将训练样本保存,时间开销是零,等到收到测试样本以后才进行处理。KNN算法的优势在于它的思想简单、理论成熟、精度高、既可以用于数值型数据也可以用于离散型数据、对数据输入没有假定、可以用于非线性分类、训练时间复杂度仅为0(n)等。其基本思想是基于某类距离度量找到训练集中与测试样本最近的k个训练样本,之后基于k个“邻居”进行分类或回归预测。进行分类任务时,通常使用的方法是投票法或者加权投票法。进行回归任务时,通常使用的方法是平均法或者加权平均法。加权投票法和加权平均法基于距离的远近,越近的样本权重越大。实现过程可总结如下:1.1 计算训练集中的样本和测试样本的距离;1.2 按照距离增序排列;1.3 选择距离最小的前k个训练样本;1.4 基于这k个样本进行预测。在本文中,该算法用于对共享单车站点进行分类并根据分类结果对不同类别站点的预测值进行不同程度的修正。同时在本文提到的共享单车借还流量预测场景中存在着冷站点,即历史数据很少的站点。对于这些冷站点,训练数据的不足会使得学习器的拟合能力不够强,评估结果的偏差较大,泛化性能较差。所以需要对这些站点进行单独处理,不使用站点本身的历史数据而是使用热站点的预测数据通过KNN对它们进行回归预测。第三章问题定义与分析在本章中,我们首先对本文共享单车借还流量预测场景中的问题进行形式化,给出明确的问题定义,接着将对该流量预测场景中的问题进行分析。3.1 问题形式化本文所提出的共享单车借还流量预测模型是站点级别的,即我们需要预测的是每个站点的借还流量。定义1站点。一个站点可以描述为:Si=(i,lat,lon),(/=1,2,)表示站点号,IaI表示站点纬度,加表示站点经度。在本文的预测场景中,数据集由多条记录构成,其中的每一条都代表着一次共享单车使用记录,包括起始站点、终止站点、借车时间以及还车时间。定义2记录。一条共享单车使用记录可以描述为:Re=(S°,Sd,T",Td)oSo代表起始站点,Sd表示终止站点,7;和行分别表示借车时间和还车时间。虽然不同站点借还行为的特征各有不同,但是它们都受到气象因素以及时间因素的影响。所以我们选取影响比较大的3个气象因素和5个时间因素来构成特征向量用于建立预测模型。定义3气象特征。气象特征可以描述为与时间f相关的向量:M=(/,/,Wr)。其中M、L、Wr分别代表时间,时的最高气温、最低气温和天气。定义4时间特征。时间特征可以描述为与时间f相关的向量7:Tt=holiday,tiaoxiu,weekday,is_weekend,hanshih)。其中holiday,tiaoxiu,weekday,is_weekend,hanshu分别表示时间段/是否为国假、是否是上班日(针对调休)、周几、是否是周末、是否是寒暑假。定义5特征向量。时间/的特征向量可以表示为:fi=(MlJt)o其中肠表示气象特征,Z表示时间特征。本文预测场景中若需对站点借还流量进行更加准确的预测,则需要对站点进行分类,站点分类所需的PeH数据可表示如下。定义6POI数据。站点附近的一条POI数据可描述为:POl=(label,Iat1Ion),其中abd表示类别标签,af表示纬度,z表示经度。问题定义给定历史共享单车使用记录集合R=闺812,.1,我们希望预测每个站点Si(i=1,2,4在未来某个时间,内的共享单车借还数量乙一和Rs,l,这里的时间,的间隔在本文中被设置为1天。本章节所使用的相关符号见表3.1。表3.1符号描述符号描述Si第i个站点n站点的数量站点S在时间/的借车量RSI,t站点Si在时间/的还车量fi时间/的特征向量3.2 问题分析(I)本文中提到的共享单车借还流量预测场景中存在着冷热站点之分。冷站点,即历史数据很少的站点;热站点则相反。对于冷站点,训练集数据的稀疏性大、充分性不足,会使得学习器的拟合能力不佳,评估结果的偏差较大,泛化性能差,所以我们不能对冷热站点进行相同的处理,即都用历史数据进行预测。(2)站点存在不同类型,如学校附近的站点、景点等休闲娱乐区域附近的站点、公共交通附近的站点、公司附近的站点、住宅小区附近的站点等。对于这些不同种类的站点,需要对预测值做不同程度的修正。如:在本数据集中,我们需要预测的是从2015年7月22日开始到2015年8月31日的共享单车借还流量,对于分类为学校附近的站点来说,训练集中日期在寒暑假期间的数据相较于其他日期很少,数据分布非常不平衡,可能会导致预测的的误差较大。综上所述,我们需要改进所用的模型。第四章预测算法本章将介绍预测算法的实现,其中4.1节将介绍本文预测算法的总体框架,4.2节将介绍对数据基本的预处理操作,4.3节将介绍热站点借还流量预测模型,4.4节将介绍冷站点借还流量预测模型,4.5节将介绍如何进行站点分类以及利用站点分类信息对预测值进行修正。在本章所有算法中,我们都采用借车流量与还车流量分开预测的方式,在算法介绍中只介绍预测借车流量预测的流程,还车流量预测同理。4.1 算法架构由3.1节可知,本文所需要解决的问题为共享单车借还流量的预测,即通过给定的历史共享单车使用记录集合H=Rei,Re2,.Re以及时间气象等因素,预测每个站点S(i=l,2,.M在未来某个时间段/的共享单车借还数量及.,以及这里,的时间间隔为1天。由3.2节可知,本文所要预测借还流量的站点Sa=I,2,存在有冷热站点之分的问题以及分类不同的问题。所以我们需要一个既能预测热站点也能预测冷站点同时可以适应不同类别站点的共享单车借还流量预测模型,该模型需要有较高的准确度。在本节中,提出了如图4.1所示的算法架构。图4.1算法架构如图4.1的算法架构所示,首先我们需要将站点分为热站点和冷站点分开进行处理,对于热站点我们使用历史数据进行借还流量的预测;对冷站点我们使用历史数据以及热站点已预测的数据进行借还流量的预测。最后我们对站点进行分类并根据分类信息对所有站点的预测值进行修正。4.2 数据预处理在这里我们先将历史共享单车使用记录集合R=Re、Re2,.Re根据站点Sa=I,2,.)进行整理,整理成的形式为氏.,二(LSiMMQ,即每个站点S(i=l,2,.M在时间/的借车流量与还车流量。接下来将时间/的特征向量与每个站点在时间r的借还流量进行组合,形成一个更大的向量h,j=(力,八一)G=1,2,V)以用来训练模型。然后我们需要为每个站点S(i=l,2,.)通过组合上述所有的历史数据构建训练集7(i=1,2,)。我们区分冷热站点的标志是该站点Sa=I,2,.,)训练集7(i=l,2)中的=(力/忆)(i=l,2,")数量是否大于等于46,简单来说就是该站点有借还流量的历史天数是否大于等于46天。我们把S定义为热站点的集合,丸定义为冷站点的集合。4.3 热站点预测算法在对热站点的预测中我们采用了随机森林算法、极端随机树算法以及LightGBM的加权融合算法。4.3.1 基于随机森林的预测算法随机森林用于回归的基本思想是在训练阶段组合大量无联系的决策树,而每一棵决策树都是基于数据自助采样单独建立的。在测试阶段,测试样本的最终预测值由每棵决策树的输出取平均而得。传统的决策树选择划分属性的时候会在当前结点属性集合中选择一最优属性;而在随机森林中,对于每棵决策树的每个结点,会从该结点属性集合中随机选择一个属性子集(含有k个属性),然后再从这个属性子集中选择一最优属性用来划分。在训练过程中,我们对每一个热站点分开预测。我们通过对热站点集合S中每一个热站点5的训练集Ts,进行自助采样的方式创建采样集。对于每一个采样集,决策树根据以下步骤进行生长:对于决策树的每一个结点,首先从特征向量力中该结点的所有预测变量中随机选择一些特征作为划分变量,即从此结点属性集合随机选择含有k个属性的子集;接着依据最大化两个分支结点的均匀性的标准找到最优划分属性进行划分;之后重复上述步骤将训练集一步步分成更小的组直到叶子节点。在本文中,我们选择用来选择最优划分属性的衡量标准是均方误差和。采用均方误差和选择最优划分属性的过程如下:对于任意划分属性A,对应的任意划分点S将数据集划分成Dl和D2,选择最优划分属性的过程就是选出使得数据集Dl和D2各自均方误差最小,同时Dl和D2的均方误差之和也最小时所对应的划分属性以及对应划分点。jji11minZ(y。)2+minE(A-C(式4.1)Ani1XiGDl(A,S)c'HGO2(An)其中,Cl为数据集Dl的样本输出平均值,C2为数据集D2的样本输出平均值。图4.2随机森林中的一棵决策树图4.2展示了一个已训练好的深度为4的样例决策树。为了预测某一个热站点S在时间,+1的借车流量,输入的特征向量力+i必须包含时间Z+1是否为国假、是否是上班日(针对调休)、周几、是否是周末、是否是寒暑假以及时间1+1的最高气温、最低气温和天气。当/+I被输入决策树时,需要基于划分变量在每一个结点上做决策直到到达叶子结点。例如,在图4.2中,如果是周末则下一步是判断是否下雨。如果下雨,则到达叶子节点,该叶子节点训练样本数SamPIeS为36个,36个样本的平均借车流量Value为7.8o让M为第n个基决策树的借车流量预测值,即在训练过程中到达该叶子节点的训练样本的平均借车流量Value,则Ls/y为最终预测值,其中M为随机森林中基决策树的数量,也就是说随机森靠的最终预测值是所有基决策树预测值的平均。输入:热站点训练集Tsr=(fifLsr.n),(f29LsrJi),.ftN9LSrjN)MSrSr);N为该站点有借还流量的历史天数;为了表述清晰,我们将用T代替小,X2代替力2,,加代替人;基学习算法-决策树算法G(X);训练轮数T;过程:1 .fort=l,2,.Tdo2 .对热站点训练集乙进行第t次自助采样,得到有N个样本的采样集%一;3 .用Tsr-t训练第t棵决策树G(X);(需要注意的是,对于每个结点,需要从该结点属性集合中随机选择一个属性子集,再从这个属性子集中选择一最优属性用来划分)4 .endfor输出:T个基学习器G(X)的回归预测值进行平均得到最终的随机森林模型输出图4.3随机森林算法相比于其他算法,随机森林算法可以同时处理离散属性和连续属性,在本文的属性集合中既存在着连续属性如最高气温、最低气温,也存在着离散属性如是否是寒暑假,我们可以无需附加转换地使用这些属性;同时随机森林可以处理大量的数据。综上它适合本文的应用场景。4.3.2 基于极端随机树的预测算法极端随机树算法与上述随机森林算法十分相似,与随机森林算法的区别在于以下两点。首先随机森林对热站点训练集T*(SrS?)应用的是Bagging,采用的是自助采样;而极端随机树是使用热站点训练集TV(SrSQ中的所有训练样本得到每一棵决策树。其次随机森林对于含有k个属性的随机属性子集中的每一个属性都需要先计算该属性的最优划分值,再得到最佳划分属性,而极端随机树对于含有k个属性的随机属性子集中的每一个属性并没有计算该属性的最优划分值,而是完全随机生成一个划分值,再计算该划分值对应的均方误差,最后从这些随机划分值中选择最优的进行结点划分。对于单棵决策树来说,因为它的最优划分属性是完全随机的,所以预测值通常不是非常准确,但是相较于随机森林算法,随机属性取值这个改变增加了极端随机树的随机性,从而增加了它的泛化能力,因此多棵决策树的组合往往可以实现比较好的预测。4.3.3 基于LightGBM的预测算法(1) GBDT原理输入:热站点训练集站=(%,人Q,(%,LscD.1(加入加)(SrwS),N为该站点有借还流量的历史天数,为了表述清晰,我们将用Xl代替人,X2代替力2,,XN代替人。通常使用的损失函数为L(y"(x)=(y-(x)2,设定最大的迭代次数为T。输出:强学习器/*)Stepl:初始化弱学习器No(x)=argminVL(Ls,fl,c)(式4.2)Step2:对迭代次数t=l,2,.,T:Step2-(1):对每一个样本i=l,2,.,N计算它的负梯度作为残差近似值:-讨5)-l(t)三-()Step2-(2):利用(第,九)(i=l,2.N)拟合CART回归树,从而得到第t棵CART回归树,其对应的叶子结点为&,j=L2.J。其中J为第t棵CART回归树的叶子结点个数。Step23):对每个叶子结点区域&,j=1,2,J计算最佳拟合值Ctj=argminZL(LS,ft-(x)+c)(式4.4)cXiWRliStep24):更新学习器力(X)=/-(x)+ZCtjI(xRU)(式4.5)>1Step3:得到最终的强学习器f(x)/W=fr(x)=o(x)+Z£CtjI(xRlj)(式4.6)(2) /=1J=I(3) 1.ightGBM在GBDT算法基础上的改进直方图算法直方图算法的原理为首先将连续浮点属性值离散化,形成k个整数,并构造出直方图,宽度是匕在遍历训练集时,以离散化后的k个整数值为索引在直方图中积累统计量,遍历完数据以后