交叉口智能信号控制.pptx
交叉口智能信号控制,现代道路交通管理理论及应用,THE MAIN CONTENTS,交叉口智能信号控制,单路口智能信号控制,随着经济的快速发展,人民生活水平的不断提高,社会对城市交通提出了更高的要求,制约城市道路通行能力的瓶颈道路交叉口,也越来越受到人们的重视。提高交叉口通行能力和降低延误的最有效的方法之一就是交通信号控制。信号控制研究范围涉及相位分配的确定、性能函数的选取、控制参数的确定和配时方案的生成及配套的硬件设备选取等多个领域。,1)发展历程,2)交通信号控制系统的分类,定时式脱机系统,自适应控制系统,智能控制系统,点控方式,线控方式,面控方式,3)信号控制方法应用现状,目前,在全球范围广泛采用的交通信号控制系统包括澳大利亚的SCATS系统和英国的SCOOT系统。SCATS属于方案选择式控制系统,每个交叉口配时方案根据子系统的整体需要进行选择,现在上海运行着该系统;SCOOT属于方案生成式实时自适应控制系统,采用小步长渐进寻优的方法,连续实时地调整绿信比、周期和时差3个参数,北京已引进该系统。,国内其他城市交通控制系统应用情况,1,单路口智能信号控制,定时控制:根据以往观测到的交通需求,按预先设定的配时方案进行控制,因此它对交通需求的随机变化是无法响应的。感应控制方法缺陷:感应控制只能检测是否有车辆到达而不关心有多少辆车到达,因此,它无法真正响应各相位的交通需求,也就不能使车辆的总延误最小。例如:设某相位最短绿时为10s,最大绿时为40s,单位绿延时为5s,则在5s绿延时结束前,如果只有一辆车到达,仍须给出5s的单位绿延时,极端情况下重复上述过程直到最大绿时,共放行了11辆车,而在此期间,下一相位车道却有15辆车等待绿灯,很显然总的车辆延误没有达到最小。,1)单路口两相位的模糊控制,1977年,Pappis等人 设计了一种单路口两相位模糊逻辑控制器,计算机仿真结果证实了该方法的有效性。这是最早将模糊逻辑用于交通控制的例子。下面从延误模型、模糊算法和模糊控制几方面进行介绍。,(1)延误模型,考虑两相位控制的十字路口,东西向为一个相位,南北向为一个相位。假定各方向到达的车辆是随机的,且到达的车辆数服从均匀分布。两个方向的饱和流量均为3600veh/h,无转向车流。设则红灯相位开始后第n(s)内的车辆排队长度为式中,p表示前一个绿灯期间未清完的车辆数。则红灯期间排队车辆总的等待时间为,如果在第n(s)内有一辆车到达否则,令s为饱和流量,则绿灯相位开始后第n(s)内,未清完的车辆排队长度为式中 为前一个红灯期间等候的车辆数。上式括号里的数为正时,z取1,否则z为0。则绿灯期间车辆总的等待时间为因此,一个周期内,一个方向上的车辆总延误为 有效红灯时间R(s)内的延误 有效绿灯时间R(s)内的延误平均每辆车的延误模型为,(2)模糊算法,该算法主要控制绿灯的延时时间,分别在绿灯的第7s、17s、27s、37s和47s实施控制。在路口停车线前S(m)处设置车辆检测器,若测得车辆 的速度为,则其从检测器到临界点所花费的时间为例如:南北方向绿灯持续到第17s准备实施控制时,设在下一个10s 中,相继每一个时间单位1s横穿临界点(南北方向)的车辆数 与等候的车辆数(东西方向)已由检测器得到,分别为设准备实施控制时已有5辆车等候(东西方向),则下一个10s开始后各秒到达和等候的车辆累积数分别为,引入以下模糊变量:T表示“时间”的模糊输入变量,其取值为:“很短”、“短”、“中等”等。A表示“到达数”的模糊输入变量,此处指到达正在通行的车道上的车辆数。其取值为:“很多”、“极少”等。Q表示“等候车辆数”的模糊输入变量,其取值为:“任意”、“很少”等。E表示“延长时间”的模糊输入变量。,时间A和延长时间E的赋值表,到达数A的赋值表,等候车辆数Q的赋值表,引入两种新的运算规则,设 为实轴 上的模糊子集,是其隶属度函数且 是使 达到最大的 中的元素,则 和 为定义在U上的模糊集,且有很明显模糊集“任意(any)”,在整个论域上都为1,(3)模糊控制,下面根据一些具体数据说明如何进行模糊控制。以第2次控制(即在绿灯第27s时)为例,并设 即考虑下一个10s的第8s;即在以后的8s中,如现在的信号灯不变,则有4辆车通过临界点;即在即在以后的8s中,如现在的信号灯不变,则有5辆车等候;即信号灯的当前状态再保持8s。,根据第二次控制中的第1条规则,我们有,类似地求得其余4条控制规则的隶属度分别为,按照上述方法,分别取,则可得到控制决策表,如下表所示。由于“延长10s”所对应的隶属度0.8为最大,故决定控制器应保持当前状态10s不变。每次控制均按上述过程进行。如果模糊决策后要延长的时间小于10s,则系统将在延时结束后进行状态转换,然后在下一个相位进行模糊推理。如果表 最后一行所有的值均小于0.5,则不进行延时,系统的状态(即相位)要立刻转换。如果表中的最后一行有两个或两个以上相同的最大值,则取更长的那个延长时间。,模糊逻辑控制器与传统控制器的性能比较,2)单路口的神经网络自学习控制,模糊控制规则一经确定就不再改变,即不具备实时学习功能。这样一来,系统的信号控制效果完全依赖于控制规则的合理性和遍历性,这对于交通状况复杂的路口,特别是多相位路口,是很难做到的。针对单路口多相位信号控制方式,提出了一种具有实时学习功能的神经网络信号控制方法。,(1)单路口的神经网络自学习控制,在车流量大和车流复杂的情况下,传统信号控制方法很难实施有效的控制,但一个经验丰富的交通警察却能应付自如。这说明可模拟交通警察思维的智能控制方法在复杂路口的信号控制方面有着广泛的应用前景。设所研究的平面交叉路口为一个十字形交叉路口。其中,东西南北4个进口均具有左转、直行和右转条车道,(2)单路口的神经网络自学习控制,交通警察交通指挥的过程:首先将通行权交给某一方向,在此期间他将不断评价目前的交通状况1)如果通行方向的大部分车辆已疏散,而另一个方向车辆数增多,他会把通行权交给另一个方向;2)如果各方向的车辆数均比较多,则通行时间较长;3)如果各方向的车辆数均比较少,则通行时间较短。,具有在线自学习功能的智能控制方案结构图,(3)控制算法,1)评价准则评价准则环节的作用是评价一个评价周期内(假设由6个信号周期组成)某一信号配时方法的控制效果,并由此评价准则修正信号周期和各相位的绿信比。设 为第i个信号周期结束时的总排队长度;为第i个信号周期内第j个相位所有方向达到的车辆总数;为第i个信号周期内第j个相位中所有方向放行的车辆总数;为第i个周期结束时第j个相位所有方向车流排队长度之和;为一个评价周期内,各信号周期结束时的总排队长度的平均值;为一个评价周期内,各信号周期结束时第j个相位中所有方 向车流的排队长度的平均值;,则有式中,当括号内的数小于0时,z=0,否则z=1,且有定义将 分为大、较大、中、小和很小5档,对应的周期增量 分别为10s、7s、5s、0s和-5s,则 为即为下一个评价周期内将要采用的新信号周期长度,然后计算最后计算 j=1,2,3,4,(4)神经网络在该信号控制系统中,两个神经网络作为控制器处于系统的底层。任何时刻只有一个在工作,而另一个则根据需要(由评价准则确定)处于学习或空闲状态。输入:输出:C和,学习样本和训练方式:神经网络的学习样本分两个阶段获取。第一,在网络运行前,先将交警的指挥经验用规则的形式表示出来,然后用这些准则来训练两个神经网络,训练好的神经网络即可作为信号控制器投入运行。由于控制信号是4 相位的,信号控制规则的获取比较困难,且控制规则也往往不具备遍历性,因而此时的神经网络性能还不是最优的,还需要在运行过程中逐步进行优化。第二,在系统运行过程中,每隔一个评价周期(6个信号周期)按照前面所述的方法计算一次输入、输出,训练处于空闲状态的神经网络。如此重复,一个神经网络投入运行,一个学习,随着时间的推移,训练样本将会越来越多,网络训练也将会越来越困难。为避免出现“样本爆炸”问题,采取了所谓的“样本截断”法即事先规定训练样本的规模(如300个,可根据需要任意设定),然后按照“顺序移位”的方式用新样本逐个淘汰旧样本。,神经网络自学习控制方法(简称方法1)神经网络学习交警控制经验方法(简称方法2)控制效果比较,2,基于智能体的信号交叉口控制,基于智能体的信号交叉口控制,交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境,将每个路口的交通信号控制器看做一个异质的智能体,非常适合采用“无模型、自学习、数据驱动”的多智能体强化学习方法建模与描述。,自Thorpe 于1997 年首次将强化学习(reinforcement learning,RL)方法应用于交通信号最优化控制以来,多智能体强化学习(multi-agent reinforcement learning,MARL)在区域交通自适应控制领域迅速发展并已有实际应用。,多智能体强化学习:智能体它们单独的和环境进行交互。在一种情况下它们各自优化自己的目标,但这些目标之间有约束;另一种情况下,它们联合起来优化一个主要的目标方程。根据具体的情况会有不同的变化。,绝大多数研究以假设的静态随机环境为研究对象,采用完全孤立或部分状态合作的协调机制进行本地路口的最优化控制,这制约了网络交通控制系统的整体效益。近年来,基于动作联动的 MARL 控制方法发展迅速,其以联动协同的方式逼近全局最优的控制策略;同时,算法的验证也由假设的交通网络向现实的交通网络发展。,MARL 控制的演化发展,1)MARL控制系统的优势,从控制理论来看,MARL控制可根据控制效果的反馈信息自主学习并优化策略知识,是一种真正的闭环反馈控制。从控制范围来看,其可精确推理多个路口间的最优联合动作,丰富了区域交通协调控制的内容及形式。从控制实时性来看,它没有复杂的模型优化模块,采用秒级的即时决策,可实时响应时变交通流的变化。从系统可拓展性来看,分散式 MARL 控制具有统一的结构模型,可针对特定路网结构和交通流特性进行相应改造。从系统兼容性来看,MARL控制本身仅需要系统的输入和输出数据,对数据具体采集的技术和形式无要求。,交通信号 RL 智能体的标准模型如图 1 所示,每个路口的交通信号机被抽象为一个智能体,控制对象为道路交通网络上时变交通流。RL 智能体与被控对象在闭环系统中不断进行交互,通过观察交通环境的实时状态,提取信号控制所需的交通状态信息和反馈奖励信息,选择相应的行为动作并执行;进而跟踪评测所选择动作的控制效果,以累积回报收益最大化为目标,优化控制策略直至收敛到“状态和动作”的最优概率映射。因而,RL 智能体将控制系统的优化过程按照时间进程划分为状态相互联系的多个阶段,并在每个阶段根据当前状态进行最优决策,这是典型的马尔可夫决策过程(Markov decision process,MDPs)。,2)RL控制标准模型,根据 RL 智能体学习频率及优化参数的不同,交通信号 RL优化技术分为周期式和非周期式控制(Cyclic or Acyclic)两种类型,其主要技术特征如表 1 所示。,3)RL控制优化技术,在相位结构和相位顺序固定的前提下,周期式 RL 控制以“周期、绿信比和相位差”作为控制方案的配时参数,每隔当前周期的整数倍时间间隔,采用 RL 算法对这些参数进行优化调整,以响应路口交通需求波动。这种优化技术的控制方案结构固定,配时参数更新具有滞后性,并通过相位差技术实现走廊方向的信号协调,是一种响应式(responsive)自适应交通控制。,(1)固定周期式RL控制方法,非周期式 RL 控制遵循感应信号控制的逻辑框架,在满足交通控制基本约束的前提下,根据时变交通流的波动,每隔单位延长时间,采用 RL 算法对相位结构、相位顺序或绿灯时长进行优化,以实时响应交通需求的变化。这种优化技术摒弃了传统协调控制中周期和相位差的概念,由实际交通流即时决策相位方案及相位时长,并通过多个路口信号灯的联动实现区域交通协调控制,以尽可能保证车队连续通行,是一种实时(real-time)自适应交通控制。,(2)非周期式RL 控制方法,交通网络 MARL 控制是单路口 RL 控制向随机博弈(stochastic game,SG)环境下区域交通网络的扩展,以期通过多个路口 RL 智能体间的联动协调,逼近网络交通流的最优均衡策略。由于区域内全部 RL 智能体同时学习和同时决策,每一个 RL 智能体都面临移动目标学习问题(moving-target learning problem),即本地智能体的最优策略将随着区域内其他智能体策略的变化而变化。,4)交通网络 MARL 控制,通过构建多路口间信号的联动协调机制,采用基于协调的 MARL 进行系统的分散决策与优化。根据智能体间交通状态和信号动作的协调水平,交通网络 MARL 控制可分为三类:完全独立的多智能体强化学习控制(totally independent MARL),部分状态合作的多智能体强化学习控制(partially state cooperation MARL)和动作联动的多智能体强化学习控制(joint-action MARL)。,此方法假设路口处于静态随机的交通环境,即每个 RL 智能体的决策仅受路口本地状态和本地动作的影响,只须通过在式(1)的更新规则中增加智能体 的索引下标,将单智能体 RL控制方法直接拓展并应用到多个路口即可,其基本形式如下。,(1)完全孤立的 MARL 控制,部分状态合作的 MARL 控制通过智能体间的点对点通信,获得上/下游路口的交通数据,并以此拓展本地 RL 智能体的交通状态的感知空间,构造了部分状态联合的 值函数,提高其对动态随机环境的观察能力,其基本形式如下。,(2)部分状态合作的 MARL 控制,为同时克服 MARL 控制的同时学习挑战和决策挑战,动作联动的 MARL 控制将式(1)中单智能体的状态和动作分别替换为动态随机环境下的联合状态和联合动作,并在每一个博弈对策阶段,估计均衡策略的值函数,实现多个智能体间的同时对策,如此反复迭代逼近最优策略,以此寻找随机环境下系统的唯一均衡。其基本形式如下。,(3)动作联动的 MARL 控制,5)基于智能体的信号交叉口控制研究现状,城市交通信号控制系统具有典型的分布式特征,且在时变的复杂交通网络环境下,仅凭局部路口的优化不能表征整体网络的性能,在交换关联路口信息的基础上,仍需要设计路口间精细的协调机制,采用联合的配时策略提升整体交通网络的控制效益智能体技术的自治性、协作性和交互性符合分布式交通信号自适应控制的内在需求 这体现在:智能体(路口信号控制器)可以感知周围环境并及时响应环境变化,且在没有人或其他因素的直接干预下,智能体能够自发的根据目标和环境的要求主动做出规划,实现交通控制的自动化;同时,通过各分布式路口智能体的相互协作,构建多智能体控制系统(multiagent system,),以实现全局路网的控制目标 本部分从两方面综述智能体技术在城市交通信号控制系统及其关联领域中的应用,包括:基于智能体的交通控制系统架构研究、基于智能体的交通信号控制方法研究。,(1)基于智能体的交通控制系统构架及平台,传统的城市交通控制模型多采用集中式架构 SCATS系统、TUC系统及 SCOOT系统(子区内部分集中),当路口规模扩大时,集中式的控制系统不能满足大量交通数据的通信传输和控制策略的实时优化,且系统维 护 难 度大.PRODYN系统、OPAC系统和 RHODES系统采用分散式架构,有效均衡了集中式交通控制模型的通信需求和计算荷载,但这类系统采用交通模型预测路口环境演化,且不具备自学习能力,在高饱和度等复杂交通条件下控制效果差 多智能体系统(又称分布式软件平台)支持和管理智能体的运行智能体可分为静态智能体和移动智能体,相应地,多智能体系统分为静态智能体系统和移动智能体系统各个智能体模块作用于智能体网络系统的每个节点,为使智能体和智能体系统可在异构的管理平台上相互操作,智能体的设计应当符合智能体的通用标准近年来,应用智能体技术实现全息交通数据环境下交通运输系统的优化成为研究和应用的热点之一,但是,只是少数学者研究.,采用智能体技术开发的控制系统构架可分为分层式、网络式和混合式种分层式结构将整个系统分解成若干个子系统,各子系统彼此之间的交互较弱 网络式结构是一种完全分散的智能体系统,各智能体之间相互通信且独立进行决策;因而,各分布式的智能体仅考虑局部效益,不能从全局的角度预测整个网络状态混合式结构正是结合了分层式和网络式的特征进行设计。,INTRYS和TRYSA2系统Hernandez比较了城市智能交通管理系统的两种结构 集中分层式和分散网络式,分别提出了INTRYS和TRYSA2两个系统,并应用于相同城市交通网络的管理 INTRYS通过分层式结构对智能体进行协调管理,而TRYSA2则采用网络分散式协调分析结果表明,网络式结构具有高同步、可重用及可拓展性好等特性,但对具有高复杂度的协调任务,分层式结构则优于网络式,这是因为分层式结构搜索关联智能体进行计算的速度更快.,多数基于智能体技术开发的应用系统只关注由静态智能体组成的分布式多智能体系统为了验证移动智能体技术在智能交通系统中应用的潜力,Chen在提出的多智能体系统中集成了移动智能体,用以提高既有系统大范围交通控制与管理的灵 活 性 及 自 适 应 性,并 开 发 了 一 个 符 合IEEE的 FIPA标准的移动智能体系统 Mobile-C,将其应用于交通的管理和检检与静态智能体相比,移动智能体具有从网络中一个系统转移到另一个系统的能力,具有减小网络负载,支持断开控制、支持异构环境、动态生成组件等功能因而,系统可在运行过程中实时地动态更新任务的代码及算法,并采用移动智能体技术将其发送到目标子系统中执行研究表明智能体的快速移动特性为解决大范围交通控制与管理的挑战带来了新的机遇,为实时远程交互、卸载数据荷载、跨平台操作以及定制化服务等带来了新的解决方案.,移动智能体系统Mobile-C,Wang等提出的一个基于智能体的网络级交通管理系统ADAPTS 该系统将一个复杂的网络控制算法分解成多个以任务为导向的控制智能体,实现网络级的自适应交通信号控制 ADAPTS采用了级的分层式结构,最高层负责规划和推理控制智能体的任务序列,中间层负责协调和分派控制智能体,最底层则实现各控制智能体的运行系统采用移动智能体技术实现各个控制智能体,实现控制智能体在远程交通控制中心至现场交通控制器以及现场控制器之间的灵活转移,以响应不同交通交件下交通需求变化,有效提升了智能交能控制系统的灵活性,ADAPTS系统,TBMCS系统,Katwijk开发了一个面向道路交通管理的多智能体系统测试平台 TBMCS,其支持在不同策略及条件下对多智能体系统系统性能进行测试和检验,从而加快基于多智能体应用系统的原型设计与开发 由智能体模型、环境模型以及通信模型组成,且通信模块符合 标准,分别模拟智能体的智能决策、环境状态表达和协同交互.,城市化和机动化进程的加快,交通拥堵、交通安全和污染恶化等问题已成为世界各大城市共同面对的挑战传统集中式交通控制系统依懒于预测模型的精度,且无法处理时变交通流的不确定性国内外许多学者开始应用智能体技术探寻大范围交通控制的智能解决方案,包括城市交通控制(urban traffic control,UTC)模型、交叉口信号控制、路径诱导与 的集成系统以及分布式交通数据管理。下表中列出了智能体技术在道路交通信号控制中的代表性研究。,(2)基于智能体的交通信号控制方法,智能体技术在道路交通信号控制系统中应用,智能体技术在道路交通信号控制系统中应用,总结,城市交通网络环境具有典型的动态性和随机性,在不能完全获取交通系统状态信息、不能完全理解系统内部机理、不能建立被控对象精确模型的条件下,基于 MARL 的交通信号控制方法仅利用控制过程的输入和输出数据,自主寻找隐含的控制知识,具有无模型、自学习、闭环反馈、联动协调等优点,是一种无模型纯数据驱动的交通控制方法,在理论上可解决基于模型的交通控制需要精确数学模型以及基于智能计算交通控制无自学习能力等固有不足,可为基于数据的区域交通控制提供一个可行之法。需要注意的是,本文在突破交通信号 MARL 控制的先进算法以逼近理论最优解的同时,应重点关注其交通状态特征抽取、自稳定机制、多目标反馈、状态离散等一系列基础问题的认识与解析,切实推动 MARL 控制方法在工程实践中的应用。,研究展望,既有 MARL 研究基本采用“目标相位与当前相位是否一致”作为相位切换的判定准则,频繁切换的相位可能强行中断连续到达的车流而削弱了交通系统的稳定性。因而,如何均衡MARL 自治智能体的“稳定性、灵活性及协调性”尚需要理论和实际工作的进一步检验。,多交叉口间联动协调机制。直接协调法与其他智能体间实时协商其最优动作的选择,代表性方法包括基于消息传递的集中式协作图法和基于邻近的分布式直接策略搜索法,这类方法通信需求和计算量大,并不适合大规模路网应用。当前,如何在动态随机环境下高效和准确地实现多智能体的对策仍是众多动作联动 MARL 算法致力突破的关键。,MARL 交通控制的应用边界。当前研究采用交通仿真实验从网络级、干线级和路口级三个层次对 MARL 交通控制效果进行评价。研究结果表明,MARL 控制效果与交叉口条件及流向组织,交通流条件,整体路网配置,邻近交叉口间距,状态离散等级等相关。在实际应用时,交通管理者应结合路网特征及交通流特性等展开 MARL 效用的系统分析,综合考察RL 智能体的灵活性、协调性和自适应性,以及其对网络交通流的影响等。,多模式交通整合控制。多数 MARL 研究仅考虑了机动车,并未涉及公共交通、行人和非机动车等模式,且反馈激励仅以乘用车车辆数为建模的基本单元,这样就忽略了公共交通等大容量交通方式的综合效益。可考虑设计大容量公交优先等规则,采用多模式交通的综合效益权重,拓展反馈奖励的结构,以实现多模式交通的整合控制,这将更好地符合我国城市道路混合交通流的实际。,谢谢您的观看与聆听,交叉口智能信号控制,