Learning Eco-Driving Strategies at Signalized Intersections

摘要

  • 车辆在主干道上的信号控制交叉口出现空转与剧烈加速现象,这导致燃油消耗与二氧化碳排放。因此,有一系列关于生态驾驶控制策略的研究,以减少交叉口处的燃油消耗与尾气排放等级。然而,在各种交通情景中设计有效控制策略的方法仍然难以捉摸。在本文中,我们提出了一种强化学习RL方法,来学习有效的生态驾驶控制策略。我们研究了不同学习策略对于燃油消耗、二氧化碳排放、行驶时间的潜在影响,并与自然驾驶模型和基于模型的基准方法进行了对比。我们进一步证明了学习策略在混合交通场景下的可推广性。模拟结果表明,在CAV100%渗透率的情况下,燃油消耗减少18%,二氧化碳排放水平减少25%,行驶速度提高20%。此外,结果表明,即使是25%的CAV渗透率,也可以带来至少50%的总燃料和减排效益。

介绍

  • 温室气体->公路运输排放比重较大->车辆的stop-and-go、低速、超速与空转影响排放->设计驾驶策略的重要性

  • 利用CAV作为控制手段,在接近和离开十字路口时实现低油耗和低排放——广义拉格朗日控制->通过车辆控制而不是固定的信号灯

  • 现有工作->对车辆动力学与车间动力学进行简化->目标不考虑行驶时间,只考虑减少燃料与排放

  • 利用深度强化学习DRL来获得CAV在接近和离开信号交叉口时的拉格朗日控制策略->并且使用多智能体的DRL方法

  • 本文目标:减少燃料消耗同时减少对于行程时间的影响(燃料消耗与二氧化碳排放成比例)->基于学习的控制策略与基于模型的基准方法效果相当,显著优于基于自然驾驶naturalistic driving的情况

  • 主要贡献

    • 将交叉口处的拉格朗日控制表述为部分可观察马尔可夫决策过程POMDP,并使用强化学习来解决它,以减少加速和怠速引起的燃料消耗(从而降低排放水平),同时最小化对行程时间的影响。
    • 我们评估了自然驾驶情景和基于模型的基线下学习的生态驾驶控制策略,我们的方法燃料显著节约和排放水平的降低,同时也改善平均行驶时间。
    • 通过zero-shot方法,将学习控制策略迁移到混合交通场景(不同的CAV渗透率),来评价学习策略的普适性;混合场景在训练中是没有样本的。

相关工作

Eco-driving

  • 生态驾驶的研究可分为基于高速公路和基于主干线的控制策略。

    • 基于高速公路的策略主要关注在没有波动的情况下保持理想的速度,因为交通流很少受到交通信号的影响。
    • 基于主干线的控制策略,受交通信号的影响更为复杂。基于排队长度、滚动优化、模型预测控制、动态规划。
  • 现有方法的局限:需要实时求解非线性优化问题;

  • DRL的优势:不假设任何动态模型,运行速度快

Reinforcement learning for autonomous traffic control

  • 即使是一小部分自动驾驶车辆也可以从 stop-and-go waves 中稳定交通

准备工作

A 生态驾驶的无模型强化学习 Model-free Reinforcement Learning for Eco-driving

  • 部分可观察马尔可夫决策过程POMDP:在智能体无法观察实际状态的环境中,包含两个或更多组件的扩展MDP公式,观察空间$\Omega$条件观测概率$O: \mathcal{S} \times \Omega \rightarrow \Delta(\Omega)$
  • 环境状态部分可知动态不确定环境下序贯决策的理想模型,agent无法知道自己所处的环境状态 ,需要借助于额外的传感器,或者与其他的agent进行交互等方式才能获知自己的state
  • 本文将交叉口的生态驾驶描述为POMDP,并使用DRL进行求解。

B 燃料消耗模型

  • 其中P为车辆瞬时功率、F为车辆瞬时燃料消耗、$\alpha_{0}, \alpha_{1}, \alpha_{2}$为需要校准的常数,$t$为时间步长

  • 瞬时功率计算为

  • 车辆阻力计算为

  • $C_{d},C_{a},A_{f}$分别是车辆阻力系数、高度修正系数和车辆前部面积。$c_{0},c_{1},c_{2}$是取决于道路和轮胎状况的滚动阻力相关参数。车辆质量用m表示,瞬时车辆加速度用a表示,道路坡度用G表示。空气密度用$\rho$表示,车辆传动系统效率用$\eta$表示。

C 二氧化碳排放模型

  • 我们使用微观交通仿真软件SUMO的默认排放模型,作为我们的二氧化碳排放模型。

D 智能驾驶模型 Intelligent Driver Model

  • 模拟人类驾驶,使用Intelligent Driver Model (IDM)模型:IDM可以合理地代表现实的驾驶员行为,并可以产生交通波。

  • $v_{0},h_{0},t$分别表示期望速度、空间车头时距和时间车头时距。$c$为最大加速度,$b$舒适制动减速度。头车与自动驾驶车辆的速度差为$\Delta t(v)$:$\delta$是常数。


方法论

A 问题公式 Problem F ormulation

  • 目标:最小化CAV车队的燃料消耗,同时在车辆接近和离开信号交叉口时对行驶时间的影响最小。对每个车辆$i$:

    • $n$是车辆数量,$F$是燃料消耗,$T_{i}$是$CAV_{i}$的行驶时间,$d$是总行驶距离。$h(t)$和$\dot{h}(t)$表示车头时距和相对速度。$h_{min}$和$h_{max}$是最小和最大车头时距,$v_{min}$和$v_{max}$是最小速度和最大速度,$a_{min}$和$a_{max}$分别是最小加速度和最大加速度。这三个强制约束保证了安全性、通过V2V通信的连通性和乘客舒适性。

B 近似控制的无模型强化学习 Model-free Reinforcement Learning for Approximate Control

  • 我们将信号交叉口的生态驾驶问题表述为离散时间POMDP,并使用政策梯度(policy gradient)方法求解。

  • 假设:每个CAV车辆搭载V2V通信设备,通信半径为$r_{v2v}$

  • 观测值 Observations:

    • 其中$v_{cav}, v_{lead}, v_{follow}$分别表示cav,cav前车与cav后车的速度,$p_{cav}, p_{lead}, p_{follow}$分别表示cav,cav前车与cav后车的位置,$tl_{phase}$为one-hot编码,表示ego-CAV的信号相位,$tl_{time}$表示CAV所在相位的绿灯时间

    • 所有的观测数值进行min-max归一化

    • 车辆位置不能超过最大通信距离$p_{cav}-p_{lead} \in (-r_{v2v}, r{v2v})$

    • 同时为了确保I2V通信不中断,需要$p_{cav}-p_{tl} \in (0, r_{i2v})$

  • 动作空间 Actions:

    • 连续动作空间$a \in (a_{min}, a_{max})$
  • 转移方程 Transition Function:

    • 没有直接定义stochastic转移方程,使用微观仿真软件进行采样$s_{t+1} \sim p\left(s_{t}, a_{t}\right)$
  • 奖励函数 Reward:

    • 两个困难点:

      • 目标互斥,减速可以降低燃油消耗,但加速可以减少通行时间
      • 目标变化率不同
    • 奖励函数获取方式:manual trial and error

      • $\bar{f},\bar{v},\bar{s}$是每辆车在每个相位的平均燃油消耗量

      • 归一化:燃料消耗和速度基于最小-最大归一化进行归一化,而每相停车车辆数在该相车辆总数上进行归一化。

      • 奖励$R_{1}$鼓励车辆刚进入交叉路口时不停车,此时的action一定是最优的:因为在进入交叉口的时候停车将影响其他车辆并且增加燃料消耗

      • 奖励$R_{2}$鼓励车辆加速行驶,在当前燃料消耗低于定义的阈值$\delta$时

      • 奖励$R_{3}$假设燃油消耗仍小于定义的阈值$\delta$鼓励较少的停车和通行行为,惩罚低速运行和由于红灯所产生的停车行为

      • 奖励$R_{4}$鼓励其他情况下的低油耗和高速度,同时惩罚车辆停车,以减少停车和通行行为。


实验设置

A 神经网络与仿真设置

  • 微观交通仿真软件SUMO

B 超参数

  • 使用Trust Region Policy Optimization (TRPO)用于训练具有两个隐层的NN,每个隐层有64个神经元,激活函数为$tanh$
  • 训练方式:集中训练-分布执行 Actor-Critic模式
  • a training batch size of 55000,3000 training iterations

结果

  • 两个问题

    • 提出的控制策略与自然驾驶和基于模型的控制的基准方法相比如何?
    • 提出的控制策略泛化能力如何?
  • 多个Baseline:V-IDM、N-IDM、M-IDM、Eco-CACC


未来的研究方向

  • 考虑多个信号交叉口下的控制方法
  • 奖励函数设置,考虑到所提出方法的最终收益在很大程度上取决于奖励函数的设计

个人总结:

  • 新方法/理论:部分可观察马尔可夫决策过程POMDPzero-shotTrust Region Policy Optimization (TRPO)

  • 研究思路:强化学习对路口车辆的加速度进行连续控制,引入POMDP,增加车辆的”视野”,转移函数通过SUMO仿真软件获得,奖励函数自己”随便”弄了一个(指没有理论推导而得到),求解算法使用的是A-C,最终得到车辆加速度

  • 个人质疑:

    • 作者没有给出训练与实际控制的计算时间对比:根据作者给出的DRL训练使用55k的batch size(55k?怎么会这么大,严重质疑,这要多大的显存?)和3k次的 iterations,估计训练时间不短,同样也没有给出网络正向传播实时控制的计算时间,实时性存在质疑。
    • 应用到不同的交叉口应该需要重新训练模型
    • 作者没有详细给出zero-shot的过程与结果
    • 最重要的,奖励函数设置:强化学习的通病,作者原文是这样写的:These two factors make the design of reward function difficult. With manual trial and error, we fine-tuned our reward function to follows. 通过人工试错?哈哈。。
    • 最后的模型效果质疑:与Eco-CACC相比,作者提出的基于DRL的控制方案好像只优化了一点点点点,而且平均速度还低于Eco-CACC,回想到作者的奖励函数设置,严重怀疑,作者是通过人工调整奖励函数,硬生生凑出来的最后的结果,如果奖励函数有一点点的改变,将不会有这么好的结果,这也是强化学习的通病。