【论文笔记】—— Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles

在这里插入图片描述

文章目录

Abstract
I. INTRODUCTION
II. MODELING FOR REINFORCEMENT LEARNING
III. SCENARIO-BASED CLASSIFICATION OF THEAPPROACHES
IV. FUTURE CHALLENGES

Abstract

DRL系统构成：环境建模、建模抽象、状态和感知模型的描述、适当的奖励函数以及底层神经网络的实现。
本文介绍了基于不同层和观测模型的策略决策，例如连续和离散状态表示、基于网格和基于相机的解决方案等等。
本文根据自动驾驶的不同任务和级别，如车辆跟踪、车道保持、轨迹跟踪、并道或在密集交通中行驶等，对最先进的解决方案进行了系统研究。

I. INTRODUCTION

DRL将经典的强化学习与深度神经网络相结合，在Deepmind的突破性文章[1]，[2]之后得到了普及。
端到端的方案缺点：
- 比较复杂，难以涵盖所有的驾驶任务
- 黑箱，发生事故时可解释性较差，难以验证有效性以及发生问题时的可回溯性较差。
- 因此很多研究其实是着眼于Motion Planning的一些子任务。
作者对motion planning的分层
即使在充分了解当前交通状况的情况下，周围驾驶员的未来意图也是未知的，这使得问题变得部分可观察[5]。
对部分可观问题的补偿方法：
- 预测其他交通参与者的轨迹
  - 高斯混合模型[6]
  - SVM以及ANN[7]
通常来说，RL问题会以有限动作的POMDPs进行建模。
求解非完整动力学运动规划问题的数值复杂性是多项式空间算法（PSPACE）[8]，这意味着很难通过实时求解非线性规划问题
层的输出很难直接用“纯”强化学习进行表示，一些研究利用DRL去定义训练结果[10],[11]。

扫描二维码关注公众号，回复： 17175519 查看本文章
在反馈控制层次上，动作空间变得连续，经典的强化学习方法无法处理这一点。一些文章利用了DRL进行处理。
RL求解最优策略：
- value-based：
  - Deep-Q Learning Network (DQN)[1]:
    - 主要目标是获取最优的Q函数(代表了当前和未来的期望奖励)。通过进行实验，计算每个动作的未来状态的折现奖励，并以Bellman-equation[13]为目标更新网络来实现。
    - DQN算法通过利用经验回放等方法，解决了强化学习中经典Q-learning算法存在的不稳定性和收敛速度慢等问题。
    - Double DQN[14]或Dueling DQN[15]，将动作流和值预测流分离，使学习更快更稳定。
- Policy-based方法是一种强化学习算法，它直接选择最优的行为策略，这个策略被表示为一个函数 $π_Θ$ ，其中 $π$ 代表策略， $Θ$ 代表函数参数，输入变量是状态 $S$ 和动作 $A$ ，输出是所选动作的概率。Policy-based方法通常使用神经网络来表示策略函数，通过训练神经网络来优化策略函数的参数，从而实现最优策略的选择。
  - PS: head是获取网络输出内容的网络backbone、head、neck等深度学习中的术语解释 - 知乎 (zhihu.com)
  - 通常会利用RL的探索性质
  - actor-critic算法对价值和动作采用不同的预测[16]
  - Deep Deterministic Policy Gradients (DDPG)[17]:直接将状态映射到连续动作空间中
对于复杂的问题，可能存在学习不收敛或者不成功的情况。一些解决方案：
- Curriculum learning：训练从简单的例子开始，然后逐渐增加难度。[18], [19], [20]
- Adversarial learning：是通过输入恶意样本来欺骗模型的一种学习方法。在这种方法中，攻击者通过添加微小的扰动来改变输入数据，使得模型产生错误的输出。这种方法可以用来测试模型的鲁棒性和安全性，以及提高模型的鲁棒性和安全性。[21],[22]
- Model-based action choice: 基于MTCS的Alpha-Go。MCTS全称为蒙特卡洛树搜索，是一种人工智能问题中做出最优决策的方法，一般是在组合博弈中的行动规划形式。它结合了随机模拟的一般性和树搜索的准确性。
基于深度强化学习的自动驾驶POMDP模型
观测状态和观测模型的建立对DRL性能和架构影响很大。

II. MODELING FOR REINFORCEMENT LEARNING

A. Vehicle modeling

深度强化学习技术需要进行大量的训练，以确定最佳的决策策略。而训练时的步长时间会受到车辆动力学模型评估时间的影响。因此需要选择合适的车辆模型。
- Rigid kinematic single-track vehicle models[24]是一种数学模型，用于描述车辆运动学行为，如转弯半径、车辆稳定性等。这种模型通常假设车辆是刚体，忽略轮胎的变形和悬挂系统的影响，这使得模型更简单、更易于分析。但是，这种模型并不考虑车辆的动力学行为，如加速度、力矩等，因此只适用于低速、小转弯半径的情况。
- 自行车模型与之不同，它更加注重车辆的动力学行为，包括车辆加速度和力矩等。自行车模型通常考虑悬挂系统、车轮的变形以及车手对车辆的控制等因素，因此可以更准确地预测自行车的运动行为，特别是在高速和大转弯半径的情况下。
- 3 Degrees of Freedom (3DoF) dynamic bicycle model：考虑 $V_x,V_y,\dotΨ$
- four-tire 9 Degrees of Freedom (9DoF)： $V_x,V_y,\dotΨ$ ，roll and pitch ( $\dotΘ, \dotΦ$ ),四轮转速 $ω_{f l}, ω_{f r} , ω_{rl}, ω_{rr})$
- 运动学模型的行为可能与实际车辆有很大不同，对于更高加速的情况，需要更精确的控制模型。
- 由于计算时间的巨大差异，自动驾驶车辆领域更多地选择使用低维度的抽象模型。
交通和周围车辆的建模仿真方法：
- 元胞自动机cellular automata models[26]
- MOBIL:通用模型(最大限度地减少变道引起的整体制动)，可以推导出广泛类别的汽车跟随模型的任意变道和强制变道规则[27];
- Intelligent Driving Model (IDM):单车道模型[28]

B. Simulators

SUMO (Simulation of Urban MObility)[29]:SUMO是一种微观的交通流仿真平台，支持多种模式，可以转换其他交通模拟器的网络，支持多种数字道路网络格式，如OpenStreetMap或OpenDRIVE等。它具有多个接口，如python、Matlab、.Net、C++等，并具有易于使用和高速的特点，是训练处理交通问题的智能体的优秀选择。但是，它的抽象级别较低，车辆行为受限，并且除了车辆的真实状态之外，不提供任何传感器模型。
VISSIM [30]:微观的商业仿真器.[31].
TORCS (The Open Racing Car Simulator)是一个现代化、模块化、高度可移植的多人、多智能体汽车模拟器。它可以与Python接口，运行速度快，还带有不同的赛道场景、机器人和多种传感器模型。
CarSIM或CarMaker是处理车辆动力学的最佳选择。然而，这些软件很少出现在强化学习的研究中。可能原因：价格昂贵，缺乏Python接口和高精度，模型资源密集，无法在合理的时间内运行多个episode
Airsim[35], Udacity Gazebo/ROS[36,37], and CARLA[38]：有更多的传感器模型、交通环境。
AirSim是由Unreal Engine开发的初始用于无人机的仿真器，现在有了车辆扩展，支持不同的天气条件和场景。
Udacity是为Udacity的自动驾驶汽车纳米学位而建立的仿真器，提供各种传感器，例如高质量渲染的相机图像、LIDAR和红外信息，并且还具有对其他交通参与者建模的能力。
CARLA是一款用于自动驾驶研究的开源仿真器，支持开发、培训和验证自动驾驶城市驾驶系统。除了开源代码和协议外，CARLA还提供专门为此目的创建的开放数字资产（城市布局、建筑、车辆），可自由使用。

C. Action Space

动作空间的选择
- 一种是通过转向、刹车和加速指令直接控制车辆
- 另一个作用于行为层面，并在战略层面定义选择，之后再发送指令给底层控制器。
一些论文通过解耦纵向和横向任务来结合控制层和行为层，其中纵向加速是一个直接命令，而变道是一个战略决策，如[41]。
行为层通常包含几个不同的选择，底层神经网络需要从中进行选择，使其成为具有有限动作的经典强化学习任务。
车辆的驱动，即转向、油门和制动，是连续的参数，许多强化学习技术，如DQN和PG，不能处理这个问题，因为它们需要有限的动作集，而一些强化学习技术，如DDPG，可以使用连续的动作空间。
一些研究将转向角、加速度等等命令离散到3-9个可能的选择，但这么做会使得和真实情况相差甚远。若离散数量较多，则可能会有维度爆炸的问题，从而减缓学习的速度。

D. Rewarding

During training, the agent tries to fulfill a task, generally consisting of more than one step. This task is called an episode
episode的完成条件：
- 智能体完成任务；
- episode达到了之前定义的步骤
- 终止条件(智能体达到一种无法完成实际任务的状态，或者智能体犯了一个不可接受的错误），例如与其他交通参与者或障碍物相撞或离开赛道或车道；与赛道的切线角度过高或与其他交通参与者的距离太近（before accident，加速训练）。
Reward的时机很重要，下面列出几种策略以及相应的优劣之处：
- 在一个episode结束的时候，产生回报，同时按照之前的 $(S, A)$ 动作对进行折算返回。虽然减少了人工驱动策略的部分，但使得学习过程变长。
- 通过评估当前状态在每一步给予即时奖励，同时也会产生相应的折扣。尽管即时奖励的选择会影响既定策略的最优化，但是可以使得学习速度显著加快。
- 一种中间解决方案：在预定的时间段或行进距离内给予奖励[43]，或者在做出正确或错误的决策时给予奖励。
在运动规划领域，通常基于驾驶任务的完成或失败来计算最终episode的奖励。
Reward影响因素：完成任务的时间、保持期望速度或达到尽可能高的平均速度、偏航或与车道中间或期望轨迹的距离、超车、尽可能少变道[44]、保持右侧[45]、[46]，乘员舒适度(纵向加速度[47]、横向加速度[48]、[49]和加加速度[50]、[10])。与数据集的偏差[51]，[52]与参考模型的偏差。

E. Observation Space

Observation Space是指自动驾驶车辆中，用于描述环境的观测空间。它需要提供足够的信息，以便选择适当的动作。根据任务的不同，观测空间包含以下内容：
- 车辆在世界中的状态，如位置、速度、偏航角等；
- 地图拓扑信息，如车道、标志、规则等；
- 其他参与者，如周围的车辆、障碍物等。
观测空间的参考系可以是绝对的世界坐标系，也可以是固定于车辆坐标系或车辆在世界中的位置和道路方向的特定参考系。虽然后者更直观，但因为其他车辆通常比较靠近自车，并且具有相似的速度和航向，前者在原点周围集中位置、航向和速度空间的访问状态分布，从而减少了策略必须执行的状态空间区域。[53]
1. Vehicle state observation:
- 自车最简单的观测由连续变量 $e|， v， θ_e)$ 组成，并且仅适用于经典运动学类车模型的控制。对于复杂动力学问题，需要将yaw,pitch,roll,轮胎动力学，滑移等等因素考虑进来。
1. Environment observation:
环境观测的分类：
• sensor level, 将相机图像、激光雷达或雷达信息传递给智能体;
• intermediate level, 提供理想的传感器信息;
• ground truth level, 给出所有可检测和不可检测的信息.
感知模型对神经网络结构的影响。
- 如果输入数据是像素矩阵这样的图像或类似数组的形式，那么神经网络需要使用**卷积神经网络（CNN）**来处理，
- 而如果输入数据是简单的标量信息，那么神经网络只需要使用一个简单的全连接层。
- 在一些情况下，这两种类型的输入数据会混合出现，因此神经网络需要使用两种不同类型的输入层来处理这些数据。
Image-based：
- 基于图像的解决方案通常使用从3D模拟器中提取的前置摄像头图像来表示观测空间。数据结构( $\times W \times H$ )
  - 为了检测运动状态，需要将多个图像并行馈送到网络中。
  - 出于数据以及网络压缩的需求，进行降采样。
  - 由于图像以非结构化的方式保存信息，即物体位置等状态信息或车道信息被深度编码在数据中，因此CNN等深度神经网络通常需要大样本和时间来收敛[57]。
  - 同样的，由于强化学习过程需要大量的步骤，导致学习过程很长，如[54]中的1.5M步或[55]中的100M步。
  - [57]为了提高感知精度，提出了一种MTL (Multitask learning) CNN模型来学习关键车道特征，用于车辆在车道坐标上的定位，并训练策略梯度RL控制器来解决连续序列决策问题。
- 另一种方法是简化非结构化数据
  - 在[58]中，Kotyan等人使用差分图像作为连续两帧之间的背景相减作为输入，假设该图像包含前景的运动，底层神经网络将更多地关注前景的特征而不是背景。
- 还可以不使用原始图像作为输入，而是通过[59]提出的图像语义分割网络驱动原始图像。
  - 语义图像忽略了原始图像中的无用信息
  - 经过训练的智能体可以使用从真实场景中获得的图像的分段输出，因为在这个级别上，模拟数据和真实数据之间的差异要比模拟图像和真实图像之间的差异小得多。
Lidar-based：
- [60] :直接使用2D/3D的点云数据作为状态。
  - 2D或3D激光雷达模型在自动驾驶领域中使用不多，虽然它们可以提供类似深度图的信息，但数据结构不规则。只有少数研究使用这种类型的输入，例如文献[60]中使用的观测数据模拟了一个提供150◦视野内31个方向障碍物距离的2D激光雷达，并将传感器数据作为其状态。还有一种类似的输入结构是使用想象的光束传感器来表示车道标记，例如文献[20]中使用的TORCS，该代理程序使用来自19个具有200m范围的传感器的读数，并在每次更新时呈现。
- 还有一种类似的输入结构是使用想象的光束传感器来表示车道标记，例如文献[20]中使用的TORCS
Grid-based：
- 基于栅格地图的方法也可以用来表示周围车辆的机动概率[63]，或者通过从预测的运动序列中生成时空图，也可以实现动态环境中的运动规划[64]。
- 在静态环境下，以网格地图为观测空间，结合RL agent车辆的位置和偏航方向进行导航的方法[65]
- 网格地图也是非结构化数据，它们的复杂性与语义分割的图像相似，因为在这两种情况下，单元存储了类信息，因此它们的最佳处理是使用CNN架构
- 在[44]中，作者使用等距网格，其中自车放置在中心，其他车辆占据的细胞代表相应汽车的纵向速度(见图7)。[49]同样的方法。这种方式不能表达横向的移动。
- 在这种情况（等距栅格）下，可以选择固定在道路拓扑上的空间表示，即道路的车道，而不考虑其曲率或宽度。
- 在这些基于车道的网格方案中，表示高速公路的网格具有与实际车道数相同的行数，并且车道是纵向离散的。但这种方法会丢失许多细节。
- [67]是将多个连续的交通快照馈送到底层的CNN结构中，该结构固有地提取运动物体的速度
- 可以对每个重要参数使用多层网格图来加入航向、加速度、横向速度等因素的考虑。
- 在[10]中，作者对模拟器状态进行了处理，计算出大小为4 × 3 × (2 × FoV + 1)的观测张量，其中8Fov表示Field of View，表示在cell count中观测到的最大距离。四个channel：道路占用率，车辆的相对速度，相对横向位移，以及相对于自车的方向
之前的观察模型（图像、激光雷达或基于网格的）都具有一些共同的属性：所有这些都是非结构化数据集，需要一个 CNN 架构来处理，这使得学习过程变得困难，因为智能体(agent)需要同时提取感兴趣特征并产生策略。
显然，需要对非结构化的数据进行预处理来获得结构化的数据以传入agent的网络中。
- 结构化数据是指驻留在记录或文件中的固定字段中的任何数据。
- [51],[68]:与非结构化数据相反，这些方法显著减少了输入量，并且可以用简单的DNN结构进行处理，这深刻地影响了智能体性能的收敛性。
- 在合并场景中，最关键的信息是两辆车的相对纵向位置和速度 $2\times(\Delta x, \Delta v)$ ，如[69]所示
- 在高速公路机动情况下，需要同时考虑自车道和相邻车道车辆，在[41]中，作者使用了上述的 $6\times(\Delta x, \Delta v)$ 标量向量来表示三个感兴趣车道的前后车辆。其实[41]将横向速度和位置也考虑进去 $6\times(\Delta x, \Delta y,\Delta vx,\Delta vy)$
- 而在[70]中，作者将这一信息扩展为占用自车右侧相邻车道的情况(见图9)。图中应该是加入了左右车道的安全区域这一个描述信息以及航向角、纵向速度、横向距离等等基础信息。[42]中将跟踪对象扩展到9个。
- [71]：处理无信号交叉口这一特殊情况。

III. SCENARIO-BASED CLASSIFICATION OF THEAPPROACHES

这些经典强化学习方法的一个问题是它们无法处理非结构化数据，例如图像、中级(mid-level)雷达或激光雷达传感器数据。
另一个问题是要维护Q价值函数表，这会引起空间复杂度爆炸的问题。
以[72]为例 :状态表示包含两车的纵向和横向距离，以及自我车辆的横向位置和两者的速度差，并将上述信息分别进行如下表离散处理;同时动作集包含三个动作(保持横向位置、向左1m、向右1m)
随着车辆越多、传感器越多、动力学越复杂、状态和动作表示越复杂的问题，其中的参数也可能变得非常大。
一种可能的减少是使用多目标强化学习方法并将整体问题划分为子任务，如[73]所示，用于超车机动。
在后来的研究中，作者将问题扩大，将驾驶问题分解为避碰、目标寻找、车道跟随、车道选择、保持速度和稳定转向等任务[74]
为了减小问题规模，[75]的作者采用战略层面的决策，根据周围的车辆设定车辆的运动目标，并将底层控制留给经典解决方案，这大大减少了行动空间。
[76]：将障碍物的Ackermann转向纳入考虑，作为状态，同时使用RL作为优化器。
最简单的问题，如车道保持或车辆跟随，通常可以追溯到简单的凸优化或控制问题
在密集交通中机动的情况下，任务的高效完成很难制定，智能体需要预测性的“思维”来实现其目标。
以下是几个场景的解决方案：
A. Car following：
- 观察空间由 $\Delta v, \Delta s)$ 元组组成，分别表示agent的速度、与前车的速度差和车头距离。
- 动作集合由加速度控制命令组成。
- Reward函数基于jerk、TTC[50]、舒适度[77]等进行设计，通常以碰撞作为失败条件。
B. Lane keeping
- 观测空间采用了两种不同的方法:
  - 一种是车辆在车道上的ground truth横向位置和角度[78]，[60]，[22]，
  - 另一种是前置摄像头的图像[54]，[59]，[57]。Reward考虑与中心线的距离。
- 几乎不考虑车辆动力学，不关注联合纵向控制。
C. Merging
- 在简单方法中，可以通过学习纵向控制，使得agent到达相应的位置，如[79]，[45]，[19]所示。
- [69] :四轮转向控制
- [45] :acitons包括对加减速度的控制，但产生这些动作时，自车仍保持在原车道。通过向右或向左变道等动作来代表横向运动。
- [19]他们用cooperative behavior训练agent，并将结果与三种不同构建的MTCS规划器进行比较。
  - 全信息MCTS优于强化学习
  - 作者采用curriculum learning的方法，通过逐渐增加交通密度来训练智能体。
  - 直接用密集交通流去训练可能会导致智能体策略保守，虽然避免碰撞但是却无法完成任务。
- [69] “驾驶环境被训练为LSTM架构，以纳入历史和交互驾驶行为对动作选择的影响。深度Q学习过程将LSTM的内部状态作为Q函数逼近器的输入，使用它基于更多的过去信息进行动作选择。Q网络参数通过经验回放进行更新，并使用第二个目标Q网络来缓解局部最优和不稳定问题。”通过这种方法，研究人员试图混合行为预测和学习的可能性，同时实现更好的性能。
D. Driving in traffic
- 首先，概述了分层方法，其中agent作用于行为层，做出关于变道或超车的决定，并使用经典控制方法与底层控制器一起执行这些动作。
- 其次，提出了端到端解决方案，其中智能体通过转向和加速直接控制车辆.这样训练出的agent难以应对突发状况，因此， 模拟交通环境的设计必须涵盖预期情况[52]。
- [42] :作者使用自车速度和车道位置、周围八辆车的相对位置和速度作为观测空间，对代理进行了三类观测噪声的训练和测试，并表明使用具有64、128、128、64个隐藏层和 $t anh$ 激活的DNN的DQN，在高噪声训练环境下可以得到更加稳健和可靠的结果，并且优于基于规则的MOBIL模型。
- [52] :对action作了扩展。他们还取得了这样的成果，即使用两个卷积层和一个全连接层的DQN的agent，其表现与基于IDM的参考模型相当或更好。
- [80] : 通过将加速命令改变为增加和减少ACC设定点来略微改变动作空间
- 在[68]中，考虑了一个双车道场景，以进一步分配分层决策。首先，DQN做出关于“是否换道”的二元决策；另一个Q网络基于先前的决定，负责纵向加速度。控制部分结合经典的控制方法——纯追踪控制。
- 在[47]中，考虑了上述双车道场景，使用了actor-critic算法。
- [67]考虑了一个三车道的高速公路，并使用了一个简单的四元组作为行动空间，即向左、向右、加速、不动，并使用奖励函数实现cooperative behavior和non-cooperative behaviors。在奖励函数中，不仅考虑了自车的性能指标，还考虑了周围车辆的速度，这受到了agent的行为的影响。作者使用了两个具有16个大小为（2,2）的滤波器和RELU激活的卷积层以及每个500个神经元的两个密集层的底层网络。为了评估合作行为的效果，作者通过虚拟循环在仿真中收集了交通数据，并在经典的流密度图中可视化了结果交通的性能（见图12）。结果显示，cooperative behavior可以使得通过的交通密度和流量更大。
- [44] ：在[44]中，作者没有使用非完整阿克曼转向几何，而是使用完整约束模型作为动作空间，这大大降低了控制问题的复杂性。他们的动作是加速、减速、向左变道、向右变道和不采取任何动作，其中前两个动作应用最大加速和最大减速，而两个变道动作仅仅使用恒速横向移动。他们使用Dueling DQN和基于网格观察模型的优先经验回放。
- [41]中使用了类似的控制方法和非完整运动学。这项研究的重要性在于它考虑了学习过程中的安全方面。通过使用类似MPC的安全检查，agent可以避免导致碰撞的行为，从而使训练更快、更稳健。
- 使用非完整运动学需要加速和转向命令。
- 在[70]、[46]中，作者使用了周围车辆的结构化信息的连续观察空间和策略梯度RL结构来实现端到端驾驶。由于所使用的方法具有离散动作空间，因此需要对转向和加速命令进行量化。

IV. FUTURE CHALLENGES

DRL方法的主要优点是，它们可以处理非结构化数据，例如原始或稍微预处理的雷达或基于相机的图像信息。
在电子控制单元（ECU）中实现的汽车应用程序的功能开发受专有OEM规范和几个国际标准的约束，如automotive SPICE（软件过程改进和能力确定）[82]和ISO 26262[83]。
然而，这些标准仍然远远没有解决深度学习中的专门问题，因为verification and validation在这个领域中还没有得到解决。
一些论文通过使用底层安全层来处理这些问题，该安全层在车辆控制系统执行计划轨迹之前验证其安全性。然而，在复杂的场景中，这种方式无法保证完全的功能安全覆盖。
运动规划应用RL优点：相对较低的计算需求（和纯深度学习相比）。虽然对于简单的凸优化问题收敛较快，但是对于复杂场景，无论是超参数的规模还是训练时间都可能受到维度爆炸的影响。
由于复杂的强化学习任务需要在环境设计、网络结构、奖励方案甚至所用算法本身上不断迭代，因此设计这样的系统是一项耗时的工程。
大多数研究都忽略了复杂的传感器模型。
一方面，将从理想观测中所获得的转移到现实应用中需要解决几个可行性问题[84]，另一方面，如[42]所述，使用有噪声或有错误的模型实际上可能得到更健壮的agent。
由于强化学习代理在相似场景下表现良好，因此需要开发更真实和多样化的环境，包括交互交通参与者的建模水平。这些改进增加了环境模型的数值复杂性，成为应用中的主要问题之一。

【论文笔记】—— Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles

文章目录

Abstract

I. INTRODUCTION

II. MODELING FOR REINFORCEMENT LEARNING

A. Vehicle modeling

B. Simulators

C. Action Space

D. Rewarding

E. Observation Space

III. SCENARIO-BASED CLASSIFICATION OF THEAPPROACHES

IV. FUTURE CHALLENGES

猜你喜欢