论文速读 – FIERY: Future Instance Prediction in Bird’s-Eye View from Surround Monocular Cameras
参考:
1. 知乎FIERY
一. 摘要
驾驶需要与道路参与者互动,并预测他们未来的行为,以便安全驾驶。我们提出了FIERY
:一个概率未来预测模型基于单眼相机BEV视角。我们的模型预测了未来的实例分割和动态运动,可转化为非参数未来的轨迹。我们的方法结合了传统自动驾驶感知、传感器融合和预测组件,以多视角RGB单目相机作为输入估计鸟瞰图预测。该模型在不依赖高清地图的情况下,仅以端到端的方式从相机驱动数据预测未来,并预测多模态未来轨迹。
二. 介绍
前融合这一重要理论被证实了,可以有效改善感知表现,如目标检测。大部分基于相机的预测工作都直接表现在感知视角所在坐标系,或者在高精度地图系统中生成简易的BEV栅格表征。传统预测任务更多是基于高精度地图或者使用道路关系,生成未来轨迹。
相关工作:
相机数据BEV视角表征。
未来预测。检测-追踪-预测模型存在累计误差,延迟高。大部分端到端的方式重度依赖于lidar数据,并结合高精度地图,紧密编码,表现更好。我们的工作是第一个直接以图像视频作为输入,预测不同物体的合理未来轨迹
,有别于以往的自上而下的栅格化表征。
主要贡献:
- 首次提出BEV视角下的单目相机视频的未来预测模型,有充分理由证实了可以 动态预测实例分割和运动。
- 我们的概率模型能够预测动态环境下的可信的且多模型参与的未来轨迹。
- 定量化的对未来动态场景分割表现,超越现有基线。
三. 模型
3.1 拉伸图像特征到3D
LSS
方案,可参考Lift,splat,shoot。EfficientNet
用来获取拉伸特征和离散的深度概率。
3.2 投影到BEV视角
实验采用0.5m分辨率,针对100m*100m范围,得到(H,W)=(200,200)。
3.3 学习时序表征
利用过去时刻的多帧BEV特征{x} 与自运动坐标变换{a},将过去多帧特征变换到当前帧车身坐标系,得到时空状态输出s。然后对其进行3D卷积。
3.4 当前和未来分布
当前分布只能由当前时空状态s得到,而未来分布F额外附加上可以观测的未来标签,标签关联着未来中心、偏移、分割和流
。我们使用对角高斯函数来拟合这两个分布,训练模型期间,从未来分布中采样隐藏状态,推理期间则从当前分布中采样隐藏状态。KL散度loss使用当前分布覆盖可见未来状态。
3.5 BEV视角下的未来预测
未来预测模型采用conv-GRU单元网络,以当前状态和从未来分布中采样的隐状态作为输入,或者推理阶段从当前分布中采样。
3.6 未来实例分割和运动
BEV最终解码,输出得到是包含多头:语义分割、实例中心、实例偏移、未来实例流
。
3.7 loss
语义分割:topk交叉商 loss
实例中心:L2 loss
实例偏移、未来实例流: L1 loss
四. 实验
4.1 数据集
lyft 和 nuscenes
4.2 评价指标
VPQ
(Future Video Panoptic Quality): 未来视频全景质量。
1)识别质量:随时间推移,检测目标的一致性。
2)分割质量:实例分割的精确度。
公式如下:
Dged
(Generalised Energy Distance)一般能量距离