SimVODIS: Simultaneous Visual Odometry , Object Detection, and Instance Segmentation 论文阅读

论文信息

题目:SimVODIS: Simultaneous Visual Odometry ,Object Detection, and Instance Segmentation
作者:Ue-Hwan Kim , Se-Ho Kim , and Jong-Hwan Kim , Fellow, IEEE
时间:2022
来源:PAMI

Abstract

智能代理需要了解周围环境,以便为人类提供有意义的服务或与人类进行智能交互。
代理应该感知环境中固有的几何特征和语义实体。

  1. 现代方法通常一次提供一种有关环境的信息,这使得执行高级任务变得困难。
  2. 此外,运行两种类型的方法并关联两种结果信息需要大量计算并使软件架构复杂化。

为了克服这些限制,我们提出了一种在单个线程中同时执行几何和语义任务的神经架构:同时视觉里程计、对象检测和实例分割(SimVODIS)。

SimVODIS 建立在 Mask-RCNN 之上,并以监督方式进行训练。训练 SimVODIS 的位姿和深度分支需要未标记的视频序列,并且输入图像帧之间的光度一致性会生成自监督信号。

SimVODIS 的性能优于或匹配姿态估计、深度图预测、对象检测和实例分割任务中的最先进性能,同时在单个线程中完成所有任务。

Intoduction

主要贡献:
1) 研究场景:我们首次定义了一种完全数据驱动的语义VO算法SimVODIS。我们预计SimVODIS将引发数据驱动VO向语义VO/SLAM的演变。

2) 网络架构设计:我们设计了同时执行几何和语义任务的SimVODIS网络。该网络利用共享的特征图执行多个任务,并在一个线程中运行。

3) 研究数据集异质性的影响:我们使用多个数据集来训练所提出的SimVODIS,并研究数据集的异质性对自我运动估计和深度图预测性能的影响。

4) 消融研究:我们以多种方式改变训练条件,并评估不同的训练环境如何影响SimVODIS网络的性能。

5) 开源:我们通过制作拟议的SimVODIS ne的源代码,为相应的研究机构做出贡献

Related Work

Semantic Mapping/SLAM

Feature-Based Methodd

CNN-Based Methods

Data-Driven VO

语义映射/SLAM的识别模块被前面提到的数据驱动(基于CNN)方法所取代。然而,语义映射/SLAM中的VO(姿态估计)部分并没有完全被数据驱动的方法所取代,因为目前对数据驱动VO的研究还处于早期阶段。研究人员已经开始展示其可行性[18],该领域正在积极研究中。数据驱动VO可分为两类:supervised VO和Unsupervised VO。

Supervised VO

对数据驱动VO的研究始于监督学习方案。首先,研究人员将深度神经网络(DNN)的姿态估计公式化为回归问题,并训练DNN来回归当前图像帧的姿态,以达到重新定位的目的[31]。后来,DNN被训练来评估两个连续图像帧之间的相对姿态,并作为初步研究显示出令人满意的性能[32],[33]。
尽管如此,由于一些限制,对数据驱动VO的研究正朝着无监督VO的方向发展:有监督VO需要标记数据进行训练,而可靠的VO的标记数据需要使用额外的传感器工具[17]。

Unsupervised VO

无监督VO不需要标记数据进行训练。

它利用来自不同相机视图的图像重建作为监督信号。无监督VO联合训练两个CNN,即姿态估计和深度图预测网络,因为图像重建需要相对姿态和深度图。无监督VO处理两种类型的输入图像序列:单目图像序列和立体图像序列。单目图像序列[15]、[18]、[19]的无监督VO会带来尺度模糊问题,而立体图像序列[34]、[35]的无监督VO需要更昂贵的设备和额外的校准步骤。所提出的SimVODIS用单目图像序列扩展了无监督VO,因为SLAM系统的开发过程从单目VO开始,并朝着立体声和rgb-d VO以及最终的SLAM系统发展。

SimVODIS

Problem Formulation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Network Architecture

在这里插入图片描述

图3描述了所提出的SimVODIS网络的概念化架构。我们基于以下思想设计了SimVODIS网络:
1)Mask RCNN为语义和几何任务提取通用特征,如区域建议、类标记、边界框回归和掩码提取;
2)我们可以使用这些丰富的特征来估计相对姿态和预测深度图,因为提取的特征对语义和几何工作都有用。

对于SimVODIS,我们设计了两个网络分支:姿态分支和深度分支。姿态分支使用来自特征金字塔网络(FPN)的丰富特征来估计三个连续图像序列之间的相对姿态。表1显示了pose分支的详细网络架构。由于姿势分支导致的参数总量的增加是最小的。
在这里插入图片描述
接下来,图4显示了用于深度图预测的深度分支的架构。深度分支预测逆深度图,而不是直接估计数值稳定性的深度值。深度分支利用所有尺度的特征图来捕捉宏观和微观特征。先前的工作在训练过程中预测四个不同尺度的深度图,以应对梯度局部性问题。相比之下,SimVODIS只生成一个深度图,其比例等于输入图像,因为已经从FPN中提取了丰富的特征,并且SimVODIS不会出现梯度局部性问题
在这里插入图片描述

Loss Functions

在训练过程中,SimVODIS网络利用从FPN中提取的丰富特征,寻找最优超参 ( θ p o s e , θ d e p t h ) (\theta _{pose},\theta _{depth}) (θpose,θdepth),最大限度地减少了客观损失。为了学习深度和姿态分支的最优超参数,我们使用三个损失函数来最小化。

Image Reconstruction Loss

在这里插入图片描述
在这里插入图片描述

Structure Similarity Loss

在这里插入图片描述

Depth Smoothness Loss

在这里插入图片描述

Training Scheme

为了训练 SimVODIS,我们首先冻结 Mask-RCNN 的参数并初始化姿态估计和深度图预测分支的参数。我们在整个训练过程中保持 Mask-RCNN 部分不变,因为与姿势和深度分支相关的数据集不包含语义信息。另外,将其他数据集与姿势和深度分支的数据集一起用于语义任务(数据集异质性)会导致梯度混乱。

然后,我们一次输入一组三个连续图像。 SimVODIS网络将三幅图像作为一个批次接收,这使得计算时间不增加。

FPN 的三个特征图在输入到姿势分支之前被连接起来。位姿分支使用连接的图像特征来估计相机运动矢量 (Ut)。深度图预测分支仅使用中心图像的特征图并估计深度图。使用估计的深度图,评估深度平滑度损失。最后,估计的运动矢量和深度图导致图像重建,其中计算重建和 SSIM 损失。在计算重建​​损失的过程中,我们应用了自动掩蔽技术和最小(min)重投影损失方法[15]。在此过程中还会检测每个输入图像中对象的边界框、类标签和掩模。

传统方法在四个不同尺度上应用所有损失函数来克服梯度局部性。比例范围从输入图像分辨率到输入分辨率的 1=8(1、1=2、1=4 和 1=8)。然而,我们不采用这种方法,而是使用与输入分辨率相匹配的单个图像分辨率。由于 SimVODIS 网络的大部分已经训练完毕,并且位姿估计和深度图预测分支很浅,因此不会出现梯度局部性问题。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qin_liang/article/details/132718479