三种基于自监督深度估计的语义分割方法（arXiv 2021）

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨泡泡机器人

来源丨泡泡机器人SLAM

标题: Three Ways to Improve Semantic Segmentationwith Self-Supervised Depth Estimation

作者：Lukas Hoyer, Dengxin DaiYuhua Chen, Guangming Shi

来源：arXiv 2021

编译：cristin

审核: zhh

摘要

大家好，今天为大家带来的文章Three Ways to Improve Semantic Segmentationwith Self-Supervised Depth Estimation。

为语义分割训练深层网络需要大量标记的训练数据，这在实践中是一个重大挑战，因为标记分割掩码是一个高度劳动密集的过程。为了解决这个问题，我们提出了一个半监督语义分割框架，该框架通过从未标记图像序列中进行自监督单目深度估计来增强。特别是，我们提出了三个主要贡献：（1）我们将自监督深度估计过程中学习到的特征知识转移到语义分割；（2）我们通过使用场景的几何结构混合图像和标签来实现强大的数据增强；（3）我们还利用深度特征多样性根据学习难度的高低，在student-teacher框架下选择最有用的样本进行语义切分。我们在Cityscapes数据集上验证了所提出的模型，其中模块显示了显著的性能提升，我们实现了半监督语义分割的最新成果。

主要工作与贡献

我们的方法的主要优点是，我们可以从大量易于访问的未标记图像序列中学习，并利用学习到的知识以各种方式提高语义分割性能。我们的贡献总结如下：

1)据我们所知，我们是第一个利用SDE作为辅助任务来利用未标记图像序列的人，并显著提高了半监督语义分割的性能。

2)我们提出了DepthMix，这是一种强大的数据增强策略，它尊重场景的几何结构，并结合（1）实现了半监督语义分割的最新结果。

3) 为了提高主动学习的灵活性，我们提出了一种基于SDE的自动标注数据选择方法。它将人工注释器替换为SDE oracle，并提高了在数据选择循环中使用人工的要求。

算法流程

1.系统框架

在这项工作中，我们提出了一种利用自监督单目深度估计（SDE）的三重方法，以提高语义分割的性能，并减少所需的注释量。我们的贡献跨越了整体学习过程，从数据选择、数据扩充到跨任务表示学习，同时通过使用SDE实现了统一。

在本节中，我们将介绍三种使用自监督深度估计（SDE）提高语义分割性能的方法。他们关注语义分割的三个不同方面，包括注释数据选择、数据扩充和多任务学习。给定来自同一任务的N幅图像和K幅图像序列，我们的第一种方法是注释自动数据选择，使用在K（未标记）序列上学习的SDE从N幅图像中选择NA图像进行人类注释（参见Alg.1）。我们的第二种方法称为DepthMix，它利用学习到的SDE从成对的标记图像及其注释中创建几何上合理的“虚拟”训练样本（见图1）。第三种方法是在多任务框架下，将SDE作为辅助任务学习语义切分（见图2）。结合SDE和图像分类的多任务预训练过程加强了学习。

图1 提出的DepthMix增强的概念及其基线类混合。通过利用SDE，DepthMix减轻了几何瑕疵。

图2 使用SDE作为辅助任务学习语义分段的体系结构。虚线路径仅在训练期间使用，并且仅当图像序列和/或分割地面真值可用于训练样本时使用。

2.方法

2.1注释的自动数据选择

我们使用SDE作为代理任务，从一组N个未标记的样本中选择NA样本，供人们创建语义分割标签。与标准的主动学习周期（模型培训）类似，选择是分多个步骤逐步进行的→ 查询选择→ 注释→ 模型培训。然而，我们的数据选择是完全自动的，不需要人工参与，因为注释是由代理任务SDE oracle完成的。

多样性采样：为了确保选择的带注释的样本足够多样，能够很好地代表整个数据集，我们使用了一种迭代的最远点采样，该采样基于SDE网络中间层计算的特征ΦSDE上的L2距离。

不确定性抽样：虽然多样性抽样能够选择不同的新样本，但它不知道语义分割模型对这些样本的不确定性。不确定度抽样的目的是选择困难的样本。

2.2 DepthMix数据增强

受最近成功的数据增强方法的启发，我们提出了一种称为DepthMix的算法，利用自监督深度估计，在混合过程中保持场景结构的完整性，该算法混合了成对图像及其（伪）标签，以生成更多的语义分割训练样本。

给定两个大小相同的图像Ii和Ij，我们想从Ii复制一些区域，并将它们直接粘贴到Ij中，以获得一个虚拟样本I0。复制的区域由掩模M表示，掩模M是与两个图像大小相同的二值图像。图像创建过程如下所示

我们的DepthMix旨在缓解这个问题。它使用两幅图像的估计深度Diˆ和Djˆ来生成遵循几何关系的混合掩模M。它只通过从Ii中选择像素来实现深度值小于Ij中相同位置的像素深度值：

2.3 半监督语义分割

我们利用标记图像数据集GA、未标记图像数据集GU和K个未标记图像序列来训练语义分割模型。我们首先讨论了如何利用SDE对图像序列进行语义分割。然后，我们将展示如何使用GU来进一步提高性能。

为了正确初始化姿态估计网络和深度解码器，该结构首先在K个未标记图像序列上进行训练，用于SDE。通常，我们使用ImageNet权重初始化编码器，因为它们提供了在图像分类过程中学习到的有用语义特征。为了避免在SDE预训练期间忘记语义特征，我们利用了当前瓶颈特征f Eθ和编码器的瓶颈特征之间的特征距离损失，图像净权重f E I：

深度预训练的损失是SDE损失和ImageNet特征距离损失的加权和：

实验结果

点击阅读原文，即可获取本文下载链接。

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近5000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

三种基于自监督深度估计的语义分割方法（arXiv 2021）

猜你喜欢