[论文阅读] Unsupervised Domain Adaptive Salient Object Detection Through Uncertainty-Aware Pseudo-Label

论文地址:https://arxiv.org/abs/2202.13170
代码:https://github.com/Kinpzz/UDASOD-UPL
发表于:AAAI 22

Abstract

深度学习的最新进展大大提升了显著目标检测(SOD)的性能,但却牺牲了更大规模的逐像素标注的标签。为了减轻劳动密集型标注的负担,人们提出了深度无监督的SOD方法,以利用手工制作的显著性方法产生的噪声标签。然而,从粗糙的噪声标签中学习准确的显著性细节仍然是困难的。在本文中,我们提出从合成但干净的标签中学习显著性,这自然具有更高的像素标签质量,而不需要人工标注的努力。具体来说,我们首先通过一个简单的复制粘贴策略构建一个新的合成SOD数据集。考虑到合成场景和真实世界场景之间的巨大外观差异,直接用合成数据进行训练会导致真实世界场景的性能下降。为了缓解这个问题,我们提出了一种新型的无监督领域自适应SOD方法,通过不确定性感知的自训练来适应这两个领域。实验结果表明,我们提出的方法在几个基准数据集上优于现有的最先进的深度无监督SOD方法,甚至可以与完全监督的方法相媲美。

I. Introduction

本文是一种无监督的显著目标方法。对于显著目标检测任务而言,无监督不是说不用任何形式的标签,而指的是不用人工标注的标签。具体来说,本文搞了个新数据集(基本上各无监督方法用的数据集都不同)。这个数据集比传统的逐像素数据集更容易获得,不需要人工标注,只不过与显著性检测任务的domain gap较大。而为了解决domain gap,本文还引入了domain adaption的方法。

II. Proposed Dataset

这里的做法有点像Matting。在抠图任务中,数据集也是合成的,即找一些干净的无背景的前景物体图像,与各不包含前景的背景图像进行合成,从而得到大量的训练数据:
在这里插入图片描述
具体来说本文合成的数据集包含11197个不同的前景对象,与主流的训练集DUTS-TR(10553)大小相当。

III. Training

首先,网络肯定是直接在合成的数据集(源域)上进行训练的。然后,再将目标域的训练样本图像送入训练好的网络中,获得伪标签。显然,由于合成数据集的图像是有噪声的(比如前景不干净,而且由于是无监督所以不能去人工审查合成标签质量),因此得到的目标域伪标签也是有噪声的。具体来说,本文整个了基于不确定性的方法,来评估生成伪标签的质量,进而选择高质量的伪标签,此即标题中"Uncertainty-Aware Pseudo-Label Learning"的含义,相应做法在后面进行阐述。

IV. Uncertainty-Aware Pseudo-Label Learning

首先看怎么进行不确定性估计。本文的噪声估计是基于数据增强的。事实上,Data Augmentation也是一种常见的噪声注入手段[1]。注入了噪声,就引入了不确定性,进而带来预测结果的差异。如果网络对扩充后的样本预测结果差异较大,说明网络对预测结果的置信度较低,可以侧面印证该伪标签的质量不高。本文采用了三种数据扩充手段:Horizontal Flipping, Rescale, Style Swap[2]。最后的不确定性是通过算预测结果的方差得到的。最终的流程如下:
在这里插入图片描述

Ref

[1] Xie, Qizhe, et al. “Unsupervised data augmentation for consistency training.” Advances in Neural Information Processing Systems 33 (2020): 6256-6268.
[2] Yang, Yanchao, and Stefano Soatto. “Fda: Fourier domain adaptation for semantic segmentation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

猜你喜欢

转载自blog.csdn.net/qq_40714949/article/details/123976737