[论文阅读] Joint learning of foreground, background and edge for salient object detection

[论文地址] [代码] [CVIU 24]

Abstract

尽管在显著性检测方面取得了重大进展,但当场景复杂时,特别是当显着性和非显着性区域相似或显着性对象具有复杂的轮廓时,预测显着性仍然具有挑战性。 以前的先进方法很少探索图像背景下的学习。事实上,图像的背景和前景包含互补信息。 在这项工作中,我们建议将显着性检测任务分解为三个子任务:前景感知、背景抑制和边缘细化。更具体地说,我们的解码器由三个分支组成:前景感知分支、背景抑制分支和边缘细化分支。每个分支的目标是学习特定的特征来进行预测。同时,我们设计了具有可控调节因子的区域焦点损失函数来监督训练阶段每个分支的学习。 此外,我们构建了一个注意力引导特征融合模块来自适应地融合多尺度特征,并构建了一个全局信息捕获模块来定位显著对象。 对五个基准数据集的实验表明,我们的方法优于最先进的方法。


Motivation

显著性检测的难点:在复杂场景下,显著前景与背景可能会比较相似(也就是"没有那么显著"),如下图第一第二行所示
在这里插入图片描述
另一个则是老生常谈的点,即边缘处的检测不够准确,如上图第三第四行所示。

为了解决以上两个难点,本文设计了一个多任务网络,同时预测前景/边缘/背景。


Network

在这里插入图片描述

  • Boundary GT是通过对GT进行Canny边缘检测得到的
  • 前景分支(Forground Branch)与背景分支(Background Branch)在结构上是一致的,并且接受相同的GT(前景Map)监督
  • 之所以背景分支在受前景监督的情况仍叫"背景"分支,得益于文中所提出的Regional Focus Loss
  • 最终结果由三个分支Fuse而来

GIC (Global Information Capture)

作为ASPP类似物,处理最后一层encoder的全局特征并进行增强:
在这里插入图片描述


AGFF (Attention Guided Feature Fusion)

本文Decoder的基本组成单位,核心思想为利用不同尺寸的空洞卷积进行多尺度特征提取与融合:
在这里插入图片描述


Regional Focus Loss

在这里插入图片描述
通过调整 γ \gamma γ η \eta η的系数,可以控制网络是更侧重前景还是背景的准确性。

猜你喜欢

转载自blog.csdn.net/qq_40714949/article/details/135465483