计算机视觉——day 90 基于级联卷积神经网络和对抗学习的显著目标检测

I. INTRODUCTION

显著目标检测在过去的几年中受到了广泛的关注并取得了巨大的成功。要获得清晰的边界和一致的显著性仍然是一个挑战,这可以被认为是显着对象的结构信息。流行的解决方案是进行一些后处理(例如,条件随机场(CRF))来细化这些结构信息。

在本工作中,我们提出了一种新的基于级联卷积神经网络和对抗学习的显著目标检测方法(CCAL)。

综上所述,本文的主要贡献如下:

1)设计了一种新颖的显著性目标检测网络框架,该框架包含两个卷积神经网络,并以级联方式结合。它们分别关注全局显著性估计和局部显著性细化。在逐步的帮助下,检测结果逐步提高。

2)采用CGAN算法进行显著性目标检测,通过引入对抗损失隐式学习结构信息(即清晰的边界和一致的显著性)来提高性能。

3)我们在8个基准数据集上评估了所提出的方法。综合实验结果表明,该方法能够生成边界清晰、显著性一致的高质量显著图,显著优于现有方法。

II. 网路架构

image-20230513160832480

所提出的显著性目标检测模型中包含两个分量,即产生器G和判别器D,如图1所示。

A. 基于级联卷积神经网络的生成器G

全局显著性估计器 E

显著性目标检测可以看作是像素标记问题,对于显著性目标赋大值(如1),对于非显著性区域赋小值(如0)。本文借鉴了编码器-解码器网络的成功经验,构建了一个用于初始显著图估计的编码器-解码器网络(全局显著性估计器E),该网络包括编码器和解码器两部分。

具体来说,我们使用4 × 4的卷积核 和 步长为 2的卷积来代替3 × 3和stride 1的卷积和2 × 2和stride 2的pooling的组合,这是VGGNet[30]中的一个经典设置

这里,我们的编码器有n1 =8个卷积层,每一层的卷积核数分别为64、128、256、512、512、512、512、512、512。

对于解码器,它执行与编码器相反的过程,扩大特征图的大小。采用核大小为4 × 4、步幅为2的反卷积运算对特征图进行上进。此外,我们还使用跳跃连接来结合解码器的高级特征和编码器的低级特征,以促进特征学习。

最后一层是tanh激活函数。

从图1中,给定一个输入图像,e的输出是一个与输入图像大小相同的概率图,被认为是初始显著图,显著目标被突出,背景被抑制

局部显著性精炼器 R

有必要利用初始显著图提供的信息来修正这些差的估计。因此,我们设计了一种深度残差网络(称为局部显著性细化器R)进行局部显著性细化,其中输入为显著性估计器E生成的RGB图像和初始显著性图的组合,输出为优化后的显著性图作为最终的性能评估结果。

B.鉴别器 D

如上所述,给定一个输入图像I,其最终显著图X的生成过程可以表示为X = G(I)= R(I,E(I))。

生成对抗网络(GAN)中的鉴别器可以被看作是探索结构化损失函数的尝试。

因此,为了使生成器G能够很好地学习显著物的结构信息,我们设计了一个鉴别器D,它的作用是按照条件GAN (CGAN)的策略,将生成器G生成的假显著图与真实显著图(ground truth)进行区分。CGAN是GAN的条件版本。

image-20230513163032454

图2给出了不同模型配置产生的显著性目标检测结果的三个例子,直观地验证了我们的局部显著性细化器R和判别器D的优点。(e)就是本文提出的模型。

Iv. 实验

A. 数据集和评价标准

对八个标准基准数据集进行性能评价:SED1[64]、SED2[64]、ECSSD[4]、PASCAL-S[65]、HKU-IS[20]、SOD[66]、DUT-OMRON[67]和DUTS-TE[32]。

B. 实验结果

image-20230513163325281

不同显著性检测方法与我们的方法(CCAL)在各种具有挑战性的场景下的视觉比较。

V. 结论

本文提出了一种基于级联卷积神经网络和对抗学习的端到端显著性目标检测模型(CCAL)。设计了由级联cnn组成的编码器-解码器网络和深度残差网络,分别完成了全局显著性估计和局部显著性细化。采用由粗到细的级联方式,显著目标检测的性能可以逐步提高。作为一种结构化的损耗函数,识别器引入的对抗性损耗有助于CCAL更好地学习突出目标的结构信息,实验结果说明了它对提高性能的重要性。该方法无需任何后处理,即可产生准确的显著性目标检测结果。实验表明,CCAL不仅在8个基准数据集上获得了最先进的性能,而且在GPU上达到了17帧/秒的速度。

猜你喜欢

转载自blog.csdn.net/qq_43537420/article/details/130659115