TIP 2021 | 用于光学遥感图像显著性目标检测的稠密注意力流网络与公开数据集...

点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

本文转载自:BJTU MePro

论文题目:

Dense Attention Fluid Network for Salient Object Detection in Optical Remote Sensing Images

论文链接:

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9292434

项目主页:

https://rmcong.github.io/proj_DAFNet.html

视频链接:

https://www.bilibili.com/video/BV1Ry4y1m7WL/ (第三部分)

1 引言

对于光学遥感图像中的显著性目标检测问题,存在如下三个挑战:

  • 显著性目标容易受复杂背景干扰,如图中第二行所示的阴影干扰。

  • RSI中的显著性目标比NSI中的显著性目标具有更复杂的结构和拓扑,这容易造成检测结果不完整,如图中第三行和第四行的样例。

  • 对于光学RSI SOD任务,现在仅有一个包含800张数据的ORSSD数据集可用于模型训练和性能评估,其规模仍然较小。

因此,本文提出了一个新的数据集并设计了一种新的深度学习方法,具体贡献包括:

  1. 提出了一种端到端的稠密注意力流网络(DAFNet)以实现光学RSI的SOD,该网络配备了与骨干特征提取器分离的稠密注意力流(DAF)结构和全局上下文感知的注意力(GCA)机制。

  2. DAF结构结合了多层级注意力线索,其中浅层注意力线索会流入较深层的注意力单元中,以便将浅层注意力线索作为引导信息对高层注意力信息进行增强。

  3. GCA机制通过全局特征聚合模块对全局上下文语义关系进行建模,并通过级联金字塔注意力模块来应对目标的尺度变化问题。

  4. 针对光学RSI中的SOD任务,构建了一个包含2000张图像和相应像素级真图标注的基准数据集,而且所提出的DAFNet在实验中优于15个最先进的对比算法。

2 方法

本文提出的稠密注意力流网络是一种编码器-解码器结构。在特征编码过程中,设计了注意力流机制来指导特征的传播和学习,即在骨干网络(如VGG16)的每个卷积块上都配备了一个全局上下文感知的注意力模块。对于注意力信息流,设计了一种稠密注意力流的结构,每个全局上下文感知的注意力单元都会借助每个卷积块的侧输出特征,生成一个注意力图,并通过稠密连接将不同块得到的注意力信息联系起来,实现注意力信息的跨级交互学习,最后将学习得到的全局注意力信息与原始的卷积特征进行残差连接,生成更具判别力的增强特征。在对特征进行解码的过程中,网络逐步将不同层次的特征图融合起来,并且在显著性图和显著性边缘图的监督下,生成多个侧输出和最终输出。

2.1 注意力流引导的特征编码

注意力流引导的特征编码模块用于学习光学遥感图像中更具判别力的显著性特征,主要包括全局上下文感知注意力机制和稠密注意力流结构。上下文感知注意力机制以一种注意力的方式显式地捕获所有空间位置之间的远程语义依赖性,并在卷积网络内部构建了稠密连接的注意力传播流,将特征流与注意力流纳入一个可学习的端到端框架内。

全局上下文感知注意力机制以一种注意力的方式显式地捕获所有空间位置之间的远程语义依赖性,主要包括全局特征聚合和级联金字塔注意力两个功能组件。全局特征聚合模块使用从骨干网络卷积块生成的原始特征,并生成对全局上下文信息进行编码的聚合特征。级联金字塔注意力模块用于解决光学遥感图像中目标尺寸变化问题,它以全局特征聚合模块得到的聚合特征为输入,并在级联金字塔框架下生成逐步完善的注意力图。

在理想情况下,对于属于同一个显著性目标的每个像素,不管它们之间的空间距离如何,学习得到的特征应该是一致的。但是当显著性目标占据了较大的图像比例时,这种特征的一致性就很容易被破坏,进而导致不完整的检测结果。因此,本文设计了一种全局特征聚合模块,旨在通过集成像素对之间的全局语义关系来实现显著性模式之间的特征对齐和相互增强,这有利于约束生成完整且统一的显著性检测结果。聚合特征图   嵌入了全局上下文依赖关系,可以约束整个显著区域的特征一致性。修正特征图   包含了更加紧凑的通道信息,    编码了跨通道的相关性,并突出了重要的特征通道。

在光学遥感图像中,目标尺度变化很大,这对显著性目标检测模型的鲁棒性和泛化性都提出了很大的挑战。在现有方法中,多尺度金字塔注意力机制可以增强特征的判别力,也在一定程度上缓解了目标大小变化的影响。然而,将独立生成的不同特征分辨率的注意力图通过上采样或者求和简单整合起来并不是最好的解决方案,因为这样的设计削弱了不同尺度之间的信息交互,限制了多尺度特征的表达能力。因此,本文设计了一种级联金字塔注意力机制,从粗到细地逐步细化特征和注意力信息。通过这样的级联结构,在低分辨率特征中可以挖掘出粗糙的注意力线索,然后与高分辨率特征融合,就能生成包含更精确细节的注意力结果。

卷积网络中的层次化特征对应着不同层次的信息,其中浅层的特征主要关注的是边缘和独特的纹理,而深层特征捕获的则是高级的语义特征。因此,从不同卷积阶段得到的注意力信息也包含着不同的特征选择策略。受卷积特征的侧路连接启发,本文设计了一种稠密注意力流结构,浅层注意力信息可以传入深层的注意力单元。这样,低层的注意力信息可以作为有价值的指导信息,来更好的生成高层的注意力信息。

2.2 步进式特征解码

每个解码阶段包括三个过程:第一,自顶向下特征融合模块,通过上采样和1×1卷积,将相邻的侧输出特征之间的分辨率和通道数进行对齐,然后进行逐像素求和。第二,利用瓶颈卷积块进一步集成融合特征的语义信息,每个瓶颈卷积块包含两个卷积层。第三,在解码器中设置了显著性预测层和显著性边缘预测层,并使用Sigmoid函数将显著性分数映射到[0,1]区间内。最终将网络解码器最顶层的输出作为最终的显著性预测图。

2.3 损失函数

本文同时考虑了显著性监督和显著性边缘监督,以此约束网络获得更加准确的显著性区域定位和更加锐利的显著性目标边界。为了充分利用多尺度信息,本文最终的损失函数包含三个层次的侧监督。除了第一级的全分辨率结果外,还在第2、3级也进行了显著性图和显著性边缘图的预测和监督。

3 EORSSD数据集

现有的ORSSD数据集(https://li-chongyi.github.io/proj_optical_saliency.html)仅包括了600张训练样本和200张测试样本,这是光学RSI SOD任务的第一个公开可用的数据集,它弥补了光学RSI的SOD理论与实践之间的鸿沟,但数据规模仍相对较小。为了扩大数据集的规模并进一步丰富数据集的种类,本文将ORSSD数据集扩展为一个更大的EORSSD数据集,其中包含2,000图像和相应的像素级标注的真图,其中包括许多语义上有意义但具有挑战性的图像。EORSSD数据集分为两个部分,即用于训练的1,400张图像和用于测试的600张图像。

【EORSSD数据集下载地址】

https://github.com/rmcong/EORSSD-dataset


4 实验

本文在ORSSD和EORSSD数据集上进行了实验,并提供了VGG16和Res2Net50两种backbone版本的实验结果。从可视化结果和定量指标中都可以看出本文方法相比于其他对比算法性能优异,能够更加准确地检测出显著性目标,并且结构完整、边缘清晰。消融实验结果也证明了本文设计的不同模块的有效性。

【DAFNet实验结果图及对比算法结果图下载地址】

https://github.com/rmcong/DAFNet_TIP20

5 总结

本文着重研究光学遥感图像中的显著性目标检测任务,并提出了一种名为DAFNet的端到端的网络框架,其中引入了注意力机制来指导特征学习。得益于注意力流结构,DAFNet将低层次的注意力线索整合到更深层的高层次的注意力图中。此外,全局上下文感知注意机制编码了远程像素依赖关系,并显示地利用了全局上下文信息。本文还构造了一个新的光学RSI SOD基准数据集,并提供了像素级的显著性真图标注。大量的实验和消融研究都证明了提出的DAFNet架构的有效性。

本期编辑:丛润民、张琦坚

责任编辑:张禹墨、张淳杰

CV资源下载

后台回复:CVPR2020,即可下载代码开源的论文合集

后台回复:ECCV2020,即可下载代码开源的论文合集

后台回复:YOLO,即可下载YOLOv4论文和代码

后台回复:Trasnformer综述,即可下载两个最新的视觉Transformer综述PDF,肝起来!

重磅!CVer-显著性检测交流群成立

扫码添加CVer助手,可申请加入CVer-细分垂直方向 微信交流群,可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、TransformerPyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如显著性检测+上海+上交+卡卡),根据格式备注,才能通过且邀请进群

▲长按加微信群

▲长按关注CVer公众号

整理不易,请给CVer点赞和在看

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/112386869#comments_21722737
TIP