显著性检测初探:A Simple Pooling-Based Design for Real-Time Salient Object Detection

显著性检测是给定一张图像,挑选出里面最惹人眼球的部分,类似于视觉Attention机制,不过又有些说不上来的区别。显著性检测分为自上而下top-down和自下而上bottom-up,前者是从整体的高级语义出发,假如看到图片中有一个人,那么这个人必然是一个显著性目标;而自下而上是根据图像局部的某些色彩,纹理,边缘等等,来决定这个比较有特点的区域是否为一个显著性目标。

最近有一些基于U-net结构的网络,可以较好的进行saliency detection。但是这种单纯的基于FPN的U-net结构会有以下几个问题:(1)高层语义信息还原成浅层信息时会不断地被稀释;(2)CNN每层的感受野不一致,会带来一些问题。

在这里插入图片描述

为了解决上述问题,作者提出了两个模块:global guidance module (GGM)和 feature aggregation module (FAM)。GGM将每个层级抽取的特征图与高层语义信息直接融合,所以在这种top-down的过程中,高层语义不会被稀释;FAM模块可以解决混叠效应,并且可以增大感受野。

在这里插入图片描述
采用GGM和FAM两个模块的U-net已经可以达到SOTA,但作者还采用了边缘检测进一步提升精度(具体怎们用的没看)。

一些实验结果:

在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/jackzhang11/article/details/108838736