Attentive Feedback Network for Boundary-Aware Salient Object Detection

这是2019CVPR中的一篇图片显著对象检测的文章，是我所跑通的几篇code中效果比较不错的，主打边缘和速度。

文章的主要贡献可以大致分成两部分：

提出了一个注意力的反馈网络（Attentive Feedback Network, AFNet），主要用于编码器解码器每一级（一一对应的）的特征传递，逐级预测显著性对象，以及边缘优化。
提出了一个边缘增强的损失函数。

直接上模型：

图中 $E^{(l)}$ 和 $D^{(l)}$ 分别是VGG16，以及其对应的解码结构。 $l$ 代表第几阶段，从图中可以看出来，一共分成了5个阶段，其中E和D一一对应。最后的GPM是一个全局感知模型，其实就是这样的：

这个图很好理解，不多说了，重点是那个AFM结构，口述一下它运行的流水账流程：

$E^{(3)}$ 接收 $E^{(2)}$ 的直接结果，通过3个卷积层之后得到 $f^{(3,1)}_e$ ，这个特征图的上下标意思是编码阶段第3阶段第1时间步得到的特征图。将 $f^{(3,1)}_e$ 与 $f^{(4,2)}_d$ 和 $S^{(4,2)}$ Concate到一起，得到 $I^{(3,1)}$ 。然后 $I^{(3,1)}$ 被送进解码器对应的解码结构中，也是3层卷积，与编码一一对应，得到 $f^{(3,1)}_d$ 和 $S^{(3,1)}$ ，用于第2时间步的计算。
在第2时间步中，首先要先计算一张三元图。包括：确定是前景的部分，确定是背景的部分，不确定的部分。怎么分？将第1时间步得到的 $S^{(3,1)}$ 进行膨胀腐蚀（其实就是进行了两次最大池化操作，膨胀： $D^{(l)}(S^{(l,1)})=P^{max}_{M^{(l)}_d}(S^{(l,1)})$ ，腐蚀： $E^{(l)}(S^{(l,1)})=-P^{max}_{M^{(l)}_e}(-S^{(l,1)})$ ），然后对膨胀及腐蚀后特征图取平均，得到三元图 $T^{(3)}$ 前景值接近1，不确定部分接近0.5，背景值接近0。
$E^{(3)}$ 将接收的 $E^{(2)}$ 与三元图 $T^{(3)}$ 逐像素相乘，这样就相当于做了一个预处理操作，然后再送到编码器中，经过3个卷积层之后得到 $f^{(3,2)}_e$ ，也就是编码阶段第3阶段第2时间步得到的特征图。然后将步骤1中得到的 $f^{(3,1)}_d$ 和 $S^{(3,1)}$ 与 $f^{(3,2)}_e$ 进行Concate之后得到 $I^{(3,2)}$ 。
最后再将 $I^{(3,2)}$ 送到解码部分中进行解码，得到最终的显著图。