论文阅读 MEnet: A Metric Expression Network for Salient Object Segmentation

Abstract

文章定义了一个新的度量空间，能够将salient区域和非salient分开

Introduction

作者提出了一个在学习到的度量空间中的saliency model。对于部分扭曲的图像作者提出了一种深度的度量学习的方法来解决saliency分割问题。用语义分割的特征来学习一个齐次度量空间。特征是像素级别的，对于前景和背景的区分通过一个distance measure来解决。作者引入了一个基于度量学习和交叉熵的全新的度量函数，和Hypercolumns和UNet很像

Network

这里写图片描述
Encoder
在每一个下采样中都会double channel

Decoder
图中白色的地方是1x1的map,对于编辑全局的语义信息很有意义
这里写图片描述
Concat
对于不同尺度的特征将他们concat在一起，作者将13个不同尺度的特征捆绑在一起，也即concat在了一起,然后用16个通道的卷积去生成相应的特征

和Hypercolumn的区别
Hypercolumn在训练的时候会充分运用多尺度的saliency标签信息用来做分割，但是本文只用了一个尺度的标签

loss

Traditional loss

这里写图片描述
y = 1代表是saliency像素，y = 0代表室非saliency像素， $P(l_i^{(n)} = y|\theta_1)$ 是指第i个位置地方出现y=0或者1的概率，因为需要预测两个y=0和y=1都要预测，所以需要两个kernel来进行卷积。

Metric learning

这里写图片描述

其中 $\theta_2$ 代表要学习的参数，此时的feature map大小为WxHxC,C=16，上一部分已经提到了。 $f_i^{(n)}$ 代表的是一个batch里的第n张图片的WXHXC的feature map的第i个位置的长度为C的特征向量
这里写图片描述
当 $f_k^{(n)} \in set^+$ ,表示 $f_k^{(n)}$ 和 $f_i^{(n)}$ 是来自同一个区域，也即要么都是saliency区域，要么都是非saliency区域，否则的话 $f_k^{(n)}$ 和 $f_i^{(n)}$ 是来自不同的区域

这个损失函数寻求扩大不同区域的向量之间的距离，减小相同区域间的距离，因此saliency和非saliency区域是各向同性的，因此整个的损失可以进行简化
这里写图片描述
${\overline{f}}_{+}^{n}$ 代表的是与 $f_i^{(n)}$ 是同一个区域的所有的向量的均值， ${\overline{f}}_{-}^{n}$ 代表的是与 $f_i^{(n)}$ 是不同区域的所有的向量的均值，上面的公式能够让同一个区域提取出来的向量在salient特征空间上接近那个区域的中心，在salient特征空间上而远离其他区域的中心，这里必须要强调在salient特征空间上，因为只有在这个空间相同区域的特征才会有一个中心，只有在特征层面上去理解才可以。(其实细想想对于saliency分割，同一个区域不同位置的特征向量应该是很相近的，中心距离他们应该都比较近的)

这里写图片描述
最后的总的损失

Semantic distance expression

最后的S map通过以下公式获得
这里写图片描述

$\Omega_B$ 代表的是背景， $\Omega_S$ 代表的是前景，上面的公式表示如果i是前景，减去背景的期望，因为二者相差很大，此时的结果很大；如果i是背景，背景和背景的期望应该会很小，所以此时的结果应该为0。

Experiment
略