参考代码：UC-Net

1. 概述

导读：这篇文章研究的是RGB-D数据的显著性目标检测问题，其中的D代表的是深度图，可以通过如Kinect之类的深度传感器/深度估计网络等得到。在之前RGB-D显著性目标检测算法中一般将显著性目标当成为决策性的像素点估计问题，因而对于每个输入的样本数据都只会生成一个固定的显著性目标检测结果。其实要是对于显著性目标的结果具有较为明确的判断准则，那么这样的方式本身也没有什么问题。但是关键却是在显著性目标的标注问题上，不同人对同一幅图的显著性目标确定可能会存在差异，这就导致了使用上述算法得到的显著性目标并不是很准确。对此文章将原来的决策性检测问题通过条件变分自动编码器（CVAE）变化为基于概率模型的检测问题，因而可以对于同一张图在latent space上进行采样，从而生成多个不同的显著性目标检测结果，之后通过多数投票的方式保持显著性目标的一致性（salient concensus）。此外，文章通过遮挡之后迭代进行显著性目标检测从而得到一张图的多个显著性目标结果。

通过在RGB图像基础上引入深度图像可以极大提升显著性目标检测的准确度，但是由于人员在标注过程中存在主观判断差异与评判标准模糊，使用传统的显著性目标检测算法可能会存在结果上的歧义问题，因为算法只呈现了一个结果。这篇文章通过CAVE引入概率模型，通过采样得到多个显著性目标的结果，见下图1所示：
在这里插入图片描述
文章的算法会得到多个显著性目标，之后会通过显著性目标一致性（投票机制）得到最后的显著性目标。对于CVAE中的条件部分文章是通过遮挡显著性目标多次进行检测得到的，从而使得对于单张训练图片有多个显著性目标检测结果。此外，由于直接引入深度信息会导致较多的噪声，因而文章还提出了一种深度信息优化网络（depth correction network）得到丰富的语义与几何信息。

2. 方法设计

2.1 整体pipline

使用 $\xi=\{X_i,Y_i\}_{i=1}^N$ 表示训练的数据对，其中 $X_i=\{I_i,D_i\}$ 由RGB图像和深度图像组成的RGB-D数据。文章的整体算法流程见下图所示：
在这里插入图片描述
上面复杂的算法pipline主要由下面的几个子功能模块组成：

1）由先验网络PriorNet和后验网络PosteriorNet组成LatentNet，分别去映射 $X_i$ （对于PriorNet）和数据对 $X_i,Y_i)$ （对于PosteriorNet）得到latent space下的数据 $z_i\in R^K$ ，用来表示两者之间的数据分布；
2）使用 $I_i,D_I$ 输入到DepthCorrectionNet中得到优化之后的深度图像 $D_i^{‘}$ ，用以排除原始深度图像噪声，丰富语义和深度信息；
3）使用 $D_i^{‘},I_i$ 输入到SaliencyNet得到saliency的特征图 $S_i^d$ ；
4）使用在latent space采样得到的 $S_i^s$ 和 $S_i^d$ 通过预测网络PredictionNet得到最后的显著性目标结果；

其测试的时候使用的是在latent space进行多次采样得到多个显著性目标结果，之后使用saliency concensus（多数投票）的方式得到最后的结果，其pipline见下图所示：

在这里插入图片描述

2.2 网络的各组成部分

LatentNet：
文中的CAVE包含三个部分：

1）由PriorNet（由五个卷积层组成）将输入的RGB-D数据映射到先验概率分布 $P_{\theta}(z|X),z\sim\mathcal{N}(\mu,diag(\sigma^2))$ 。其中 $\mu,\sigma\in R^K,K=8$ ， $\theta$ 是可学习的网络参数；
2）由PosteriorNet将输入的 ${X_i,Y_i\}$ 映射到数据分布 $Q_{\phi}(z|X,Y)$ ， $\phi$ 是可学习的网络参数；
3）由latent space采样得到的数据经过解码器得到真实显著性目标分布 $P_w(Y|X,z)$ ；

对于上面提到的LatentNet，其具体结构见下图所示：
在这里插入图片描述
之后根据CAVE的训练监督逻辑，可以得到下面的损失表达形式：
$L_{CVAE}=E_{z~Q_{\phi}(z|X,Y)}[-logP_w(Y|X,z)]+D_{KL}(Q_{\phi}(z|X,Y)||P_{\theta}(z|X))$
对于上面提到的条件部分（也就是一个图像中对应多个显著性目标）文章是通过遮挡之后再检测得到的，具体见下图所示：
在这里插入图片描述
在文章中通过上述的过程总共得到4个显著性目标用于训练CVAE。

SaliencyNet：
文章的这部分网络是通过VGG16与DenseASPP构建的，最后得到特征图 $S^d$ ，它是channel为 $M = 32$ 的数据，其结构见下图所示：
在这里插入图片描述
输入的RGB-D数据经过LatentNet之后得到一个样本分布 $(\mu_{prior}^k,\sigma_{prior}^k)$ ，之后在其基础上通过 $\eta\in\mathcal{N}(0,I)$ 进行参数重采样得到抽样样本 $z^k=\sigma_{prior}^k\cdot\eta+\mu_{prior}^k$ ，之后将 $z^k$ 进行扩充得到包含 $K$ 个channel的样本数据 $S^d$ 。

PredictionNet：
将上述提到的 $S^d$ 和 $S^s$ 进行混合（channel上concat）得到channel为 $K + M$ 数据 $S^{sd}$ 。为了防止训练过程中网络天然偏向于saliency的特征，从而忽略了条件变量，文章还将其在channel上进行重排序，从而将其shuffle之后混合得到数据 $S^{msd}$ ，之后通过解码器得到显著性目标检测结果。

DepthCorrectionNet：
为了优化原始的深度信息 $D$ ，文章使用该网络进行优化深度信息的表达。该网络会预测得到一个新的深度信息 $D^{‘}$ ，它会与原始的深度信息计算 $L_1$ 损失 $L_{sl}$ 。为了使得在深度信息上能够体现出物体的边界信息，文章还引入了Boundary IoU损失 $L_{IoUb}$ ，对于这里提到的intensity图 $I_g$ ，其是在原始RGB空间变换过来的，其计算过程描述为：
$I_g=0.2126*I^{lr}+0.7152*I^{lg}+0.0722*I^{lb}$
其中， $I^{lr},I^{lg},I^{lb}$ 代表的是三个颜色通道上的变换结果，其变换过程描述为：
在这里插入图片描述

上面是对红色通道的计算，对于蓝绿通道的计算也是类似的。

之后计算 $I_g$ 和 $D^{‘}$ 的梯度信息，得到 $gD^{‘}$ 和 $g I$ ，因而上面的Boundary IoU损失描述为：
$L_{IoUb}=1-2\frac{|gD^{‘}\cap gI|}{|gD^{‘}|+|gI|}$
因而，深度部分的损失函数描述为：
$L_{Depth}=L_{sl}+L_{IoUb}$

2.3 显著性检测结果的一致性

在latent space经过 $C$ 次采样之后会得到预测结果 ${P^c\}_{c=1}^C$ ，之后在这些结果上使用文章提到的自适应阈值方法得到二值结果 $P_b^c$ ，这些多个检测结果经过多数表决之后得到多数表决的结果 $P_b^{mjv}$ ，之后通过操作 $\mathcal{1}^c(u,v)=\mathcal{1}(P_b^c(u,v)=P_b^{mjv}(u,v))$ （内部条件满足为1否则为0）进行最后计算：
$P_g^{mjv}(u,v)=\frac{\sum_{c=1}^C\mathcal{1}^c(u,v)}{C}\sum_{c=1}^C(P_b^c(u,v)*\mathcal{1}^c(u,v))$

2.4 网络的损失函数

得到显著性目标检测结果之后使用下面的损失进行监督：
$L_{Smooth}=\sum_{u,v}\sum_{d\in\vec{x},\vec{y}}\Phi(|\partial_dP_{u,v}|e^{-\alpha|\partial_dI_g(u,v)|}||)$
其中， $\Phi(s)=\sqrt{s^2+1-e^{-6}}$ ， $\alpha=10$ 。则整个网络的损失函数描述为：
$L=L_{CAVE}+\lambda L_{Depth}+\lambda L_{Smooth}$
其中， $\lambda=0.3$ 。

3. 实验结果