A Late Fusion CNN for Digital Matting

论文链接：https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paper.pdf
发表出处：2019 CVPR
1.背景
由于抠图问题是一个极度缺乏约束的问题，所以目前大多数的抠图方法都会依赖于trimap作为额外的输入，但是trimap对于新手而言，制作起来是非常困难的。
2.内容
提出了一个网络可以通过仅输入单张的RGB 图像预测alpha matte
利用两个decoder分支去对图片的前景和背景进行分类
late fusion就是在编解码网络的后面对两个分类网络的结果进行融合
3.网络框架
整个网络的核心思想就是利用网络去预测三个图，分别是前景概率图、背景概率图和混合权重概率图
在这里插入图片描述

然后利用下面这个fusion公式去预测alpha的值，其中，Fp ^-和Bp ^-分别是预测的前景和背景在P像素处的概率值，βp是Fusion网络预测的融合权重
在这里插入图片描述

这个公式的意义在于当FP和BPFp ^-和Bp ^-相加等于1的时候，α _P对于β _P的求导梯度就会消失
那么如果预测的前景和背景准确，可以使得Fusion网络可以更关注于学习过渡的区域
并且设计损失使得过渡区域的FP+BP不等于1，就可以使得使得过渡区域可以给Fusion Net提供有用的梯度。
4.语义分割网络
（1）主要结构：一个encoder和两个decoder
Encoder是DenseNet-201去掉全连接层来当做特征提取器；
2个Decoder使用特征金字塔，预测出前景和背景的概率；
额外使用Skip Connection目的是将Encoder中多尺度的特征图和反卷积层的上采样特征链接到一起。
（2）损失函数：
Loss函数包括L1、L2、交叉熵。根据alpha区域给不同的像素不同的权重。

针对前景分类decoder的loss：
第一个Loss首先计算预测出的前景和alpha的距离。
在这里插入图片描述
在过渡区域使用L1距离主要目的是为了恢复alpha，在前景和背景区域使用L2距离主要目的是为了惩罚分割的错误。
第二个Loss计算预测前景图的梯度的L1Loss，用于去除分类后的模糊：

第三个Loss计算前景分类的交叉熵损失：
在这里插入图片描述
W_p：在当像素处于前景和背景区域的时候设为1，过渡区域的时候设为0.5
α_p^，当处在前景和过渡区域的时候设为1，背景的时候设为0

针对背景分类decoder的loss:
就是将上面的α_p改成1-α_p，其余相同

值得注意的是在过渡区域组合交叉熵和L1 Loss，会输出比GT的值更大的概率值
这是因为交叉熵损失更倾向于让概率输出为1，也就是说在最终的过渡区域内前景概率图会输出比GT的值更大的概率值，背景概率图会输出比1-α_p更大的值，则对应的1-Bp就会比GT的值更小，这样就使得真实的alpha的值会落在两个分类网络概率形成的区间中。
举个例子，假设GT alpha P是0.6，那么1-alpha P就是0.4
前景概率图的输出会比0.6大，假设是0.8，背景概率图的输出会比0.4大，假设是0.6，则对于前景的概率就是1-0.6就是0.4
这两个概率图形成的区间就是0.4~0.8，而GT alpha 0.6确实是在这两个区间里
在这里插入图片描述如图所示，中间是alpha的GT，右边输出的alpha的预测结果。其中红色的部分就是使用Fp和1 − Bp两个概率的中间值取得。
5.融合网络
Fusion网络的目的在于输出一个βp权重，融合前景和背景分类的结果
网络结构由5个卷积层和1一个sigmoid层组成，目的是计算出混合的权重。
输入有两个，一部分是decoder的最后一层的特征图，另一部分是RBG输入原图卷积后的特征图(卷积核采用3×3大小)。
损失函数如下：
在这里插入图片描述
Fusion的loss的更倾向于过渡区域像素，所以当处于过渡区域的时候Wp等于1，其他区域的时候等于0.1
6.训练细节
在执行端到端联合训练时使用特殊损耗来微调整个网络。损失基于融合网络的损失，同时增加分割网络的损失以避免过拟合，w1= 0.5，w2= 0.01
其中Ls是用来惩罚软分割像素的数量，γ设置为0.9
在这里插入图片描述

7.实验结果

需要Trimap作为输入的生成是在alpha的非0非1的像素处随机膨胀生成的。
Ours-FG/BG-only：预先训练的分割网络阶段。
our - fusion -only:预训练的融合网络阶段。
Ours-raw：端到端联合训练的网络
Ours-refined：由引导过滤器精炼。
" -25 “:在由25像素膨胀产生的过渡区域中计算。” -full ":计算整个图像。

A Late Fusion CNN for Digital Matting

A Late Fusion CNN for Digital Matting

猜你喜欢