A Late Fusion CNN for Digital Matting

A Late Fusion CNN for Digital Matting


论文链接:https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paper.pdf
发表出处:2019 CVPR
1.背景
由于抠图问题是一个极度缺乏约束的问题,所以目前大多数的抠图方法都会依赖于trimap作为额外的输入,但是trimap对于新手而言,制作起来是非常困难的。
2.内容
提出了一个网络可以通过仅输入单张的RGB 图像预测alpha matte
利用两个decoder分支去对图片的前景和背景进行分类
late fusion就是在编解码网络的后面对两个分类网络的结果进行融合
3.网络框架
整个网络的核心思想就是利用网络去预测三个图,分别是前景概率图、背景概率图和混合权重概率图
在这里插入图片描述
然后利用下面这个fusion公式去预测alpha的值,其中,Fp -和Bp -分别是预测的前景和背景在P像素处的概率值,βp是Fusion网络预测的融合权重
在这里插入图片描述
这个公式的意义在于当FP和BPFp -和Bp -相加等于1的时候,α P对于β P的求导梯度就会消失
那么如果预测的前景和背景准确,可以使得Fusion网络可以更关注于学习过渡的区域
并且设计损失使得过渡区域的FP+BP不等于1,就可以使得使得过渡区域可以给Fusion Net提供有用的梯度。
4.语义分割网络
(1)主要结构:一个encoder和两个decoder
Encoder是DenseNet-201去掉全连接层来当做特征提取器;
2个Decoder使用特征金字塔,预测出前景和背景的概率;
额外使用Skip Connection目的是将Encoder中多尺度的特征图和反卷积层的上采样特征链接到一起。
(2)损失函数:
Loss函数包括L1、L2、交叉熵。根据alpha区域给不同的像素不同的权重。

针对前景分类decoder的loss:
第一个Loss首先计算预测出的前景和alpha的距离。
在这里插入图片描述
在过渡区域使用L1距离主要目的是为了恢复alpha,在前景和背景区域使用L2距离主要目的是为了惩罚分割的错误。
第二个Loss计算预测前景图的梯度的L1Loss,用于去除分类后的模糊:
在这里插入图片描述
第三个Loss计算前景分类的交叉熵损失:
在这里插入图片描述
Wp:在当像素处于前景和背景区域的时候设为1,过渡区域的时候设为0.5
αp^,当处在前景和过渡区域的时候设为1,背景的时候设为0

针对背景分类decoder的loss:
就是将上面的αp改成1-αp,其余相同

值得注意的是在过渡区域组合交叉熵和L1 Loss,会输出比GT的值更大的概率值
这是因为交叉熵损失更倾向于让概率输出为1,也就是说在最终的过渡区域内前景概率图会输出比GT的值更大的概率值,背景概率图会输出比1-αp更大的值,则对应的1-Bp就会比GT的值更小,这样就使得真实的alpha的值会落在两个分类网络概率形成的区间中。
举个例子,假设GT alpha P是0.6,那么1-alpha P就是0.4
前景概率图的输出会比0.6大,假设是0.8,背景概率图的输出会比0.4大,假设是0.6,则对于前景的概率就是1-0.6就是0.4
这两个概率图形成的区间就是0.4~0.8,而GT alpha 0.6确实是在这两个区间里
在这里插入图片描述如图所示,中间是alpha的GT,右边输出的alpha的预测结果。其中红色的部分就是使用Fp和1 − Bp两个概率的中间值取得。
5.融合网络
Fusion网络的目的在于输出一个βp权重,融合前景和背景分类的结果
网络结构由5个卷积层和1一个sigmoid层组成,目的是计算出混合的权重。
输入有两个,一部分是decoder的最后一层的特征图,另一部分是RBG输入原图卷积后的特征图(卷积核采用3×3大小)。
损失函数如下:
在这里插入图片描述
Fusion的loss的更倾向于过渡区域像素,所以当处于过渡区域的时候Wp等于1,其他区域的时候等于0.1
6.训练细节
在执行端到端联合训练时使用特殊损耗来微调整个网络。损失基于融合网络的损失,同时增加分割网络的损失以避免过拟合,w1= 0.5,w2= 0.01
其中Ls是用来惩罚软分割像素的数量,γ设置为0.9
在这里插入图片描述
在这里插入图片描述
7.实验结果
在这里插入图片描述
需要Trimap作为输入的生成是在alpha的非0非1的像素处随机膨胀生成的。
Ours-FG/BG-only:预先训练的分割网络阶段。
our - fusion -only:预训练的融合网络阶段。
Ours-raw:端到端联合训练的网络
Ours-refined:由引导过滤器精炼。
" -25 “:在由25像素膨胀产生的过渡区域中计算。” -full ":计算整个图像。

猜你喜欢

转载自blog.csdn.net/balabalabiubiu/article/details/114793130
CNN