Deep Image Matting

论文是adobe公司针对图像精细分割提出的，所属领域为matting，其中的思路感觉是如今matting任务中的最常见的思路，即先通过语义分割网络生成二分类的前景背景图，处理成trimap或者直接生成trimap，将trimap与原RGB图合并成4通道输入进行图像的精细分割。

Abstract
摘要指出之前的方法在matting过程中，前景背景颜色相近或纹理复杂时的表现都非常不好，主要原因是1）仅使用低级特征；2）缺少高级上下文关系 *1) only use low-level features and 2) lack high-level context.*所以文章提出了新的基于深度学习的算法。
**文章主要内容及创新点：
1、新颖的matting网络结构，第一部分将原RGB图与trimap合并生成4通道输入到一个编码解码结构的网络中，通过alpha prediction loss生成一个alpha matte。第二部分将alpha prediction loss之前的特征图raw alpha prediction送入一个小的卷积网络，进行alpha prediction的精修，得到更加精确的alpha值和更加尖锐的边缘。
2、新的matting数据集
**

Introduction
解决mating问题是近似求解一个超定方程，这个方程已知的是原图I的RGB三通道值，未知量为前景RGB与背景RGB加alpha这7个值，方程如下：
在这里插入图片描述
作者介绍之前的方法一般采用将该问题视为一种颜色问题来解决的，即通过前景背景采样，依赖大量颜色区别特征、像素空间位置特征，这样导致对环境敏感，即前景背景分布重叠的情况处理不佳。

matting数据集
通过并前景背景组合数据图像，matting label是通过photoshop人工制作的，总共493个前景图像（训练集）、50个前景（测试集），分别组合100个背景与20个背景构成49300和1000个图像。
该数据集的优势：
1）有更多独立的前景物体，并且包含更多的matting情况：毛发、半透明等情况；
2）前景背景颜色相近、背景纹理复杂的数据更多，使得更具有挑战性。

具体方法
在这里插入图片描述
两个阶段：
第一阶段：Matting encoder-decoder stage
一个编解码结构，将原图RGB与trimap图作为输入。通过卷积与池化进行编码（14个卷积层+5个max pooling）， unpooling layers与卷积进行解码（6个卷积层+5unpooling+一个alpha prediction layer）。
loss：alpha prediction layer使用alpha-prediction loss
在这里插入图片描述
是每个像素alpha值的绝对距离；
另外一个loss： compositional loss
where c denotes the RGB channel, p denotes the image composited by the predicted alpha, and g denotes the image composited by the ground truth alphas

解释是RGB通道的损失误差，c指通道，cp是预测的alpha组合前景背景的像素值，cg是真值alpha组合前景背景的真实值。这个loss不是alpha的绝对损失，而是组合前景背景后RGB图的误差损失，衡量的更加全面。起始都是为了使alpha值更加精确。
最终的损失函数为：
在这里插入图片描述

第二阶段：Matting refinement stage
全卷积网络改进alpha值使得更精确，边缘锐化
同样是一个4通道输入，原图与第一阶段输出alpha组合。并应用一个是skip-model，将第一阶段alpha预测输出归一化后与该阶段网络输出相加，作为最终输出，即该阶段输出仅为细节信息，边缘（锐化后的）。

两个阶段分开训练的，先训练编解码，收敛后训练refine网络，直到2阶段也收敛后，在将全网络进行finetune

几个试验对照表：
在这里插入图片描述

trimap对alpha预测的影响程度比对：
在这里插入图片描述

论文小结-Deep Image Matting

Deep Image Matting

猜你喜欢