Inductive Guided Filter: Real-time Deep Image Matting with Weakly Annotated Masks on Mobile Devices

论文链接：https://arxiv.org/abs/1905.06747
发表出处：2019 CVPR
1.背景
最近，图像matting取得重要进展。大多数的图像matting方法是高耗时并且需要理想的trimap，但是trimap在实际应用中是难以实现的。在移动设备应用中，最有效的方法是基于弱注释的mask进行图像matting。
2.内容
论文提出一种以图像和弱注释的mask图像作为输入基于深度学习与导向滤波的轻量级的图像matting框架（Inductive Guided Filter），能够在移动设备中实时地生成图像matting。
此外，论文还使用了Gabor loss 用于训练网络生成图像matting 中的复杂纹理并且使用生成对抗网络（GAN）来构建模型。
论文设计了一个MAT-2793数据集，其中包含了大量的前景物体。实验结果显示所提出的框架能够在保持准确率的同时减少计算时间。
3.方法
方法的粗略架构如图所示:
在这里插入图片描述

网络采用弱注释的mask M和原图 I作为输入经过 生成器在全局损失、局部损失和设计的Gabor损失的指导下生成预测的α ^~;
预测的α ^~结合弱注释的mask M和原图 I生成triplet输入与预测的α ^~结合弱注释的mask M和原图 I作为 鉴别器的输入在对抗损失的指导下提高合成质量。
4.生成器
生成器由一个轻量级的沙漏骨干、空间注意力机制和线性转换组成
在这里插入图片描述

（1）轻量级的沙漏骨干
根据U-Net的结构和堆叠沙漏网络中的沙漏模块构建了一个轻量级的沙漏骨干可以有效地保存来自高分辨率的底层特征信息
在前两级卷积和shortcut中应用在轻量级深度神经网络中得到了广泛的应用的depthwise卷积，bottleneck只包含涉及两个residual块从而达到减少推理时间的目的。
（2）注意力机制
以往的一些深度图像抠图方法在其结构中采用了空间注意，这有助于良好的抠图性能。
对于文章的注意机制，融合了来自输入和bottleneck的特征，计算出一个用于解码器的高分辨率特征的注意图。
（3）感应导向滤波公式
在导向滤波器中，基本假设是输出alpha是guidance图像I在以像素k为中心的小窗口ωk中的线性变换:
在这里插入图片描述

其中A _k和B _k为待优化的线性系数。优化目标是利用A _k上的正则化最小化输出αi和输入弱注释掩模M上的对应像素Mi之间的差异。
在图像抠图设置中，引导过滤器为每个图像和mask解决优化问题，以生成从输入图像I到尽可能接近输入遮罩M的遮罩估计α的线性变换。
尽管导滤波器是一种快速有效的弱注释图像抠图方法，但它受到的限制是最优alpha matte和弱注释掩模的差值必须足够小。从经验上看，来自语义分割方法或用户交互的mask会与ground truth alpha有较大的差异。
所以本文放弃了目标函数，并消除了对matte估计和mask之间差异的约束。建立基于线性变换假设的归纳模型，以利用图像抠图数据集中的ground truth信息。本文将感应导向滤波器转化公式为：
在这里插入图片描述

其中运算采用的是Hadamard乘积，文章通过神经网络φA(I，M)和φB(I，M)在引导滤波器中参数化A和B。网络φA和φB以图像I和弱标注maskM为输入，二者是共享骨干参数。
感应引导过滤器的优化目标是最小化alpha matte预测和ground truth之间的差异。对于任何图像和mask，φA和φB可以生成特定的系数A和B，从而为alpha matte建立线性变换模型。
这里与Fast Deep Matting for Portrait Animation on Mobile Phone中提到的羽化块的不同在于，羽化块是基于引导滤波器的封闭解制定的：
在这里插入图片描述

其中MF和MB是前景和背景的遮罩，从公式就可以得出他们的羽块输出只会保留掩模的边缘和梯度，而不会保留输入图像。它可以被看作是mask上的注意力map。因此，弱注释掩码可能会导致性能下降。
（4）损失函数
①全局损失
是ground truth alpha 和估计alpha之间的L1损失，目的是为了监督预测的alpha matte：
在这里插入图片描述

②局部损失
为图像抠图训练网络时，希望目标函数更多地关注前景对象的边界。局部损失是基于以下差函数:
在这里插入图片描述

差函数产生一个二进制边界图，其中1代表ground truth和mask中的相同值，0代表其他像素。δ函数强制将ε以下的微小差异忽略不计。
局部损失函数表示为：
在这里插入图片描述

③Gabor损失
先前的感知（ Perceptual）损失极大地提高了监督图像变换任务中预测的视觉质量。它提供了从高频特征到语义层面特征的一系列监督。感知损失利用VGG网络对特定类别的RGB彩色图像进行pretrain。但是，alpha matte是一个灰度图像。
所以，Gabor损失用一组单层Gabor滤波器代替感知损失中的pretrained多层核来提取高频特征。
定义Gabor损失为：
在这里插入图片描述

φgb(·)为与Gabor滤波器的卷积，φ为不同Gabor滤波器的集合。在训练中，文章设计了16种不同的7 × 7 Gabor滤波器。
5.鉴别器
在以往的鉴别器中，鉴别器将trimap和来自预测alpha matte的新合成图像作为其输入，由于图像抠图不关注语义信息，因此判断合成图像是否真实是不明确的。
所以文章向鉴别器提供一个triplet输入，它由一个原始图像、一个弱注释mask和一个alpha matte组成，给定一个三元组输入，鉴别器可以预测输入的self-consistency。具体地说，critic被设计成根据输入图像和mask来预测估计的alpha matte是否正确。
④对抗性损失
在这里插入图片描述

总结一下，感应导向滤波器中的全部损耗函数为：
在这里插入图片描述

6.结果
1.在MAT-2793测试集上的视觉效果
在这里插入图片描述

2.在MAT-2793测试集上的量化结果
在这里插入图片描述

3.在Adobe Composition-1k上的量化结果
在这里插入图片描述

4.速度评估

Inductive Guided Filter: Real-time Deep Image Matting with Weakly Annotated Masks on Mobile Devices

Inductive Guided Filter: Real-time Deep Image Matting with Weakly Annotated Masks on Mobile Devices

猜你喜欢