AlphaNet: An Attention Guided Deep Network for Automatic Image Matting

AlphaNet: An Attention Guided Deep Network for Automatic Image Matting


论文链接:https://arxiv.org/abs/2003.03613?context=cs.CV
发表出处:2020 CVPR

1.背景
数字图像抠图(Digital imate matting)是从自然图像中高质量提取前景物体的一种方法,在混合现实、电影制作和智能创作等领域有着广泛的应用。为了追求更流畅、更快的客户体验,对大量数据进行提取和合成的过程必须是自动化的,结果必须是高质量的。
语义分割的缺点在于侧重于视觉输入的粗糙语义,就导致在结构细节方面的模糊
图像抠图虽然可以在细节上产生较好的结果,但是,往往需要用户的干预,就导致了抠图工作流的处理延迟和开销,而且严重限制了图像抠图的应用。

2.贡献
将语义分割和深度图像抠图融合成单一网络,从自然图像中高精度提取前景物体。
(1)提出了一种新的模型结构,将上采样和下采样的功能与attention统一起来,并且结合分割和抠图,与其他正常的下采样和上采样技术不同,注意力引导下采样和上采样可以提取高质量的边界细节。
(2)使用了一个注意力引导的编码器-解码器框架,该框架进行无监督学习,从数据中自适应地生成注意力图,以服务和指导上采样和下采样操作。
(3)构建了一个以时尚电子商务为中心的高质量阿尔法抠图数据集,以方便图像抠图的训练和评估。

3.网络概述
本文提出的AlphaNet由分割网络和抠图网络两部分组成。
将RBG图像作为分割网络的输入,并为前景对象生成二进制分割mask。二进制mask用于估计边界框,该边界框与mask一起用作腐蚀-膨胀层的输入,以生成trimap。这个过程生成的trimap是粗糙的,包含许多主要是沿着生成的mask的边缘的不确定的区域。
然后,该trimap与RGB图像连接,作为抠图网络的输入。抠图网络是一种注意力引导模型,它根据RGB图像和生成的粗略trimap来估计alpha matte。然后,使用不同的损失函数将预测的alpha matte与ground truth进行比较,并为网络参数优化计算梯度。
在这里插入图片描述

4.分割和trimap估计网络
分割网络包括ReseNet18 backbone的DeepLabV3 + 编码器-解码器体系结构,去提取前景图粗糙的语义信息,末尾具有附加的腐蚀-膨胀层,可将二进制输出转换为粗略的Trimap。
具体来说,trimap的估计是采用分割模型的输出以及附加的对象边界框,文章认为只有mask边界附近的区域需要进一步通过图像抠图模型进行估计,所以将二值mask中腐蚀和扩张的某个区域标记为trimap中的未知区域,其中αi= 0.5.mask内部的其他像素被分类为具有αi= 1.0的前景,而未知和前景像素以外的像素被分配αi= 0.0。
腐蚀和膨胀的程度取决于计算出的物体尺寸。高度由height = bbox [3]-bbox [1]近似,而宽度由width = bbox [2]-bbox [0]近似。腐蚀和膨胀率因此被固定为高度和宽度的百分比。

5.抠图网络
本文的特征提取模块的框架是改进Deep Image Matting提出的DIM框架
(1)encoder-decoder
构建了一个基于MobileNetV2 的编码器-解码器,添加一个额外的attention模块生成attention maps来指导上采样和下采样操作.
pooling层和unpooling层遵循2×2内核大小和步长为2的通用配置。网络的核心是注意力模块,它从编码器分支获取特征图,并生成注意力图来指导下采样和上采样操作。
(2)Attention Module
注意力机制由一个预定义的attention block和两个normalization layers组成。
attention block的核心是一个全卷积神经网络,它将输入的特征图转化为attention map(也就是将注意力图建模为编码器特征图F ∈ R^H x W x C^的函数),分别为上采样和下采样生成两个注意力图,注意力图具有与输入特征图相同的空间维度但只有一个通道包含特定的attention权重Ai∈[0,1],具体映射如下:
在这里插入图片描述
attention block之后是两个normalization layers,分别负责对编码器和解码器的attention映射进行normalize 。编码器的attention映射首先由一个sigmoid函数normalize,然后再由一个softmax函数normalize,保证了编码器下采样之后的。解码器的attention映射只通过一个sigmoid函数进行normalize。
一旦注意图被规范化,它们就分别被输入到编码器和解码器pooling以及unpooling operator中。正常unpooling与文章的方法的主要区别在于,正常操作对所有区域应用一个固定的学习核,而文章的模块根据计算出的注意图对不同区域应用不同的核。
在这里插入图片描述
如图所示,AM模块的具体结构:
首先在尺寸为H x W x C的feature map上使用两组4个并行的4 x 4 group convolution with 2-stride, 1 padding,生成一个尺寸为H/2 x W/2 x 2C的attention map。
之后经一个组normalization layers和一个针对非线性映射的ReLU层。然后使用两个点式卷积层处理生成的张量,以实现feature map池化,生成尺寸为H / 2 x W / 2 x 1的attention map。
最终的attention map由四个经过下采样处理的attention map(不权重共享)经过打乱重排(像素随机混合后上采样)组成。
6.结果
(1)不同方法的视觉对比
在这里插入图片描述
(2)不同方法的量化对比
在这里插入图片描述
(3)消融实验
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/balabalabiubiu/article/details/115023178