CVPR2020-图像着色新网络InstColorization | Instance-aware Image Colorization

介于最近老视频复原技术比较火，第一次阅读图像着色领域。可能会有很多没说清楚的方面
论文地址：https://arxiv.org/pdf/2005.10825.pdf
Github主页：https://ericsujw.github.io/InstColorization/
Github地址：https://github.com/ericsujw/InstColorization

在这里插入图片描述

Abstract：

图像着色本质上是具有多模式不确定性的不适定问题。先前的方法利用深度神经网络将输入的灰度图像直接映射到合理的颜色输出。尽管这些基于学习的方法表现出令人印象深刻的性能，但它们通常在包含多个目标的输入图像上失效。主要原因是现有模型对整个图像进行学习和着色。在缺乏清晰的图形背景分离的情况下，这些模型无法有效地定位和学习有意义的目标级语义。在本文中，我们提出了一种实现实例感知着色的方法。我们的网络架构利用现成的目标检测器来获取裁剪后的目标图像，并使用实例着色网络来提取目标级别的特征。我们使用类似的网络来提取完整图像特征，并将融合模块应用于完整的目标级和图像级特征以预测最终颜色。着色网络和融合模块都是从大规模数据集中学习的。实验结果表明，我们的工作在不同的质量指标上优于现有方法，并在图像着色方面达到了最新的性能。

Introduction：

图像着色任务定义：从给定的单通道灰度图像中预测两个丢失的通道。本文以灰度图像X，尺寸HxWx1作为输入，并以端到端的方式在CIE L * a * b *颜色空间中预测其两个缺失的颜色通道Y，尺寸为HxWx2。
在这里插入图片描述
存在问题：现有图像着色模型在杂乱背景中的多个目标的图像上效果不佳（见图2）。可以看出目标颜色容易受到背景颜色的影响。

为了解决上述问题，本文提出了一种新颖的实例感知着色深度学习框架。总结来说，为了避免目标与背景颜色混乱，将前景目标先抠出来着色，然后再与全图着色融合一下。具体做法就是通过现有的目标检测算法将目标与背景分离，使用图像中的目标作为输入允许实例着色网络学习目标级的表示以进行准确的着色并避免与背景的颜色混淆。

本文中提出的网络体系结构包括三个部分：
（i）一种现成的目标检测算法，用于检测目标实例并生成裁剪的目标图像；
（ii）两个端到端训练的骨干网络，即实例着色和全图像着色；
（iii）融合模块，以选择性地融合从两个着色网络的层提取的特征。

论文采用三步训练方法，首先分别训练实例着色网络和全图像着色网络，然后固定两个主干网络权重，训练融合模块。

Method：

在这里插入图片描述
如上图所示，网络结构主要包含3个部分：

1）以现有目标检测算法得到目标以及坐标，然后裁剪成实例图像，输入到实例着色网络

2）以原图输入到全图像着色网络

3）以实例着色网络层特征和目标的坐标，与全图像着色网络层级特征进行融合

A.Object Detection
本文采用现成的预训练网络Mask R-CNN 作为目标检测器。在检测到每个对象的边界框Bi之后，我们从X和GT中裁剪出相应的灰度实例图像X-i和色彩实例图像GT -i，并将裁剪后的图像resize为256x256分辨率。

B.Image colorization backbone
Instance与Full-image着色网络均采用Realtime user-guided image colorization with learned deep priors这篇论文中的模型。网络结构保持一致，是为了后续两个着色网络对应层级方便融合。

C.Fusion module
尽管单独使用以上两个着色网络可以预测颜色实例图像Yi和完整图像Y，但我们发现，由于重叠像素的不一致，这些结果的简单混合会产生可见的视觉伪像。因此，论文使用融合模块以输出更加平滑的结果。
在这里插入图片描述
融合模块如上图所示，其中输入为：（1）全图像特征Fx；（2）一组实例特征和相应的目标边界框Fxi与Bi。具体操作为：
1）全图像特征Fx与实例特征Fxi均经过3层卷积提取得到Full-Image Weight Map与Instance Weight Map

2）对实例特征Fxi和Instance Weight Map按照Bi的坐标以Zero Padding方式Reize成全图像特征Fx大小

3）使用下式对全图像特征以及一组实例特征按照对应Weight Map进行Softmax加权融合
在这里插入图片描述
d.Loss Function（Smooth L1）

本文按按照如下顺序训练整个网络。首先，训练全图像着色网络并迁移学习到的权重以初始化实例着色网络。然后，我们训练实例着色网络。最后，我们冻结全图像模型和实例模型中的权重，然后继续训练融合模块。

Experiments：

1.Full Image Level：SOTA
在这里插入图片描述
2.Instance Level：SOTA

3.Ablation study：

4.Visual Comparisons：