视频去模糊论文阅读-Multi-Scale Separable Network for Ultra-High-Definition Video Deblurring

论文链接：https://openaccess.thecvf.com/content/ICCV2021/papers/Deng_Multi-Scale_Separable_Network_for_Ultra-High-Definition_Video_Deblurring_ICCV_2021_paper.pdf

代码链接：https://github.com/dseny/UHDVD

Abstract

虽然最近的研究在视频去模糊任务方面取得了重大进展，但这些方法很难同时协调推理效率和视觉质量，特别是在超高清(UHD)视频(如4K分辨率)上。为了解决这一问题，我们提出了一种新的快速、准确的UHD视频去模糊(UHDVD)的深度模型。提出的UHDVD模型通过separable-patch结构实现，该结构与multi-scale integration scheme协作，在不增加一般的卷积层和卷积核数量的情况下实现大的感受野。此外，我们还设计了一个channel-spatial attention(RCSA)模块，以提高精度和适当地降低网络的深度。所提出的UHDVD是第一个以35fps的4K视频的实时去模糊模型。为了训练所提出的模型，我们使用三种不同的智能手机构建了一个由4K模糊视频和相应的清晰帧组成的新的数据集。实验结果表明，我们的网络在4K数据集和公共数据集上，在准确性、速度和模型大小方面都优于最先进的方法。

1.Introduction

Ultra-High-Definition(UHD)在过去几年中成为了一种趋势。许多设备制造商已经发布了支持4K的新设备(如智能手机和DSLR摄像头) 。不幸的是，不规则的相机抖动和高速运动经常会在拍摄的UHD视频中产生不希望的模糊。模糊的视频导致视觉低质量，阻碍了高级视觉任务。许多图像和视频去模糊的方法已经被提出来从捕获的模糊视频中恢复清晰的帧。传统的方法通常对运动模糊和潜在帧进行估计。在这些方法中，运动模糊通常被建模为uniform kernels或non-uniform kernels。而清晰的帧通常受到人工制作的图像先验的约束，以规范求解空间。然而，这些估计通常不适用于真实情况，这导致了对模糊核的估计不准确，而去模糊图像的质量是不可取的。

为了解决这些问题，最近人们提出了深度学习去模糊算法。这些方法使用卷积神经网络(CNNs)显式地从模糊输入中学习特征，并回归模糊核或直接恢复清晰的图像。这些算法可以消除由相机抖动和物体运动引起的模糊效果，并在图像去模糊任务上取得最先进的效果。然而，现有的基于CNN的方法存在两大问题：第一个问题是，计算量和内存的使用对于实际应用来说太大了，特别是在输入图像的分辨率很高的情况下。例如，CDVD-TSP[1]最近的视频去模糊方法需要大约4秒和1分钟来从高清(720p)和UHD(4K)视频中去模糊。第二个问题是，现有的大多数基于CNN的视频去模糊方法由于模糊和清晰对之间的信息学习能力较少，在处理不同类型的信息时缺乏灵活性。

为了克服上述限制，我们提出了一种新的UHDVD网络，它具有高效率、低内存开销小、高质量的去模糊性能的优点。我们的方法部分是patch-hierarchical image deblurring methods，其中multi-patch hierarchy被输入到网络。该方案在720p图像去模糊的效率上取得了很大的改进。然而，multi-patch hierarchy[2,3]在不同层次上具有相同的空间分辨率，需要的layout the patches和拼接速度较慢，阻碍了深度网络的重建能力，降低了特征提取速度。我们注意到，低分辨率的图像比高分辨率的图像更容易恢复，因为它有更少的class information，而且有更少的modes（例如edges and textures）。因此，我们提出了一种novel separable-patch architecture与multi-scale integration scheme相结合的架构，该方案允许在coarse scale上捕获全局结构，并在一次迭代中并行处理每个尺度的multiple patches。

此外，大多数现有的去模糊算法都采用级联网络来帮助潜在帧恢复。然而，据我们所知，简单地将相同的网络叠加来构建更深层次的网络，很难获得更好的改进。为了实现更具expressive and intelligent的视频去模糊能力，我们进一步提出了一个cascaded residual channel and spatial attention(RCSA)模块，以在不牺牲速度的情况下提高去模糊性能。所提出的RCSA模块能够自适应地学习更多有用的通道特征，并强调特征地图上最具信息性的区域来进行视频去模糊。

本文的主要贡献被总结为：

1）我们提出了一种新的UHDVD网络，采用separable-patch architecture和multi-scale integration scheme。据我们所知，我们提出的模型是第一个可以通过并行化multiple patches来实时去模糊4K视频的视频去模糊模型。

2）我们设计了一个级联RCSA模块来提高特征表示能力和鉴别能力，确保高去模糊性能。

3）我们建立了一个4K视频去模糊数据集，包括合成的和真实捕获的视频。我们在所提出的数据集和公共数据集上评估了所提出的模型，并表明所提出的方法优于目前的技术。

2.Proposed Method

我们提出的网络的思想是正确地集成multi-scale和multi-patch方案，我们进一步提出了一个separable-patch 策略，以显著加速reference implementations。我们的UHDVD的体系结构如图2所示。

受[4]的工作启发，该工作证明了简单地在没有任何对齐的情况下堆叠相邻帧比基于单帧的方法性能更好。在我们的网络中，给定一个模糊的视频B，之前的去模糊帧 $D_{i-1}$ 与当前的模糊帧 $B_{i}$ 连接作为我们的网络输入，以提高去模糊结果。因此，每个尺度网络中第一卷积层的输入信道为6，而不是3。然后在不同的4个尺度 $\left ( B_{1},B_{2},B_{3},B_{4} \right )$ 上对串联的输入进行降采样，并在每个尺度上恢复相应的清晰图像 $\left ( D_{1},D_{2},D_{3},D_{4} \right )$ 。 $D_{1}$ 是最终的输出。在此基础上，我们可以在训练过程中设置更大的“crop size”来扩大感受野，这意味着可以捕获更多的特征信息，并可以提高最终的去模糊结果。每个尺度的输入是通过将原始图像输入( $B_{i}$ ，i=1、2、3、4)划分为多个不重叠的patches来生成的。每个尺度的最大patch数 $B_{i,j}$ 设置为 $j$ =[1,2,4,8]。这些过程可以被建模为：

其中， $s$ 为尺度索引， $j$ 和 $i$ 分别为patch索引和视频帧索引； $D_{i,j}^{s}$ 和 $B_{i,j}^{s}$ 表示我们的网络输出和输入分别在第 $i$ 帧的第 $s$ 尺度和第 $j$ 个patch。 $Net^{s}$ 表示所提出的4K视频去模糊网络，训练参数表示为 $\theta ^{ps}$ 。由于网络也是循环的，中间状态的特征是 $F_{i,j}^{s}$ 是从 $s+1$ 到 $s$ 的尺度流动。如图2所示，我们的实时4K视频去模糊网络在每个尺度上由4个相似的编解码器架构组成。每个编码器分支包含3个卷积，卷积核大小为3×3，stride=1，每个卷积层后面都有一个RCSA模块。同时，在每个解码器分支中，残差模块位于每个反卷积层的前面。解码器中第一个反卷积的卷积核大小为4×4，stride=2，第二个反卷积的卷积核大小为4×4，stride=4，将输出大小扩展两次，使其大小等于除尺度1外的上层的输入。解码器的第三层是正常卷积，其输出通道为3。

2.1.Asymmetrical Encoder-decoder Architecture

对称的编码器-解码器结构已被证明在许多方法中是有效的，它首先逐步将输入数据转换为具有更小空间尺寸和更多通道的特征地图，然后将它们转换回输入的形状。对应层之间的跳跃连接被广泛地用于组合不同层次的特征信息。通常，在每层都增加更多的卷积层，以进一步增加网络深度，提高精度。然而，直接使用对称的编解码器结构并不是我们工作的最佳选择，原因如下。首先，我们的目标是实时处理4K分辨率的视频，因此使用传统的编码器/解码器结构仍然是一个很大的挑战，因为与普通的720P图像相比，来自4K分辨率输入的中间特征图的大小仍然非常大。其次，在编码解码器模块的每个层次上使用更多的卷积层会使网络的收敛速度变慢，尽管这种方法可以减少处理后的图像的大小。

基于这些考虑，我们提出了一个受超分辨率框架[5]启发的近似非对称编码器-解码器结构。在我们的新架构中，编码器和解码器之间的转换不同于传统的架构。这种不对称性主要反映在我们在编码器和解码器分支中使用的不同模块上。在解码器分支中，我们只使用经过每个标准反卷积后的图4(a)中显示的三个标准light residual module来减少参数量，从而大大提高计算速度。三个残差模块各包含1个卷积层，卷积核大小为3×3，stride=1，然后是一个ReLU激活函数和另一个相同的卷积层。相对而言，我们在编码器分支中使用了RCSA模块，而不是残差模块。编码器中的卷积和解码器中的反卷积在通道维数上也是不对称的。

2.2.Separable-Patch Acceleration Architecture

为了进一步提高UHDVD模型的推理速度，以达到在单个GPU下30ms内去模糊4K分辨率视频的目标，我们设计了separable-patch acceleration架构，同时处理多个patchs或特征地图。如图3所示。在最开始，multiple patches(例如， $n$ =4)在通道维度上被连接起来作为一个新的张量，其大小为 $\left [ batchsize,n\ast c_{in},h,w \right ]$ ，该张量由随后的卷积层进行处理，并设置groups=n。

显然，新张量的计算量是 $\left ( \left ( n\ast c_{in} \right )\ast \left ( n\ast c_{out} \right )\ast kernelsize^{2} \right )/groups$ 。而它等于 $n$ 个原始张量。但其好处是，我们可以将这 $n$ 个串行计算更改为并行计算，这将大大减少计算时间。在残差模块中计算后，将张量reshape为 $\left [ batchsize\ast n,c_{out},h,w \right ]$ ，以便分别在通道注意模块和空间注意模块中同步计算。输出将作为下一个RCSA模块的输入。

2.3.RCSA Module

我们进一步提出了一种新的RCSA模块，该模块包含一个通道注意模块和一个空间注意模块。RCSA的体系结构如图4(b)所示。Channel Attention Module(CAM)由两种自适应池化计算组成：平均池化和最大池化。在每个池化计算后都有一个卷积层，其输入通道数与之前的卷积层的输出通道相同，图2中的蓝色块(RCSA模块，c32/c64/c128)，输出通道为输入通道的1/8，卷积核大小为1×1，bias=False。然后，有一个ReLU激活函数和另一个相同的卷积，它们的输入和输出通道与前卷积完全相反。

其中， $P_{avg}$ 和 $P_{max}$ 是平均池化和最大池化。 $M_{C}$ 是上面描述的处理模块。两个处理过的池化结果加在一起作为sigmoid函数的输入。

Spatial Attention Module(SAM)只有一个卷积层，输入通道为2，输出通道为1，卷积核大小为3×3，padding=1，bias=False。输入数据首先在dim=1处分别进行平均计算和最大计算，然后在同一dim处连接在一起。

其中 $M_{S}$ 是上述的卷积，输出在传递到下一层之前将通过sigmoid函数计算。后续的计算方法如下

其中 $O_{C}$ 为CAM模块输出， $O_{RCSA}$ 为RCSA模块输出，操作“×”表示point-wise multiplication。

RCSA模块的结构简单，深度较轻。它对计算速度没有显著影响，但在一定程度上提高了去模糊效果。

2.4.Loss Function

我们不需要花费额外的时间来计算光流及其损耗。同时，从粗到细的方法希望每个mid-level输出都是相应尺度的去模糊图像。因此，我们提出的UHDVD网络的训练损失是网络输出的图像与真实清晰帧之间的MSE损失：

其中， $D_{i}^{s}$ 和 $G_{i}^{s}$ 分别为第 $i$ 帧的第 $s$ 个尺度上的去模糊图像和真实的清晰帧。 $K_{s}$ 是每个尺度的权重。我们根据经验设置了 $K_{1,2,3,4}$ =[0.7、0.15、0.1、0.05]。另外， $S$ 是我们网络中的尺度数，我们在本文中将 $S$ 设为4。此外，我们还增加了Total Variation (TV) loss，以避免在恢复图像中的stripe artifect。所以总损失被表示为：

3.Experiments

4.Conclusion

本文提出了一种利用非对称编码-解码器体系结构的4K视频实时去模糊网络。我们将multi-scale和multi-patch 方案集成在一个统一的框架中，以同时提高效率和准确性。与其他方法不同的是，我们使用非对称的编码器-解码器结构来构建具有更少卷积层的网络，以节省计算成本。此外，我们提出了RCSA模块来进一步提高效率，并采用了separable-patch acceleration 架构，在4K分辨率的视频上达到35fps的实时处理速度。为了研究4K去模糊技术，我们创建了第一个公开的4K分辨率视频数据集。定量和定性结果表明，我们提出的方法在合成数据和真实数据集上都优于相关的最先进的去模糊方法。

References

[1] Pan J, Bai H, Tang J. Cascaded deep video deblurring using temporal sharpness prior[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 3043-3051.

[2] Suin M, Purohit K, Rajagopalan A N. Spatially-attentive patch-hierarchical network for adaptive motion deblurring[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 3606-3615.

[3] Zhang H, Dai Y, Li H, et al. Deep stacked hierarchical multi-patch network for image deblurring[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 5978-5986.

[4] Su S, Delbracio M, Wang J, et al. Deep video deblurring for hand-held cameras[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1279-1288.

[5] Tao X, Gao H, Liao R, et al. Detail-revealing deep video super-resolution[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 4472-4480.