视频去模糊论文阅读-Online Video Deblurring via Dynamic Temporal Blending Network

论文地址：http://openaccess.thecvf.com/content_ICCV_2017/papers/Kim_Online_Video_Deblurring_ICCV_2017_paper.pdf

代码可以参考这个：https://github.com/zzh-tech/ESTRNN

Abstract

这篇文章之前的最先进的视频去模糊方法能够消除在动态场景中由不必要的相机抖动或物体运动造成的非均匀模糊。然而，大多数现有的方法都是基于批处理的，因此需要访问所有记录的帧，这使得计算要求很高且非常耗时。从而限制了它们的实际应用。相比之下，本文提出了一种基于时空递归网络的在线视频去模糊方法，它可以实时的处理视频。我们引入了一种新的架构，它增大了感受野，同时保持网络的整体规模较小，可以实现快速执行。我们的网络能够消除由强烈的相机抖动或快速移动的物体造成的大模糊。我们还提出了一个新的网络层，通过动态时间融合来增强连续帧之间的时间一致性。

1.Introduction

在动态场景中移动物体以及摄像机抖动会导致视频中出现不希望的运动模糊，这通常意味着视频质量的严重下降（尤其是在光线较暗的情况下）。因此，不仅为了提高视频质量，而且为了促进其他视觉任务，如tracking[1]、SLAM[2]、dense 3D reconstruction[3]。然而，使用盲去模糊的方法去除运动模糊和恢复清晰的帧是一个高度不适定的问题，也是计算机视觉领域一直以来的一个重要研究课题。本文提出了一种新的视频去模糊的方法。我们提出了一种新的神经网络结构，使运行时在不显著牺牲恢复质量的情况下比以前的方法快一个数量级。此外，我们的方法是第一个在线视频去模糊技术，能够实时消除由相机抖动和物体运动产生的一般性运动模糊。我们的新网络架构采用了deep convolutional residual networks[4]，其布局在时间和空间上都是循环的。对于时间序列建模，我们提出了一个网络层，它实现了一种新的机制，我们称之为动态时间混合。空间域中的递归是通过一种新的网络布局来实现的，它能够随着时间的推移扩展空间感受野，而不增加网络的大小。这样，我们可以比以往一些经典的网络更好地处理大型模糊，而没有运行时开销。由于缺乏公开的视频去模糊训练数据，我们收集了大量的模糊和清晰的视频。具体来说，我们使用高速摄像机记录了清晰的帧，并通过对几个连续的清晰帧进行平均来生成真实的模糊帧。利用这个新的数据集，我们成功地以端到端的方式训练了我们的新型视频去模糊网络。使用所提出的网络和新的数据集，我们以顺序的方式执行去模糊，与以前许多需要访问所有帧的方法相比，同时比现有的最先进的视频去模糊方法快数百到数千倍。

本文的贡献如下：

1）据我们所知，我们提出了第一种视频去模糊的鉴别学习方法，它能够以实时的、顺序的方式去除空间变化的运动模糊。

2）我们引入了一种spatio-temporal recurrent residual结构以及动态时间混合机制。

3）我们发布了一个大规模的高速视频数据集，可以进行鉴别学习。

2.Training Datasets

最近深度学习在计算机视觉领域取得成功的一个关键因素是大量训练数据的可用性。然而，对于盲去模糊的任务更加棘手。以往的learning-based single-image blind deconvolution 和burst deblurring方法假设了一个均匀的模糊模型。然而，这些技术应用于由于ego motion和object motion引起的空间和时间变化的运动模糊的效果不是很好。因此，我们采用了一种不同的策略，该技术使用高速摄像机生成成对的清晰和模糊的视频。给定一个high-speed视频，我们通过平均几个连续的短曝光图像来“模拟”长快门时间。

其中，n为时间步长， $X_{nT}$ 、 $B_{n}$ 、 $S_{n}$ 分别为短曝光帧、合成模糊帧、清晰帧。一个参数τ对应于有效的快门速度，它决定了要平均的帧数。满足T≥τ的时间间隔T控制着合成视频的帧率。例如，以帧率 $f$ 捕获的高速视频的帧率为 $\frac{f}{T}$ 。请注意，有了这些数据集，我们只能处理运动模糊，但不能处理其他模糊（例如，散焦模糊）。我们可以通过调整τ来控制模糊的强度（一个更大的τ生成更模糊的视频），也可以通过控制时间间隔T来改变生成的视频的占空比（整个过程如图2所示）。

3.Method Overview

在本文中，利用我们的模糊和清晰视频对的大数据集，我们提出了一种视频去模糊网络来估计模糊帧中潜在的清晰帧。正如[5]的工作中所建议的，不同于处理单一图像，处理视频的一种简单的方式是重复利用如图3(a)所示的结构。这里，网络的输入是 $\left \langle B_{n} \right \rangle_{m} = \left \{ B_{n-m},\cdots ,B_{n+m} \right \}$ ，其中 $B_{n}$ 是中间帧。相比之下，我们提出了专门利用时间信息处理视频的网络，并在不增加参数数量和网络总体大小的情况下大幅提高了去模糊性能。

下面我们将介绍我们发现可以显著提高性能的网络架构。首先，在图3(b)中，我们提出了一个时空递归网络，它在不增加网络参数数量的情况下有效地扩展了感受野，促进了由严重运动引起的大模糊的去除。接下来，在图3(c)中，我们另外介绍了一个网络架构，该架构实现了我们的动态时间混合机制，该机制加强了连续帧之间的时间一致性，并进一步改进我们的时空递归网络。

4.1.Spatio-temporal recurrent network

一个大的感受野对于一个能够处理大的模糊的神经网络是必不可少的。例如，处理大小为101x101像素的模糊内核需要大约50个卷积层来，而传统的深度残差网络使用3x3小滤波器。尽管使用更深的网络或更大的过滤器是一种简单增大感受野的方法，但总体运行时间随着额外的层数和过滤器大小的增加而增加。因此，我们提出了一种有效的网络，它可以在不增加其深度和滤波器大小的情况下保留较大的感受野。因此，我们提出了一个有效的网络（如图3(b)所示）。具体来说，我们将 $\left \langle B_{n-1} \right \rangle_{m}$ 得到的特征图 $F_{n-1}$ 与 $\left \langle B_{n-2} \right \rangle_{m}$ 得到得特征图 $F_{n-2}$ 在n-1时刻进行融合，作为一个附加输入在n时刻与 $\left \langle B_{n} \right \rangle_{m}$ 共同输入到我们的网络中。通过这样做，在时间步长n时，模糊帧 $B_{n}$ 的特征通过同一网络(m+1)次。换句话说，在高维特征空间中，每个模糊的输入帧随着时间的推移被我们的循环网络递归处理多次，从而有效地体验到更深的空间特征提取，增加了感受野。此外，从之前的时间步长中获得的进一步（时间）信息也被转移以增强当前帧，因此我们将这种网络称为spatio-temporal recurrent或简称为STRCNN。

4.2.Dynamic temporal blending network

当处理视频而不是单帧时，加强时间一致性是很重要的。虽然我们随着时间的推移周期性地传输以前的特征映射，并在连续帧之间隐式地共享信息，但我们开发了一种新的时间信息传播机制，显著提高了去模糊性能。我们为temporal feature blending生成权重参数，以鼓励时间一致性，如图3(c)所示。具体来说，基于我们的spatio-temporal recurrent network。此外，我们还提出了一个dynamic temporal blending network。它在时间步长n时生成权值参数 $W_{n}$ ，用于连续时间步长的特征映射之间的线性混合。

其中， $h_{n}$ 表示当前时间步长n时的特征图， $\tilde{h}_{n-1}$ 表示在时间步长(n−1)时过滤的特征图。权重参数 $W_{n}$ 的大小等于 $h_{n}$ 的大小，并且其值在0到1之间。作为一个线性算子⊗表示为element-wise multiplication。为此，我们引入了一个新的cell，它通过比较两个特征映射之间的相似性来生成参数 $W_{n}$ 。

其中A和B对应于linear (convolutional) filters，可训练参数0≤β≤1表示偏置值，它控制着混合速率。

虽然所提出的dynamic temporal blending network简单，但我们在实验中证明了它有助于显著提高去模糊质量，我们将该网络称为STRCNN+DTB。

5.Implementation and Training

在本节中，我们将详细描述我们提出的网络架构。如图4所示，其中我们只显示了单个时间步长n的配置，因为我们的模型跨时间共享所有可训练变量。我们的网络包括三个模块，即编码器、动态时间混合网络和解码器。

5.1.Network architecture

5.1.1 Encoder

图4(a)描述了我们所提出的网络的编码器。输入是(2m+1)连续的模糊帧 $\langle B_{n}\rangle_{m}$ ，其中 $B_{n}$ 是中间帧，以及前一阶段的特征 $F_{n-1}$ 。所有模糊图像先进行卷积，然后与特征图 $F_{n-1}$ 连接输入到一个深度残差网络中，我们的编码器的输出是特征映射 $h_{n}$ 。

5.1.2 Dynamic temporal blending

我们的dynamic temporal blending network如图4(b)所示。它将特征映射 $h_{n}$ 和 $\tilde{h}_{n-1}$ 融合作为输入，最后根据公式2用生成的权重 $W_{n}$ 对 $\tilde{h}_{n-1}$ 和 $h_{n}$ 进行混合。当将dynamic temporal blending network正确地放置在编码器和解码器之间，如图3(c)所示，得到了最好的结果。

5.1.3 Decoder

解码器如图4(c)所示，输入为前一阶段的混合特征映射 $\tilde{h}_{n}$ ，输出是对应于模糊输入帧 $B_{n}$ 的清晰帧 $L_{n}$ 和特征映射 $F_{n}$ 。输出的特征映射 $F_{n}$ 在下一个时间步长中作为输入。

5.2.Objective function

作为一个目标函数，我们使用潜在帧和它们相应的清晰帧之间的均方误差(MSE)。其中 $N_{mse }$ 为帧中的像素数。

此外，我们还是用weight decay来防止过拟合。其中W为可训练的网络参数。

最终的Loss为，其中 $\lambda$ = $10^{-5}$ 。

6.Experiments

7.Conclusion

在这项工作中，我们提出了一种新的网络架构来对视频去模糊。为此，我们获得了一个用于训练的模糊/清晰视频对数据集，并引入了一种新的时空递归网络，通过将最后一层的特征激活作为接下来的额外输入到网络，从而实现接近实时性能。在这样做的过程中，我们可以保留大的感受野，这对于处理大的模糊至关重要，而不引入计算开销。此外，我们提出了一个动态混合网络，以加强时间一致性，这提供了一个显著的性能增益。我们通过实验证明了我们所提出的方法的效率和优越性。

References

[1] Jin H, Favaro P, Cipolla R. Visual tracking in the presence of motion blur[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005, 2: 18-25.

[2] Lee H S, Kwon J, Lee K M. Simultaneous localization, mapping and deblurring[C]//2011 International Conference on Computer Vision. IEEE, 2011: 1203-1210.

[3] Seok Lee H, Mu Lee K. Dense 3d reconstruction from severely blurred images using a single moving camera[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013: 273-280.

[4] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[5] Su S, Delbracio M, Wang J, et al. Deep video deblurring for hand-held cameras[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1279-1288.