视频去模糊论文阅读-VDFlow: Joint Learning for Optical Flow and Video Deblurring

论文地址:http://openaccess.thecvf.com/content_CVPRW_2020/papers/w51/Yan_VDFlow_Joint_Learning_for_Optical_Flow_and_Video_Deblurring_CVPRW_2020_paper.pdf

Abstract

        视频去模糊是一项具有挑战性的任务,因为视频中的模糊是由摄像机抖动、物体运动和深度变化的组合造成的。最近的深度神经网络通过利用连接相邻帧来直接估计潜在图像,提高了视频去模糊的性能。 在本文中,我们提出了一个端到端的网络,称为VDFlow,用于同时进行光流估计和视频去模糊。VDFlow包含两个分支,其中的特征表示是双向传播的。去模糊分支采用编码器-解码器网络,而光流分支是基于FlowNet network。光流不再是一种对齐的工具,而是作为运动轨迹的信息载体,有助于恢复潜在的清晰帧。

1.Introduction

         相机抖动、物体运动和深度变化可能会在视频中引入模糊,从而影响许多high-level应用。因此,去模糊技术在计算机视觉领域引起了相当多的研究关注。然而,最广泛的方法是为单图像去模糊的设计的,而较少关注视频,其中更容易造成模糊。

        由于图像和模糊核都是未知的,从相应的模糊观测中恢复一个清晰的帧是一个高度不适定的问题。 最常见的去模糊方法是基于deconvolution algorithms,它首先确定模糊核,然后求解清晰的图像。然而,space-variant blur kernel与摄像机抖动、场景深度、segmentation boundaries of objects等许多未知因素直接相关,这对于恢复清晰图像是一个巨大的挑战。因此,在本文中,我们使用深度神经网络直接估计潜在的清晰帧。

        与单图像去模糊不同,可以利用相邻帧的丰富信息在视频去模糊处理中中锐化模糊的图像。然而,从邻近的帧中聚合信息仍然是一个具有挑战性的问题。在之前的工作中,[1]引入了一个编码器-解码器网络来学习如何积累信息和去模糊视频。虽然光流通常有助于提高去模糊性能,但流估计是一个具有挑战性的问题,因此运动信息并不总是有用的。此外,直接使用光流执行帧对帧的对齐通常会引入额外的warping artifacts。

        本文将光流视为一种关于运动轨迹的信息载体,但不直接用于图像对齐。我们提出了一个端到端网络,名为VDFlow,它由两个分支组成。一个分支被设计为去模糊,另一个分支的目的是估计中间帧的前向和向后光流。我们同时学习每个任务的特征表示,并双向传播学习到的特征以相互帮助。

        本文贡献总结如下:

1)我们利用双向光流作为视频去模糊处理中模糊帧运动轨迹的信息载体。

2)我们提出了一个端到端可训练的模型来同时估计清晰帧和光流。其中特征是双向传播的以帮助恢复。

3)我们采用迭代训练的策略。

2.Proposed Method

        当存在大型训练数据集时,全卷积神经网络显示出了一个好的能力在学习输入/输出关系时。本文提出了一种用于视频去模糊和光流估计的端到端学习方法:给定由模糊/清晰视频帧组成的数据集,我们训练一个神经网络直接从模糊视频帧中预测清晰帧。输入是a stack of neighboring frames,而输出是去模糊的图像和与中间帧对应的双向光流。建立了一个统一的模型VDFlow,它有两个分支,即一个基于全卷积网络的视频去模糊分支,以及一个基于FlowNetS的光流估计分支。我们提出的VDFlow的架构如图1所示。

2.1.Deblurring Branch

        为了充分利用低级和高级的特性,我们选择了一种编码-解码器风格的网络,该网络对生成任务具有良好的处理能力。该编码器用于捕获融合的相邻帧的上下文并产生一个潜在的特征表示,而解码器采用这种特征表示并产生清晰的图像内容。

        在网络的编码器和解码器的两部分中,每隔几层就添加一次对称的跳跃连接,如图1中的黑色虚线所示。这些跳跃连接不仅显著地帮助将信息传递到顶层,并将梯度反向传播到底层,这有助于生成更清晰的视频帧,而且还大大加速了收敛速度。为了优化网络,去模糊分支使用L2 distance:

 其中I\left ( i,j \right )G\left ( i,j \right )分别表示估计图像和清晰图像在位置\left ( i,j \right )处的像素值。

2.2.Optical Flow Branch ​​​​​​​

        我们的主要目标是产生中间帧的清晰图像。因此,我们试图估计相应的前向和后向光流来模拟运动轨迹,从而近似中间帧的模糊核信息。虽然FlowNet2对于FlowNet实现了几个改进,考虑到其便利性和效率,我们使用FlowNetS架构计算相应的光流特征表示。此外,我们提出的去模糊分支也有助于提高光流分支中光流的精度。与去模糊分支类似,FlowNetS架构也采用了一种编码器解码器风格的架构。其中也存在额外的跳跃连接,如图1中上半部分的黑色虚线所示。另一方面,解码器部分包括大小为输入图像大小的1/16、1/8、1/4的上采样粗粒度流估计。如图1所示,光流分支和去模糊分支都具有为输入图像大小的1/8和1/4的特征表示。因此,特征的双向传播将在这两个尺度上进行操作。对于标记数据,为了优化我们的网络,光流分支使用端点误差(EPE)损失:

 其中,f=\left [ u,v \right ]表示预测的光流场,\hat{f} = \left [ \hat{u},\hat{v} \right ]表示ground truth光流场。然而,当使用模糊的视频数据集训练我们提出的VDFlow时,我们无法获得ground truth光流。为了解决这一问题,对未标记的数据采用了image warping loss。给定输入图像对I_{1}I_{2},image warping loss定义为:

 其中\rho \left ( \cdot \right )robust penalty function,W\left ( I_{2},f \right )表示为warping操作,根据光流f warps I_{2}

flow warp error如图2所示:

 最小化image warping loss可以使得flow warp error在每个像素上接近于0,这就与ground truth基本一致。光流的损失函数就变为:

其中,D_{l}D_{u}分别表示已标记和未标记的数据集。​​​​​​​

2.3.Bi-directional Propagation

        在[2]中,通过光流将输入图像进行对齐的深度去模糊网络比其他类型的深度去模糊网络获得了更高的PSNR。然而,直接使用光流对齐不能充分利用信息光流。相反,我们试图在特征空间中使用光流信息。在本文中,我们的目标是同时学习有用的运动表示,通过双向传播来提高去模糊处理的性能。因此,我们的网络的输入只是the stack of blurry frames。我们首先分析了双向传播的实用性。根据该定义,光流的特征表示描述的是运动信息,这与每一帧的模糊核密切相关。此外,去模糊和光流分支都采用了类似的编码解码器风格架构,并具有相同尺度的特征表示:大小为输入图像大小的1/8和1/4,可以实现双向传播。

        由于去模糊分支的输出是中间帧f_{t}的潜在图像,因此我们利用t−1和t时刻的帧来估计帧f_{t}的反向光流,并利用t和t+1时刻的帧来计算正向光流。为了方便起见,图1中只显示了一种网络架构。我们的架构结合了两个分支之间的特征表示,使用了不同尺度上的双向传播,即输入图像大小的1/8和1/4,如图1中的黄色和红色虚线所示。 例如,将光流分支中输入图像大小为1/8的特征图连接到具有相同尺度的去模糊分支中的特征图上。然后,利用融合后的特征图对去模糊分支进行进一步的预测。通过双向传播,两个分支可以相互通信。它们共享的特征表示使得提高这两个任务的性能成为可能。为了优化网络,我们的最终损失函数被定义为:

3.Experimental Results

 4.Conclution

        在本文中,我们建立了一个统一的编码器解码器网络来同时估计视频中的清晰帧和光流。对去模糊分支和光流分支的特征表示进行双向传播,以相互帮助任务。这样,该模型将来自相邻帧和光流的信息聚集在特征级上,比直接使用光流对齐帧更合理。大量实验结果表明,所提出的算法优于最先进的方法。 

References

[1] Su S, Delbracio M, Wang J, et al. Deep video deblurring for hand-held cameras[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1279-1288.

[2] Su S, Delbracio M, Wang J, et al. Deep video deblurring for hand-held cameras[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1279-1288.

猜你喜欢

转载自blog.csdn.net/wwb12138/article/details/124101475