视频超分：EDVR（EDVR: Video Restoration with Enhanced Deformable Convolutional Networks）

在这里插入图片描述
论文：EDVR：视频超分与加强的可变形卷积网络
文章检索出处： 2019 ICCV

摘要和简介

为了处理较大的运动，我们设计了一个金字塔，级联和可变形对齐模块 (PCD)。在该模块中，使用可变形卷积从粗到精的方式在特征级别完成了帧对齐。其次，提出了时空注意融合模块 (TSA)，在时间和空间上都应用注意以强调后续恢复的重要特征。该模型在NTIRE19上夺冠。
在本文中，我们将介绍NTIRE2019在视频恢复和增强方面的挑战中的获奖解决方案。该任务中使用REDS为数据集，与现有数据集相比，REDS中的视频包含更大，更复杂的运动。
PCD模块受TDAN启发，使用可变形卷积将相邻帧与参考帧对齐。与TDAN不同，我们以从粗到精的方式执行对齐，以处理大型和复杂的运动。具体来说，我们使用金字塔结构，该结构首先使用粗略估计将低比例的特征对齐，然后将偏移量和对齐的特征传播到较高的比例以促进精确的运动补偿，在金字塔对准操作之后级联可变形卷积，以进一步提高对准的鲁棒性。通过计算参考帧和每个帧的特征之间的逐元素关系来引入时间注意进行相邻特征的加权与后续的特征融合，然后进一步应用空间注意为每个通道的每个位置分配权重，以更有效的利用跨通道和空间信息。

方法

Overview

给定2N+1低分辨率帧 $I_{\{t-N:t+N}\}$ ，定义中间帧 $I_t$ 为参考帧，其他帧为相邻帧。目的是估计接近高分辨率帧 $O_t$ 的参考帧 $\hat O_t$ 。 PCD对齐模块在功能级别将每个相邻帧与参考帧对齐，TSA融合模块融合不同帧的图像信息，然后融合的特征通过重建模块，该模块是EDVR中的残留块的级联，可以用单个图像SR中的任何其他高级模块替换。在网络的末端执行上采样操作以增加空间大小。最后，通过将预测图像残差添加到直接上采样的图像中来获得高分辨率帧。

金字塔，级联和可变形卷积的对齐

可变形对齐应用于每个帧的特征，记做 $F_{t+i},i∈[-N:+N]$ 。其他可变形卷积部分可参见 TDAN:可变形卷积这篇文章，本文不再进行叙述。
我们使用金字塔和级联精炼去解决对准中的复杂运动和大时差问题。具体来说，为了生成 $l$ 层 $F_{t+i}^l$ ，使用strided convolution filter 将第（ $l$ -1）个金字塔的特征下采样x2，获得 $l$ 层的特征。在第 $l$ 层，从第（ $l$ +1）层通过x2上采样的偏移量和对齐特征来预测本层的偏移量和对其特征(紫色线)。流程图如下：
公式如下：
其中， $\Delta P_{t+i}^l$ 表示偏移量， $f$ 是由几个卷积层组成的通用函数，“ , ”代表串联， $^{↑s}$ 表示上采样s倍，DConv表示可变形卷积，g表示具有多个卷积层的通用函数。采样采用双线性插值法，使用3层的金字塔结构，为了减少计算成本，不会随着空间大小的减少而增加通道数。

时空注意力融合

我们在融合的时候采用了时空注意。在特征空间中，应该更加注意与参考帧更相似的相邻框架。对于每个帧i∈{-N:+N}，相似距离h可以计算为：
其中 $\theta (F_{t+i}^a)$ 和 $\varnothing(F_t^a)$ 是两个embeddings，可以使用简单的卷积滤波器实现。sigmoid激活函数用于将输出限制为[0,1],稳定梯度反向传播。然后将时间注意图与原始对齐特征 $F_{t+i}^a$ 相乘，用一个额外的融合卷积层来聚合这些注意力调制特征 $\hat F_{t+i}^a$ ：
[.,.,.,]表示级联。然后从融合特征中计算出空间注意蒙版。采用金字塔设计以增加注意力接收范围。此后，融合的特征由掩码通过逐元素的乘法和加法来调制。

二级恢复

单个EDVR可以达到最先进的性能，但是还原后的图像并不完美，故采用两阶段策略来进一步提升性能。具体的来说，将一个类似但较浅的EDVR网络进行级联，以完善第一级的输出帧。好处有二：(1)有效地消除了先前模型中无法处理的严重运动模糊，提高了修复质量； (2）减轻了输出帧之间的不一致。

实验

数据集：REDS(720p)包含240个训练剪辑，30个验证剪辑和30个测试剪辑（每个都有100个连续帧）。在比赛中，由于无法获得测试地面的真实性，我们选择了四个代表性的片段（具有不同的场景和动作）作为测试集，以REDS41表示。其余的训练和验证剪辑被重新分组为我们的训练数据集（总共266个剪辑）。此外，Vid4和Vimeo-90K-T也一起进行评估。
PCD对齐模块采用五个残差块（RB）进行特征提取。我们在重建模块中使用40个RB，在第二阶段模型中使用20个RB。每个残差块中的通道大小设置为128。我们分别使用大小为64x64和256x256的RGB色块作为视频SR和去模糊任务的输入。mini_batch为32。除非另有说明，否则网络将以五个连续的帧（即N = 2）作为输入。我们通过随机的水平翻转和90旋转来扩充训练数据。我们仅采用Charbonnier函数作为最终损失。
使用Adam优化器，其中 $\beta_1$ =0.9， $\beta_2$ =0.999。初试学习率设置为4x $10^{-4}$ ，使用8个NVIDIA Titan Xp GPU对其进行训练
在Vid4上与其他模型的PSNR和SSIM对比：

在Vimeo-90K-T上与其他模型的PSNR和SSIM对比：
在REDS4上与其他模型的PSNR和SSIM对比：
有无PCD和TSA、不同数据集与测试集的消融实验：

仅供学习使用，请勿转载。

视频超分：EDVR（EDVR: Video Restoration with Enhanced Deformable Convolutional Networks）

摘要和简介

方法

Overview

金字塔，级联和可变形卷积的对齐

时空注意力融合

二级恢复

实验

猜你喜欢