CVPR21 - BasicVSR：简单有效的视频超分辨率Baseline

文章目录

- 原文信息
- 初识
- 相知
- 回顾

原文信息

初识

相比于图像超分，视频超分(VSR，Video Super-Resolution)显然是一件更具挑战性的任务。视频超分比图像超分多了时间维度的信息、更为复杂，而在当时，现有的SOTA方法都基于各种各样的复杂设计，对于各组件也缺乏详细的分析。

所以这篇文章的核心贡献点就是：对目前VSR(vedio super-resolution)方法中的不同组件进行解耦+分析，并对部分组件经过细微修改，搭建了一套简单清晰的方案(Basic VSR)，在效果和性能上都超越了当前的SOTA。BasicVSR也容易扩展成更强大的模型，文章在进行扩展后，也得到了更强的IconVSR。

在这里插入图片描述

从上图也可以看出来本文提出的方案在当时所有方法中的优越性

相知

组件分析

论文分析了当下的VSR方法，所其用到的技术分为四种组件：Propagation(传播)、Alignment(对齐)、Aggregation(聚合)以及Upsampling(上采样)。

其中，Propagation表示在时间维度上进行特征传播，Alignment表示对非对齐的图像/特征进行的空间变换操作，Aggregation进行对齐特征的进一步融合，Upsamping表示对聚合后的特征进行转换得到最终的高清视频(上采样)。作者认为影响最大的两个组件主要是Propagation和Alignment。

在这里插入图片描述

列举了当前VSR方法的各组件组成情况，其中最优的策略已加粗.

Propagation：这是对VSR方法影响最大的组件，目前的传播策略大致可以分为三类：local(局部)、unidirectional(单向)和bidirectional(双向)。

local局部策略：其直接忽略了长距离信息的建模(时间维度上帧间距离)，即不采用任何时序上的特征传播策略，这显然限制了其表现。作者也做了一个实验来验证这个说法，如下图所示，将测试序列分为K段用BasicVSR进行超分，报告每帧的PSNR指标，其中黑色的虚线表示K=1(全局传播)作为对比基准。可以发现，当K越大其整体效果越差，并且每一段在两段会出现较大的波动，这说明时序信息，特别是长距离时序信息对于VSR是非常重要的。
unidirectional单向策略：顾名思义，其做法是将特征是从第一帧逐步传播最后一帧。这会导致不同阵帧之间获取信息不平衡（早期帧获取信息少，后期帧获取信息多），从而导致早期的视频帧超分效果较差。作者也同样做实验对比了单向帧和双向帧的效果差异，如下图所示，黑线表示双向策略作为基准。可以看到单向策略中，早期帧的超分效果较差，并且整体效果弱于双向策略。（只有最后一帧超过了双向策略，这是因为双向策略的初始化特征为0导致的）
bidirectional双向策略：不是单向的特征传播，包括了正向时序(forward)和逆向时序(backward)的特征传播，避免上述两种方式的缺点。对于图像帧数学公式: $x_i$ ，给定相邻的两帧数学公式: $x_{i-1},x_{i+1}$ ，其前向和反向特征分别为：

Alignment也非常重要，将高度相关但是未对齐的特征进行空间变换，从而使其对齐，用于后续的聚合操作。其主要也分为三类：without alignment(无对齐)、image alignment(图像对齐)和feature alignment(特征对齐)。

Without alignment无对齐：未对齐的特征/图像会导致性能欠佳(suboptimality)，作者进行实验，取消BasicVSR中的对齐操作，直接对特征进行concate，导致1.19dB的PSNR下降.
Image alignment图像对齐：基于图像进行光流估计和变换(warping)进行图像对齐，但是由于光流估计得不准确，导致变换后的图像存在模糊、不准确的问题，导致效果欠佳。作者实验发现图像级对齐会导致0.17dB的PSNR下降.
Feature alignment特征对齐：基于图像进行光流估计，再对特征图进行变换，从而对齐特征。此外，对齐后的特征还会送入后续的残差Blocks进行进一步的细化：

其中，S表示光流估计，W为空间变换，R为残差模块

Aggregation and Upsampling：BasicVSR采用最基础的组件，聚合操作是直接concate中间特征，上采样模块包括了几层卷积+pixel-shuffle操作。最后输出每一帧对应的高清图像：
在这里插入图片描述

pixel-shuffle是一种低计算量的上采样方式，可参考https://zhuanlan.zhihu.com/p/523432126

BasicVSR

BasicVSR的整体框架如下图所示，根据上述的分析，Propagation采用双向策略，Alignment采用基于feature-level的光流估计，Aggregation和Upsampling使用concate加pixel-shuffle操作.
在这里插入图片描述
BasicVSR简单但有效，在效果和性能上都不输现有的VSR方法，并且容易扩展。

IconVSR

作者基于BasicVSR，新增信息重填机制(Information-refill mechanism)和耦合传播(coupled propagation)得到IconVSR，这能进一步避免传播过程中的错误累积以及促进信息融合，从而提升模型表现。
在这里插入图片描述
Information-Refill：在图像边界以及遮挡区域通常存在不准确的对齐，在长距离信息传播时会导致误差的进一步累积。为了减缓这个问题的影响，作者提出了信息重填机制(information-reffil)来进行特征细化(refinement)。如上图(a)所示，作者额外采用了一个特征提取器对关键帧及其相邻帧提取深层特征，并且将提取出来的特征与传播链路中的对齐特征进行融合。具体融合过程如下式所示：
在这里插入图片描述

其中E表示特征提取器，C为卷积操作，R是与之前一样的残差Blocks.

简单地理解这个过程，就是在特征传播过程中，对于关键帧，在进行特征对齐之后(即经过之前的S和W操作]，额外引入一个深度特征进行融合。因为这个深度特征只考虑了当前帧与相邻帧，有利于矫正长期累积的对齐错误。并且，由于关键帧只是所有图像集中一个很小的子集，所以这个机制带来的额外计算量也比较小。

Coupled Propagation：在BasicVSR中采用的双向传播机制是独立地在两个方向上进行的(backward与forward)，每条分支只能捕获到单向过来的信息。作者为了更好地利用序列中的信息，将两条分支进行相互联系，如图(b)所示，在进行forward传播时，额外引入backward分支中累积的信息（先backward再forward）。具体过程如下式所示：
在这里插入图片描述
引入这种操作使得在forward分支中的每一步都可以考虑到整个序列的信息，使得输出质量更高，并且没有带来额外的计算负担。

部分实验

这里只列举部分实验结果和可视化对比效果，更多的消融实验与分析参照原文

下表展示了本文提出的方法与当前SOTA方案的对比（包括参数量、推理速度、效果等）.
在这里插入图片描述

下面两张图展示了不同数据集上BasicVSR，IconVSR与其他方法的可视化对比结果。
在这里插入图片描述

回顾

本文发表于CVPR2021，是VSR领域一篇比较有代表性的论文，也开启了BasicVSR系列（包括后面的BasicVSR++、RealVSR等）。本文一作Kelvin C.K. Chan来自南洋理工大学，在图像超分和视频超分任务上都做了一些不错的工作，贴上其Google Scholar个人主页。

这篇文章没有涉及到太多网络模块的设计，更像是一篇梳理当前VSR的报告，通过对现有组件的结合搭建了一个简单有效的baseline，并基于其进行扩展，得到了IconVSR。它们在效果和性能上都表现得非常好。