视频超分：TDAN（TDAN: Temporally Deformable Alignment Network for Video Super-Resolution)

在这里插入图片描述
论文：TDAN:视频超分中的时空可变形对齐网络
文章检索出处:2020 Conference on Computer Vision and Pattern Recognition(CVPR)

摘要和简介

先前的VSR通常使用光流的方法进行对齐，所以模型的性能将高度依赖光流的精度，不正确的光流将会导致支持帧中包含伪影，进而影响重建的HR帧。本文中提出了一种时间可变形对齐网络(TDAN)，它使用参考帧和支持帧的特征来动态预测采样卷积核的offsets，使得它可以在不计算光流的情况下自适应的对齐参考帧和支持帧。本文的贡献包括三个方面：
（1）我们提出了一种用于特征级对齐的新型时间可变形对齐网络（TDAN），它避免了以前基于光流的方法所采用的两阶段过程；
（2）我们提出了基于TDAN的端到端可培训VSR框架；
（3）我们的方法在Vid4基准数据集上实现了sotr。源代码和预训练的模型发布于 https://github.com/YapengTian/TDAN-VSR-CVPR-2020。

可变形卷积

相比conv2d引入了学习空间几何形变的能力，通过学习参数 $\Delta p_n$ 从而能更好地解决具有空间形变的图像识别任务。

概述

模型将连续的2N+1帧 $\{ {I^{LR}_i}\}^{t+R}_{i=t+N}$ 作为输入去预测HR帧 $I^{HR}_t$ ，它由两个子网络构成: temporally deformable alignment network (TDAN) 和 SR reconstruction network。
TDAN将支持帧 $I^{LR}_i$ 和参考帧 $I^{LR}_t$ 作为输入，以预测支撑帧对应的对齐帧 $I^{LR'}_i$ 。

$I^{LR'}_i = f_{TDAN}(I^{LR}_t,I^{LR}_i)$

向TDAN输入2N个支持帧后，我们可以获得2N个相应的对齐帧 { $I^{LR'}_{t-N},...,I^{LR'}_{t-1},I^{LR}_{t},I^{LR'}_{t+1}...,I^{LR'}_{t+N}$ }，然后SR重建网络将利用2N个对齐帧以及参考帧来还原HR视频帧。

$I^{HR}_t = f_{SR}(I^{LR'}_{t-N},...,I^{LR'}_{t-1},I^{LR}_{t},I^{LR'}_{t+1}，...,I^{LR'}_{t+N})$

Temporally Deformable Alignment Network

TDAN主要包含三个模块：特征提取、变形对齐和对齐帧重建
特征提取：通过一个共享的特征抽取网络，从 $I^{LR}_i$ 和 $I^{LR}_t$ 提取视觉特征 $F^{LR}_i$ 和 $F^{LR}_t$ 。该网络由一个卷积层和 $k_1$ 个残差块(with ReLU)组成,在作者的实现中，他使用了来自EDSR的修正残差块结构，提取的特征将用于特征方面的时间对齐。
变形对齐：变形对齐模块将 $F^{LR}_i$ 和 $F^{LR}_t$ 作为输入，concat后使用一个3x3的bottleneck层，目的是减少特征图的通道数量，然后通过一个卷积层去预测输出通道数量为|R|的采样参数 $\Theta$ :

$\Theta = f_{\theta}(F^{LR}_i,F^{LR}_t)$

其中， $\Theta = \{ \Delta p_n | n = 1,...,|R| \}$ 。通过变形卷积，使 $\Theta$ 和 $F^{LR}_i$ 可以计算出支持帧的对齐特征 $F^{LR'}_i$ ：

$F^{LR'}_i = f_{dc}(F^{LR}_i,\Theta)$

更具体的:
对于卷积在不规则位置 $p_n$ + $\Delta p_n$ ，其中 $\Delta p_n$ 可能是分数，我们通过双线性来解决。在实践中，我们在 $f_{dc}$ 之前和之后添加了三个附加的可变性卷积层，去增强模块的转换灵活性和功能。参考帧 $F^{LR}_t$ 的特征仅用于计算 $\Theta$ ,并不会传播到支持帧的对其特征中，此外，自适应的学习偏移量将隐式的捕获运动线索去进行时间对齐。
对齐帧重构：没有监督的隐式对齐很难学习，所以我们添加对齐损失去强制可变性对齐模块更加精确。对齐后的特征图通过一个3x3的卷积层完成帧的重建。

Aligned Frame Reconstruction

SR重建网络包含三个模块：时间融合、非线性映射和HR帧重构
时间融合：要融合跨时空的不同帧，我们直接将2N + 1帧连接起来，然后将它们输入3x3卷积层以输出融合的特征图。
非线性映射：具有 $k_2$ 个堆叠残差块的非线性映射(EDSR)模块将采用隐式融合特征作为输入来预测深度特征。
HR帧重建：在LR空间中提取了深层特征后，我们利用ESPCN，通过亚像素卷积来提高特征图的分辨率。实际上，对于4个放大比例，将使用两个子像素卷积模块。最终的HR帧$ $I^{HR}_t$ 通过卷积层从缩放后的特征图中获取。

损失函数

两个损失函数 $L_{align}$ 和 $L_{sr}$ 分别用于训练TDAN和SR重建网络。

实施

数据集：Vimeo 90k视频采样成(64612,448,256)的格式
验证集：Temple sequence的31图像
测试集：Vid4、SPMCs-30，前两个帧不用于评估，并且忽略了四个空间边界像素
对比模型：VSRnet，ESPCN，VESCPN，TOFlow，DBPN，RND，RCAN，SPMC，FSRVSR 和DUF-16L 。
训练设置：输入shape(64，5, 48, 48，3)， $k_1$ = 5， $k_2$ = 10，Adam优化器，在1080TI上每100个epochs大约需要1.7天。

扫描二维码关注公众号，回复： 11650035 查看本文章

实验效果和量化评估

在经过BI处理过的Vid4测试集上：

在经过BD处理过的Vid4测试集上：

输出图像对比：

原创文章，如需转载请注明出处，谢谢。

视频超分：TDAN（TDAN: Temporally Deformable Alignment Network for Video Super-Resolution)

摘要和简介

可变形卷积

概述

I i L R ′ = f T D A N ( I t L R , I i L R ) I^{LR'}_i = f_{TDAN}(I^{LR}_t,I^{LR}_i) IiLR′​=fTDAN​(ItLR​,IiLR​)

Temporally Deformable Alignment Network

Θ = f θ ( F i L R , F t L R ) \Theta = f_{\theta}(F^{LR}_i,F^{LR}_t) Θ=fθ​(FiLR​,FtLR​)

F i L R ′ = f d c ( F i L R , Θ ) F^{LR'}_i = f_{dc}(F^{LR}_i,\Theta) FiLR′​=fdc​(FiLR​,Θ)

Aligned Frame Reconstruction

损失函数

实施

实验效果和量化评估

猜你喜欢

$I^{LR'}_i = f_{TDAN}(I^{LR}_t,I^{LR}_i)$

$\Theta = f_{\theta}(F^{LR}_i,F^{LR}_t)$

$F^{LR'}_i = f_{dc}(F^{LR}_i,\Theta)$