VSR论文笔记二|Robust Video Super-Resolution with Learned Temporal Dynamics

1.总结

视频超分提取帧间的信息很重要，作者提出了一个可以自适应选择优化范围的时序自适应网络，同时作者用一个空间对齐网络减少邻帧的的运动复杂性。具体来讲就是：首先有一个时序自适应网络。时序信息对视频超分很重要，以往有通过复杂的优化来解决但是引入了计算负担和时间负担，也有一些使用固定的temporal scale通过显式应用运动补偿来产生网络的输入。作者提出一个自适应时序网络，可以鲁棒应对各种运动类型并且选择优化的范围。网络的输入是经过运动补偿后对齐的LR帧，然后应用不同的时序size产生HRsize估计。
在空间上，对不同的帧做对齐。以往复杂的光流计算方法通常不是最优的，作者通过估计少量空间变换参数来降低运动的复杂性，并为对齐帧提供了更可靠的方法。并提出空间对齐网络，推测连续帧间的空间转换。
两个网络可以串联并实现端对端的训练。

2.网络总体结构

网络目标是对视频序列，从LR帧中预测出HR帧，主要的挑战在于对不同运动类别的时序信息的利用。所以作者设计了一个可以自适应选择时序范围的网络。

SR分支

作者采用ESPCN作为超分网络，每个SR预测网络的输入是 $2 * i - 1$ 帧连续帧。

时间调制分支

学习根据运动信息选择范围。对于一个有 $N$ 个分支的网络，会输入 $2 * N - 1$ 个连续帧作为输入。这个网络作者采用了跟超分分支相似的结构。在所有N个可能的时间尺度上输出像素级权重图。
最终每个SR预测分支的输出和pixel-wisely的权重图相乘，然后相加得到HR信息。
训练目标为：
在这里插入图片描述

在这里插入图片描述

空间对齐方法

作者调查了几种方法

1 Rectified Optical Flow Alignment
我们尝试将补丁级别的运动简化为整数平移，以避免可能导致模糊或混叠的插值
2 空间对齐网络

每次网络输入LR参考帧和邻帧，然后输出对齐后的邻帧。首先是送入一个localization network预测空间转换参数 $\hat \theta_{ST}$ ,localization network只预测两个参数。该网络作用于patch level级别，之后只有中心部分被保留，用于后面的处理。
最终整个训练loss为：

实验

实验部分作者是验证了时间调制分支的作用，空间对齐网络的作用，并且和一些方法作比较，结构都不错。
时间调制分支：
在这里插入图片描述
空间对齐方法