VSR论文笔记二|Robust Video Super-Resolution with Learned Temporal Dynamics

1.总结

视频超分提取帧间的信息很重要,作者提出了一个可以自适应选择优化范围的时序自适应网络,同时作者用一个空间对齐网络减少邻帧的的运动复杂性。具体来讲就是:首先有一个时序自适应网络。时序信息对视频超分很重要,以往有通过复杂的优化来解决但是引入了计算负担和时间负担,也有一些使用固定的temporal scale通过显式应用运动补偿来产生网络的输入。作者提出一个自适应时序网络,可以鲁棒应对各种运动类型并且选择优化的范围。网络的输入是经过运动补偿后对齐的LR帧,然后应用不同的时序size产生HRsize估计。
在空间上,对不同的帧做对齐。以往复杂的光流计算方法通常不是最优的,作者通过估计少量空间变换参数来降低运动的复杂性,并为对齐帧提供了更可靠的方法。并提出空间对齐网络,推测连续帧间的空间转换。
两个网络可以串联并实现端对端的训练。

2.网络总体结构

网络目标是对视频序列,从LR帧中预测出HR帧,主要的挑战在于对不同运动类别的时序信息的利用。所以作者设计了一个可以自适应选择时序范围的网络。

SR分支

作者采用ESPCN作为超分网络,每个SR预测网络的输入是 2 ∗ i − 1 2*i -1 2i1帧连续帧。

时间调制分支

学习根据运动信息选择范围。对于一个有 N N N个分支的网络,会输入 2 ∗ N − 1 2*N - 1 2N1个连续帧作为输入。这个网络作者采用了跟超分分支相似的结构。在所有N个可能的时间尺度上输出像素级权重图。
最终每个SR预测分支的输出和pixel-wisely的权重图相乘,然后相加得到HR信息。
训练目标为:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

空间对齐方法

作者调查了几种方法

  • 1 Rectified Optical Flow Alignment
    我们尝试将补丁级别的运动简化为整数平移,以避免可能导致模糊或混叠的插值
  • 2 空间对齐网络
    在这里插入图片描述
    每次网络输入LR参考帧和邻帧,然后输出对齐后的邻帧。首先是送入一个localization network预测空间转换参数 θ ^ S T \hat \theta_{ST} θ^ST,localization network只预测两个参数。该网络作用于patch level级别,之后只有中心部分被保留,用于后面的处理。
    最终整个训练loss为:
    在这里插入图片描述

实验

实验部分作者是验证了时间调制分支的作用,空间对齐网络的作用,并且和一些方法作比较,结构都不错。
时间调制分支:
在这里插入图片描述
空间对齐方法
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/eight_Jessen/article/details/109473922