在这里插入图片描述
论文：MuCAN：多对应聚合的视频超分
文章检索出处： 2020 ECCV

摘要和简介

本文提出了：
1. 一种时间多对应聚合(TM-CAM)策略，去利用跨帧的相似补丁
2. 一种跨尺度的非局部对应的聚合(CN-CAM)方案，去探索帧内不同尺度的自相似性
3. 引入了边缘感知损失，使所提议的网络能够生成更好的边缘
基于上述，我们建立了一个有效的多对应聚合网络(MuCAN)，实现了SOTR。
在这里插入图片描述

模型

overview

输入2N+1个连续帧去预测中心帧。模型由三部分构成:TM-CAM、CN-CAM和重构模块。在这里插入图片描述

时间多对应聚合模块

给定两个相邻的LR帧 $I_{t-1}^{L}$ 和 $I_{t}^{L}$ ，先将它们编码为较低的分辨率（从 $l_0$ 到 $l_2$ ）。然后，聚合从较低分辨率开始（ $\overline F_{t-1}^{l=2}$ ）以补偿大运动，逐渐向上移动至较高分辨率（ $\overline F_{t-1}^{l=0}$ ）用于细微的亚像素移动。在这里插入图片描述
上述中的每个聚合单元使用基于补丁的匹配策略，我们汇总多个候选者以充分获取上下文信息。具体的说，首先选择top-K个最相似的特征补丁，然后使用像素自适应聚合方法把他们融合为一个像素。以对齐 $F_{t-1}^{l}$ 和 $F_{t}^{l}$ 为例，在 $F_{t}^{l}$ 中取一个图像补丁 $f_t^l$ （表示为特征向量），然后在 $F_{t-1}^{l}$ 中取最接近的neighbors，使用相关性作为距离度量，相关性定义为归一化距离内积：在这里插入图片描述为了效率，局部搜索区域需满足 $P_t-P_{t-1}|≤d$ ，其中 $P_t$ 是 $f_t^l$ 的位置向量，d表示最大距离。在计算了所有的相关性之后，降序选择前K个最相关补丁，并将它们串联和聚合起来：
其中 $A g g r$ 为卷积层。对于 $\overline f^{l}_{t-1}$ 中的每个像素，我们设计了一种自适应聚合策略而不是相等的权重去进行聚合。权重图是串联 $F_{t-1}^{l}$ 与 $F_t^l$ 后通过一个卷积层获得的。当补丁大小为S x S时，权重图的Size为H x W x $S^2$ ：在这里插入图片描述对齐的相邻帧 $\overline F_{t-1}^{l}$ 上的位置 $P_t$ 的最终值为：重复2N次上述步骤，我们得到一组对齐的相邻特征图{ $F^{l}_{t-N},...,F^{l}_{t-1},F^{l}_{t+1},...,F^{l}_{t+N}$ }。我们以 $I_{t}^{L}$ 为输入进行自聚合去产生 $\overline F_t^0$ 。将这些特征图通过卷积和PixelShuffle操作融合成一个双空间大小的特征图，以保持亚像素细节。
在这里插入图片描述

跨尺度的非局部对应聚合模型

我们使用 $M_t^s$ 代表t时刻的特征图。我们对特征图进行下采样得到一个特征金字塔：
在这里插入图片描述其中 $A v g P o o l$ 是步长为2的平均池化。在 $M_t^0$ 中给定一个以 $p_t$ 为中心的补丁 $m_t^0$ ，我们在其他三个尺度上进行非局部搜索：其中， $\tilde m^s_t$ 代表对于 $m_t^0$ 最邻近的补丁。在合并之前，利用自我注意模块来确定信息是否有用。最终， $\overline m_t^0$ 被计算为：在这里插入图片描述其中 $A t t$ 是注意力单元，Aggr是卷积层。

在这里插入图片描述

边缘感知损失

VSR方法重建的高分辨率图像往往是由锯齿状边缘提取的。为了减轻这个问题，我们提出了一种边缘感知的损失，以产生更好的再生边缘。首先利用边缘检测器提取地面真实HR图像的边缘信息。然后对检测到的边缘区域进行加权，使得网络在学习过程中更加重视这些区域。
本文选用拉普拉斯变换作为边缘检测器。给定地面真实信息 $I^H_t$ ，由探测器得到边缘映射 $I^E_t$ ，在 $p_t$ 处的二进制掩码值表示为：在这里插入图片描述其中 $\delta$ 是阈值。训练时，我们采用Charbonnier损失，定义为：其中 $\hat I^H_t$ 是预测的HR结果， $\epsilon$ 是常量。最终的损失定义为：其中○代表的是元素相乘。

经验

数据集

REDS共有300个视频序列。我们将数据分成新的训练（266个序列）和测试（4个序列）数据集。新的测试部件包含000，011，015和020序列。
Vimeo-90K中训练和测试分别包含64612和7824个视频序列。
在我们的实验中，峰值信噪比（PSNR）和结构相似性指数（SSIM）被用作衡量指标。

实施细节

网络以5（或7）个连续帧作为输入。在特征提取和重建模块中，分别使用5个和40个（7帧为20个）残差块，通道数量为128。在图3中，补丁大小为3，最大位移从低到高设置为{3，5，7}，K值设置为4。在跨尺度聚合模块中，我们将补丁大小设为1，并融合来自4个尺度的信息。
培训我们使用8个NVIDIA GeForce GTX 1080Ti GPU来训练我们的网络，每个GPU的小批量大小为3。训练需要对所有数据集进行6000k次迭代。我们使用Adam作为优化器，使用学习速率衰减策略且初始值为 $4 e - 4$ 。对输入图像进行随机裁剪、翻转和旋转增强。裁剪尺寸为64 x 64，对应输出尺寸256 x 256。旋转选择为90 ℃或 $- 90 ℃$ 。在计算边缘感知损耗时，我们将 $\delta$ 和 $\lambda$ 都设置为0.1。测试集评估时不使用边界剪裁。