超分论文笔记之纹理迁移2019-2020CVPR：Image SRby Neural Texture Transfer -Learning Texture Transformer Network

1.1 总结

使用RefS方法，当参考图像很相似时，超分的结果还不错。但是参考图像对超分结果影响很大，特别是当参考图像相似性比较低时，效果不佳。作者通过纹理细节，根据纹理相似性做超分的方法，让RefSR方法受参考图像的相似性影响比较少。相比以往在输入做match,作者在多个level做match,利用多尺度神经迁移，模型能够从具有语义相关性的Ref patches获益更多，在输入的ref image只有小相关时，性能降低不会太严重。
在作者的设置里，Ref images并不需要对齐良好或者内容相似，作者只打算将语义相关的纹理从Ref图像传输到输出SR图像。作者提出了SRNTT,在特征空间做局部纹理的匹配，并将匹配的纹理迁移到输出。纹理传递模型学习了LR和Ref纹理之间复杂的依赖关系，并利用相似的纹理抑制不相似的纹理。
同时作者还提出了一个数据集CUFED5，这个数据集对于参考的提供了不同的相似度的参考图片。

1.2 方法

SRNTT的问题设置时，从对应的 $I^{LR}$ 和 $I^{Ref}$ 得到 $I^{SR}$ 。
SRNTT的主要思想是在特征空间从 $I^{Ref}$ 找到匹配特征，然后用multi-scale的方式做特征迁移。特征迁移考虑了语义（高层）和纹理（底层）相似性。然后对 $I^{SR}$ 和 $I^{Ref}$ 纹理一致性做了正则化。
SRNTT

1.2.1 Feature Swapping

对整个 $I^{Ref}$ 搜索局部相似纹理，使用的是HR空间坐标可用于后续的转换。所以先将 $I^{LR}$ 上采样到 $I^{LR\uparrow}$ ，对于 $I^{Ref}$ ，先降采样再上采样，得到和 $I^{Ref \downarrow\uparrow}$ ，得到和 $I^{LR\uparrow}$ 一样的频率带。再神经特征空间 $\Phi(I)$ 做相似性匹配，强调了纹理和结构的匹配。使用内积衡量相似性，所以有
$s_{i,j} = < P_i(\Phi(I^{LR\uparrow})),\frac{P_j(\Phi(I^{Ref \downarrow \uparrow}))}{||P_j(\Phi(I^{Ref \downarrow \uparrow}))||}>$
$P_i(\cdot)$ 表示从neural feature map采样第i个patch。所以对于所有LR patches到每一个Ref patch，有
$S_j = \Phi(I^{LR\uparrow})* \frac{P_j(\Phi(I^{Ref \downarrow \uparrow}))}{||P_j(\Phi(I^{Ref \downarrow \uparrow}))||}$
基于相似性score,构建一个swapped feature map $M$ ， $M$ 中每个 $(x, y)$ 点表示为： $P_{\omega(x,y)}(M) = P_j*(\Phi(I^{Ref})), j^{*} = argmax_j S_j(x,y)$
$\omega(x,y)$ 表示每个patch的中心点

1.2.2 Neural Texture Transfer

如图的蓝色模块。将上面得到的特征融进generative网络对应不同大小的特征层。使用residual blocks和skip connections构建生成网络,第 $l$ 层的输出
$\psi_l[Res(\psi_{l-1}||M_{l-1}) + \psi_{l-1}]\uparrow_{2\times}$
$∣ ∣$ 表示channel-wise concate。
最后的超分图像
$I^{SR} = Res(\psi_{L-1}||M_{L-1}) + \psi_{L-1}$
在这里插入图片描述于为了让网络考虑进 $I^{SR}$ 和 $I^{Ref}$ 纹理差异，定义了一个纹理loss
$L_{tex} = \sum_l \lambda_l||Gr(\phi_l(I^{SR})\cdot S_{l}^*) - Gr(M_l \cdot S_l^*)||_F$
$Gr(\cdot)$ 是Gram matrix， $S_l^*$ 是weighting map

1.1.3 Training Object

preserve the spatial structure of the LR image
improve the visual quality of the SR image
take advantage of the rich texture from Ref images
Reconstruction loss
$L_{rec} = ||I^{HR} - I^{SR}||_1$
Perceptual loss
$L_{per} = \frac{1}{V} \sum_1^C ||\phi_i(I^{HR})-\phi_i(I^{SR})||_F$
Adversarial loss
作者是采用WGAN-GP
$L_{adv} = -E_{\hat x \sim P_g}[D(\hat x)]$
$min_G max_{D \in \mathcal{D}}E_{x \sim P_r}[D(x)] - E_{\hat x \sim g}[D(\hat x)]$
$\mathcal{D}$ 是1-Lipschitz函数， $P_r$ , $P_g$ 模型分布和真实分布

2.Learning Texture Transformer Network for Image Super-Resolution

2.1 总结

现有的SR方法忽略了使用注意机制做纹理迁移。作者提出一个TTSR(Texture Transformer Network)
之前的方法：
Zheng 采用基于光流的方法会迁移不准确纹理
Zhang 的方法使用一个pre-trained的特征空间，但是太高层的语义特征不能有效表示HR的纹理信息。
所以作者提出了一个新的框架，包含了四个模块。
一个可学习的纹理提取器，在训练过程中会得到更新。这样的设计实现了LR和REF图像的联合特征嵌入，这为应用注意机制创造了坚实的基础。
一个关联嵌入模块，计算LR和Ref图片的关联性。将LR和Ref 图片当作transformer里面的query和key.
最后一个hard-attention模块和一个soft-attention没款，迁移和融合从Ref 图片得到的HR特征到LR特征。
作者还提出了纹理变换器的跨尺度特征集成模块。特征可以跨不同的尺度（例如从1×到4×）学习特征，得到更强的特征表示。

扫描二维码关注公众号，回复： 12624043 查看本文章

2.2 方法

TTSR

2.2.1 Texture Transformer

包括了

learnable texture extractor (LTE)
relevance embedding module (RE)
hard-attention module for fea- ture transfer (HA)
soft-attention module for feature synthesis (SA)

Learnable Texture Extractor
作者设计了一个可学习的纹理提取器，得到了 $Q, K, V$ ， $Q$ (query)， $K$ (key), $V$ (value)是transformer里面注意机制的三个基础模块
Relevance Embedding
相关嵌入的目的是通过估计Q和K之间的相似性来嵌入LR和Ref图像之间的相关性，将 $Q$ 和 $K$ 张开成K patch，记成 $q_i(i\in[1, H_{LR} \times W_{LR}]), k_j$ ，对于每个patch计算相关性
$r_{i,j} = <\frac{q_i}{||q_i||},\frac{k_j}{||k_j||}>$
Hard-Attention
使用一个hard-attention模块从Ref image迁移HR纹理特征V。传统的注意机制对每个查询 $q_i$ 取一个 $V$ 的加权和。但是这种会产生模糊的效果。
计算一个hard-attention map H，对于 $h_i(i \in [1, H_{LR}\times W_{LR}])$ ， $h_i = argmin_j r_{i,j}$
$h_i$ 表示Ref图片里面和LR图片里面第i个patch最相关的部分。为了从Ref image里面获取迁移到的HR纹理特征T，使用硬注意图作为索引，对V的展开面片进行索引选择操作 $t_i = v_{h_i}$ , $t_i$ 表示 $T$ 在第 $i$ 个位置到值。从 $V$ 的第 $h_i$ 个位置选择。
Soft-Attention
使用soft-attention合成迁移的HR纹理特征 $T$ 和从LR图片提取的特征 $F$ 。在合成过程中在合成过程中，应加强相关的纹理转移，而应保留不太相关的纹理转移。soft-attention map $S$ 是从 $r_{i,j}$ 计算得到的，表示transferred texure features的自信度 $s_i = max_j r_{i,j}$
$s_i$ 表示soft-attenton map的第 $i$ 个位置的值。先将 $F$ h和 $T$ 融合提取更多的特征，再让融合特征和 $S$ element-wisely相乘并加到 $F$ 上面。得到最终的输出。 $F_{out} = F + Conv(Concat(F,T))⊙S$

2.2.2 Cross-Scale Feature Integration

在这里插入图片描述
作者设计了一个cross-scale feature integration module(CSFI)去交换不同scale的特征，应用于每次要上采样到下个scale。通过接受上采样或者下采样得到的特征，然后再channel维度加一个concat操作，然后卷积层将特征映射到原始通道数。

2.2.3 Loss Function

$L_{overall} = \lambda_{rec}L_{rec} + \lambda_{adv}L_{adv} + \lambda_{per}L_{per}$

Reconstruction loss
$L_{rec} = \frac{1}{CHW}||I^{HR} - I^{SR}||_1$
在作者的实验中， $L_1$ 收敛比 $L_2$ 快
Adversarial loss
Perceptual loss
$L_{per} = \frac{1}{C_i H_i W_i}||\phi_i^{vgg}(I^{SR}) - \phi_i^{vgg}(I^{HR})||_2^2 +\frac{1}{C_i H_i W_i}||\phi_j^{lte}(I^{SR}) -T||_2^2$
第一项是传统的计算方法。第二项是transferalperceptual loss。 $\phi_j^{lte}(\cdot)$ 表示LTE第 $j$ 层的特征， $T$ 是迁移的HR纹理特征。这项约束预测的嘲讽图片和迁移纹理特征有相似的特征。