ICCV 2023 | A equipe de Nankai Cheng Mingming propôs um novo mecanismo de atenção para tarefas de super-resolução de imagens

guia

TL;DR : Este artigo propõe uma nova permutação de auto-atenção ( PSA) para tarefas de super-resolução de imagem , que pode lidar com a auto-atenção de grandes janelas enquanto mantém o custo computacional baixo , e PSAconstrói uma nova super-resolução baseada em A rede de resolução, SRFormer, alcança desempenho de ponta em vários benchmarks.

Primeiro introduza brevemente o conhecimento básico da super-resolução de imagem (SR). SR é uma tarefa importante na visão computacional, o objetivo é restaurar uma versão de alta qualidade de uma imagem de baixa resolução. Nos primeiros dias, o método CNNsprincipal dominou o campo de SR, usando aprendizado residual, conexões densas ou atenção canalizada para construir estruturas de rede. No entanto, estudos recentes mostraram que os Transformermodelos baseados apresentam melhor desempenho em tarefas de SR.Um exemplo típico é o SwinIR , que utiliza técnicas que melhoram muito o desempenho do modelo Swin Transformerem vários benchmarks . SR[Na verdade, o desempenho de tarefas visuais depende principalmente da rede de backbone pré-treinada]

No entanto, esses modelos baseados no Transformer trazem uma carga computacional correspondente enquanto aumentam o tamanho da janela para otimizar o desempenho. Isso levanta a questão: " O que acontece se aumentarmos o tamanho da janela enquanto reduzimos o número de canais? "

Visando este problema, este artigo propõe um novo método, ou seja, a autoatenção por permutação. O objetivo do projeto do PSA é estabelecer relações pares eficientes dentro de grandes janelas (por exemplo, 24x24) sem adicionar carga computacional adicional. Para tanto, os autores reduzem a dimensão do canal nas matrizes chave e valor ( compressão ), e empregam uma operação de permutação que transfere parte da informação espacial para a dimensão do canal ( permutação ). Essa abordagem não perde informações espaciais mesmo com canais reduzidos, e cada cabeça de atenção pode manter um número apropriado de canais para produzir mapas de atenção expressivos.

Finalmente, com base no PSA, o artigo finalmente constrói uma nova rede SR, chamada SR , e a avalia SRFormerem cinco conjuntos de dados amplamente utilizados . SRFormerOs resultados mostram SRFormermelhor desempenho em quase todos os conjuntos de dados. Especialmente na tarefa de super-resolução de 2 vezes, a pontuação de 33,86 foi obtida no conjunto de dados apenas com o treinamento do conjunto de dados DIV2K, que é superior aos resultados do modelo SOTA (33,40) e ELAN (33,44).SRFormerUrban100PSNRSwinIR

método

Conforme mostra a figura acima, a arquitetura do SRFormer é dividida em três partes:

  1. Camada de incorporação de pixels : converta imagens RGB de baixa resolução em incorporações de recursos, que são alimentadas em codificadores de recursos para processamento.
  2. Codificador de recursos : contém N grupos de auto-atenção permutados, cada grupo consiste em M PABs e uma camada convolucional 3 × 3.
  3. Camada de reconstrução de imagem de alta resolução : Finalmente, a saída do codificador de recursos e o resíduo da incorporação de recursos serão enviados para a camada de reconstrução de imagem de alta resolução para obter uma imagem de alta resolução.

此处,排列自注意块(PAB)是整个模型的核心,它包含了置换注意力层(PSA)和卷积前馈网络(ConvFFN)。这里我们可以简单看下 PSA 和常规的 MHSA 的区别:

PSA 层的主要思想是,它将输入特征图划分成 N 个非重叠的方块窗口,然后通过三个线性层得到 Q,K,V 三组值。这里的 Q Q 保持与输入 X x 同样的通道维度,而 K k V V 的通道维度被压缩。随后,作者提出了一种将空间信息排列到通道维度的方法,使得每个注意力头能生成更具表现力的注意力图。最后,利用 Q Q K p K_{p} V p V_{p} 来进行自注意力操作。

ConvFFN 则是一个辅助部分,它在自注意之后添加一个 3x3 卷积层以恢复高频信息。作者发现,这样的操作几乎不增加计算量,但能够补偿自注意操作过程中造成的高频信息的损失。

此外,文中还介绍了两种基于大窗口自注意力的变体,一种是减少 token 的数量,另一种是对 token 进行随机采样。尽管这两种方法都可以在保持计算成本不变的前提下实现大窗口自注意力,但是它们都有一些缺点,例如,token 采样会丢失图像的结构信息,这对于图像超分辨率来说影响还是蛮大滴。

实验

消融实验

:::block-1

PSA 提供了一种有效且高效的方法来增大窗口大小。为了研究不同窗口大小对模型性能的影响,文中进行了三组实验:

  • 第一组实验是 vanilla SwinIR 模型,窗口大小为 8 × 8,12 × 12,和 16 × 16。
  • 第二组实验是不使用 ConvFFN,只在 SRFormer 中使用 PSA,窗口大小设置为 12 × 12,16 × 16,和 24 × 24,以观察性能差异。
  • 第三组实验使用完整的 SRFormer,并设置窗口大小为 12×12,16×16,和 24×24,以探索性能的变化。

结果表明,对于所有三组实验,更大的窗口大小都会带来更好的性能提升。此外,使用24 × 24窗口的 SRFormer 参数和 MACs(乘法和累加运算)甚至比使用 8 × 8 窗口的原始 SwinIR 还要少。为了平衡性能和 MACs,他们将 SRFormer 的窗口大小设置为 24 × 24,而 SRFormer-light 的窗口大小设置为 16 × 16。

:::

:::block-1

如上所述,我们提到文中在每个块的最后添加了 ConvFFN,其目的是在不增加过多计算量的情况下编码更多的局部信息。为了探索哪种内核大小可以带来最好的性能提升,论文尝试使用 3×3 深度卷积和 5×5 深度卷积。由于深度卷积对参数数量和MACs(乘法和累加运算)的影响很小,因此在表中并未列出。显然,5 × 5深度卷积带来了最好的结果。因此,SRFormer 中使用 5 × 5 深度卷积。

:::

:::block-1

尽管 token 减少可以在使用大窗口时略微提高 SwinIR 的性能,但参数数量并未减少,且性能增益低于本文方法。作者认为,这是因为直接对键和值应用下采样操作会导致空间信息的丢失。对于 token 采样,其性能甚至比原始的 SwinIR 还要差,这大概率是因为丢弃一些 token 严重破坏了原始图像内容结构。

:::

Quantitative comparison

:::block-1

表4中展示了针对经典图像超分辨率(SR)方法的量化比较结果。为了公平比较,SRFormer 的参数数量和 MACs(Multiply-Accumulate操作)都低于SwinIR。结果清晰地显示出,SRFormer 在几乎所有的五个基准数据集上的所有尺度因子中都实现了最佳性能。因为在大窗口内计算自注意力可以聚合更大区域的信息,所以 SRFormer 在高分辨率测试集上的表现更好。特别是,对于使用DIV2K进行的2倍SR训练,SRFormer在Urban100数据集上实现了33.86dB的PSNR分数,这比SwinIR高了0.46dB,但使用的参数和计算更少。当引入SRFormer+ 的集成策略时,性能提升更大。

:::

Qualitative comparison

:::block-1

从上图第一个例子中,可以清楚地看到,SRFormer 能够恢复清晰且细节丰富的纹理和边缘。相比之下,其他模型恢复的纹理模糊或质量较低。对于第二个例子,SRFormer 是唯一能清晰恢复每个字母的模型。这些定性比较显示出,本文方法可以有效地从低分辨率图像中恢复出更好的高分辨率图像。

:::

总结

本文提出了一种新颖且高效的单图像超分辨率模型SRFormer,其核心是一个新的自注意力机制——PSA。PSA 能够在大窗口内有效地构建配对关联,而不会引入过多的计算成本,使得更多的 token 能参与自注意力计算。此外,SRFormer引入 ConvFFN 的模块,通过添加一个局部深度卷积分支来增强模型对高频信息的捕获能力。实验证明,SRFormer 在多个基准数据集上均优于现有技术,并且在参数数量和计算成本方面也表现出了优越性。

写在最后

如果有对深度学习在Low-level的应用研究感兴趣的童鞋,非常欢迎扫描屏幕下方二维码或者直接搜索微信号 cv_huber 添加小编好友,备注:学校/公司-研究方向-昵称,与更多小伙伴一起交流学习!

Acho que você gosta

Origin juejin.im/post/7266299564345245715
Recomendado
Clasificación