CVPR 2023 | プラグアンドプレイ アテンション モジュール HAT: より多くの有用なピクセルをアクティブにして、低レベルのタスクを大幅に強化します。

この記事は、WeChat のパブリック アカウント CVHub で最初に公開されたものであり、私的転載や他のプラットフォームへの販売は固く禁じられており、違反者は責任を問われます。

タイトル: 画像超解像度トランスフォーマーでより多くのピクセルをアクティブにする
ペーパー: arxiv.org/pdf/2205.04…
コード: github.com/XPixelGroup…

ガイド

この論文では、深層学習技術と注意メカニズムを組み合わせることによって画像の超解像度タスクを改善するHybrid Attention Transformer (HAT)ことを目的とした という名前の方法を紹介します。

単一画像の超解像度 (SR) タスクは、コンピューター ビジョンおよび画像処理の分野における古典的な問題であり、その目標は、与えられた低解像度の入力から高解像度の画像を再構成することです。筆者はアテンション分析(アトリビューション分析)という手法を通じて、既存のTransformer手法では入力情報を活用する際に限られた空間範囲しか利用できないことを発見した。これは、現在のネットワークが Transformer の可能性を最大限に発揮していないことを意味します。

したがって、より多くの入力ピクセルをアクティブにしてより良い再構成結果を達成するために、この論文では新しいハイブリッド アテンション トランスフォーマー (HAT) 方法を構築します。この方法は、チャネル アテンション メカニズムとウィンドウ ベースのセルフ アテンションメカニズムを組み合わせ、グローバル統計と強力なローカル フィッティング機能を活用する際に、それらの補完的な利点を最大限に活用します。さらに、クロスウィンドウ情報をより適切に集約するために、著者らは、隣接するウィンドウ機能間の相互作用を強化するオーバーラップクロスアテンションモジュールを導入しています。トレーニング段階では、モデルの可能性をさらに活用してパフォーマンスを向上させるために、同じタスクの事前トレーニング戦略も採用されます。

最後に、広範な実験により、提案された方法の有効性が実証され、モデルをスケールアップすることによってタスクのパフォーマンスが大幅に向上することがさらに実証されました。全体として、提案された方法は、現在の最先端の方法よりもパフォーマンスが 1dB 以上大幅に優れています。

モチベーション

まずは、分析してみましょうSwin Transformer画像の超解像度タスクでは優れたパフォーマンスを発揮しますが、多くの場合、CNN ベースの手法と比較してどのような利点があるかは明らかではありません。この手法がどのように機能するかを明らかにするために、研究者らはLAM(Localization-Aware Mapping)SR タスクに Attribution Analysis と呼ばれる診断ツールを使用しました。

LAM は、どの入力ピクセルが再構成に最も寄与しているかを示すことができます。LAM の分析を通じて、SwinIR (Transformer に基づく手法) は、利用される情報の範囲において CNN に基づく手法 (RCAN など) に比べて広くないことがわかります。これは常識に矛盾しますが、著者にさらなる啓示ももたらします。

まず、SwinIR は CNN よりも強力なマッピング能力を備えているため、より少ない情報でより優れたパフォーマンスを達成できることがわかります。第 2 に、利用されるピクセルの範囲が限られているため、SwinIR は間違ったテクスチャを復元する可能性があるため、より多くの入力ピクセルを利用できればパフォーマンスがさらに向上する可能性があります。したがって、研究者らは、再構成のためにより多くのピクセルをアクティブにしながら、同様の自己注意メカニズムを利用するネットワークを設計することを目指しました。彼らの HAT ネットワークはグラフ内の画像のほぼ全体を認識し、正確かつ鮮明なテクスチャを復元できます。

此外,通过上图我们可以观察到 SwinIR 的中间特征存在明显的阻塞伪影(blocking artifacts)。这些伪影是由窗口划分机制引起的,这表明移动窗口机制在建立窗口间的连接上效率较低。一些用于高层次视觉任务的研究也指出,增强窗口之间的连接可以改善基于窗口的自注意力方法。因此,当设计本文方法时,作者特意加强了窗口间的信息交互,从而显著减轻了 HAT 所得到的中间特征中的阻塞伪影。

方法

Framework

如上图所示,整体网络由三个部分组成,包括浅层特征提取深层特征提取图像重建。这种架构设计在之前的研究中得到了广泛应用。具体而言,对于给定的低分辨率(LR)输入,首先利用一个卷积层提取浅层特征。然后,采用一系列残差混合注意力组(RHAG)和一个3×3的卷积层进行深层特征提取。在此之后,图中添加了一个全局残差连接,将浅层特征和深层特征融合起来,然后通过重建模块重建高分辨率结果。

此外,每个 RHAG 包含多个混合注意力块(HAB),一个重叠的交叉注意力块(OCAB)和一个带有残差连接的3×3卷积层。对于重建模块,采用像素洗牌(pixel-shuffle)方法来上采样融合的特征。同样地,本文中简单地使用 L1 损失来优化网络参数。

Hybrid Attention Block (HAB)

HAB 用于结合不同类型的注意力机制来激活更多的像素,以实现更好的重建效果。该模块由两个关键组成部分组成:窗口自注意力机制(Window-based Self-Attention)和通道注意力机制(Channel Attention)。

在 HAB 模块中,首先将输入特征进行归一化处理,然后利用窗口自注意力机制对特征进行处理。窗口自注意力机制将输入特征划分为局部窗口,并在每个窗口内计算自注意力。这样可以捕捉到局部区域的关联信息。接下来,通过通道注意力机制,全局信息被引入,用于计算通道注意力权重。通道注意力机制能够利用全局信息对特征进行加权,从而激活更多的像素。

HAB 模块的输出是窗口自注意力机制和通道注意力机制的加权和,并通过残差连接与输入特征相加。这种设计使得网络能够同时利用局部和全局信息,从而实现更好的重建效果。

Overlapping Cross-Attention Block (OCAB)

Overlapping Cross-Attention Block (OCAB) 模块则通过引入重叠交叉注意力层,在窗口自注意力中建立了窗口之间的交叉连接,以增强网络的表征能力。该模块的设计可以更好地利用窗口内部的像素信息进行查询,从而提高重建任务的性能。

The Same-task Pre-training

预训练在高级视觉任务中已经证明是有效的,而最近的研究也表明它对低级视觉任务有益处。有些方法强调使用多个低级任务进行预训练,例如去噪、去雨、超分辨率等,而另一些方法则利用了特定任务的不同降级水平进行预训练。然而,与这些方法不同的是,本研究直接在一个更大规模的数据集(如ImageNet)上使用相同任务进行预训练,结果显示预训练的有效性更多地取决于数据的规模和多样性。例如,在进行×4超分辨率模型训练时,首先在ImageNet上训练一个×4超分辨率模型,然后在特定数据集(如DF2K)上进行微调。这种相同任务预训练的策略更加简单,但却能够带来更好的性能提升。

不过大家需要注意的是,预训练的有效性取决于充分的训练迭代次数以及在微调阶段采用适当的小学习率,这是非常重要的。Transformer 模型需要更多的数据和迭代次数来学习任务的通用知识,但在微调时需要小的学习率以避免对特定数据集的过拟合。因此,预训练阶段需要足够的时间和数据来学习通用特征,而微调阶段则需要细致调整以适应特定任务的要求。

实验

正如我们上面所讨论的,激活更多的输入像素有助于实现更好的超分辨率性能。扩大窗口尺寸是实现这一目标的直观方法。在先前的一些相关工作中,有人研究了不同窗口尺寸的影响。然而,这些实验是基于移位交叉局部注意力的,并且只探索了最大为12×12的窗口尺寸。

本文进一步探究了自注意力的窗口尺寸如何影响表示能力。为了消除新引入的模块的影响,作者直接在SwinIR上进行以下实验。如表1所示,窗口尺寸为16×16的模型在性能上表现更好,尤其是在Urban100数据集上。此外,本文还在图6中提供了定性比较。对于标记为红色的补丁区域,窗口尺寸为16的模型利用了比窗口尺寸为8的模型更多的输入像素。重建结果的定量性能也证明了大窗口尺寸的有效性。基于这个结论,作者将窗口尺寸16直接作为默认设置。

从表6中可以看出,通过比较HAT和HAT†的性能,我们可以看到HAT可以极大地受益于预训练策略。为了展示所提出的同任务预训练的优越性,作者还将多相关任务预训练方法应用于HAT进行比较,并在完整的ImageNet数据集上使用与相同的训练设置,实验做得还是蛮充分的。

总结

本文提出了一种名为 HAT 的新型超分辨率 Transformer 方法,通过结合不同类型的注意力机制和大规模数据预训练,实现了更好的图像重建效果。该方法在实验证明了其在超分辨率任务中的优越性能,并超过了当前最先进方法。这项研究拓展了Transformer在计算机视觉任务中的应用,并提供了一种改进低级视觉任务的方法。


CVHub はコンピュータビジョン分野を中心とした高品質な知識共有プラットフォームであり、サイト全体の技術記事のオリジナル率は 99% に達し、包括的、多分野、詳細な最先端の AI 論文ソリューションを提供します。ソリューション、科学研究 | 技術 | 雇用のワンストップサービスを提供し、教師あり/半教師あり/教師なし/自己教師ありのさまざまな 2D/3D 検出/分類/セグメンテーション/トラッキング/ポーズ/超解像・再構成などのフルスタック分野や最新のAIGCなどの生成モデル。WeChat パブリック アカウントに注目し、リアルタイムの学術的および技術的なインタラクティブな交流への参加を歓迎し、履歴書の学習を受け取り、国内外の大手企業の学校採用およびソーシャル リクルーティングに関する最新情報を購読してください。

おすすめ

転載: juejin.im/post/7240789855139053627
おすすめ