ICCV 2023 | デュアル集約トランスフォーマーを使用した画像の超解像度

はじめに
この記事では、画像超解像度 (SR) タスクに画像空間とチャネル機能の両方を利用する Transformer モデル DAT (Dual Aggregation Transformer) を提案します。DAT は、ブロック間およびブロック内で二重の方法で空間次元とチャネル次元の両方で特徴の集約を実現するため、強力な画像表現機能を備えています。具体的には、DAT は、連続する Transformer ブロックに空間セルフアテンションとチャネル セルフアテンションを交互に適用して、ブロック間の集約を実現します。同時に、この記事では、ブロック内機能集約を実現するためのアダプティブ インタラクション モジュール (AIM) と空間ゲート フィードフォワード ネットワーク (SGFN) も提案します。AIM は空間とチャネルに基づいた既存のアテンション メカニズムを改善し、SGFN はフィードフォワード ネットワークに非線形空間情報を導入します。実験により、DAT が現在最も高度な画像超解像性能を達成していることが証明されています。

論文リンク: https://arxiv.org/abs/2308.03364
コードリンク: https://github.com/zhengchen1999/DAT

01. リサーチクエスチョン

画像超解像度 (略して Image SR) は、画像の詳細と鮮明さを向上させることにより、低解像度 (LR) 画像を高解像度 (HR) 画像に変換することを目的とした画像処理テクノロジーです。簡単に言えば、小さなサイズのぼやけた画像を大きなサイズの鮮明な画像に変換します。画像超解像技術は、ハイビジョンテレビ、監視カメラ、医療画像、衛星画像など、幅広い分野で実用化されています。現在、人工知能や機械学習の発展に伴い、ディープラーニング技術を用いた画像の超解像が主流となっています。

02. 方法の動機付け

現在、Transformer は SR タスクで良好なパフォーマンスを発揮します。その中心となるのは、グローバルな依存関係を確立できるセルフ アテンション (SA) メカニズムです。グローバルな関係の確立は、高解像度画像の再構成にとって特に重要です。ただし、グローバル SA の計算の複雑さは画像サイズの2 乗に比例するため、高解像度画像 (画像 SR では一般的) への適用が大幅に制限されます。この理由を考慮して、Transformer を効果的に活用するために、より効率的な SA を提案する研究者もいます。一般に、それは空間チャネルの2 つの側面に分けることができます。

  • 空間に関しては、グローバル SA の適用範囲を制限するためにローカル空間ウィンドウが提案され、ローカル ウィンドウ アテンション (Spatial-Window Self-Attention、SW-SA) が提案されています。図(a)に示すように、空間次元H × W を複数のウィンドウに分割し、各ウィンドウでアテンションを実行します。
  • チャネルに関しては、Channel-Wise Self-Attention (CW-SA) が提案されています。図 (b) に示すように、アテンションは チャネル ディメンションCに沿って 計算されます。つまり、ピクチャ内のそれぞれの独立したブロックがトークンとして使用されます。

写真 1. さまざまな自己注意メカニズムの概略図

これらの方法はすべて、計算の複雑さを軽減しながら優れたパフォーマンスを実現します。同時に、これら 2 つの方法は、画像の特徴をモデリングするための異なる (空間とチャネル) 次元 (  H × W × C  ) を目的としています。では、同時に 2 次元を考慮し、既存の手法に基づいて Transformer のモデリング機能をさらに向上させ、より優れた超解像性能を達成することはできるのでしょうか?

上記の発見に触発されて、私たちはデュアルブロック間およびブロック内手法を通じて空間機能とチャネル機能の効果的な融合を達成する DAT (Dual Aggregation Transformer) を提案しました。具体的には、連続する Transformer ブロックで SW-SA と CW-SA を交互に適用します。この交互の方法で、DAT は空間情報とチャネル情報を同時にキャプチャし、ブロック間の特徴集約を実現できます。同時に、ブロック内機能集約を実現するために、適応型インタラクション モジュール (AIM) と空間ゲート フィードフォワード ネットワーク (SGFN) も提案します。AIM は SW-SA および CW-SA モデリングを 1 次元で改善し、SGFN はフィードフォワード ネットワークに非線形空間情報を導入します。

全体として、私たちの貢献は次の 3 つの点に要約できます。

  • 新しい画像超解像度モデル、DAT が設計されました。このモデルは、ブロック間およびブロック内の両方の方法で空間およびチャネルの特徴を集約し、Transformer のモデリング機能を強化します。
  • 空間的セルフアテンションとチャネルセルフアテンションを交互に適用して、ブロック間の特徴集約を実現します。さらに、ブロック内特徴集約を実現するために、AIM および SGFN も提案されています。
  • 提案された DAT が、低い複雑さとモデル サイズを維持しながら、最先端の画像超解像度パフォーマンスを達成することを実証するために、広範な実験が行われました。

03. メソッドの紹介

このセクションでは、まず DAT のアーキテクチャを紹介します。続いて、適応相互作用モジュール (AIM) と空間ゲート フィードフォワード ネットワーク (SGFN) の 2 つのコンポーネントについて詳しく説明します。

3.1 モデルのアーキテクチャ

図 2. モデルのアーキテクチャ

前に述べたように、DAT では、SW-SA と CW-SA の両方のアテンション モジュールを交互に使用します。この組み合わせにより、フィーチャを 2 次元でモデル化し、それらの補完的な利点を活用できます。

  • SW-SA は空間コンテキストをモデル化し、各特徴マップの空間表現を強化します。
  • CW-SA は、チャネル間の依存関係をより適切に構築し、受容野を拡張できるため、SW-SA が空間特徴を捕捉するのに役立ちます。

したがって、空間情報とチャネル情報は連続する Transformer ブロック間を流れ、それによってブロック間の特徴の集約が実現されます。

3.2 アダプティブ インタラクション モジュール (AIM)

写真 3. アダプティブ インタラクション モジュール (AIM)

私たちが提案する AIM は、SW-SA および CW-SA をさらに改善します。まず、自己注意が主にグローバルな特徴を捕捉することを考慮して、自己注意モジュールと並行して畳み込みブランチを追加し、順番に局所性を Transformer に導入しました。次に、SW-SA と CW-SA を交互に実行することで、ブロック間の空間的およびチャネル特徴の集約は達成できますが、セルフアテンション (SA) ごとに、異なる次元の情報を有効に活用することはまだできないと考えられます。したがって、我々は、2 つのブランチ間で機能し、ブランチの種類に応じて空間次元またはチャネル次元からの特徴を適応的に再重み付けする AIM (灰色の陰影領域) を提案します。これにより、単一のアテンション モジュール集約で空間情報とチャネル情報を実現します。

上記の改善に基づいて、 SW-SA および CW-SA に基づく適応空間セルフアテンション(AS-SA) および適応チャネル セルフ アテンション (Adaptive Channel Self-Attendance) の改良版を提案します。

元の自己注意メカニズムと比較して、私たちの方法には次の特徴があります。

  • ローカル (畳み込み) とグローバル (アテンション) の結合の向上: 2 つのブランチの出力を適応的に調整して、相互に適応して融合できます。
  • 強力なモデリング機能: SW-SA の場合、相補的なチャネル情報によりチャネル モデリング機能が向上します。AC-SA の場合、空間相互作用を通じて追加の空間知識により特徴表現機能も強化されます。

3.3 スペースゲートフィードフォワードネットワーク (SGFN)

写真 4. スペース ゲート フィードフォワード ネットワーク (SGFN)

従来のフィードフォワード ネットワーク (FFN) は、線形層と非線形アクティベーションで構成されます。モデル化できるのはフィーチャー チャネルのみですが、モデリングの空間情報は無視されます。さらに、FFN は線形層を通じて特徴チャネルを内部で増幅するため、チャネル間に冗長性が生じ、特徴表現機能が妨げられます。

上記の問題を克服するために、我々は FFN に空間ゲート (SG) を導入する SGFN を提案しました。SG は、深さ方向の畳み込みと要素単位の乗算で構成される単純なゲート空メカニズムです。同時に、特徴マップをチャネル次元に沿って 2 つの部分に均等に分割し、それらをそれぞれ畳み込みバイパスと乗算バイパスに送信して、チャネルの冗長性を削減します。また、この操作により、計算の複雑さを効果的に軽減することもできます。

全体として、AIM と SGFN は、Transformer ブロックの 2 つの主要なコンポーネントです。これら 2 つのモジュールを通じて、ブロック内での機能の集約を実現します。

  • AIM は、チャネル次元から SW-SA を強化し、空間次元から CW-SA を強化します。
  • SGFN は、チャネル関係のみをモデル化する非線形空間情報を FFN に導入します。

04. 実験結果

アブレーション実験: 提案された各方法について詳細なアブレーション実験を実施し、方法の有効性を実証します。

図 5. アブレーション実験

定量的比較: サイズの異なる 2 つのモデル バリアント (DAT-S、DAT) を提案し、それらを 5 つのベンチマーク データ セットで現在の最先端の画像超解像手法と比較しました。以下の表に示すように、私たちの方法では最先端の結果が得られます。

図 6. 定量的比較。最適な結果は赤で色付けされ、次善の結果は赤で色付けされます。

視覚的な比較: 視覚的な比較結果を下の画像に示します。私たちの方法は、詳細な再構成において明らかな利点があることがわかります。

図 7. 視覚的な比較

モデル サイズ: モデル サイズ (Params)、複雑さ (FLOP)、およびパフォーマンスの包括的な比較も提供します。私たちのアプローチは、複雑さとモデルのサイズを低く維持しながら、パフォーマンスの向上を実現します。

図 8. モデルのサイズ

05. おわりに

本稿では画像超解像のためのTransformerモデルであるDAT(Dual Aggregation Transformer)を提案する。DAT は、ブロック間およびブロック内の両方の方法で空間およびチャネルの機能を集約し、強力なモデリング機能を実現します。具体的には、連続する Transformer ブロックが空間ウィンドウとチャネル セルフ アテンションを交互に適用し、ブロック間の空間次元とチャネル次元の特徴集約を実現します。さらに、この論文では、2 次元でブロック内特徴集約を実現し、それによって各 Transformer ブロックを強化するためのアダプティブ インタラクション モジュール (AIM) と空間ゲート フィードフォワード ネットワーク (SGFN) も提案します。AIM は、二次元からの自己注意メカニズムのモデリング能力を強化します。SGFN は、フィードフォワード ネットワークを非線形空間情報で補完します。実験により、DAT が現在最も高度な画像超解像性能を達成していることが証明されています。

著者: 陳正


  TechBeat 人工知能コミュニティについて

TechBeat (www.techbeat.net) は江門ベンチャーキャピタルと提携しており、世界的な中国の AI エリートが集まる成長コミュニティです。

私たちは、AI 人材向けによりプロフェッショナルなサービスとエクスペリエンスを作成し、彼らの学習と成長を加速し、それに伴っていきたいと考えています。

これが最先端の AI の知識を学ぶための高台、最新の作品を共有するための肥沃な場所、そして AI の進歩に向かうモンスターとアップグレードして戦うための拠点となることを楽しみにしています。

さらに詳しく紹介 >>中国の世界的な AI エリートが集まる学習と成長のコミュニティ TechBeat

おすすめ

転載: blog.csdn.net/hanseywho/article/details/132629230