軽量画像超解像度のためのオムニ アグリゲーション ネットワーク [軽量画像超解像度のための完全集約ネットワーク]

論文アドレス: https://openaccess.thecvf.com/content/CVPR2023/html/Wang_Omni_Aggregation_Networks_for_Lightweight_Image_Super-Resolution_CVPR_2023_paper.html
コード実装: https://github.com/francis0625/omni-sr

概要

軽量の ViT フレームワークは画像の超解像度において大きな進歩を遂げましたが、その一次元のセルフアテンション モデリングと均一な集約スキームにより、有効受容野 (ERF) が制限され、空間次元およびチャネル次元からのより多くの情報が含まれるようになります。これらの欠点に対処するために、この研究では新しい Omni-SR アーキテクチャの下で 2 つの強化されたコンポーネントを提案しています。まず、高密度相互作用原理に基づいてオムニ セルフ アテンション (OSA) ブロックが提案されます。このブロックは、空間次元とチャネル次元の両方からピクセルの相互作用を同時にモデル化し、全軸 (つまり、空間とチャネル) にわたる潜在的な相関関係をマイニングできます。OSA は、主流のウィンドウ分割戦略と組み合わせることで、魅力的な計算予算で優れたパフォーマンスを達成できます。第 2 に、浅いモデルにおける次善の ERF (すなわち、時期尚早な飽和) を軽減するマルチスケール相互作用スキームが提案されています。これにより、局所的な伝播とメソ/グローバル スケールの相互作用が促進され、フルスケールの集合的な構成要素が提示されます。広範な実験により、Omni-SR が軽量超解像度ベンチマークで記録的なパフォーマンスを達成することが示されています (例: 26.95dB@Urban100×4、792K パラメーターのみを使用)。

1. はじめに

画像の超解像度 (SR) は、劣化した低解像度 (LR) 入力から高解像度 (HR) 画像を復元することを目的とした長年の低レベルの問題です。最近、ビジュアル トランスフォーマー [14、51] (つまり、ViT ベース) に基づく SR フレームワーク [5、30] が登場し、パフォーマンスが大幅に向上しました。しかし、ほとんどの試み [30] は大規模な ViT ベースのモデルの改善に向けられていますが、軽量 ViT (通常、パラメータが 100 万未満) の開発は依然として困難を伴います。このペーパーの焦点は、軽量の ViT ベースのフレームワークの回復パフォーマンスを向上させることです。

軽量 ViT ベースのモデルの開発には 2 つの問題があります: 1) 1D 集約演算子 (つまり、空間のみ [30] またはチャネルのみ [59] ) はセルフアテンション演算子の可能性を最大限に制限します。現代のセルフアテンションは、通常、空間方向 (つまり、幅と高さ) の相互共分散を計算することによってピクセル間の相互作用を実現し、チャネル分離された方法でコンテキスト情報を交換します。この対話スキームは、チャネル情報の明示的な使用を無視します。しかし、最近の証拠[59]と私たちの実践は、チャネル次元の自己注意(つまり、空間的自己注意よりも計算的にコンパクト)が低レベルのタスクでも重要であることを示唆しています。2) 同種の集約スキーム (つまり、畳み込みや自己注意などの単一演算子の単純な階層的スタッキング) は、SR タスクで緊急に必要とされるマルチスケールのリッチ テクスチャ パターンを無視します。具体的には、1 人のオペレーターは 1 つのスケールの情報のみに敏感です [6, 12]。たとえば、自己注意力は長期的な情報には敏感ですが、ローカルな情報にはほとんど注意を払いません。さらに、同種のオペレーターのスタッキングは非効率であることが示されており、相互作用範囲が早期に飽和してしまいます [8]。これは次善の有効受容野として反映されます。軽量モデルでは、十分なレイヤーを積み重ねることができないため、上記の問題はさらに深刻になります。

上記の問題に対処し、より高いパフォーマンスを追求するために、この研究では、空間軸情報とチャネル軸情報の両方を利用する(つまり、インタラクションを 3D 空間に拡張する)全方向セルフアテンション (OSA) と呼ばれる新しい全次元特徴集約スキームを提案します。 、図 1 に示すように、高次の受容野情報を提供します。スカラー (重要な係数のセット) に基づくチャネル相互作用 [19] とは異なり、OSA は、計算空間/チャネル次元間の相互共分散行列をカスケードすることによって、包括的な情報の配布と相互作用を実現します。提案された OSA モジュールは、主流のセルフ アテンションのバリアント (Swin [34]、Halo [50] など) にプラグインすることができ、(通常のチャネル アテンション [19] と比較して) より細かい重要度のエンコーディングを提供します。コンテキスト集約機能が実現されました。さらに、オムニスケール集約グループ (略して OSAG) と呼ばれるマルチスケール階層集約ブロックが、さまざまなスケールでのテクスチャ パターンのカスタマイズされたエンコードを可能にすることが提案されています。具体的には、OSAG は、ローカル コンボリューション (ローカルな詳細用)、メソスケール セルフ アテンション (メソスケール パターン処理に焦点を当てる)、およびグローバル セルフ アテンション (グローバル コンテキスト理解を追求する) の 3 つのカスケード アグリゲーターを構築し、大規模な (つまり、ローカル/メソスケール/グローバル スケールを同時に)。同種の特徴抽出スキーム [27、30] と比較して、私たちの OSAG は、より高い情報エントロピーを備えた、より豊富な情報生成特徴をマイニングできます。上記の 2 つの設計を組み合わせて、Omni-SR と呼ばれる軽量超解像用の新しい ViT ベースのフレームワークを構築します。これは、魅力的なモデル サイズ (つまり 792K) を維持しながら、優れた復元パフォーマンスを示し、より広い相互作用範囲をカバーします。

私たちは、主流のオープンソース画像超解像度データセットに対して提案されたフレームワークについて広範な実験を実施し、定性的および定量的な評価を実施します。研究によると、私たちのフレームワークは軽量モデルスケールで最先端のパフォーマンスを達成しています(例:Urban100×4:26.95dB、manga109×4:31.50dB)。さらに重要なことは、既存の ViT ベースのスーパーソリューション フレームワークと比較して、私たちのフレームワークは優れた最適化特性 (収束速度、より滑らかな損失ランドスケープなど) を示し、これによりモデルに優れた堅牢性が与えられます。

2. 関連作品

画像の超解像度CNN は、画像 SR タスクで目覚ましい成功を収めています。SRCNN [13] は、CNN ネットワークを SR の分野に導入した最初の研究です。多くの方法 [25、48、66] は、ネットワークの収束を高速化し、再構成の品質を向上させるためにスキップ接続を採用しています。チャネル アテンション [66] も SR モデルの表現能力を高めるために提案されています。限られたコンピューティング リソースでより良い再構成品質を達成するために、いくつかの方法 [23、38、42、47] では軽量アーキテクチャ設計が検討されました。DRCN [26] は再帰操作を利用してパラメータの数を減らします。DRRN [47] は、トレーニングを高速化し、詳細品質を向上させるために、DRCN に加えてグローバルおよびローカルの残差学習を導入しています。CARN [1] は、残余ネットワークにカスケード メカニズムを採用しています。IMDN [22] は、より良い時間パフォーマンスをアーカイブするための有益なマルチ静的ブロックを提案しています。別の研究の方向性は、知識抽出 [15、17、65] やニューラル アーキテクチャ検索 [11] などのモデル圧縮技術を利用して計算コストを削減することです。最近、優れた性能を備えた一連のトランスベースの SR モデルが登場しました [5、8、30、37]。Chenet et al. [5] は、トランスフォーマー アーキテクチャを使用して、低レベルのコンピューター ビジョン タスク用の事前トレーニング済みモデルを開発しました。Swin-transformer [34] に基づいて、SwinIR [30] は SR タスクの最先端を更新する 3 段階のフレームワークを提案しています。最近、いくつかの研究 [5、29] では、SR パフォーマンスをさらに向上させるために ImageNet の事前トレーニング戦略が検討されています。

ライトビジュアルトランスフォーマー軽量のビジュアル トランスフォーマー [14、51] は、リソースに制約のあるデバイスにネットワークを適用する緊急の必要性があるため、広範囲の注目を集めています。同様の性能を持つ軽量 ViT を開発するために多くの試みが行われてきました [7、9、10、37、41、43、57、62]。一連のメソッドは、畳み込みと変換器を組み合わせてローカルおよびグローバル表現を学習することに重点を置いています。たとえば、LVT [57] は、低レベルの機能を強化するためにセルフアテンションに畳み込みを導入しています。MobileViT [41] は、畳み込みにおける行列乗算を変換層に置き換えて、グローバル表現を学習します。同様に、EdgeViTs [43] は、全空間インタラクションに情報交換ボトルネックを採用しています。畳み込みを視覚変換器として解釈するのとは異なり、LightViT [21] は、より良い集合情報への集合的な自己注意を提案しています。本研究では、軽量かつ正確な SR を実現するために ViT アーキテクチャを採用しています。

3. 方法論

3.1 超解像におけるアテンションの仕組み

合成パターンの分析と集約を支援するために、SR では 2 つの注意パラダイムが広く採用されています。

空間的注意空間的注意は、異方性の選択プロセスとみなすことができます。主な用途は、空間的自己注意 [37、51] と空間ゲート [10、58] です。図 2 に示すように、空間セルフアテンションは空間次元に沿った相互共分散を計算し、空間ゲートはチャネル分離マスクを生成します。どちらもチャネル間で情報を転送できません。

チャンネルの注意チャネルの再調整やチャネル間の転送パターンを実行するためのチャネル アテンションには、スカラー ベース [19] と共分散ベース [59] の 2 つのクラスがあります。図 2 に示すように、前者は一連の重要度スカラーを予測してさまざまなチャネルに重み付けを行い、後者は相互共分散行列を計算してチャネルの再重み付けと情報転送を同時に実現します。空間アテンションと比較して、チャネル アテンションは空間次元を等方的に処理するため、複雑さが大幅に軽減されますが、これにより集約精度も低下します。
ここに画像の説明を挿入

いくつかの試み [44, 55] では、空間的注意とチャネル的注意の両方が SR タスクに有益であり、それらの機能は補完的であるため、計算的にコンパクトな方法でそれらを統合することで表現力が大幅に向上し、大きな利点がもたらされることが実証されています。

3.2. 全方位セルフアテンションブロック

潜在変数に隠​​されたすべての相関関係をマイニングするために、オムニセルフアテンション (OSA) ブロックと呼ばれる新しい自己注意パラダイムを提案します。一次元処理のみを行う既存の自己注意パラダイム (例: 空間自己注意 [5, 37, 51]) とは異なり、OSA は空間コンテキストとチャネル コンテキストの両方を確立します。取得された 2D 関係は、特に軽量モデルの場合、非常に必要かつ有益です。一方で、ネットワークが深化するにつれて、重要な情報はさまざまなチャネルに分散され[19]、タイムリーな処理が重要になります。一方、空間的自己注意は共分散を計算するときにチャネル次元を利用しますが、チャネル間で情報を転送しません (セクション 3.1 を参照)。上記の状況を考慮して、私たちの OSA は空間情報と次元情報をコンパクトに転送することを目指しています。

提案されたOSAは、図3に示すように、逐次行列演算と回転を通じて空間方向とチャネル方向に対応するスコア行列を計算します。具体的には、X ∈ RHW×C が入力特徴を表すと仮定します。ここで、H と W は入力の幅と高さ、C はチャネルの数です。まず、X を線形射影によりクエリ行列、キー行列、値行列 Qs、Ks、Vs ∈ RHW×C に埋め込みます。クエリとキーワードの生成を計算して、サイズ RHW×HW の空間アテンション マップを取得します。次に、空間アテンションを実行して中間集計結果を取得します。リソースのオーバーヘッドを大幅に削減するために、ウィンドウ戦略がよく使用されることに注意してください。次の段階では、入力クエリとキー行列を回転して、転置されたクエリとキー行列 Qc、Kc ∈ RC × HW を取得します。また、値行列を回転して、後続のチャネル自己の値行列 VC ∈ RC X HW を取得します。注意。取得されたサイズ RC × C のチャネル アテンション マップは、チャネル関係をモデル化します。最後に、チャネル アテンション出力 Yc の逆回転により、最終的な集約 YOSA を取得します。OSA プロセス全体は次のとおりです。

ここに画像の説明を挿入

ここで、Wq、Wk、Wv はそれぞれクエリ、キーワード、値の線形射影行列を表します。Q'、K'、V' はチャネル セルフ アテンションの入力埋め込み行列で、フロントスペース セルフ アテンションから埋め込まれるか、Qs、Ks、Vs から直接コピーされます。R(・)は空間軸周りの回転操作を表し、R-1(・)は逆回転を表す。簡単にするために、一部の正規化係数は省略されています。特に、この設計は、2 つの行列演算 (つまり、空間/チャネル行列演算) の要素ごとの結果を統合して、全軸相互作用を可能にする説得力のある特性を示しています。私たちが提案する OSA パラダイムは、Swin [30, 34] アテンション ブロックを置き換えて、より少ないパラメーターでより高いパフォーマンスを達成できることに注意してください。チャネル セルフ アテンションのアテンション マップ サイズが小さいことから、提案された OSA は Swin のカスケード シフト ウィンドウ セルフ アテンション スキームと比較して計算量が少なくなります。

他の混合注意パラダイムとの議論。CBAM [55] や BAM [44] などの以前の混合チャネルおよび空間アテンションの作品とは対照的に、それらのスカラーベースのアテンションの重みは相対的な重要性のみを反映し、ピクセル間の情報交換がさらに行われないため、リレーショナル モデリング機能が制限されます。最近のいくつかの研究 [8] では、チャネルの注意と空間的自己の注意を組み合わせていますが、これらの試みはチャネルの再調整にスカラー重みを使用するだけであるのに対し、私たちの OSA パラダイムはチャネルの相互作用を可能にし、全軸性における潜在的な相関関係を掘り出すことができます。さまざまな注意パラダイムのパフォーマンスの比較については、セクション 4.4 を参照してください。

ここに画像の説明を挿入

3.3. 全方向性アグリゲーショングループ

提案されている OSA パラダイムを利用して、高性能でコンパクトなネットワークを構築する方法も重要なテーマです。ウィンドウベースのセルフアテンションの層状スタッキング (swin [30, 34] など) が主流になってきましたが、さまざまな研究により、ウィンドウベースのパラダイムは大規模なインタラクション、特に浅層ネットワークの場合には非常に非効率であることが判明しています。大規模な相互作用が快適な有効受容野を提供する可能性があり、これは画像復元パフォーマンスを向上させるために重要であることを指摘する価値があります [37]。残念ながら、直接的なグローバル相互作用はリソースの使用を妨げ、ローカル集約機能を低下させます。これらの点を考慮して、我々は、低い計算量で漸進的な受容野特徴集約を追求するオムニスケール集約グループ(略してOSAG)を提案します。図 3 に示すように、OSAG は主に、ローカル アグリゲーション、メソ アグリゲーション、およびグローバル アグリゲーションの 3 つのステージで構成されます。具体的には、チャネル アテンション [19] が導入されて、逆ボトルネック [18] が増強され、限られたオーバーヘッドでローカル パターン プロセスを完了します。提案された OSA パラダイムに基づいて、メソ情報とグローバル情報の相互作用と集約を担当する 2 つのインスタンス (つまり、Meso-OSA と Global-OSA) を導き出します。提案された全自己注意パラダイムはさまざまな目的に使用できることに注意してください。Meso-OSA は、重複しないパッチのセットでアテンションを実行します。これにより、Meso-OSA はメソスケール パターンの理解のみに焦点を当てることが制限されます。Global-OSA は、複雑な方法で複数の機能にわたってデータ ポイントをまばらにサンプリングし、魅力的なコストでグローバルな対話を実現する機能を提供します。

Meso-OSA と GlobalOSA の唯一の違いは、図 4 に示すように、ウィンドウ分割戦略です。メソスケール相互作用を実現するために、メソスケール OSA は入力フィーチャ X をサイズ P×P の重複しないブロックに分割します。

ここに画像の説明を挿入

3.4. ネットワークアーキテクチャ

全体的な構造オムニ セルフ アテンション パラダイムとオムニスケール アグリゲーション グループに基づいて、高性能画像超解像度のための軽量のオムニ SR フレームワークをさらに開発します。図 3 に示すように、Omni-SR は、浅い特徴抽出、深い特徴抽出、画像再構成の 3 つの部分で構成されます。具体的には、LR 入力 ILR ∈ RH×W×Cin が与えられた場合、まず 3×3 畳み込み HSF を使用して浅い特徴 X0 ∈ RH x W×C を次のように抽出します。

ここに画像の説明を挿入

ここで、Cin と C は入力フィーチャと浅いフィーチャのチャネル番号を示します。畳み込み層は、画像空間の入力を高次元の特徴空間に変換する簡単な方法を提供します。次に、K 個のスタックされたフルスケール アグロメレーション グループ (OSAG) と 3×3 畳み込み層 HCONV をカスケード方式で使用して、深い特徴 FDF を抽出します。このようなプロセスは次のように表現できます。

ここに画像の説明を挿入

ここで、HOSAGi は i 番目の OSAG、X1、X2 を表します。XKは中間関数を表す。[30] に従って、特徴の集約を改善するために、特徴抽出の最後に畳み込み層も使用します。最後に、浅い特徴と深い特徴を次のように集約します。

ここに画像の説明を挿入

このうち、HRec(・)は再構成モジュールを表す。詳細には、PixelShuffle [46] を使用して、融合された特徴をアップサンプリングします。

フルスケール アグリゲーション グループ (OSAG)図 3 に示すように、各 OSAG はローカル畳み込みブロック (LCB)、メソ OSA ブロック、グローバル OSA ブロック、および ESA ブロックで構成されます [27、33]。プロセス全体は次のように定式化できます。
ここに画像の説明を挿入

ここで、Xi−1 と Xi は i 番目の OSAG の入力特性と出力特性を示します。畳み込み層をマッピングした後、ウィンドウベースの自己注意のために Meso-OSB を挿入し、情報集約を改善するために受容野を拡大するために Global-OSB を挿入します。OSAG の最後では、畳み込み層と ESA ブロックを [27, 66] の後に保持します。

具体的には、LCB は、チャネル特徴を適応的に再重み付けするために、間に CA モジュール [24] を備えた点単位および深さ単位の畳み込みのスタックとして実装されます。このブロックは、ローカルのコンテキスト情報を集約し、ネットワークの訓練可能性を向上させることを目的としています [56]。次に、2 種類の OSA ブロック (Meso-OSA ブロックと Global OSA ブロック) を追跡して、異なる領域から相互作用を取得しました。さまざまなウィンドウ分割戦略に基づいて、Meso-OSA ブロックは内部ブロックの相互作用を追求しますが、Global OSA ブロックはグローバルな混合を目指します。OSA ブロックは、フィードフォワード ネットワーク (FFN) と LayerNorm [2] を備えた典型的な Transformer 設計に従います。唯一の違いは、原点セルフアテンション演算が私たちが提案する OSA オペレーターに置き換えられることです。FFN には Restormer [59] が提案した GDFN を採用する。これらの個人をシームレスに組み合わせることで、設計された OSAG は、特徴マップ内のマーカーの任意のペア間で情報を配布できます。[27, 33] で提案されている ESA モジュールを使用して、融合された特徴をさらに改良します。

最適化の目標以前の研究 [30、31、53、67] に従って、次のようにモデル予測と HR ラベル IHR の間の標準 L1 損失を最小限に抑えてモデルをトレーニングします。
ここに画像の説明を挿入

4.実験

4.1 実験のセットアップ

データセットとメトリクス以前の研究 [30、31、38、49、66] に続いて、DIV2K [49] および Flickr2K [49] がトレーニング データセットとして使用されます。公平な比較のために、DIV2K のみを使用したトレーニングと DF2K (DIV2K+Flickr2K) を使用したトレーニングの 2 つのトレーニング プロトコルを使用しました。DF2K でトレーニングされたモデルには小さな † が付いていることに注意してください。テストには、Set5 [4]、Set14 [60]、B100 [39]、Urban100 [20]、および Manga109 [40] の 5 つの標準ベンチマーク データセットを採用します。PSNR と SSIM [54] は、変換された YCbCr 空間の Y チャネル上の SR パフォーマンスを評価するために使用されます。

実装の詳細トレーニング中に、ランダムな水平反転と 90/270 度の回転でデータを強化します。LR 画像は、HR 画像のバイキュービック ダウンサンプリング [63] によって生成されます。OSAG 番号は 5 に設定され、ネットワーク全体のチャネル番号は 64 に設定されます。アテンション ヘッドの数とウィンドウ サイズは、メソスケール OSAB とグローバル OSAB の両方で 4 と 8 に設定されます。AdamW [36] オプティマイザーを使用して、バッチ サイズ 64 で 800K 反復でモデルをトレーニングします。初期学習率は 5×10−4 に設定され、200k 反復ごとに半分になります。各トレーニング バッチでは、サイズ 64×64 の LR パッチを入力としてランダムにトリミングします。私たちのメソッドは PyTorch [45] で実装されており、すべての実験は NVIDIA V100 GPU で実行されます。他のデータ拡張 (例: Mixup [61]、RGB チャネル シャッフル) やトレーニング スキル (例: 事前トレーニング [29]、コサイン学習スキーム [35]) は使用されないことに注意してください。アブレーション研究を調整することでモデルパラメータの一貫性を維持していることを指摘しておく必要があります。

4.2. SOTA SR手法との比較

Omni SR の有効性を評価するために、スケール ファクター 2/3/4 でモデルをいくつかの最先端の軽量 SR 手法と比較します。特に、以前の研究、VDSR [25]、CARN [1]、IMDN [22]、EDSR [31]、RFDN [32]、MemNet [48]、MAFFSRN [42]、LatticeNet [38]、RLFN [比較のために、ESRT [37]、および SwinIR [30] を参照してください。

定量的な結果表 1 では、さまざまな軽量手法が 5 つのベンチマーク データセットで定量的に比較されています。同様のモデルサイズにおいて、当社の Omni-SR は既存の方法よりも優れたパフォーマンスを発揮し、すべてのベンチマークにわたって大きな利点をもたらします。特に、提案された Omni-SR は、SwinIR [30] や ESRT [37] などの同様のパラメータを持つ他の変圧器アーキテクチャと比較して最高のパフォーマンスを達成します。この結果は、OSA によって導入された全軸 (つまり、空間 + チャネル) 相互作用がモデルのコンテキスト集約能力を効果的に向上させ、優れた SR パフォーマンスを保証できることを示しています。大規模なトレーニング データセット DF2K と組み合わせると、特に Urban100 でのパフォーマンスがさらに向上します。この現象は、Urban100 の画像に多くの同様のパッチがあり、OSAG によって導入された長期的な関係がディテールの回復に多大なメリットをもたらす可能性があるという事実に起因すると考えられます。さらに重要なのは、同様のパラメーターを使用すると、モデルは計算の複雑さを 28% 削減し (Omni SR: 36G FLOPs vs. SwinIR: 50G FLOPs@1280×720)、その有効性と効率性を示しています。

ここに画像の説明を挿入

視覚的な比較図 6 では、さまざまな軽量 SR 方式の 4 倍スケールでの視覚的な比較も示しています。Omni-SR によって構築された HR 画像にはよりきめの細かい詳細が含まれているのに対し、他の方法では複雑な領域にぼやけたエッジやアーティファクトが生成されることが観察できます。たとえば、最初の行では、モデルは壁の詳細なテクスチャを順調に復元できていますが、他のすべての方法は失敗しています。視覚化の結果は、提案された OSA パラダイムの有効性も検証します。OSA パラダイムは、より堅牢な再構築機能を実現するために全軸ピクセル インタラクション モデリングを実行できます。
ここに画像の説明を挿入

モデルのサイズとパフォーマンスの間の実験では、他の方法と公平に比較​​できるよう、OSAG の数を 5 に設定し、モデル サイズを約 800K にしました。また、OSAG 数 K を減らすことで、より小さいパラメーター サイズでのモデルのパフォーマンスも調査します。図 5(a) に示すように、OSAG の数を増やすと、K = 1 の場合と比較して安定したパフォーマンスの向上が得られます。図 5(b) では、さまざまな方法パラメータによる PSNR の比較を示します。Omni SR はさまざまな設定で最高の結果を達成し、その有効性と拡張性を示していることがわかります。

ここに画像の説明を挿入

4.3. 全方位的自己注意分析

このセクションでは、OSA の最適化特性を説明し、その基礎となるメカニズムをさらに明らかにします。Self-attention はバイアスが低い演算子であるため、最適化が困難になり、より多くのトレーニング時間が必要になります。この目的を達成するために、追加のチャネル インタラクションを導入してそれを軽減します。図7(a)では、空間的セルフ・アテンション、チャネル・セルフ・アテンション、および提案された全方向的セルフ・アテンションを含む、DIV2Kトレーニング・セット上のさまざまなセルフ・アテンション・パラダイムの損失曲線を示しています。OSA が非常に優れた収束速度を示していることがわかります。何より、終盤のパフォーマンスも大きく上回っていた。上記の現象は、当社の OSA が適切に最適化された優れた特性を備えていることを明確に示しています。さらに、チャネルのインタラクションがこれらの改善につながる理由を詳しく掘り下げます。我々は、上記の 3 つの計算プリミティブから構成されるネットワークの隠れ層特徴の正規化されたエントロピーを計算します [52]。エントロピーの結果を図 7(c) に示します。示されているように、すべての遠心性層で、OSA エンコードされた特徴はより高いエントロピーを示し、これは OSA エンコードされた特徴がより有益であることを示しています。さまざまなスケールからより多くの情報が得られるため、オペレーターは正確な詳細をより迅速に再構築することができます。これが、OSA がより優れた最適化パフォーマンスを示す根本的な理由であると推測されます。さらに、前回の研究 [8, 16] に続き、LAM 解析も採用しています。DI [16] メトリックは、モデルの最も遠い相互作用距離を測定できます。図 8 から、Omni-SR は一般に他の方法よりも最大拡散指数が最も高いことが観察できます。これは、OSA パラダイムが長距離相互作用を効果的に捕捉できることを示しています。

ここに画像の説明を挿入
ここに画像の説明を挿入

4.4. アブレーション研究

さまざまな自己注意効果私たちのフレームワークの中心となるアイデアは、チャネル関係を介してバニラのセルフアテンションを拡張し、全軸ピクセル インタラクションを構築することです。Omni-SR フレームワークに基づいて、いくつかのバリアント モデルを設計し、その SR 結果を表 2 に示します。まず、チャネル コンポーネントを単純に削除して空間のみのバリアント (Omni-SRsp) を形成します。これにより、フル モデルと比較してパフォーマンスが 0.13 dB 低下します。このような劇的な劣化は、チャネル相互作用の重要性を示しています。グリッド ウィンドウ パーティショニングによって導入されたグローバル インタラクションのおかげで、Omni SRsp は依然として SwinIR0.04dB@Urban100×4 より優れていることに注意してください。同様に、空間セルフ アテンション コンポーネントを削除してチャネル セルフ アテンション バリアント OmniSRca を導出しますが、これも望ましくないパフォーマンスの低下につながる修正です。さらに、チャネルおよび空間アグリゲーションの代替演算子として、最も広く採用されているチャネルおよび空間アテンション構成 (つまり、SE [19] および CBAM [55]) を使用します。どちらの代替品 (OmniSRSE、Omni SRCBAM) も、完全モデルと比較して PNSR のパフォーマンスが低下しました。上記の結果は、特定の相互作用パターン (スカラーベース、共分散ベースなど) が同様に重要であること、および共分散行列ベースのチャネル相互作用が大きな利点を示すことを示しています。

ここに画像の説明を挿入

本格的なアグリゲーショングループの影響OmniSR では、プログレッシブ機能集約を追求するために、グローバル内ローカル相互作用スキーム (つまり、OSAG) を提案します。その有効性を研究するために、Omni-SR フレームワークに基づいて、分離スキーム、ハイブリッド スキーム、および完全に設計されたオムニ スキーム (つまり、私たちが提案する OSAG) という 3 つの異なる相互作用スキームを設計しました。図7(a)に示す。この図では、特定のスキームを示すためにさまざまな単語 (例: 「Local」、「Meso+Global」) を使用しています。たとえば、「Local-」は Meso-OSA および GlobalOSA の代わりに Local-Conv ブロックを使用することを意味します。 「グローバル」とは、元のカスケード Meso-OSA とグローバル OSA をカスケード ローカル Conv とグローバル OSA に置き換えることを意味します。単一の対話スキーム (「ローカル」など) のパフォーマンスが最悪であることがわかります。興味深いことに、「グローバル」スキームは、グローバルな自己注意による最適化パフォーマンスが低いため、「メソ」スキームよりも劣っています [3、34、50]。2 つの相互作用演算子を組み合わせると、パフォーマンスが着実に向上します。中でも「Meso+Global」設定の性能が2位となった。さらに、3 つのインタラクション スキームをすべて組み合わせると、最もパフォーマンスの高いスキーム、つまり「オムニ」が得られます。上記の実験から、さまざまなスケールで相互作用を導入することで明らかなパフォーマンスの向上が得られることが推測できます。これは、提案した OSAG の実現可能性と有効性も示しています。

5。結論

この研究では、画像 SR の軽量フレームワークである Omni-SR を提案します。さらに、低計算量で受容野を効率的に拡大するための本格的な集約スキームを提案します。これは、漸進的かつ階層的な方法で文脈関係をエンコードします。公開ベンチマーク データセットに関する広範な実験と包括的な分析研究により、その顕著な SR パフォーマンスが検証されています。

おすすめ

転載: blog.csdn.net/qq_43666228/article/details/130840037