この記事羊不同patch大小,分层级
融合した特徴を抽出するための SR 法が提案されています。新しいチャネル注意ベースの位置エンコーディング Transformer モジュールが提案されていますAPE-ViT: 位置をエンコードする際に注意を追加するためです。2番目のモジュールは、複数の受容野を持つ注意モジュールですMRFAM: 特徴抽出は異なる受容野の下で実行され、3 つの並列ブランチの畳み込みの組み合わせを使用して、異なる受容野が取得されます. 新しいチャネル注意メカニズムもこのモジュールで提案されています. 位置エンコーディングに注意を追加するというアイデアは、この論文で初めて提案されるべきです。
この記事では、当分の間ソース コードを公開しておらず、補足資料も発行していません。
元のリンク: HIPA: 単一画像の超解像度用の階層型パッチ トランスフォーマー
HIPA: 単一画像の超解像のための階層型パッチ トランスフォーマー [2022]
概要
最近、Transformer ベースのアーキテクチャが単一画像超解像 (SISR) に導入され、優れたパフォーマンスを達成しました。ほとんどの既存のビジョン トランスフォーマーは、イメージを同じ数の固定サイズのパッチに分割します。これは、テクスチャの豊富さが異なるパッチを復元するには最適ではない場合があります。
このホワイト ペーパーでは、新しい Transformer 構造である HIPA を紹介します。HIPA は、階層スライスを使用して高解像度の画像を徐々に復元します。具体的には、入力画像を複数の段階で処理するカスケード モデルが構築されます。これは、トークンの小さなブロックから開始し、徐々に完全な解像度にマージします。この階層的なパッチ適用メカニズムは、複数の解像度で機能集約を明示的にサポートするだけでなく、さまざまな画像領域のパッチ対応機能を適応的に学習します。
- 異なるトークンに異なる重みを割り当てることにより、ネットワークが重要なトークンに注意を払うことを可能にする、新しい注意ベースのトランス位置エンコーディング方式が提案されています。この方法は、この論文で初めて提示されます。
- 異なるブランチの畳み込み受容野を拡大するために、複数の受容野を持つ新しい注意モジュールも提案されています。
いくつかの公開データセットに関する実験結果は、提案された HIPA メソッドが以前のメソッドよりも量的および質的に優れていることを示しています。
1 はじめに
深層畳み込みニューラル ネットワークは(CNN)
SISR で目覚ましい成功を収めており, さまざまな構造が提案されています. しかし, CNN の畳み込みはスライディング ウィンドウを使用して特徴を抽出します.これはローカル パターンのみをキャプチャし, グローバル コンテキストをモデル化する能力を欠いています.
自然言語処理の分野での大きな成功とグローバル モデリングにおけるその利点に触発されてTransformers
、ビジュアル トランスフォーマーは SISR の分野にも導入されました。マルチヘッド自己注意メカニズムは長距離の依存関係をモデル化できるため、多くの CNN ベースの SOTA メソッドよりも優れた結果を達成します。
最近、複合CNN和Transformer
ハイブリッド アーキテクチャが登場し、特徴抽出における利点が強化されました。これらの既存の Transformer ベースの SISR モデルは優れた結果を達成しますが、ほとんどすべてのモデルが入力画像を固定サイズのパッチに分割し、同じ数のパッチを使用してすべてのサンプルを処理します。最適であること。
この論文では、入力画像を異なるサイズのパッチ層に分割する階層的なパッチ Transformer を提案します。
- CNN と Transformer を交互に積み重ねることで、マルチレベル アーキテクチャが開発され、局所的な特徴を抽出する際の CNN の利点と、長期的な依存関係を構築する際の Transformer の利点を十分に活用できます。
- Transformer のさまざまなサイズのパッチ入力を実現し、Transformer がさまざまな数のトークンからグローバルな依存関係を確立できるようにするために、LR イメージは最初にサブブロックの階層に分割され、これらのサブブロックはTransformer の入力、小さなサイズのブロックから開始し、次の One ステージでそれらを徐々にマージします。
- さらに、連続動的モデルで位置情報をモデル化するためのチャネルアテンションに基づく、新しいアテンションベースのトランス位置エンコーディングスキームが設計されています。
- さらに、異なる分岐の畳み込み受容野を拡大するために、異なる増幅率を持つ拡張畳み込みに基づくマルチ受容野注意モジュールが提案されています。
図 1 に示すように、HIPA は、他の最先端の SISR メソッドと比較して、より優れた視覚品質を実現します。
要するに、主な貢献と既存の方法との顕著な違いは次のとおりです。
- プログレッシブ モデルはサブブロックの階層を形成し、異なるサイズのパッチを Transformer に実装できるようにします。これは、同じ数の固定サイズのパッチですべてのサンプルを処理するよりも効率的です。
- このペーパーで初めて提案された、重要なトークンにより多くの重みを与える新しい注意ベースの位置エンコード方式が Transformer に対して提案されています。
2 方法
最初にネットワーク全体の構造を紹介し、次に注意ベースの位置エンコーディング ビジョン トランスフォーマー: 注意ベースの位置エンコーディング ビジョン トランスフォーマー (APE-ViT) モジュールとマルチ受信フィールド アテンション: マルチ受信フィールド アテンション モジュール (MRFAM) を具体的に紹介します。 ) モジュールでは、複数の MRFAM が 1 つの MRFAG に連結されます (実験では 5 に設定されています)。
2.1 概要
提案された HIPA は 3 つの段階で構成されます。最初の 2 つの段階は両方とも、提案された Multi-receptive Field Attention Module (MRFAM) と Attention-based Positional Encoding ViT (APE ViT) に基づいて構築されます。最後のステージの入力はイメージ全体であるため、最後のステージは APE ViT を使用せずに MRFAM でのみ構築されます。これにより、計算時間が大幅に増加し、より多くのメモリが必要になります。
さらに、Transformer のさまざまなサイズの入力パッチを実現するために、入力 LR 画像にマルチパッチ階層が採用されています。
- LR 画像はまず、さまざまな段階で異なる重複しないパッチに分割されます。最初の段階で 4 つ、2 番目の段階で 2 つ、最終段階で LR 画像全体が分割されます。
- これは、次の段階で徐々にマージされます。第 2 段階では、サブブロックの垂直統合(13 および 24) が、水平統合 (12 および 34) の代わりに使用されます。(もちろん水平統合も可能ですが、実験後は大きな差はありません)。
Conv ( 3 × 3 , 64 × 64 )図でマークされているConv(3×3, 64×64 )コンバージョン( 3 _ _ _×3 、6 4×6 4 )、3×3 は畳み込みカーネル サイズ、64×64 は (入力チャネル数×出力チャネル数)
ILR I_{LR}私L R和 I H R I_{HR} 私H RHIPA の元の LR 入力と最終的な HR 出力を表すILR i , j I^{i,j}_{LR}私L R私、 jを示しますステージiのjjjパッチ、たとえばILR 1 , 2 I^{1,2}_{LR}私L R1、2 _ _1 段目の 2 番目のパッチ、つまり図 2 に示す 1 段目の入力の右上のパッチを示します。
stage1:以下の各ステップは、独自のパッチで実行されます。(1234 4 パッチ)
EDSR と RCAN のネットワーク設定に従って、著者は畳み込み層も使用して浅い (SF) 特徴を抽出しますF 0 1 , j F^{1,j}_0ふ01 , j式は次のとおりです。
次に、抽出された浅い特徴を提案された多受容野注意モジュール(MRFAG) に入力して、深い特徴FMRFAG 1 , j F^{1,j}_{MRFAG} をさらに抽出します。ふM R F A G1 , j
グローバルな依存関係を取得するために、アテンション ベースの位置エンコーディング ViT (APEViT)に深い特徴をフィードします。 FAPE − V i T 1 , j F^{1,j}_{APE−ViT}ふA P E − V i T1 , j:
次のヒューズFAPE − V i T 1 , j F^{1,j}_{APE−ViT}ふA P E − V i T1 , j、浅い1和3,2和4的特征
特徴F 0 F_0ふ0剰余加算( F 0 F_0ふ01 と 3、2 と 4) の融合でもあり、2 段階目の浅い特徴抽出後の特徴に継ぎ合わせることができます。
一方、融合後に得られた 2 つの特徴をさらに融合して完全な画像特徴を取得し、画像をアップサンプリングして再構成し、第 1 段階の復元された HR 画像IHR 1 I^1_{HR}を取得します。私HR _1:
stage2:パッチが左右2つしかない
第1段階の特徴と第2段階の浅い層によって抽出された特徴は、次元でつなぎ合わされ、その後、畳み込みの層を介してチャネルの次元が縮小され、次に多受容野注意モジュールに入力されます( MRFAG)を使用してさらに深い特徴を抽出し、 APEViT はAttention 計算を実行して長期的な依存関係を取得します。左右两块融合成完整的一块
、および第 2 段階の融合された浅い特徴残差に追加されます。一方の側はスプライシングの第 3 段階に渡され、もう一方の側は直接アップサンプリングされて高解像度の画像が再構築されますIHR 2 I^2_{HR}私HR _2。
stage3:完全なLR画像入力、不使用APE-ViT
完全な LR 画像は、浅い特徴を抽出するための畳み込みの層と、融合の第 2 段階の後の特徴を抽出した後、次元で接合されます.チャネルの次元を減らすための畳み込みの層の後、MRFAM1 を入力し、残差接続を使用して、次に入力しますMRFAM2 残差 差の加算、合計 G MRFAM (実験では 20 に設定);畳み込みの層の後、非線形性を増やし、畳み込みの前後の残差を追加します; そして、浅い特徴抽出の後に特徴残差を追加します第 3 段階を足し合わせると、最終的に第 3 段階の高解像度画像IHR I_{HR}をアップサンプリングして再構築できます。私H R。
3つのステージの具体的な状況は上記の通りで、各ステージの特性は徐々に改善されています。ステージ 2 の予測はステージ 1 の改良であり、ステージ 3 はステージ 2 に基づいて改良を続けます。マルチレベルのリファインメントの改善により、空間解像度の高い画像領域が徐々に回復されます。
LOSS:
最終的な損失関数は、3 つの段階の再構成された画像と実際の画像のそれぞれの損失の合計です. もちろん、3 つの段階を等しく扱うために、3 つの段階の重みはトレーニング中に同じです. L1 損失を使用します (以前の方法との公正な比較のため)。式は次のとおりです。
2.2 Attention-based Position Encoding Vision Transformer (APE-ViT)
ViT と同様に、APE-ViT も主に 3 つの部分で構成されています: パッチ埋め込み、アテンション ベースの位置エンコーディング (APE)、および Transformer-encoder ブロックです。ViT との顕著な違いは、位置埋め込みです。ViT の元の位置埋め込みは事前定義されており、入力トークンとは無関係です。新しいサイズの LR 画像を入力すると、パッチの数が異なり、学習した位置の埋め込み次元が一致しなくなります。この問題を解決するには、新しいサイズの入力画像を最初に補間する必要があります。これにより、ViT の全体的なパフォーマンスが低下するだけでなく、そのアプリケーションが大幅に制限されます。
↓↓
上記の問題を解決するために、Chu らは、入力 LR 画像が入力に対して新しい入力サイズを持つ場合に簡単に一般化できる、2D 畳み込みを導入することによって位置符号化を埋め込む条件付き位置符号化 (CPE) を提案しています。順序。ただし、CPE はすべての入力トークンを同等に扱い、相互依存性を無視します。
↓↓
この問題を解決するために、著者はAttention-based Position Encoding (APE)を提案しています。これにより、注意力引入位置嵌入
Transformer は重要なトークンにより多くの注意を払うことができます。
Attention Position Encoding APE :
位置エンコードされたアテンションは、実際にはチャネル アテンションです。
- 最初の入力特徴画像FMRFAG i , j ∈ RH i × W i × C i F^{i,j}_{MRFAG}∈ R^{H_i×W_i×C_i}ふM R F A G私、 jεRH私×西私× C私パッチ埋め込みを実行し、入力を重複しないP i × P i P_i×P_iに分割しますP私×P私いくつかのフラット 2Dpatch に再形成されたパッチxp ∈ RH i × W i P 2 × P 2 × C i x_p∈R^{\frac{Hi×Wi} {P 2}×P 2×C_i}バツpεRP2 _H i × W i× P2 × C _私. (Swin-Tと同じ)
- 図 3 に示すように、平坦化されたフィーチャ マーカーは 2D 画像空間に再形成されます (振り返ってみると、実際にはパッチを埋め込む前です)。2D 画像空間では、畳み込みとチャネル アテンションが適用されて、最終的な位置エンコーディングが生成されます。(これは Squeeze-and-excitation ネットワーク、またはRCANで使用される CA モジュールと同じ記事です)。
- 位置エンコーディングは、最終的な位置エンコーディングを取得するために、各 2D イメージ空間の各チャネルで乗算されます。
取得した位置コードをPatch Embedに追加し、Transformer Emcoder に入力して注意を計算し、長期的な依存関係を取得します。
(APE)ViT:
提案された Transformer エンコーダーは、T 個のスタックされたエンコーダーで構成されます。各エンコーダーは標準的なエンコーダー構造であり、2 つの LN レイヤー、マルチヘッド アテンション (MHA)、マルチレイヤー パーセプトロン (MLP)、および 2 つの残差接続で構成されます。MLP は、間に GELU 活性化層を挟んだ 2 つの完全に接続された層で構成されています。Attention 計算の補足として、MLP は次元を拡大し、各トークンの非線形性を高める役割を果たします。各エンコーダの出力は次のように定義されます: (各エンコーダ MHA モジュールは 4 ヘッドに設定され、T は 4 に設定されます)
2.3 マルチ受信フィールド アテンション グループ (MRFAG)
各 MRFAG は、G个MRFAMs
(モジュール) と残差结构
、および末尾ので構成されます一个卷积层
。(1段目、2段目はG=5、3段目はG=20)
複数の MRFAM を単純に積み重ねるだけでは、より良い結果は得られません。そのため、ネットワーク トレーニングの安定性を確保し、低品質の画像に含まれる豊富な機能をバイパスするLFS连接
ために導入されました。MRFAG の最終出力は次のとおりです。w LFS w_{LFS}
wLFS _ _MRFAG テール畳み込み層の重みを示します。FMRFAG F_{MRFAG}ふM R F A GおよびFMRAFMG F_{MRAFM_G}ふM R A F MGなMRFAG の出力と G 番目 (最後) の MRFAM の出力をそれぞれ表すと、g 番目の MRFAM の出力は次のように表されます。
MRFAM:
各 MRFAM は、并行连接
上の図 4 に示すように、3 つの拡張畳み込みベースのチャネル アテンション、融合モジュール、およびローカル機能スキップ接続 (LFS) で構成されます。CNN の深度とフィルター サイズを大きくすると、受容野が拡大し、低品質の画像からより多くの情報を抽出できますが、より多くのパラメーターが導入され、計算の複雑さが増します。したがって、著者は、計算の複雑さを増加させないネットワークの受容野を拡大するために、拡張された畳み込みに基づくチャネルアテンションを提案します (詳細な説明については補足資料を参照してくださいと著者は述べていますが、補足資料は見つかりませんでした)。 Squeeze-and-excitation network (SE) と互換性があります。大きな違いがあります (つまり、以前のチャネルの注意、RCAN の種類)。
それぞれが異なる畳み込みカーネル (1×1、3×3、5×5) を持つ 3 つの並列ブランチは、異なる受容野を生成します。
- 最初に Conv-ReLU-Conv を通過します。主な目的は、 3 つの枝で異なる受容野を取得することです。
- チャンネルアテンション(SEとは違う):まず
最大值池化
チャンネル数を変えずにパスし、次に増幅率の異なる3分岐の展開畳み込みを通す(展開畳み込みが何なのかわからない、作者の補足資料にある公開されていません),扩张卷积层
change 機能のチャンネル数が 4 に減ります. このステップでは、チャンネル数を減らすためにパラメーターの数を減らすことができます. その後ReLU选通
(ゲーティングメカニズム)、もう1つは増幅率に対応します扩张卷积恢复通道数
。この次々と全局平均池化
、各チャネルの平均値がチャネルの重みパラメーターとして取得され、sigmoid激活
重みが (0, 1) にマッピングされて、特徴マップのチャネルに対応する最終的なチャネル注目重みが取得されます。相乘
. - 3 つの分岐の融合:注意の重み分布に従って 3 つの分岐のすべてのチャネルを結合し、畳み込みによってチャネルの数を減らします。次に、M 個の残差ブロックを使用して非線形性、より深い特徴を学習します。(M=5)
- ローカル機能スキップ接続は、この MRFAM の入力残差と出力残差を合計します。
MRFAM におけるチャネル アテンションと SE の主な違いは、最大プーリングの追加レイヤーがあり、グローバル プーリングの位置が異なることです。最大プーリングはネットワークのパラメーター量を減らし、さまざまな方法因子の展開畳み込みは、さまざまな受容野の下でチャネルの注意を引くことができます。
3 実験
設定:
トレーニング:トレーニング データセットとしてDIV2Kが使用されます。これには、800 個のトレーニング イメージ、100 個の検証イメージ、および 100 個のテスト イメージが含まれています。
テスト: 標準公開データセット:テスト データセットとしてSet5、Set14、B100、Urban100、および Manga109 。
評価指標: YCbCr 空間の輝度チャネルに基づいて計算されたPSNR および SSIM。
3 段の MRFAG では、MRFAM の数をそれぞれ G=5、5、20 とし、ResBlock を拡張畳み込みを除いて M=5 とし、
全畳み込み層のチャネル数は C =64.
拡張畳み込みを除く、すべての畳み込み カーネルのサイズは 3×3
アップサンプリングに設定され、サブ
トレーニング段階での画像強調: 水平フリップまたはランダム回転 90°、180°、270 °
パッチ: 48 × 48
オプティマイザー: ADAM は
4 つの Nvidia Tesla V100 GPU を使用します。
3.1 最新技術との比較
定量的比較:
- HIPA は、すべてのスケール ファクターにわたる複数のベンチマークで最先端の結果を達成し、特にスケール ファクターが大きい場合に、ピーク S/N 比と SSIM の点で最先端の方法よりも優れています。
- HIPA は、すべてのデータセットのすべてのスケールで、Transformer のようなモデルである SwinIR よりも優れています。特に Urban100 データセットでは、スケーリング ファクター × 4 のピーク S/N 比が SwinIR と比較して 0.18 dB 改善されています。主な理由は次のとおりです: ① 設計されたマルチレベル プログレッシブ モデルは、さまざまなサイズの Transformer パッチの特性を使用できるだけでなく、HR 画像を粗いものから細かいものまで徐々に復元できます;元の LR 画像に含まれる局所的な特徴が徹底的に抽出されます。異なる受容野から。
定性的比較:
図 5 では、Urban100 データセットの 4 倍の増幅率の比較結果が視覚的に表示されます。
- HIPA は常によりシャープな結果を取得し、 を復元します
更多的高频纹理和清晰的细节
が、ほとんどの競合する SISR モデルは建物の格子や道路のレンガを復元できず、不快なぼやけたアーティファクトがいくつかあり、テクスチャとディテールを復元できません。
モデル サイズと実行時間の比較:
表 2 は、パラメーターの数と平均実行時間を示しています。
- EDSR、RDN、および RCAN と比較すると、パラメータはそれほど変わりませんが、より優れたピーク S/N 比が得られます。
- IPTと比較して、パラメーターと実行時間がはるかに小さく、効果ははるかに優れています.
- SwinIR と比較すると、パラメータの数は多くなりますが、実行時間と PSNR はわずかに優れています。
3.2 アブレーション研究
①可変パッチサイズの正当性を証明する:
表 3 では、固定パッチ サイズの APE-ViT と異なるパッチ サイズの定量的結果が比較され、Set14 および Urban100 データセットで実行されます。
- 異なるサイズのパッチを使用する APE-ViT は、固定サイズのパッチを使用するよりも PSNR が大きく、パフォーマンスが優れています。主な理由は、サブブロックによって、
层次结构
ネットワークがさまざまなサイズの LR 画像から画像を学習できるようになり、最終結果の全体的なパフォーマンスが向上するためです。これはまた、提案された階層的マルチレベル構造の有効性をさらに検証します。
②APE-ViTサイズの影響:
表 4 は、モデルのパフォーマンスに対する APE ViT サイズの影響を示しています。
- PSNR 結果の比率は、APE-ViT のサイズと正の相関がありました。パフォーマンスが向上し続ける一方で、パラメーターの総数も増えています。パフォーマンスとモデル サイズのバランスをとるために、実験では APE-ViT (PatS=4、HeadNr=4、LayerN=4) が選択されます。
③APEの効果:
表 5 に示すように、Attentional Position Encoding (APE) の有効性を検証するために、Set14 および Urban100 データセットに対して、Prior Position Embedding (PE)、Conditional Position Encoding (CPE)、およびこの論文 - ViT モジュールは、倍率 ×2、×3、および ×4 で比較実験を行いました。
- APE を使用した APE-ViT は、両方のデータセットのすべてのスケールで以前の PE および CPE よりも優れたパフォーマンスを達成し、提案された APE の有効性を検証します。
④MRFAGの有効性:
表6は、3つの並列拡張畳み込みベースのチャネルアテンションブランチのいくつかの組み合わせが提供されることを示している。
- 列 1 ~ 6 では、ブランチの数が増えるにつれてパフォーマンスが向上し、すべてのブランチを使用して最良の結果が得られます。
- 列6789は、Set14データセット上のスケール×4モデルの性能に対する残余ブロック(RB)番号M、MRFAM番号G、およびチャネル番号Cの効果を示す。結果は、PSNR がこれら 3 つのパラメーターと正の相関があることを示しています。ただし、パラメータが 3 つ増えると、パラメータの量も増えます。パフォーマンスとモデル サイズのトレードオフを行うために、残りの実験では M=5、G=20、および C=64 が設定されます。
4 結論
この論文では、異なるサイズのパッチを使用した階層構造のトランスフォーマーが提案されています (羊)、入力を 3 つのレベルのパッチに分割することで、高解像度の画像を徐々に復元します。
- マルチレベル プログレッシブ モデルを使用して、初期段階では小さなパッチをトークンとして使用し、最終段階ではフル解像度で実行します。
- 複数の段階にわたる機能集約のためにカスケード接続された一連の CNN と Transformer で構成されるハイブリッド構造です。
- トランスフォーマーが重要なトークンに集中できるように、位置エンコーディングにチャネル アテンション (SE) を追加する、新しいアテンション ベースの位置エンコーディング スキームが提案されています。
- 複数の受容野を持つ注意モジュールは、異なるブランチを使用して畳み込み受容野を拡大し、異なる受容野の下で新しいチャネル注意方法を使用して深い特徴を抽出するために提案されています。
- さまざまなベンチマーク データセットでの定量的および定性的実験は、提案された HIPA がPSNR、SSIM、および視覚的品質の点で最先端の方法よりも優れていることを示しています。
最後に、皆さんの科学研究の成功、健康、そしてすべての成功をお祈りします~