ディープラーニングの論文共有 (6) 画像復元のためのシンプルなベースライン

序文

元の論文: https://arxiv.org/abs/2204.0467
論文コード: https://github.com/megvii-research/NAFNet

タイトル: 画像復元のためのシンプルなベースライン
著者: Liangyu Chen ⋆ 、Xiaojie Chu ⋆ 、Xiangyu Zhang、および Jian Sun
MEGVII Technology、北京、CN

翻訳専用

抽象的な

近年、画像復元の分野では大きな進歩が見られますが、最先端 (SOTA) 手法のシステムの複雑さも増大しており、手法の便利な分析や比較が妨げられる可能性があります。このペーパーでは、SOTA メソッドよりも優れたパフォーマンスを発揮し、計算効率の高いシンプルなベースラインを提案します。ベースラインをさらに簡素化するために、Sigmoid、ReLU、GELU、Softmax などの非線形活性化関数が不要であることを明らかにします。これらは乗算で置き換えたり、削除したりすることができます。したがって、ベースラインから非線形活性化のないネットワーク NAFNet を導出します。SOTA の結果は、GoPro の 33.69 dB PSNR (画像のブレ除去用) など、さまざまな困難なベンチマークで達成されており、計算コストのわずか 8.4% で以前の SOTA を 0.38 dB 上回っています。ノイズ除去) は 40.30 dB で、以前の SOTA を 0.28 上回っています。 dB となり、計算コストは​​半分以下になります。コードと事前トレーニングされたモデルは、github.com/megvii-research/NAFNet でリリースされます。

キーワード: 画像の復元、画像のノイズ除去、画像のブレ除去
ここに画像の説明を挿入
図 1: 画像のブレ除去 (左) および画像のノイズ除去 (右) タスクの PSNR と計算コスト

1 はじめに

ディープラーニングの発展により、画像復元手法の性能は大幅に向上しました。深層学習ベースの手法 [5、37、39、36、6、7、32、8、25] は大きな成功を収めています。例 [39] と [8] では、SIDD[1]/GoPro[26] でそれぞれ 40.02/33.31 dB の PSNR ノイズ除去/ブレ除去を達成しています。

これらの方法はパフォーマンスが優れていますが、システムの複雑さは高くなります。議論を容易にするために、システムの複雑性をブロック間の複雑性とブロック内の複雑性の 2 つの部分に分解します。1 つ目は、図 2 に示すように、ブロック間の複雑さです。[7,25] は、異なるサイズの特徴マップ間の接続を導入し、[5,37] は多段階ネットワークで、後の段階で前の段階の結果を改良します。2 番目は、ブロック内の複雑さ、つまりブロック内のさまざまな設計の選択肢です。たとえば、[39] のマルチ Dconv ヘッド転置アテンション モジュールとゲート付き Dconv フィードフォワード ネットワーク (図 3a を参照)、[22] の Swin 変換ブロック、[5] の HINBlock などです。設計上の選択を個別に評価することは現実的ではありません。

ここに画像の説明を挿入
図 2: 画像復元モデルのアーキテクチャの比較。異なるサイズのフィーチャを区別するにはダッシュを使用します。(a) 多段アーキテクチャ [5, 37] は、UNet アーキテクチャを順番にスタックします。(b) マルチスケール融合アーキテクチャ [25、7] は、異なるスケールの機能を融合します。© UNet アーキテクチャ、一部の SOTA メソッドは UNet アーキテクチャを採用しています [39、36]。これをスキーマとして使用します。わかりやすくするために、ダウンサンプリング/アップサンプリング レイヤー、機能融合モジュール、入出力ショートカットなどの一部の詳細を意図的に省略しています。

上記の事実に基づいて、自然な疑問が生じます: ブロック間およびブロック内の複雑さが低いネットワークで SOTA パフォーマンスを達成することは可能でしょうか? 最初の条件 (ブロック間の複雑さが低い) を達成するために、この論文では次の方法を採用します。アーキテクチャとして単一ステージ UNet (いくつかの SOTA メソッド [39,36] に従う) を使用し、2 番目の条件に焦点を当てます。この目的を達成するために、最も一般的なコンポーネント、つまり畳み込み、ReLU、ショートカットを含む共通ブロックから開始します [14]。共通ブロックから、SOTA アプローチのコンポーネントを追加/置換し、これらのコンポーネントがどの程度のパフォーマンス向上をもたらすかを検証します。広範なアブレーション研究を通じて、図 3c に示すように、SOTA 手法よりも優れた性能を備え、計算効率の高い単純なベースラインを提案します。新しいアイデアが生まれ、テストが容易になる可能性があります。GELU [15] とチャネル アテンション モジュール [16] (CA) を含むベースラインはさらに簡素化できます。ベースラインの GELU はゲート線形ユニット 10 の特殊なケースと見なすことができることがわかり、簡略化できることが経験的に証明されています。単純なゲート(つまり、機能マップの要素ごとの積) が置き換えられますさらに、CA と GLU 間の形式的類似性も明らかにし、CA の非線形活性化関数も除去できることを明らかにしました。要約すると、単純なベースラインは、NAFNet と呼ばれる非線形アクティベーションフリー ネットワークにさらに縮小できます。主に SIDD での画像ノイズ除去実験 [1]、GoPro での画像ぼけ除去実験 [26]、および順次 [5, 39, 37] を行っています。主な結果を図 1 に示します。提案したベースラインと NAFNet は、計算効率が高く、SOTA 結果を達成しています。GoPro で 33.40/33.69 dB であり、計算コストで以前の SOTA [8] をそれぞれ 0.09/0.38 dB 上回っています。 8.4%; SIDD で 40.30 dB であり、半分以下の計算コストで [39] を 0.28 dB 上回っています。私たちが提案するベースラインの有効性を示すために、広範で質の高い実験が行われています。

この論文の貢献は次のように要約されます。

  1. SOTA メソッドを分解し、その基本コンポーネントを抽出することで、図 1 に示すように、より低い計算コストで以前の SOTA メソッドよりも優れたパフォーマンスを発揮できる、システムの複雑さがより低いベースライン (図 3c) を形成します。これにより、研究者は新しいアイデアを生み出し、それを簡単に評価できるようになります。
  2. GELU (Channel Attendant to Gated Linear Unit) 間の接続を明らかにすることで、シグモイド、ReLU、GELU などの非線形活性化関数を削除または置換することでベースラインをさらに簡素化し、非線形活性化のないネットワーク NAFNet を提案します。単純化されていますが、ベースラインを満たすことも、超えることもできます。私たちの知る限り、これは、SOTA コンピューター ビジョン手法に非線形活性化関数が必要ない可能性があることを実証した最初の研究です。この研究は、SOTA コンピュータ ビジョン手法の設計領域を拡大する可能性を秘めています。

2 関連作品

2.1 画像の復元

画像復元タスクの目標は、劣化した画像 (ノイズ、ぼやけなど) をきれいな画像に復元することです。最近、深層学習ベースのメソッド [5、37、39、36、6、7、32、8、25] がこれらのタスクで SOTA の結果を達成しており、ほとんどのメソッドはバリアントと見なすことができます。ブロックをU字型に積み上げ、ジャンプ接続を採用しています。これらのバリアントは、パフォーマンスの向上だけでなく、システムの複雑さももたらします。システムの複雑さは、ブロック間の複雑さとブロック内の複雑さに大まかに分類されます。

ブロック間の複雑さ:
[37,5] は多段階ネットワークです。つまり、後の段階で前の段階の結果が洗練され、各段階は U 字型のアーキテクチャです。この設計は、困難な画像復元タスクをいくつかのサブタスクに分割することがパフォーマンスの向上に役立つという前提に基づいています。これとは異なり、[7、25] は単一段階の設計を採用しており、これにより競争力のある結果が得られますが、異なるサイズの特徴マップ間の複雑な接続が導入されています。[32] のように、上記の両方の戦略を同時に採用する方法もあります。他の SOTA メソッド ([39、36] など) は、単一ステージ UNet の単純な構造を維持していますが、次に説明するブロック内の複雑さを導入します。

ブロック内の複雑さ: さまざまなブロック内設計スキームが多数ありますが、ここではいくつかの例を取り上げます。[39] 空間注意マップの代わりにチャネル注意マップを使用して自己注意の記憶と時間的複雑さを軽減します [34]。さらに、フィードフォワード ネットワークは、ゲート線形ユニット [10] と深さ方向の畳み込みを使用します。[36] は、[22] と同様に、ウィンドウベースのマルチヘッドセルフアテンションを導入しました。さらに、ローカルに強化されたフィードフォワード ネットワークがそのブロックに導入され、ディープ コンボリューションがフィードフォワード ネットワークに追加されてローカル情報キャプチャ能力が強化されます。これとは異なり、システムの複雑性を高めることがパフォーマンスを向上させる唯一の方法ではないことを明らかにします。SOTA パフォーマンスは単純なベースラインで達成できます。

2.2 ゲート付きリニアユニット

ゲート線形ユニット10 は、2 つの線形変換層の要素ごとの生成によって説明でき、そのうちの 1 つは非線形性によってアクティブになります。GLU とそのバリアントは、NLP [30、10、9] でその有効性が証明されており、コンピューター ビジョンでも活躍しています [32、39、17、20]。このペーパーでは、GLU によってもたらされた重要な改善点を明らかにします。[30] とは異なり、パフォーマンスを低下させることなく GLU の非線形活性化関数を削除します。さらに、非線形活性化のない GLU には本質的に非線形性が含まれているという事実に基づいて (2 つの線形変換の積が非線形性を引き起こすため)、非線形活性化関数を 2 つの特徴マップの乗算に置き換えることによって、ベースラインを簡素化できます。私たちの知る限り、これは非線形活性化関数を使用せずに SOTA パフォーマンスを達成した最初のコンピューター ビジョン モデルです。

3 単純なベースラインを構築する

このセクションでは、イメージ復元タスクの単純なベースラインを最初から構築します。構造をシンプルに保つために、不必要なエンティティを追加しないことを原則とします。回復タスクの実証的評価により、回復タスクの必要性が検証される。主に HINet Simple [5] を使用して、16 gmac 程度のモデルサイズで実験を行い、空間サイズ 256 × 256 の入力を通じて mac を推定します。さまざまな容量モデルの計算結果が実験部分に示されています。私たちは主に、ノイズ除去 (つまり SIDD [1]) とブレ除去 (つまり GoPro [26] データセット) の 2 つの一般的なデータセットの結果 (PSNR) を検証します。これは、これらのタスクが低レベルの視覚にとって基本であるという事実に基づいています。設計の選択については、次のサブセクションで説明します。

3.1 アーキテクチャ

ブロック間の複雑さを軽減するために、図 2c に示すように、スキップ接続を備えた古典的な単一ステージ U アーキテクチャを採用しています [39、36]。私たちは、アーキテクチャがパフォーマンスの障害となるべきではないと考えています。表 6、7、および図 1 に示すように、実験結果は私たちの推測を裏付けました。

3.2 プレーンブロック

ニューラル ネットワークはブロックに積み重ねられます。その上にブロックを積み重ねる方法 (つまり、UNet アーキテクチャ内) を決定しましたが、ブロックの内部構造をどのように設計するかは依然として問題です。図 3b に示すように、最も一般的なコンポーネント、つまり畳み込み、ReLU、ショートカット [14] を含む共通ブロックから開始し、これらのコンポーネントの配置は [13、22] に従います。簡単にするために、これを PlainNet と呼びます。トランスフォーマーの代わりに畳み込みネットワークを使用するのは、次の考慮事項に基づいています。まず、トランスフォーマーはコンピュータ ビジョンでは良好に機能しますが、一部の研究 [13、23] では、SOTA の結果を達成するためにトランスフォーマーは必要ない可能性があると主張しています。第二に、深さ方向の畳み込みは自己注意メカニズムよりも単純です [34]。第三に、この記事はトランスフォーマーと畳み込みニューラル ネットワークの長所と短所を議論することを意図したものではなく、単純なベースラインを提供するだけです。アテンションのメカニズムについては、次のサブセクションで説明します。

3.3 正規化

正規化は高レベルのコンピュータ ビジョン タスクで広く採用されており、低レベル ビジョンでもよく使用されます。[26] は、小さなバッチでは統計が不安定になる可能性があるため [18] バッチ正規化 [18] を放棄しましたが、[5] は小さなバッチの問題を回避するためにインスタンス正規化 [33] を再導入しました。ただし、[5] では、インスタンスの正規化を追加しても必ずしもパフォーマンスが向上するとは限らず、手動によるチューニングが必要であることが示されています。違いは、トランスフォーマーのブームの下で、層正規化 [3] が SOTA メソッド [32、39、36、23、22] を含む、ますます多くのメソッドで使用されるようになったということです。これらの事実に基づいて、層の正規化が SOTA リカバリにとって重要である可能性があると推測し、上記の通常ブロックに層の正規化を追加します。この変更により、学習率が 10 倍高くても、トレーニングがよりスムーズになります。学習率が大きいほど、パフォーマンスが大幅に向上します。SIDD [1] では +0.44 dB (39.29 dB から 39.73 dB)、GoPro [26] データセットでは +3.39 dB (28.51 dB から 31.90 dB) です。要約すると、トレーニング プロセスを安定させるため、共通ブロックにレイヤー正規化を追加します。

ここに画像の説明を挿入
図 3: ブロック内構造の比較。⊗:行列の乗算、⊙/⊕:要素の乗算/加算。dconv: 深さ方向の畳み込み。非線形活性化関数は黄色のボックスで示されます。(a) Restormer のブロック [39]、簡単にするために、特徴マップの再形成などの一部の詳細は省略されています。(b) PlainNet のブロック。最も一般的なコンポーネントが含まれています。© 私たちが提案するベースライン。(b)と比較すると、CA(Channel Attendance)とLayerNormが採用されています。さらに、ReLU は GELU に置き換えられます。(d) 私たちが提案する非線形活性化のないネットワーク ブロック。これは、CA/GELU をそれぞれ Simplified Channel Attendant (SCA) と SimpleGate に置き換えます。これらのコンポーネントの詳細を図 4 に示します。

3.4 アクティベーション

共通ブロックのアクティベーション関数である整流線形ユニット 28 はコンピューター ビジョンで広く使用されています。ただし、SOTA メソッドでは ReLU を GELU に置き換える傾向があります [23、39、32、22、12] [15]。この置換は私たちのモデルにも実装されています。パフォーマンスは SIDD (39.73 dB から 39.71 dB) で同等であり、これは [23] と一致していますが、GoPro では 0.21 dB のパフォーマンス ゲイン (31.90 dB から 32.11 dB) をもたらします。つまり、純粋なブロック内で ReLU を GELU に置き換えます。これは、画像のノイズ除去パフォーマンスを維持しながら、画像のブレ除去に重要な利益をもたらすためです。

3.5 注意

近年のコンピュータビジョン分野におけるトランスフォーマーの人気を考えると、その注目機構はブロックの内部構造設計において避けては通れないテーマとなっている。注意メカニズムにはさまざまなバリエーションがありますが、ここではそのうちのいくつかについてのみ説明します。[12, 4] で採用されているバニラ セルフ アテンション メカニズム [34] は、すべての特徴を線形結合し、特徴間の類似性に応じて重み付けすることによってターゲット特徴を生成します。したがって、各特徴にはグローバル情報が含まれますが、その計算の複雑さは特徴マップのサイズの 2 次になります。一部の画像復元タスクで処理されるデータは高解像度であるため、従来のセルフアテンション方法は実用的ではありません。あるいは、[22、21、36] では、計算量の増加の問題を軽減するために、固定サイズのローカル ウィンドウにのみセルフ アテンションを適用しています。グローバルな情報が不足していますが。通常のブロックでは深さ方向の畳み込みが局所的な情報をうまく捕捉できるため、ウィンドウベースの注意は採用しません [13, 23]。

違いは、[39] では空間的注意がチャネル アテンションに変更され、各特徴のグローバルな情報を維持しながら計算上の問題が回避されることです。これは、チャネル アテンションの特別な変形として見ることができます [16]。[39] に触発されて、バニラ チャネル アテンションが計算効率の要件を満たし、グローバルな情報を特徴マップにもたらすことがわかりました。さらに、チャネル アテンションの有効性は画像復元タスク ​​[37, 8] で検証されているため、プレーン ブロックにチャネル アテンションを追加します。SIDD [1] データセットでは 0.14 dB (39.71 ~ 39.85 dB)、GoPro [26] データセットでは 0.24 dB (32.11 ~ 32.35 dB) が得られます。

3.6 概要

これまでのところ、表 1 に示すように、単純なベースラインを一から構築しました。アーキテクチャとモジュールをそれぞれ図 2c と図 3c に示します。ベースラインの各コンポーネントは、レイヤーの正規化、畳み込み、GELU、チャネル アテンションなどの自明なものです。ただし、これらの些細なコンポーネントを組み合わせることで強力なベースラインが得られます。図 1 と表 6、7 に示すように、数分の 1 の計算コストで SIDD および GoPro データセットに関する以前の SOTA 結果を上回ることができます。私たちは、シンプルなベースラインが研究者によるアイデアの評価に役立つと信じています。

4 非線形活性化フリーネットワーク

上で説明したベースラインはシンプルで競争力がありますが、シンプルさを維持しながらパフォーマンスをさらに向上させることは可能ですか? パフォーマンスを損なうことなくシンプルにすることはできますか? これらの質問に答えるために、共通性によっていくつかの SOTA メソッドを見つけようとします [32,39,20, 17]。我々は、これらの方法において、ゲート線形ユニット10が使用されることを発見した。つまり、GLU は有望である可能性があります。それについては後で説明します。
ここに画像の説明を挿入
図 4: (a) チャネル アテンション 16 (b) 簡易チャネル アテンション (SCA)、および © シンプル ゲート (SG)の概略図。⊙/ *: 要素/チャンネルの乗算

ゲート線形ユニット: ゲート線形ユニットは次のように表すことができます:
ここに画像の説明を挿入
ここで、X は特徴マップを表し、f と g は線形変換器、σ はシグモイドなどの非線形活性化関数、⊙ は要素ごとの乗算を表します。上で述べたように、GLU をベースラインに追加するとパフォーマンスが向上する可能性がありますが、ブロック内の複雑さも増加します。これは私たちが期待していたものではありませんでした。この問題に対処するために、ベースラインの活性化関数、つまり GELU [15] を再検討します。

ここに画像の説明を挿入

ここで、Φ は標準正規分布の累積分布関数です。[15] に基づいて、GELU は次のように近似できます。
ここに画像の説明を挿入

式 1 と式 2 から、GELU は GLU の特殊なケース、つまり f と g は恒等関数であり、σ は Φ です。類似性を通じて、別の観点から、GLU は非線形活性化関数を置き換えることができる活性化関数の一般化と見なすことができると推測します。さらに、GLU 自体は非線形性を含み、σ には依存しないことに注意します。Gate(X) = f(X)⊙g(X) は、たとえ σ が除去されたとしても非線形性を含みます。これに基づいて、シンプルな GLU バリアントを提案します。図 4c に示すように、SimpleGate と呼ばれる、特徴マップをチャネル次元で 2 つの部分に直接分割し、それらを乗算します。式 3 の GELU の複雑な実装と比較すると、この SimpleGate は要素ごとの乗算のみで実装できます。
ここに画像の説明を挿入
ここで、X と Y は同じサイズの特徴マップです。

ベースラインの GELU を提案された SimpleGate に置き換えることにより、画像のノイズ除去 (SIDD [1] 上) と画像のブレ除去 (GoPro [26] データセット上) のパフォーマンスが 0.08 dB (39.85 dB から 39.93 dB へ) と 0.41 dB ( 32.35 dB ~ 32.76 dB)。結果は、私たちが提案した SimpleGate が GELU を置き換えることができることを示しています。この時点で、ネットワークに残っている非線形アクティベーションは、チャネル アテンション モジュールの Sigmoid と ReLU [16] の 2 つだけです。これについては次に説明します。

簡略化されたチャネル アテンション: セクション 3 では、グローバルな情報を取得し、計算効率が高いチャネル アテンション [16] をブロックに導入します。図 4a に示すように、最初に空間情報をチャネルに圧縮し、次に多層知覚をそれに適用してチャネル アテンションを計算し、それを重み付けされた特徴マップに使用します。これは次のように表すことができます。
ここに画像の説明を挿入
ここで、X は特徴マップを表し、プールは空間情報をチャネルに集約するグローバル平均プーリング操作を表します。σは非線形活性化関数、Sigmoid、W1、W2は全結合層、全結合層間ではReLUを使用します。最後に、* はチャネルごとの積演算です。チャネル アテンションの計算を Ψ で示される関数とみなし、入力を X とすると、式 5 は次のように書き換えることができます: 式 6 は
ここに画像の説明を挿入
式 1 と非常に似ていることがわかります。このことから、チャネル アテンションを GLU の特殊なケースとして考えるようになりました。これは、前のサブセクションの GLU のように単純化できます。チャネル アテンションの 2 つの最も重要な役割、つまりグローバル情報の集約とチャネル情報の相互作用を維持することにより、簡略化されたチャネル アテンションを提案します。表記は式 5 に従います
ここに画像の説明を挿入
図 4a および図 4b に示すように、単純化されたチャネル アテンション (式 7) は、元のチャネル アテンション (式 5) より明らかに単純です。シンプルですが、パフォーマンスの低下はありません。SIDD では +0.03 dB (39.93 dB ~ 39.96 dB)、GoPro では +0.09 dB (32.76 dB ~ 32.85 dB) です。

概要: セクション 3 で提案したベースラインから始めて、GELU を SimpleGate に置き換えることでベースラインをさらに簡素化し、パフォーマンスを損なうことなくチャネル アテンションを簡素化します。簡略化されたネットワークには非線形活性化関数 (ReLU、GELU、Sigmoid など) が存在しないことを強調します。したがって、私たちはこれをベースライン非線形アクティベーションフリー ネットワーク (NAFNet) と呼んでいます。図 1 および表 6、7 に示すように、非線形活性化関数がないにもかかわらず、ベースラインと一致するか、ベースラインを超える可能性があります。NAFNet のシンプルさと有効性のおかげで、このセクションの冒頭の質問に答えることができます。

5 実験

このセクションでは、前のセクションで説明した NAFNet 設計の選択の影響を詳細に分析します。次に、提案した NAFNet を、RGB 画像のノイズ除去、画像のブレ除去、生画像のノイズ除去、JPEG アーティファクト画像のブラー除去などのさまざまな画像復元アプリケーションに適用します。

ここに画像の説明を挿入
図 5 SIDD [1] に基づく画像ノイズ除去手法の定性的比較

5.1 アブレーション

アブレーション研究は、画像のノイズ除去 (SIDD [1]) およびブレ除去 (GoPro [26]) タスクに焦点を当てています。指定されない場合、計算予算、勾配クリッピング、PSNR 損失の 16 gmac など、[5] の実験設定に従います。Adam [19] オプティマイザー (β1 = 0.9、β2 = 0.9、重み減衰 0) を使用してモデルをトレーニングします。総反復数は 200K、初期学習率は 1e−3 から徐々に 1e−6 に減少し、コサインはアニーリングスケジュール [24] 。トレーニング パッチのサイズは 256 × 256、バッチ サイズは 32 です。パッチ トレーニングとフルイメージ テストに合格するとパフォーマンスの低下 [8] が発生するため、この問題を解決するために MPRNet-local [8] の後に TLC [8] を採用します。GoPro1 に対する TLC の影響を表 4 に示します。私たちは主に TLC を、[5]、[25] などで採用されている「パッチ検出」戦略と比較します。これによりパフォーマンスが向上し、パッチによるアーティファクトが回避されます。さらに、トレーニングのフォローアップを安定させるために、skip-init [11] を使用します [23]。デフォルトの幅とブロック数はそれぞれ 32 と 36 です。ブロック数が変化した場合は、計算量を一定に保つために幅を調整します。実験では、ピーク信号対雑音比 (PSNR) と構造類似性 (SSIM) を報告します。速度/メモリ/計算複雑性の評価は、入力サイズ 256 × 256 の NVIDIA 2080Ti GPU で実行されます。

PlainNet から単純なベースラインへ: PlainNet はセクション 3 で定義され、そのモジュールは図 3b に示されています。PlainNet のトレーニングはデフォルト設定では不安定であることがわかりました。代わりに、学習率 (lr) を 10 分の 1 に減らして、モデルをトレーニング可能にしました。この問題は、層正規化 (LN) を導入することで解決されます。つまり、学習率を 1e-4 から 1e-3 に増やすことができ、トレーニング プロセスがより安定します。PSNR では、LN は SIDD と GoPro でそれぞれ 0.46 dB と 3.39 dB をもたらします。さらに、GELU とチャネル アテンション (CA) の有効性も表 1 に示します。

単純なベースラインから NAFNet へ:
セクション 3 で説明したように、ベースラインを単純化することで NAFNet を取得できます。表 2 では、この単純化によるパフォーマンスの低下がないことを示しています。対照的に、PSNR は SIDD と GoPro でそれぞれ 0.11 dB と 0.50 dB 向上します。公平な比較のために、計算の複雑さは一貫しています。詳細については補足資料を参照してください。ベースラインと比較して修正された高速化を実現します。さらに、推論では、Baseline と比較して大幅な追加のメモリ消費はありません。

ここに画像の説明を挿入
表 1: PlainNet からの単純なベースラインの構築。レイヤー正規化 (LN)、GELU、およびチャネル アテンション (CA) の有効性が検証されます。* は、学習率 (lr) が大きいため、トレーニングが不安定であることを示します。

ここに画像の説明を挿入
表 2: NAFNet は、GELU を SimpleGate (SG) に、チャネル アテンション (CA) を簡易チャネル アテンション (SCA) に置き換えることにより、ベースラインを簡略化して派生しています。

ブロック数: NAFNet におけるブロック数の影響を表 3 で検証します。720 × 1280 の空間サイズは GoPro 画像全体のサイズであるため、主に 720 × 1280 の空間サイズでの遅延を考慮します。ブロック数を 36 に増やすと、レイテンシが大幅に増加することなく、モデルのパフォーマンスが大幅に向上しました (9 ブロックと比較して +14.5%)。ブロック数をさらに 72 に増やすと、モデルのパフォーマンスの向上は明らかではありませんが、レイテンシは大幅に増加します (36 ブロックと比較して 30.0% 増加)。36 ブロックではパフォーマンスとレイテンシーのバランスがより良くなるため、これをデフォルトのオプションとして使用します。

SimpleGate の σ のバリアント:
Vanilla Gated Linear Unit (GLU) には、式 1 に示すように、非線形活性化関数 σ が含まれています。図 4 と図 4c に示す、私たちが提案する SimpleGate では、これが削除されています。つまり、SimpleGate の σ は恒等関数として設定されます。単位関数の σ を表 5 のさまざまな非線形活性化関数に変化させて、σ の非線形性の重要性を判断します。SIDD 上の PSNR はほとんど影響を受けません (39.96 dB から 39.99 dB まで変動) が、GoPro 上の PSNR は大幅に低下します (-0.11 dB から -0.35 dB)。これは、NAFNet では SimpleGate の σ が必要ない可能性があることを示唆しています。

ここに画像の説明を挿入
表 3: ブロック数の影響。幅を調整してコンピューティング バジェットを一定に保ちます。Latency-256 と Latency-720 は、それぞれミリ秒単位の入力サイズ 256 × 256 と 720 × 1280 に基づいています。

ここに画像の説明を挿入
表 4: GoPro における TLC の有効性 [8][26]

ここに画像の説明を挿入
表 5: SimpleGate(X, Y) = X⊙σ(Y) の σ の変数

5.2 アプリケーション

NAFNet をさまざまな画像復元タスクに適用し、指定されていない場合は、幅を 32 から 64 に増やすことを除き、アブレーション 研究のトレーニング設定に従います。以下に示すように、バッチ サイズとトレーニング反復の総数はそれぞれ 64 と 400K です [5]。ランダムなクロップブーストを適用します。3 回の実験結果の平均を報告します。より良い結果を得るには、ベースラインが拡大されます。詳細については、付録を参照してください。

RGB 画像のノイズ除去表 6 に示すように、RGB 画像のノイズ除去結果を SIDD 上の他の SOTA メソッドと比較します。図 1 に示すように、Baseline とその簡易バージョンである NAFNet は、数分の 1 の計算コストで、以前の最高結果 Restorer を 0.28 dB 上回っています。定性的な結果を図 5 に示します。他の方法と比較して、私たちが提案するベースラインはより詳細な情報を復元できます。さらに、オンライン ベンチマークでは 40.15 dB の SOTA 結果を達成し、以前のトップランクの方法を 0.23 dB 上回りました。

画像のブレ除去GoPro [26] データセットに対する SOTA メソッドのブレ除去結果を、反転および回転拡張を使用して比較します。表 7 と図 1 に示すように、ベースラインと NAFNet の PSNR は、以前の最良の方法 MPRNet-local [8] をそれぞれ 0.09 dB と 0.38 dB 上回っていますが、その計算コストは​​わずか 8.4% です。視覚化の結果を図 6 に示します。私たちのベースラインは他の方法と比較してより明確な結果を回収できます。

ここに画像の説明を挿入
図 6 GoPro での画像のブレ除去方法の定性的比較 [26]

ここに画像の説明を挿入

表 6 SIDD 画像のノイズ除去結果 [1]

Raw 画像のノイズ除去NAFNet を RAW 画像のノイズ除去のタスクに適用します。トレーニングとテストの設定は PMRID [35] に従い、簡単にするために、テスト セットを 4Scenes と表します (データセットには、異なる照明条件下での 4 つの異なるシーンの 39 枚の生画像が含まれているため)。さらに、公平な比較を行うために、NAFNet の幅とブロック数をそれぞれ 32 から 16、36 から 7 に変更することで、PMRID よりも計算コストを低くしています。表 8 と図 7 に示す結果は、NAFNet が量的および定性的に PMRID を上回るパフォーマンスを発揮できることを示しています。さらに、この実験は、NAFNet が柔軟に拡張できることを示しています (1.1 gmac から 65 gmac まで)。

JPEG アーティファクトによる画像のブレ除去REDS [27] データセットで実験を行い、トレーニング セットは次のとおり [5, 32]、検証セット (red-val-300 と表記) 内の 300 枚の画像で結果を評価します。 5、32]。表 9 に示すように、私たちの方法は、NTIRE 2021 画像ぼかし除去チャレンジ Track2 JPEG アーティファクトの赤色データセットに対する以前の優勝スキーム (HINet) [27] など、他の競合方法よりも優れています。

ここに画像の説明を挿入
表 7 GoPro 画像のブレ除去効果 [26]

ここに画像の説明を挿入
図 7: PMRID [35] と NAFNet のノイズ除去パフォーマンスの定性的比較。詳細を表示するには拡大してください

ここに画像の説明を挿入

6 結論

SOTA メソッドを分解することで、基本コンポーネントが抽出され、プレーンな PlainNet に適用されます。結果として得られるベースラインは、画像のノイズ除去およびブレ除去タスクにおいて最先端のパフォーマンスを実現します。ベースラインの分析を通じて、ベースラインをさらに単純化できることがわかりました。非線形活性化関数は完全に置き換えまたは削除できるということです。これに基づいて、非線形非活性化ネットワーク NAFNet を提案します。簡略化されていますが、パフォーマンスはベースラインと同等以上です。私たちが提案するベースラインは、研究者がアイデアを評価するのに役立つ可能性があります。さらに、SOTA パフォーマンスを達成するために非線形活性化関数が必要ないことを実証したため、この研究は将来のコンピューター ビジョン モデルの設計に影響を与える可能性があります。

謝辞: この研究は、国家重点研究開発プログラム (番号 2017YFA0700800) および北京人工知能研究所 (BAAI) の支援を受けました。

付録

A その他の詳細

A.1 逆ボトルネック

[23] に続いて、ベースラインと NAFNet に逆ボトルネック設計を採用します。まず、アブレーション研究の背景について説明します。ベースラインでは、最初のスキップ接続のチャネル幅は常に入力と同じであり、その計算コストは​​次のように近似できます。 ここで、
ここに画像の説明を挿入
H、W は特徴マップの空間サイズ、c は入力次元、k は次のように近似できます。は深さ方向の畳み込みのカーネル サイズです (実験では 3)。実際には、c は k より大きいため、式 1 のようになります。(1)≈2 × H × W × c × c、2 番目のジョブホッピング接続の隠れ次元は入力次元の 2 倍であり、その計算コストは​​次のとおりです: 式 (1) に続く表記 したがって、ベースライン ブロック
ここに画像の説明を挿入
の総計算コスト ≈6 × H × W × c × c

NAFNet のブロックに関しては、SimpleGate モジュールはチャネル幅を半分に減らします。最初のスキップ接続の隠れ次元を、
ここに画像の説明を挿入
式 (1) に続く表記... で近似した計算コストで 2 倍にし、2 番目のスキップ接続の隠れ次元はベースラインに従います。その計算コストは​​次のとおりです。
ここに画像の説明を挿入
したがって、NAFNet ブロックの総計算コストは​​ ≈6 × H × W × c × c となり、これはベースラインのブロックと一致します。この利点は、ベースラインと NAFNet がブロック数や学習率などのハイパーパラメータを共有できることです。

アプリケーションでは、ベースラインの最初のスキップ接続の隠れ次元が拡張され、より良い結果が得られます。さらに、上記の説明では、レイヤー正規化、GELU、チャネル アテンションなどの一部のモジュールの計算が省略されていることに注意してください。これは、それらの計算コストが畳み込みと比較して無視できるためです。
ここに画像の説明を挿入

A.2 チャネル アテンションと簡易チャネル アテンション

幅 c の特徴マップの場合、チャネル アテンション モジュールはそれを r 倍にダウンスケールし、(完全に接続された層を介して) c に投影し直します。計算コストは​​、c × c/r + c/r × c として近似できます。簡略化されたチャネル アテンション モジュールの場合、計算コストは​​ c × c です。公正な比較のために、計算コストが次のようになるように r = 2 を選択します。実験コストは一貫しています。

A.3 機能の融合

エンコーダ ブロックからデコーダ ブロックへのスキップ接続があり、エンコーダ/デコーダ機能を融合する方法がいくつかあります。[5] では、エンコーダの特徴は畳み込みによって変換され、デコーダの特徴と連結されます。[39] では、特徴は最初に連結され、次に畳み込みによって変換されます。違いは、機能融合方法としてエンコーダー機能とデコーダー機能を要素ごとに追加するだけであることです。

A.4 ダウンサンプル/アップサンプル層

ダウンサンプル層には、カーネル サイズ 2、ストライド 2 の畳み込みを使用します。このデザインの選択は [2] からインスピレーションを得たものです。アップサンプリング層については、まず点ごとの畳み込みによってチャネル幅を 2 ​​倍にし、次にピクセル スクラビング モジュール [31] に従います。

B さらなる視覚化結果

図 1、2、および 3 に示すように、生画像のノイズ除去、画像のブレ除去、および RGB 画像のノイズ除去タスクの追加の視覚化結果を提供します。他の方法と比較して、私たちのベースラインはより詳細な情報を復元できます。赤いボックス内の詳細を拡大して比較することをお勧めします。

参考文献

  1. Abdelhamed, A.、Lin, S.、Brown, MS: スマートフォン カメラ用の高品質のノイズ除去データセット。
    参加: コンピューター ビジョンとパターン認識(CVPR)に関する IEEE 会議(2018 年 6 月)

  2. Alsallakh, B.、Kokhlikyan, N.、Miglani, V.、Yuan, J.、Reblitz-Richardson, O.:
    パッドとネットワークには盲点が生じる可能性があることに注意してください。arXiv プレプリント arXiv:2010.02178 (2020)

  3. Ba、JL、Kiros、JR、Hinton、GE: レイヤーの正規化。arXiv プレプリント
    arXiv:1607.06450 (2016)

  4. Chen, H.、Wang, Y.、Guo, T.、Xu, C.、Deng, Y.、Liu, Z.、Ma, S.、Xu, C.、Xu, C.、Gao, W
    .:事前にトレーニングされた画像処理トランスフォーマー。参照:
    コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp. 12299–12310 (2021)

  5. Chen, L.、Lu, X.、Zhang, J.、Chu, X.、Chen, C.: Hinet:
    画像復元用のハーフ インスタンス正規化ネットワーク。参照: コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録
    pp.182–192 (2021)

  6. Cheng, S.、Wang, Y.、Huang, H.、Liu, D.、Fan, H.、Liu, S.: Nbnet: 部分空間投影による画像ノイズ除去のためのノイズ基礎学習。参照:
    コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp. 4896–4906
    (2021)

  7. Cho、SJ、Ji、SW、Hong、JP、Jung、SW、Ko、SJ: 単一画像のブレ除去における粗密アプローチの再考。掲載: コンピューター ビジョンに関する IEEE/CVF 国際
    会議の議事録。pp. 4641–4650 (2021)


  8. Chu, X.、Chen, L.、Chen, C.、Lu, X.:グローバルな情報集約を再考することで画像復元を改善します。arXiv プレプリント arXiv:2112.04491 (2021)

  9. Dai、Z.、Yang、Z.、Yang、Y.、Carbonell、J.、Le、QV、Salakhutdinov、R.:
    Transformer-xl: 固定長のコンテキストを超えた注意深い言語モデル。arXiv
    プレプリント arXiv:1901.02860 (2019)

  10. Dauphin, YN、Fan, A.、Auli, M.、Grangier, D.: ゲート
    畳み込みネットワークによる言語モデリング。開催日: 機械学習に関する国際会議。933ページ–

  11. PMLR (2017)


  12. De, S.、Smith, S.: バッチ正規化は、深いネットワークの恒等関数に向かって残差ブロックにバイアスをかけます。神経情報処理システムの進歩
    33、19964–19975 (2020)

  13. Dosovitskiy, A.、Beyer, L.、Kolesnikov, A.、Weissenborn, D.、Zhai, X.、Unterthiner,
    T.、Dehghani, M.、Minderer, M.、Heigold, G.、Gelly, S.、他: 画像は
    16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。arXiv プレプリント
    arXiv:2010.11929 (2020)

  14. Han, Q.、Fan, Z.、Dai, Q.、Sun, L.、Cheng, MM、Liu, J.、Wang, J.:
    ローカル ビジョン トランスフォーマーの謎を解く: スパース接続、重み共有、動的重み。
    arXiv プレプリント arXiv:2106.04263 (2021)

  15. He、K.、Zhang、X.、Ren、S.、Sun、J.: 画像認識のための深層残差学習。掲載:
    コンピューター ビジョンとパターン認識に関する IEEE 会議の議事録。
    pp. 770–778 (2016)

  16. Hendrycks, D.、Gimpel, K.: ガウス誤差線形単位 (ゲルス)。arXiv プレプリント
    arXiv:1606.08415 (2016)

  17. Hu, J.、Shen, L.、Sun, G.: 圧縮および励起ネットワーク。掲載:
    コンピューター ビジョンとパターン認識に関する IEEE 会議の議事録。pp. 7132–7141 (2018)

  18. Hua、W.、Dai、Z.、Liu、H.、Le、QV: 線形時間におけるトランスの品質。arXiv
    プレプリント arXiv:2202.10447 (2022)

  19. Ioffe, S.、Szegedy, C.: バッチ正規化:
    内部共変量シフトを削減することでディープ ネットワーク トレーニングを加速します。開催日: 機械学習に関する国際会議。
    448–456ページ。PMLR (2015)

  20. Kingma、DP、Ba、J.: Adam: 確率的最適化の手法。arXiv プレプリント
    arXiv:1412.6980 (2014)

  21. Liang, J.、Cao, J.、Fan, Y.、Zhang, K.、Ranjan, R.、Li, Y.、Timofte, R.、Van Gool, L.: Vrt: ビデオ復元トランス
    arXiv プレプリント arXiv:2201.12288 (2022)

  22. Liang, J.、Cao, J.、Sun, G.、Zhang, K.、Van Gool, L.、Timofte, R.: Swinir:
    swin トランスフォーマーを使用した画像復元。掲載: コンピューター ビジョンに関する IEEE/CVF 国際
    会議の議事録。pp. 1833–1844 (2021)

  23. Liu, Z.、Lin, Y.、Cao, Y.、Hu, H.、Wei, Y.、Zhang, Z.、Lin, S.、Guo, B.: Swin トランスフォーマー: シフト ウィンドウを使用した階層型ビジョン トランスフォーマー
    掲載:
    コンピューター ビジョンに関する IEEE/CVF 国際会議の議事録。pp. 10012–10022
    (2021)


  24. Liu, Z.、Mao, H.、Wu, CY、Feichtenhofer, C.、Darrell, T.、Xie, S.: 2020 年代の会議。arXiv プレプリント arXiv:2201.03545 (2022)

  25. Loshchilov, I.、Hutter, F.: Sgdr: ウォーム リスタートによる確率的勾配降下法。
    arXiv プレプリント arXiv:1608.03983 (2016)


  26. Mao, X.、Liu, Y.、Shen, W.、Li, Q.、Wang, Y.:単一画像のブレを除去するための深い残差フーリエ変換。arXiv プレプリント arXiv:2111.11745 (2021)

  27. Nah, S.、Hyun Kim, T.、Mu Lee, K.: 動的なシーンのブレを除去するためのディープ マルチスケール畳み込みニューラル ネットワーク
    掲載: コンピューター
    ビジョンとパターン認識に関する IEEE 会議の議事録。pp.3883–3891 (2017)

  28. Nah, S.、Son, S.、Lee, S.、Timofte, R.、Lee, KM: 画像のブレ除去に関する 2021 年の課題
    参照: コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録
    pp. 149–165 (2021)

  29. Nair, V.、Hinton, GE: 整流された線形ユニットは、制限されたボルツマン マシンを改善します。年: Icml (2010)

  30. Ronneberger, O.、Fischer, P.、Brox, T.: U-net: 生物医学画像セグメンテーションのための畳み込みネットワーク。参加: 医療画像コンピューティング
    とコンピュータ支援介入に関する国際会議。234–241ページ。スプリンガー (2015)

  31. Shazeer, N.: グルタミン酸バリアントはトランスを改善します。arXiv プレプリント arXiv:2002.05202
    (2020)

  32. Shi, W.、Caballero, J.、Huszar, F.、Totz, J.、Aitken, AP、Bishop, R.、Rueckert,
    D.、Wang, Z.: リアルタイムの単一画像とビデオのスーパー効率的な
    サブピクセル畳み込みニューラル ネットワークを使用した解像度。掲載:
    コンピューター ビジョンとパターン認識に関する IEEE 会議の議事録。1874–1883 ページ (2016)

  33. Tu、Z.、Talebi、H.、Zhang、H.、Yang、F.、Milanfar、P.、Bovik、A.、Li、Y.: Maxim:
    画像処理用の多軸 mlp。arXiv プレプリント arXiv:2201.02973 (2022)

  34. Ulyanov, D.、Vedaldi, A.、Lempitsky, V.: インスタンスの正規化: 高速な様式化に欠けている要素。arXiv プレプリント arXiv:1607.08022 (2016)

  35. Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, AN、Kaiser,
    ÙL.、Polosukhin, I.: 必要なのは注意力だけです。神経情報処理システムの進歩 30 (2017)


  36. Wang, Y.、Huang, H.、Xu, Q.、Liu, J.、Liu, Y.、Wang, J.:モバイル デバイスでの実用的なディープ RAW 画像ノイズ除去。開催場所: コンピューター ビジョンに関する欧州会議。1 ~ 16ページ
    スプリンガー (2020)

  37. Wang, Z.、Cun, X.、Bao, J.、Liu, J.: Uformer: 画像復元用の一般的な U 字型トランスフォーマー
    arXiv プレプリント arXiv:2106.03106 (2021)

  38. Waqas Zamir, S.、Arora, A.、Khan, S.、Hayat, M.、Shahbaz Khan, F.、Yang, MH、
    Shao, L.: 多段階プログレッシブ画像修復。arXiv 電子プリント pp. arXiv–2102
    (2021)


  39. Yan, J.、Wan, R.、Zhang, X.、Zhang, W.、Wei, Y.、Sun, J.:バッチ正規化の逆伝播におけるバッチ統計の安定化に向けて。arXiv プレプリント
    arXiv:2001.06838 (2020)

  40. Zamir, SW、Arora, A.、Khan, S.、Hayat, M.、Khan, FS、Yang, MH:
    Restormer: 高解像度画像復元のための効率的な変換器。arXiv
    プレプリント arXiv:2111.09881 (2021)

  41. Zamir, SW、Arora, A.、Khan, S.、Hayat, M.、Khan, FS、Yang, MH、Shao, L.:
    実際の画像の復元と強化のための豊富な機能を学習します。開催場所: コンピューター ビジョンに関する欧州会議。492–511ページ。スプリンガー (2020)

おすすめ

転載: blog.csdn.net/qq_52358603/article/details/131924016