ICCV 2023 | 光と影の昇華: FeatEnHancer 任意の低照度タスク用のプラグアンドプレイ モジュールで精度が大幅に向上!

ガイド

TL;DR : この論文では、FeatEnHancer低照度視覚タスク用のマルチスケール階層機能を強化するための新しいアプローチを提案します。提案されたソリューションは、関連する機能を強化することに焦点を当てており、強力なセマンティック表現を提供することにより、既存の低照度画像強化方法よりも優れた性能を発揮します。この方法では、個々の特徴の品質が向上するだけでなく、さまざまなスケールの特徴が効果的に結合され、オブジェクトの検出やセグメンテーションなどのタスクのパフォーマンスが向上します。この論文では、いくつかのベンチマーク データセットのパフォーマンス メトリクスを通じてその手法の有効性を確認し、SOTA 手法と比較して大幅な改善を達成しています。

低照度条件下で有用な視覚的手がかりを抽出することは、下流のタスクにとって困難であることで知られています。既存の方法は、視覚的な品質と機械の知覚を相関させることによって画質を向上させるか、合成データセット(重畳されたノイズ、雨、雪、照明など)での事前トレーニングを必要とする方法を使用します。

この論文ではFeatEnHancer、マルチヘッド アテンション メカニズムを借用して、マルチスケールの特徴を階層的に結合する という名前のモジュールを提案します。このアプローチにより、ネットワークはより代表的で識別力のある強化された特徴を抽出できるようになります。具体的には、この方法は、タスクの相対的な重要性に応じて異なるスケールのフィーチャを組み合わせながら、各スケールまたはレベルでのフィーチャの品質を向上させることに焦点を当てています (動的メカニズム)。提案された方法はプラグアンドプレイであり、理論的にはあらゆる暗い視覚タスクに適用できることは言及する価値があります。上の図で視覚化された階層表現の結果から、ネットワークが実際に意味のある表現を抽出できることがわかります。 。

モチベーション

高品質の画像high-levelによる視覚タスクは進歩していますが、低照度画像強調 (LLIE) 手法を高レベルの視覚タスクと組み合わせるとパフォーマンスが低下します。LLIEこれは、既存の方法は人間の目の視覚を向上させる一方で、エッジテクスチャなどのオブジェクトの重要な特徴を損なう可能性があるため、機械の視覚とはうまく適合しない可能性がある (モードの不一致) という事実によるものです

さらに、低照度画像内のピクセルの分布は大きく変化することが知られており、これが重大な検出ミスの問題を引き起こす可能性があります。現在のLLIE方法で採用されている従来の損失関数は、各ピクセルの重要性を「区別」しないため、高レベルのタスクに重要な詳細な情報を学習するのに役立ちません。

したがって、LLIEビジョンベースのネットワークの進歩に触発されたこのホワイトペーパーは、機能拡張と下流のタスク目標を共同最適化することで、このギャップを埋めることを目的としています。

方法

全体的なアーキテクチャを図に示します。これが階層化された特徴表現であり、途中でいくつかのマルチスケール特徴融合メカニズムと結合し、最後に低照度で強化された画像が下流のタスクに送信されることを理解するのは難しくありません。申請用に。実はこの部分については前回の記事でかなり詳しく解説しているので、ここで簡単に説明しましょう。まず全体的なプロセスを説明します。

まず、FeatEnHance は、入力された低照度画像をさまざまなレベルでダウンサンプリングして、マルチスケールの階層表現を構築します。

次に、これらの表現は機能拡張ネットワーク (FEN) に供給され、内部スケールでの意味表現が強化されます。

強化された表現は、次の 2 つの戦略によって融合されます。

  • 高解像度の特徴にはスケールアウェア アテンション フィーチャー アグリゲーション (SAFA) を使用します。
  • 低解像度の機能にはスキップ接続を使用します。

最後に、FENのパラメータをタスク依存の損失関数によって調整して、タスク関連の機能の強化に重点を置くことができます。

機能拡張ネットワーク

各スケールで機能を強化するには、下流のタスクで重要な空間情報を拡張する方法を学習できる拡張ネットワークが必要です。この目的のために、著者はZero-DCE++(TPAMI 2021) のアプリケーションを参照しDCENet、完全畳み込みマルチスケール特徴抽出ネットワークを構築しますFENDCENet との違いは次のとおりです。

  1. FEN はまず、特徴マップFFを生成するために別の畳み込み層を導入します。F、その解像度H × WH × WH×Wは入力と同じですが、3チャンネルから32チャンネルに変わります。
  2. 6 つの畳み込み層が適用され、それぞれの後にReLUsymmetry を持つ活性化関数が続きますskip connection
  3. FEN の出力は、それぞれ と結合されてstage、マルチスケールの特徴表現を取得します。このマルチスケールの学習により、ネットワークは高解像度および低解像度の特徴からグローバルおよびローカルの情報を強化できます。
  4. さらに、隣接するピクセル間の意味論的な関係を維持するために、FEN はダウンサンプリング合計の使用を回避しますBatch Norm
  5. 最後に、FEN は DCENet の最後の畳み込み層を破棄し、各スケールからの最終的な拡張特徴表現をマルチスケール特徴融合に渡します。

もちろん、ここでの機能拡張ネットワークはアーキテクチャ全体から切り離されており、理論的には任意の特徴抽出ネットワークに置き換えることができます。

マルチスケール機能の融合

この部分は主に、上記の FEN のステップ 3 の詳細な操作を補足するものです。私たちは知っています:

  • 低解像度機能 ( F o F_{o}Fああ): ディテールとエッジが含まれます。
  • 高解像度機能 ( F q F_{q}Fq): 形状やパターンなどの抽象的な情報をキャプチャします。

この目的を達成するために、次の融合戦略を適用できます。

  • スケール認識アテンション機能集約 (SAFA): マルチヘッド アテンション メカニズムから着想を得たもので、ネットワークがさまざまなスケールからの情報を共同で学習できるようにします。
  • スキップコネクション(SC):アンサンブルF o F_{o}Fああの低レベル情報と のSAFA拡張表現により、最終的な拡張階層表現が得られます。

これには SAFA モジュールが関係します。その設計コンセプトは、マルチスケールの機能を高い計算効率で効果的に集約する方法です。

以下は、上の図と組み合わせてアプリケーション戦略を簡単に説明したものです。

  1. 高解像度の特徴は、アテンション操作の前に、より低い解像度にマッピングされます。
  2. SAFA は中間特徴量FFを採用しますFダウンサンプリングをQQに変換QF q F_{q}FqKKに変換K。 _
  3. QQQKKK concatは階層的特徴のセットF q + k F_{q+k}Fq + k、この一連の特徴は、アテンションの重みを計算するために N 個のブロックに分割されます (マルチヘッド アテンション メカニズムの設計を参照)。
  4. 標準のQKVセルフアテンション演算を使用して重みを計算し、拡張階層表現F h F_{h}を計算します。F

畳み込み層の重みは、注意の重みが計算される前に共有されないことに注意してください。さらに、F h F_{h}FQQ付きQKKKは同じサイズですが、マルチスケールの高解像度フィーチャからのより豊かな表現が含まれています。ここではスキップ接続操作によりF o F_{o}FああそしてF h F_{h}F最終的に拡張された階層表現が得られ、グローバルとローカルの両方の特徴がカバーされます。同時に、ここでのアップサンプリング操作は単純な双線形補間を使用します。もちろん、これは転置畳み込みを使用するよりも確実に高速になります。

実験

この論文では、4 つの異なる視覚タスクの下で実験が実行されました。各タスク データ セットの詳細な統計は次のとおりです。

これには、低照度ターゲット検出、顔検出、セマンティック セグメンテーション、および視覚ターゲット検出が含まれます。まず、定量分析結果が与えられます。

このペーパーの方法ではさまざまなタスクが大幅に増加し、そのほとんどが数ポイント改善されていることがわかります。次に、定性分析の結果を確認します。

最後に、中央の視覚化結果を見てみましょう。強化された画像がより良い表現を学習できることが明確にわかります。

要約する

この論文では、FeatEnHancerという名前の新しい汎用機能拡張モジュールを提案します。これは、低照度視覚における下流のタスクに有益な階層機能を強化することを目的としています。設計されたスケール内機能拡張およびスケールを意識したアテンション機能集約戦略は、ビジュアル バックボーン ネットワークと組み合わされて、強力なセマンティック表現を生成します。さらに、FeatEnHancer合成データセットでの事前トレーニングも、拡張された損失関数に依存する必要もありません。これらのアーキテクチャ上の革新により、FeatEnHancerプラグアンドプレイ モジュールになっています。画像とビデオを対象とした 4 つの異なる下流視覚タスクに関する広範な実験により、提案された方法が、特定のタスクに対してベースライン、LLIE 方法、および最先端の方法と比較して、安定した大幅な改善をもたらすことが実証されました。

最後に書きます

ビジョン関連のアプリケーションにlow-level興味のある子供用靴は、画面の下部にある QR コードをスキャンするか、WeChat ID cv_huber を直接検索して編集者の友達を追加し、注: 学校/会社の研究方向のニックネームを追加して、コミュニケーションと学習を行ってください。もっと友達と一緒に!

おすすめ

転載: blog.csdn.net/CVHub/article/details/132521328