【論文ノート】—低照度画像補正—監修—GLADNet—2018-FG

【序章】

Global Illumination Awareness and Detail Preserving Network (GLADNet) は、最初に低照度入力のグローバル照度推定値を計算し、次に推定値に基づいて照度を調整し、元の入力への接続を使用して補完することで、低照度画像を強化することが提案されています。詳細。

【题目】:GLADNet: Low-Light Enhancement Network with Global Awareness

【DOI】:10.1109/FG.2018.00118

【会议】:2018 13th IEEE International Conference on Automatic Face Gesture Recognition (FG 2018)
【机构】:Wenjing Wang, Chen Wei, Wenhan Yang, Jiaying Liu(都来自北京大学)

【论文链接】:https://github.com/daooshee/fgworkshop18Gladnet/blob/master/wwj_fg2018.pdf
【代码链接】:https://github.com/weichen582/GLADNet
【工程链接】:https://daooshee.github.io/fgworkshop18Gladnet/

【革新】

  1. 最初に大域照明推定が実行され、次に生成された照明の大域事前分布と元の入力の接続を使用して詳細再構成が実行されます。
  2. トレーニング用の生画像上の合成データ ペア。

【GLADNetのネットワーク構成】

  1. グローバル イルミネーション推定:最近傍補間は、入力を特定のサイズ W0×H0 にダウンサンプリングし、それをグローバル イルミネーション予測用のエンコーダ/デコーダ ネットワークに入れて、グローバル プリア (96x96) のイルミネーションを生成し、最終的にネイティブ解像度に再スケーリングします。
  2. 詳細再構成:グローバル事前画像と元の入力画像に基づいて、畳み込みネットワークが詳細再構成に使用されます。スキップ接続の代わりに連結を使用して、最後のアップサンプリング ブロックの特徴マップを入力画像と結合します。これにより、元の情報と照度推定の両方が完全に保存され、次のステップに渡されます。接続層の後には、ReLU を使用した 3 つの畳み込み層が続きます。入力画像情報と推定されたグローバルイルミネーション情報を組み合わせて、最終的にはより詳細な結果を生成します。

コーデック ネットワークのボトルネック層の受容野は、画像全体をカバーすることができます。したがって、ネットワークは照明分布全体をグローバルに認識します。 

ボトルネック層とは何ですか?

これがボトルネック層と呼ばれる理由は、ボトルネックのように見えるためです。ボトルの首のように、中央が薄くなっています。
例: ResNet 残差ネットワークでは、1x1 畳み込みを使用して次元を増減した後、中央の特徴マップの次元は比較的小さくなり、ボトルネック層と呼ばれます。
1x1 畳み込みを使用する主な目的は、パラメーターの数を減らして計算量を減らすことであり、次元削減後は、データ トレーニングと特徴抽出をより効果的かつ直感的に実行できるようになります。

【損失関数】

トレーニング プロセスは、復元された画像 F(X, Θ) と対応する実画像 Y の間の損失を最小限に抑えることによって実現されます。L1 ノルムを使用します。N はすべてのトレーニング サンプルの数です

L1 ノルムは、2 つのグラフのグローバルな意味論的特徴を可能な限り同じにします。
L2 ノルムは、エンハンスメント結果からノイズとリンギングアーティファクトを除去します。

【データセット】

RAW画像上でデータペアを合成します。780 枚の生画像が RAISE [12] から収集され、そのうち 700 枚はトレーニング ペアの生成に使用され、80 枚は検証に使用されます。Adobe Photoshop Lightroom には、露出、明るさ、コントラストなど、RAW 画像調整用のさまざまなパラメーターが用意されています。低照度画像は、露出パラメータEを[-5, 0]、振動パラメータVを[-100, 0]、コントラストパラメータCを[-100, 0]に設定して合成する。色の偏りを防ぐために、カラー画像ペアに変換された 700 個のグレースケール画像ペアがトレーニング データセットに追加されました。拡張の前後で黒と白の領域を同じに保つために、5 つの黒から黒へのトレーニング ペアと 5 つの白から白へのトレーニング ペアが追加されます。最後に、すべての画像のサイズが 400×600 に変更され、ポータブル ネットワーク グラフィックス形式に変換されました。

【実験結果】

他の方法と比較して、私たちの方法はより鮮明で自然な結果を生み出します。GLADNet は入力をグローバルに認識し、画像全体を同時に調整するため、明るい領域の露出オーバーや暗い領域の露出不足を回避できます。さらに、詳細再構成ステップのおかげで、強化された画像でも詳細が保持されます。

GLADNet の主な用途の 1 つは、オブジェクトの検出や認識など、他のコンピューター ビジョン タスクのパフォーマンスの向上に役立つことです。

MEF データセットの「エッフェル塔」に対するGoogle Cloud Vision APIの結果。機能強化前は、Google Cloud Vision はエッフェル塔を認識できませんでした。GLADNet で拡張すると、エッフェル塔が認識され、緑色のボックスでマークされます。

GLADNet は、Google Cloud Vision API がこの画像内のオブジェクトを識別するのに役立ちます。

おすすめ

転載: blog.csdn.net/qq_39751352/article/details/126271682