論文の朗読「暗闇の中で見ることを学ぶ」

暗闇の中で見ることを学ぶ -CVPR2018

Chen ChenUIUC (イリノイ大学アーバナ・シャンペーン校)

Qifeng Chen、Jia Xu、Vladlen Koltun Intel Labs (Intel Research)

文章链接:https://arxiv.org/pdf/1805.01934.pdficon-default.png?t=N7T8https://arxiv.org/pdf/1805.01934 .pdf源码地址:
GitHub - cchen156/Learning-to-See-in-the-Dark: 暗闇の中で見ることを学ぶ。 CVPR 2018暗闇の中で見ることを学ぶ。 CVPR 2018。GitHub でアカウントを作成して、cchen156/Learning-to-See-in-the-Dark の開発に貢献してください。icon-default.png?t=N7T8https://github.com/cchen156/Learning-to-See -暗闇の中で

研究の背景

        暗い光の状況では、画像の品質は低い信号対雑音比と低い輝度によって大きく影響されます。さらに、露出が低い写真にはノイズが多くなり、露出時間が長いと写真がぼやけて非現実的になります。現時点では、ノイズ除去、ブレ除去、画像強調などの多くのテクノロジーは、極端な照明条件下では効果が限られています。この論文は主に、極度の低照度条件下での画像イメージングの問題に対処し、暗闇でも使用できる高速で鮮明なイメージング システムを提案しています。

主な仕事

        この論文では、完全畳み込みニューラル ネットワーク (FCN) 法を通じて、暗い環境で撮影されたショットを復元する方法を提案しています。制御変数法を使用して、さまざまなノイズ除去方法を比較し、信号対雑音比を高め、より良い解決策を見つけます。 。 プラン。

革新

この記事の主な革新ポイントは次のとおりです。

1. オリジナルの短時間露出の低照度画像を含み、グラウンド トゥルースとして長時間露出の参照画像を伴う新しい写真データ セットが提案されます。過去の同様の研究では合成画像が使用されていました。  

2. カメラを使用して RGB 画像をキャプチャして復元する以前の方法とは異なり、元のセンサー データがネットワーク入力として使用されます。

 3. 完全畳み込みネットワークをトレーニングすることにより、高速イメージング システムで低輝度画像を直接処理するためのエンドツーエンド学習方法が提案されます。

既存の作品のレビュー   

        ​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​: : ホワイトバランス、デモザイク、ノイズ除去、画像の鮮明度の向上、ガンマ補正など。これらの画像処理モジュールには、さまざまなカメラに合わせた特定の設計が必要です。一部の研究では、現代のイメージング システムにおける複雑な非線形プロセスをシミュレートするために、局所的に線形で学習可能な L3 フィルターを使用することを提案していますが、これらの方法では、低照度条件での高速イメージングの問題や、極端に低い SNR の問題をうまく解決することはできません。 。さらに、スマートフォンのカメラで撮影した写真を使用して、バースト イメージング法を使用して複数の画像を結合することにより、より良い画像を生成することもできますが、この方法はより複雑です。​ 

提案手法

        これは、高速イメージング システムで低輝度画像を直接処理するように完全畳み込みネットワーク FCN をトレーニングするエンドツーエンドの学習方法です。純粋な FCN 構造は、生のセンサー データを入力として使用して、多くの画像処理アルゴリズムを効果的に表現できます。ベイヤー配列の場合、入力は 4 つのチャネルにパックされ、空間解像度は各チャネルで半分に低下します。元のデータは 6×6 に配置されたブロックで構成されており、36 チャネルの配列は、隣接するチャネル要素を交換することで 9 チャネルにパックされます。黒ピクセルを除去し、必要な係数でデータをスケーリングします。処理されたデータを FCN モデルへの入力として使用します。出力は 12 チャネルの画像であり、その空間解像度は入力の半分にすぎません。この半分のサイズの出力は、サブピクセル レイヤーによって処理されて、元の解像度が復元されます。

        高速画像処理のためのマルチスケール コンテキスト アグリゲーション ネットワーク (CAN) と U-net ネットワークという 2 つの標準 FCN がモデルの中核として機能し、最終的に U-net ネットワークが選択されました。拡大率はモデルの輝度出力を決定し、カメラの ISO 設定と同様に、外部で指定され、モデルへの入力として提供されます。モデルは L1 損失と Adam オプティマイザーを使用します。ネットワーク入力は元の短時間露光画像であり、対応する実際のデータは長時間露光画像です。それらの間の露光時間の多重差が増幅率として使用されます。トレーニング中、512x512 パッチトレーニング用にランダムに切り取られます。反転や回転などの操作を使用して、データ強化を実行します。初期学習率は 0.0001 に設定され、2000 回の反復後に 0.00001 に減少し、合計 4000 回の反復が実行されます。

FCNネットワーク

FCN と CNN の違い: CNN 畳み込み層は全結合層に接続されており、FCN 畳み込み層は依然として畳み込み層に接続されており、出力は入力と同じサイズの特徴マップです。 FCN は、従来の CNN の全結合層を畳み込み層に変換します。 FCN 多重畳み込み画像はますます小さくなり、ピクセルもますます低くなります。

         従来の CNN 構造では、最初の 5 層は畳み込み層、6 番目と 7 番目の層はそれぞれ長さ 4096 の 1 次元ベクトル、8 番目の層は長さ 1000 の 1 次元ベクトルで、それぞれ 1000 カテゴリの確率。 FCN はこれら 3 つの層を畳み込み層として表し、畳み込みカーネルのサイズ (チャネル数、幅、高さ) は (4096,7,7)、(4096,1,1)、および (1000,1,1) です。それぞれ。すべての層は畳み込み層であり、完全畳み込みネットワークと呼ばれます。​ 

 

Unetネットワーク

        U-Net のプロセス全体はエンコードとデコードであり、セグメンテーション、画像圧縮、ノイズ除去に使用できます。元の画像のノイズを除去するためにも使用できます。この方法は、トレーニング段階で元の画像に人工的にノイズを追加し、それをコーデックに入れることです。ダウンサンプリングにより、入力画像のいくつかの小さな摂動に対するロバスト性が向上します。画像の変換や回転などを行うことで、オーバーフィッティングのリスクを軽減し、計算量を削減し、受容野のサイズを拡大します。アップサンプリングでは、抽象的な特徴を元の画像のサイズに復元およびデコードして、出力を取得します。

        特徴マップをコピー + カットすることで、浅いネットワークに明白なコンテンツ情報を保持させることができますが、ネットワーク層が深くなるにつれて、コンテンツが削減され、特徴が増加し、深いネットワークにコンテンツ情報が追加されます。簡単に言うと、初期段階でコンボリューションとプーリングを継続してダウンサンプリングを行い、その後コンボリューションとアップサンプリングを継続してU字型を形成することを意味します。ダウンサンプリングの結果は、抽象化と詳細の組み合わせを実現するために、対応するアップサンプリングの結果にも合成されます。

CANコンボリューション

        著者は、新しい畳み込み手法、拡張畳み込み - CAN: DILATED CONVOLUTIONS によるマルチスケール コンテキスト集約を提案します。マルチスケールの意味情報の融合は、拡張畳み込みによって達成され、受容野の面積が増加するため、より優れた密な分類結果が得られます。現在、FCNは空間分解能を低下させる代わりにうんちをすることで受容野を増大させており、多くの空間情報を無駄にしている。元の標準畳み込み拡張畳み込みと比較すると、ハイパーパラメータが 1 つ増えています。拡張率は、カーネルの各ポイントの前の間隔の数を指します。これにより、解像度を損なうことなく、より大きな受容野が得られます。

データセット 

        See in the dark (SID) データセットには 5094 枚のオリジナルの短時間露出画像が含まれており、それぞれに参照長時間露出画像が含まれています。画像は、屋内と屋外の両方の 2 台のカメラ (上下) によって収集されます。より貴重な点の 1 つは、データ セットが非常に暗い照明条件下で撮影されたことであり、グラウンドトゥルースが確立された最初の低照度データ セットです。

 実験結果

        従来の画像処理方法は、極度の低照度条件下では大きなノイズの影響を受けやすいですが、この方法は画像ノイズを効果的に抑制し、カラーバランスの取れたリアルな画像を生成します。

要約する

        この論文では、データ駆動型手法の研究をサポートするために Dark Image Dataset (SID) を作成します。 SID データセットを使用して、FCN ベースのモデル (U-net をコアとする) が提案され、エンドツーエンドのトレーニングを通じて低照度画像を処理する従来の方法が改善されます。ノイズを抑え、正しく色変換を行うことができます。

おすすめ

転載: blog.csdn.net/xs1997/article/details/133823208