【論文を読む】GANMc

論文: https://ieeexplore.ieee.org/document/9274337

侵害がある場合はブロガーに連絡してください

ここ数日, 私は GAN の赤外線融合の実装に関する別の論文を読みました. 当然のことですが, それは FusionGAN 著者チームの誰かによって書かれました. GAN の赤外線画像融合の実装に関する以前の論文と比較して, この論文は新しいいくつかのことを提案しました解決策のアイデア。見てみましょう。
ここに画像の説明を挿入します

簡単な紹介

私はイメージ フュージョンに関する論文をいくつか読み、この分野を少し始めて、さまざまな手法を見てきましたが、大手の企業はこの技術が非常に優れていると言わざるを得ません。
ここに画像の説明を挿入します
今日お話しする論文は GAN に基づいたものですが、この論文が私に提供する最も重要なポイントは、テクスチャの詳細とコントラストを維持する処理です。私たちがこれまでに読んだ論文のほとんどは、視覚画像のテクスチャ情報と赤外線画像のコントラストを保存することのみを目的としてこの側面を扱っていますが、この論文の著者が述べたように、視覚画像のコントラストと赤外線画像のテクスチャは、赤外線画像情報も注目に値します。下の図のように、左が可視画像、右が赤外線画像ですが、
ここに画像の説明を挿入します
上の画像の情報をよく見ると、最初の右側の赤外線画像の葉の質感情報が異なることがわかります。 1 行目の保存性が良く、2 行目の視覚イメージのコントラストが良くなります。それが強くなると、物事は面白くなり始めます。この論文について少しずつ話しましょう。
ここに画像の説明を挿入します

ネットワーク構造

まずはネットワーク全体の構造を見てみましょう
ここに画像の説明を挿入します

DIVFusion のネットワーク構造に比べると非常にシンプルですが、次にネットワークの構成要素を少しずつ理解していきます。

ビルダー

ここに画像の説明を挿入します
上図はジェネレーターのネットワーク構造を示しています. ジェネレーターの入力は 2 つのパス、つまりグラジエント パスとコントラスト パスに分割されます. グラジエント パスには 2 つの視覚画像と 1 つの赤外線画像が含まれ、コントラスト パスには 2 つの赤外線画像が含まれます画像と 1 つの表示画像。画像を表示します。FusionGAN と同様に、ここでの入力画像は 132x132 サイズにパディングされ、最終的に生成される画像が入力画像と同じサイズになるようにします。

2 つのパスの入力は、まず 4 つの畳み込み層を通過し (畳み込みカーネル、活性化関数、およびバッチ正規化の具体的な内容はすべて図に示されています)、特徴を抽出してから、2 つのパスから抽出された特徴を結合します。 1x1 の畳み込みとアクティベーションにより、ターゲット イメージが生成されます。

ここで非常に興味深いことがあり、ジェネレーターへの入力は単一の視覚画像や赤外線画像ではなく、複数のそのような画像のスタックです。

弁別子

ここに画像の説明を挿入します
Discriminator のネットワーク構造は上図に示されており、注意して見ると、最終的な出力は前に見た GAN と同じではないことがわかります。

FusionGAN と DDcGAN を思い出してください, どちらの識別器も最終的には 1 次元の確率のみを出力することがわかります. DDcGAN のような二重識別器でさえ、最終的な出力は 1 次元の確率のみですが、GANMcC の識別器の出力はそれですは二次元データです。

では、なぜこのように設計されているのでしょうか?

ここでの論文著者の論理は他の人と少し異なり、識別器が出力する二次元データは、入力画像が視覚画像である確率と赤外線画像である確率をそれぞれ表している。

では、この 2 次元データをどのように適用するのでしょうか?

ここで、このモデルの役割について考えてみましょう。それは、より多くのテクスチャ情報とコントラスト情報を含む融合画像を生成し、それを GAN アーキテクチャに組み込むことです。それは、融合画像にさらに多くのテクスチャ情報が含まれることを期待しているという意味でしょうか。弁別器は、融合された画像が次のように考えられます可視画像確率が高いほど良いと考えられます。同様のことが視覚画像にも当てはまります。つまり、弁別器に入力される融合画像の 2 つの確率が両方とも大きい場合、融合効果は非常に優れています。このプロセスについては損失関数で詳しく説明します。

タイトルに戻ると、マルチカテゴリがここにあることがわかります。

損失関数

発電機の損失関数

ここに画像の説明を挿入します
ジェネレータの全体的な損失関数は上の図に示されており、最初の部分はテクスチャとコントラストの損失、2 番目の部分は弁別器による敵対的損失です。

ここでのL Gcon は比較的複雑で、前にも述べたように、可視画像のテクスチャと赤外線画像のコントラストを確保する必要がある一方で、赤外線画像のコントラストも確保する必要があります。視覚画像と赤外線画像のテクスチャ。

まず、L Gconの 2 つの損失関数について説明します。これら 2 つの損失関数の機能は、視覚画像のテクスチャ特徴と赤外線画像のコントラスト情報が融合画像に確実に含まれるようにすることです。


ここに画像の説明を挿入します
次の式は、融合された画像にできるだけ多くの赤外線画像のコントラスト情報が含まれるようにするために使用されます (コントラスト情報を確保するために画像のピクセル強度が使用されます)。可視画像 (ここではテクスチャ情報を確保するために勾配情報が使用されます)
ここに画像の説明を挿入します
これで終わりではありません. 前述したように、赤外線画像のテクスチャ情報と視覚画像のコントラスト情報も保持する必要があるため、これら 2 種類の情報を保持する損失関数を次のように設計します。上式と同様、勾配を計算する対象は赤外画像となり、強度(コントラスト情報)を計算する対象は可視画像となる
ここに画像の説明を挿入します


ここに画像の説明を挿入します
β1 > β4、β2 > β3、{β2, β3} > {β1, β4} の最後の大きな要約

では、なぜ β をこのように設定するのでしょうか?

ここで著者は論文の中で、まずβ1が融合画像と赤外画像のコントラスト間の損失関数のパラメータであり、β4が融合画像と可視画像のコントラスト間の損失関数のパラメータであると説明しています。保持したいコントラスト情報は主に赤外線画像から得られるため、β1 > β4、同様に β2 > β3 に設定する必要があります。

では、なぜ {β2, β3} > {β1, β4} と設定するのでしょうか? 著者は論文の中で、勾配損失項の値はコントラスト損失項よりも小さいことが多いと述べましたが、トレーニング プロセス中にテクスチャ情報とコントラスト情報のバランスを確保するには、{β2, β3}>{β1、β4}、つまり、テクスチャロスのパラメータがコントラストのパラメータよりも大きく設定される。

ここまでで、ジェネレーターは勾配情報とコントラスト情報のみを保証する損失関数についての説明を終了しました。

記事で使用されているネットワーク アーキテクチャは GAN であるため、弁別器との競合も必要です。損失関数は次のとおりです。

ここに画像の説明を挿入します
上のアーキテクチャ全体の図を見ると、出力は 2 次元ベクトルであることがわかります。ベクトルの最初の位置のデータは、入力画像が可視画像である確率、つまり D(Ifuse) を表します。 [1]; ベクトル 2 番目の位置のデータは、入力画像が赤外線画像である確率、つまり D(Ifuse)[2] を表します。

このようにすると、上記の損失関数が理解しやすくなります。弁別器に、融合画像が視覚画像であると考えさせ、また融合画像が赤外線画像であると考えてもらいたいため、ここでの d は 1 に設定されます。これにより、トレーニング後の結果は、融合画像が両方のように見えるようになります。可視画像と赤外線画像です。

弁別子

弁別器の全体的な損失関数は、
ここに画像の説明を挿入します
左から右へ、視覚画像識別の損失、赤外線画像識別の損失、融合画像識別の損失です。

彼らの役割は何ですか?

視覚 (赤外線または溶融) 画像の識別が失われることで、識別器が可視 (赤外線または溶融) 画像であるかどうかを識別および判断する能力が強化されることは明らかです。これら 3 つを組み合わせることで、識別器の性能が向上します。視覚画像、赤外線画像、融合画像を識別する能力。
ここに画像の説明を挿入します
まず視覚イメージ識別能力の損失関数を見てみましょう。ここで別の関数があることがわかりますが、Pvis と Pir とは何ですか?心配しないでください、実際、 Pvis は前述のジェネレーターで述べた D(Ifuse)[1] に対応し、Pir は D(Ifuse) に対応します。 [2]。

ここで考えてみましょう。識別器の画像認識能力を向上させたい場合、それは視覚的な画像を入力し、出力 Pvis が可能な限り 1 に近く、Pir が可能な限り 0 に近づくことを意味するのでしょうか。そうお考えなら、おめでとうございます、その通りです。ここで、
a1 は 1 に設定され、a2 は 0 に設定されます。
ここに画像の説明を挿入します
上記の損失関数は、識別器が赤外線画像を区別する能力を向上させるのに役立ちます。前の損失関数と同じです。ここで、b1 は 0 に設定され、b2 は 1 に設定されます。その理由は、前の視覚的画像と比較できます。画像認識損失関数。
ここに画像の説明を挿入します
最後の損失関数は、ディスクリミネーターが融合された画像を認識する能力を向上させるのに役立ちます。識別器の観点から、画像は視覚画像、赤外線画像、融合画像の 3 つのカテゴリに分類されますが、確率は上記の 2 つ(画像と赤外線画像である確率)しかありません。完了しました? 画像が融合画像であると識別される確率はどれくらいですか?

ここで想像してみてください。可視画像の確率と、画像を処理した後に識別器によって出力される赤外線画像の確率が非常に小さい場合、その画像は人の目には視覚画像でも赤外線画像でもないということになります。discriminator , but discriminator には 画像には 3 つのカテゴリがあります,これら 2 つのカテゴリではなく、3 番目のカテゴリ, これは融合された画像です. この場合、私たちは知ることができます,そして c は 0 に設定されます, これは、識別子が次のように考えることを意味します融合画像が可視画像ではなく、赤外線画像でもないことにより、融合画像を識別する機能が実現される。

チップ

論文のパラメータ設定では、損失関数の a1、a2、b1、b2、c の設定について言及していることに注意してください。ここではソフト ラベルが使用されています。つまり、1 に設定する必要がありますが、0.7 の間に設定されています。 1.2. 乱数。最初は 0 に設定されますが、0 から 0.3 までの乱数に設定されます。以前の 1 または 0 の設定は、誰もが理解しやすいようにするためのものです。

要約する

こちらも有益な記事ですので、簡単に紹介します

  • テクスチャ情報を抽出する際には、視覚画像だけでなく、赤外線画像のテクスチャ情報にも注目します。
  • コントラスト情報を抽出する際には、赤外線画像だけでなく、視覚画像のコントラスト情報にも注目します。
  • 弁別器が複数のクラスを生成する確率

その他の融合イメージ論文の解釈と
論文コラムの読み物は、クリックしてください。

【論文を読む】DIVFusion: 暗闇のない赤外線画像と可視画像の融合

【读论文】RFN-Nest: 赤外線画像と可視画像のためのエンドツーエンドの残留融合ネットワーク

【論文を読む】DDcGAN

【读论文】赤外線画像と可視画像の融合のための自己監視型機能適応

【读论文】FusionGAN: 赤外線画像と可視画像の融合のための敵対的生成ネットワーク

【读论文】DeepFuse: 極端な露出画像ペアを使用した露出融合のための教師なしディープアプローチ

【读论文】DenseFuse: 赤外線画像と可視画像への融合アプローチ

参考

[1] GANMcC: 赤外線画像と可視画像の融合のための多分類制約を備えた敵対的生成ネットワーク

おすすめ

転載: blog.csdn.net/qq_43627076/article/details/128034247