【論文を読む】DIVFusion: 暗闇のない赤外線画像と可視画像の融合

論文: https://www.sciencedirect.com/science/article/abs/pii/S156625352200210X

侵害がある場合はブロガーに連絡してください

導入

ブロガーがこれまでに読んだ論文では、夜景の照明強度を改善する方法について論じたものはほとんどありませんでしたが、この論文でもこの方向に取り組んでいます。

まず、記事で言及されている、以前の融合アルゴリズムでは考慮されていなかった内容を見てみましょう。

低照度条件では、以前の融合方法は、可視画像の照明劣化によって引き起こされるシーンの欠陥を埋めるために赤外線情報のみを使用していました。その結果、夜間の可視光画像の豊富なシーン情報を融合画像で表現することができず、赤外光画像と可視光画像の融合タスクの本来の目的から逸脱してしまう。2 番目の直感的な解決策は、高度な低光量強調アルゴリズムを使用して可視画像を事前に強調し、その後、フュージョン法を介してソース画像を結合することです。ただし、画像強調と画像融合を別個のタスクとして扱うと、多くの場合、非互換性の問題が発生し、図に示すように融合結果が不十分になります。具体的には、夜景の光が弱いため、夜間に見える画像にわずかな色の歪みが生じます。低光量強調アルゴリズムは、光源の色分布を変更し、画像全体の色の歪みをある程度までさらに増幅します。さらに、Y チャネルに適用される融合戦略によりソース画像の彩度分布が変化するため、融合プロセス中に色の歪みも融合画像に表示されます。

上記の問題に対応するために、本稿で提案するアルゴリズムは 2 つの部分で構成されており、最初の部分はシーン照明分解ネットワーク (SIDNet) であり、二番目の部分はテクスチャ コントラスト強化融合ネットワーク (TCEFNet) です。簡単に言うと、最初の部分は照明効果を向上させる特徴量を生成するために使用され、2 番目の部分はフュージョン結果により良いコントラストとテクスチャ情報を持たせるために使用され、これらの内容を段階的に紹介します。

ネットワーク構造

ここに画像の説明を挿入します
まずは全体的なネットワーク アーキテクチャを見てみましょう。怖がらないでください。ゆっくり見てみましょう。一見複雑に見えますが、実際はそれほど複雑ではありません。

SIDネット

ここに画像の説明を挿入します
SIDNet ネットワークは比較的単純で、エンコーダ、アテンション ブロック、デコーダの 3 つの部分で構成されていると言えます。

ここでのエンコーダは 4 層のネットワークを持ち、ネットワークの各層は LRelu 活性化関数を使用し、各層のコンボリューション カーネルの数は 3x3 です。

アテンション ブロック (SEBlock) は、最大プーリング層と 2 つの全結合層で構成され、最後の全結合層はベクトルを出力し、元のデコーダが出力した結果と乗算してアテンションの効果を実現します。

3 つのデコーダ (Dl、Dvi、Dir) はそれぞれ、以前に抽出された特徴をデコードし、対応する画像に復元します。モデルを使用して画像を融合する場合、再構成された画像を生成する必要はなく、ここでのデコーダーはトレーニング中に SIDNet により良い特徴を生成させるだけであることに注意してください。

損失関数

ここに画像の説明を挿入します
上記は全体的な損失関数です。非常に複雑に見えますが、実際は非常に複雑です
ここに画像の説明を挿入します
。複雑ではありますが、読み続けて作業を続ける必要があります。
ここに画像の説明を挿入します
まず最初の 2 つの損失関数、つまり視覚画像と赤外線画像の再構成損失関数を見てみましょう。この 2 つは比較的理解しやすいもので、Y チャネルと元の画像のみを使用して、生成された赤外線画像と生成された可視画像の差分を直接求めるものであることがわかります。この損失を利用して、SIDNet に元の画像を強制的に復元させ、より良い機能を生成します。

これを読んで、注意していれば、問題に気づきましたか? この強化された Y チャネルの視覚イメージ情報はどこから来たのでしょうか? それは出力された強化された画像ですか? もしそうなら、私はこのネットワークで何をしているのでしょうか? 目に見える明るさの情報を強化するためではないのであれば、なぜ最終的に再構成された画像を元の画像と比較する必要があるのでしょうか? では、明るさを強化することに何の意味があるのでしょうか? ? ? ?
ここに画像の説明を挿入します
もしあなたもこのような小さな問題を見つけた場合は、心配しないで、下を向いて続けましょう. 輝度を強調した画像を元の画像に戻すには、以下の式があることがわかりますので、理解してください. その式は次のとおりですなぜ
ここに画像の説明を挿入します
別の照明コンポーネントを計算する必要があるのでしょうか?

では、この照明コンポーネントをどのように制約するかというと、式は次のとおりです。ここのブロガーはよく理解していません。後で理解した内容を追加します。詳しくは、元の記事を参照してください。
ここに画像の説明を挿入します
最後に、強化されたビジュアル画像の生成についてですが、生成された画像が輝度を強化した結果であることをどのように確認できますか? ここでは、ヒストグラム等化を使用した強化画像を比較として使用して、強化されたビジュアル画像を生成できます。 。
ここに画像の説明を挿入します
これを見て、また混乱しませんか? ヒストグラム等化を直接使用してターゲット画像を生成しないのはなぜですか? ニューラル ネットワークによって生成されたターゲット画像の特性を使用して、等化画像のアイコンと一致させる必要があります。比較してください。

では、その答えは何でしょうか? 幸いなことに、著者が以前に教えてくれたので、もう一度引用します。

直観的な解決策は、高度な低光量強調アルゴリズムを使用して可視画像を事前に強調し、その後、フュージョン法を介してソース画像を結合することです。ただし、画像強調と画像融合を別個のタスクとして扱うと、多くの場合、非互換性の問題が発生し、図に示すように融合結果が不十分になります。具体的には、夜景の光が弱いため、夜間に見える画像にわずかな色の歪みが生じます。低光量強調アルゴリズムは、光源の色分布を変更し、画像全体の色の歪みをある程度までさらに増幅します。さらに、Y チャネルに適用される融合戦略によりソース画像の彩度分布が変化するため、融合プロセス中に色の歪みも融合画像に表示されます。

この時点で、SIDNet のすべての損失関数が導入されました。

TCEFネット

GRM (勾配維持モジュール)

まず関数のこの部分をクリアします。つまり、勾配を維持します。
ここに画像の説明を挿入します

上から下に見ると、上のパスの最初のブロックはソーベル オペレーター演算であり、強力なテクスチャ情報を保持するために、コンボリューション カーネル 1 でコンボリューション演算が実行され、出力が得られます (コンボリューションはなぜ累積コアが 1 なのかはよくわかりません。元の記事ではチャネル寸法の違いを解消するためと説明されていますが、よくわかりません)。

さらに下を見ると、上から下への 2 番目のパスにはブロックが 1 つだけあります。これはラプラシアン演算です。目的は、弱いテクスチャ情報を保持し、それを入力 ϕs (SIDNet の出力) に追加することです。その後、一連の畳み込みと活性化が行われ、最終結果はチャネル レベルで前のチャネルの結果と最終出力 ϕg として接続されます。

CEM (コントラスト強調モジュール)

このモジュールはコントラスト強調に使用されます。

下図の赤枠がCEMのネットワーク構造です。
ここに画像の説明を挿入します

ここに画像の説明を挿入します
CEM の構造は、これら 2 つの図を組み合わせることで比較的簡単に理解できます。

論文を読んでいく過程で、この部分の導入部分でマルチスケールの問題について触れられていましたが、2枚目の写真だけではわかりにくいかもしれないので、1枚目の写真と組み合わせるとわかりやすいと思います。 2番目の写真。

最初の図の赤枠の右側に 4 つの畳み込み層があり、それぞれの畳み込み層の畳み込みカーネルは 1×1、3×3、5×5、7×7 であることがわかります。これらの異なるサイズの 4 つのコンボリューション カーネルを使用して、マルチスケールの目的を達成します。マルチスケール情報を結合した後、ϕmを形成し、ϕm をコントラスト ブロックに入力します。コントラスト ブロックの構造は 2 番目の図に示されています。この構造もアテンション機構を実装していることがわかります. まず, ϕmを処理します. 処理式は次のとおりです.

ここに画像の説明を挿入します
ここで、r はウィンドウの半径、μ はウィンドウ内のデータの平均、σ はウィンドウ内のデータの標準偏差です。

私の個人的な理解では、ここでの標準偏差はウィンドウデータの差を表しており、差が大きいほど標準偏差も大きくなり、それが後続のアテンションブロック、つまり全体の標準偏差が大きいチャンネルに反映されると考えられます。最終的には重みが大きいほど比較され、コントラストを高める効果が得られる。

損失関数

ここに画像の説明を挿入します
左から右に、テクスチャ損失、強度損失、色の一貫性損失であり、a1 ~ a3 はこれら 3 つの損失のパラメータを調整するハイパーパラメータです。
ここに画像の説明を挿入します
まずテクスチャ損失関数の定義を見てみましょう. この設計は非常に巧妙です. 他の論文とは異なり, ここではもはや融合された画像と可視画像の勾配を比較するだけではなく, 2つのより大きな勾配と比較しますこれにより、高周波情報が保持され、融合された画像の質感がより豊かになります。
ここに画像の説明を挿入します
この損失関数により、融合画像により多くの赤外線ターゲット情報が含まれるようになります。つまり、融合画像と赤外線画像の間のピクセルの差を通じて、より多くの赤外線ターゲット情報の保持が促進されます。
ここに画像の説明を挿入します
最後は色の歪みを軽減するための損失関数で、ここでは離散コサイン距離を使用して融合画像の色分布を制限し、融合画像の色分布が元の画像にできるだけ近くなるようにします。

要約する

論文全体を読んでみて、非常に素晴らしいと思いましたので、良いと思った点をいくつか紹介します。

  • ブロガーが読んだ論文の中で、画像の明るさを向上させる最初の記事です。
  • ソーベル オペレーターとラプラシアン オペレーターをフュージョンに適用し、それをニューラル ネットワークと組み合わせて、画像のテクスチャの詳細を保持します。
  • Y チャネルは、DDcGAN で言及されている MRI 画像と PET 画像の融合と同様に、融合中に赤外線画像を融合するために使用されます。
  • マルチスケール機能+SEを使用してコントラスト強調を実現
  • テクスチャ情報の損失関数は、赤外線画像のターゲット情報を考慮し、より多くの高周波部分を保持し、テクスチャの詳細を豊かにします。

私の論文の読み方は少し雑ですので、修正を歓迎します。
ここに画像の説明を挿入します

他の核融合画像論文の解釈
[論文を読む] RFN-Nest: 赤外および可視画像用のエンドツーエンド残差核融合ネットワーク

【論文を読む】DDcGAN

【读论文】赤外線画像と可視画像の融合のための自己監視型機能適応

【读论文】FusionGAN: 赤外線画像と可視画像の融合のための敵対的生成ネットワーク

【读论文】DeepFuse: 極端な露出画像ペアを使用した露出融合のための教師なしディープアプローチ

【读论文】DenseFuse: 赤外線画像と可視画像への融合アプローチ

参考

[1] DIVFusion: 暗闇のない赤外線画像と可視画像の融合

おすすめ

転載: blog.csdn.net/qq_43627076/article/details/127977224