赤外線画像と可視光画像の融合に関する入門チュートリアル
ブロガーは現在、赤外・可視光画像分野への入門とも言える研究の第二段階に入っているところですが、この分野に初めて触れる初心者の参考のためにまとめてみました。
このブログは、ブロガーが学んだ赤外光と可視光の画像融合分野の論文の一般的な紹介です。論文の具体的な解釈については、赤外光と可視光の画像融合コラムをご覧ください。このフィールドについては、プライベート メッセージやコメントを送信することもできます。公式アカウントからご連絡ください。
赤外線と可視光の画像融合とは
初心者の方は、なぜ赤外線と可視光を融合する必要があるのかと疑問に思われるかもしれません。
赤外線画像と可視光画像を与えて、それらを頭を使わずに直接融合するだけですか?
当然そうではありません。サンプル画像を見てみましょう。
まず、赤外線画像には明らかなターゲット情報があることがわかります。ターゲット情報とは何ですか?
この写真は人物に関する情報です。私たちが目にしているのは、光り輝く男性が走っていることですが、彼が走っているシーンは何ですか?赤外線画像では背景情報のテクスチャ情報を見ることができません。では、テクスチャ情報とは何でしょうか?次に見てみましょう。
可視光画像を見ると、走っている人が写っていない、赤外線画像を撮った時とは明らかに違う、これが赤外線と可視光の融合の意味だとさえ思う。
下の写真を見てください。何がわかりますか? 赤外画像に比べて、光画像のほうが葉の情報が鮮明に見えることがわかりましたか?この内容をテクスチャ情報と呼びます。
これらの内容を理解した上で、赤外線画像と光画像の融合とは一体何なのかについて話しましょう。
一般的には、上述したターゲット情報とテクスチャ情報を1枚の画像、すなわち融合画像に統合することをいう。以下に示すように、融合画像には赤外線画像のターゲット強度情報が保持され、可視光画像のテクスチャ情報も保持されることが望まれます。
この時点で、画像融合についての予備的な理解が得られました。理解を容易にするために、太字で説明されている内容は、実際に最初に赤外光画像と可視光画像の融合を行ったときに誰もが理解している内容です。長い間、この論文を読んでいると、赤外画像のテクスチャ情報も不可欠な部分であることがわかりますが、同時に可視光画像には非常に明るいものもあり、それを保持しておきたいと考えています。
次に論文を見てみましょう。
紙
以下の論文の順序は、私が論文を読むのに問題ないと思われる順序ですのでご参考までに、各論文の紹介文には原文へのリンクと、冒頭にブロガー独自の論文解釈を記載しています。
ディープヒューズ
DeepFuse 論文のリンク
DeepFuse 論文の解釈
私は今でもこの論文を最初の記事に置くことが多いですが、非常に古典的な記事ですので、この記事から読み始めることができます。
デンスヒューズ
DenseFuse 論文のリンク
DenseFuse 論文の解釈
DeepFuse を読んだ後、DenseFuse を読み始めることができます。DenseFuse のネットワーク構造は DeepFuse と非常によく似ています。革新的な点は、DenseFuse が DenseNet をエンコーダ (デコーダ) に統合し、エンコード中の情報損失を大幅に削減することです。プロセス。
下図のネットワーク構造はオートエンコーダであり、いわゆるオートエンコーダはエンコーダ(Encoder)、デコーダ(Decoder)、中間層(Fusion Layer)から構成されます。このネットワーク構造の利点は、エンコーダーとデコーダーを個別にトレーニングできること、両方のトレーニングが完了した後、適切な中間層を選択できることです。
個別にトレーニングする意味は何ですか?
初期段階で使用したデータセットのサイズは非常に小さかったため、過剰適合現象が発生しました。では、どうすればネットワークの汎化能力を向上させることができるのでしょうか? 現時点では、大量のデータを含むデータセットを使用して、最初にエンコーダーとデコーダーをトレーニングして、強力な特徴抽出機能と画像復元機能を持たせ、最後にそれらを中間層にマージし、融合パフォーマンスを向上させることができます。大きな改善が見られるでしょう。
RFN-ネスト
RFN-Nest 論文のリンク
RFN-Nest 論文の解釈
この時点で、この論文の時点が前の 2 つの論文とはかなり異なるため、飛躍が少し大きいように感じるかもしれませんが、間違いなく理解できます。ご不明な点がございましたら、まず NestFuse をご覧ください。ただし、ブロガーはこれを見たばかりなので、まだ大丈夫です。
ネットワーク構造を見ると、前のネットワーク構造と何の関係もないように見えますが、実際には、ネットワーク構造はオートエンコーダー構造のままです。違いは、エンコーダーとフュージョン層がマルチスケール ネットワークを使用していることです。構造が変更され、融合層は手動ではなくなり、代わりにニューラル ネットワークを使用して設計されました。詳しい内容については原文および解釈をご参照ください。
FusionGAN
FusionGAN 論文のリンク
FusionGAN 論文の解釈
オートエンコーダに基づいた多くの論文を読んで、少し疲れましたか? 気分を変えて、新しいアイデアを見てみましょう。この時点で、それについて話さなければなりませんが、上司の Ma Jiayi は、赤外線と光の画像融合に GAN を初めて導入しました。無敵としか言えません。
DDcGAN
FusionGAN の単一ディスクリミネーターでは、融合画像内の赤外線画像と可視光画像の情報の不均衡が生じるため、専門家はデュアルディスクリミネーターを開発しました。融合された画像内の情報のバランスをより高めることを目的としています。
注意FGAN
二重識別子の論文に続き、注目したい領域の特徴を比較することによって、融合画像に視覚的なテクスチャ情報と赤外線画像内のターゲット情報が含まれているかどうかを判断するための注目メカニズムが導入されています。
ガンマック
GANMcC 論文のリンク
GANMcC 論文の解釈
二重識別子は合理的なサイクルトレーニング戦略を設定する必要があります. 戦略が間違って設定されると、情報の不均衡にもつながります. 合理的な戦略をどのように設定するかは非常に困難です. したがって、大手企業は、単一の識別器に基づいて情報のバランスを達成するために、マルチクラスの識別器を開発しました。
要約する
時間が限られているので、これらの論文を最初に紹介しますが、論文の解釈については、イメージフュージョンのコラムに注目してください。
》》画像融合コラム》《
画像融合の分野でご質問がございましたら、お気軽にプライベートにメッセージをお送りいただくか、公開アカウントを通じてご連絡ください。