【論文を読む】MUFusion


論文: https://www.sciencedirect.com/science/article/abs/pii/S1566253522002202
権利侵害がある場合は、ブロガーに連絡してください。

導入

今回はImformation Fusionに掲載された論文を紹介します この記事で紹介されている手法はマルチモーダル画像融合に利用できる統合融合アルゴリズムです。

この記事では、トレーニング プロセス中に生成された画像を保存し、より良い効果を達成するために現在のトレーニング フェーズ中に生成された画像とともにネットワークをトレーニングするメモリ ユニットを提案します。プロセス全体は次の図に示されています。
ここに画像の説明を挿入します
少し混乱していると感じたら、以下を見てみましょう。

ここに画像の説明を挿入します

損失関数

今回はこれまでのブログとは異なり、まず損失関数を紹介し、損失関数を理解してから、その後のネットワーク構造を非常にシンプルにします。

記憶装置

ここに画像の説明を挿入します
記事の冒頭の図を再利用してください。まず左側を見てみましょう。これは損失を計算する従来の方法です。最初に説明しましょう。Net は独自のネットワーク、y は出力画像、x は入力画像ですxは直接、y は損失を計算します

それから右を見てください、うーん。これは何ですか?

まずは全体的な考えをお話しし、それを踏まえた上で、具体的に見ていきます。

全体のプロセスは、トレーニング中に、前のエポックで生成された出力画像を保存し、ネットワーク パラメーターを調整するために損失を計算するときに、現在の出力画像とソース間の損失だけを考慮するだけではなく、画像だけでなく、前のエポックの出力画像と元の画像の損失も考慮します。2つの損失の間には、画像自体に基づいて生成される重みが必要です。

大まかな流れがわかったら、詳しく見ていきましょう

前のエポックで生成された出力画像の保存については何も言うことはありませんが、まず 2 つの損失の重みがどのように計算されるかを見てみましょう。

ここに画像の説明を挿入します

ここで、O は現在の出力イメージ、Opre は前のエポックの出力イメージ、I1 と I2 はソース イメージです。SA と SB は対応する重みです。
ここに画像の説明を挿入しますここに画像の説明を挿入します
次に、SA と SB を使用してソフトマックス計算を実行し、2 つの損失重みを生成し、合計損失関数に代入します。損失関数の具体的な内容については、次のセクションで詳しく説明します。
ここに画像の説明を挿入します

このとき、上図の右半分と比較してみましょうが、Yi-1 は実際には Opre、Xi は I1、I2 であることに注意してください。このとき、上図と完全に一致していることがわかります。

では、なぜこの損失を追加するのでしょうか?

まずは原著者の説明をご覧ください(中国語直訳)

トレーニング中に得られた中間融合結果を利用して、融合画像をさらに共同で監視します。このようにして、私たちの融合結果は元の入力画像から学習するだけでなく、ネットワーク自体の中間出力からも恩恵を受けます。

私の個人的な表面的な理解では、著者はネットワーク内のパラメータが望ましい方向に変化するのを助けるためにこのメモリユニットを追加したと考えることができます。前の記事で述べたように、著者は SSIM を使用して 2 つの損失関数の重みを決定します。また、つまり、融合画像とソース画像の間の明るさ、コントラスト、構造の類似性が高いほど、どのタイプの画像に向かって展開する可能性が高くなります。トレーニング プロセス中、トレーニング結果は望ましくない方向に偏り、作成者が設定した重みによって、メモリ ユニットの損失によりネットワーク内のパラメータが望ましい方向に変化する可能性があります。

損失の具体的な内容は以下の通りであり、
ここに画像の説明を挿入します
マスキングの必要がなく、直接計算できるため非常に分かりやすい。

ここまでは損失関数の一部のみを紹介しましたが、次に顕著性の対象を抽出する方法を見てみましょう。

コンテンツの損失

ここに画像の説明を挿入します
これを見ると、ちょっと見覚えがあると思いますが、損失を計算するときに、入力画像と出力画像に同じ w が掛けられているのを見ると、何を思い浮かべますか?

マスクについて考えますか? 結局のところ、マスクは今よく使われています。付加機能を備えたあらゆる種類のマスク。偶然にも、記事中の w もマスクですが、このマスクをどのように計算するかを見てみましょう。
ここに画像の説明を挿入します
この記事のマスク計算では、まず事前トレーニングされた vgg19 を通じて画像の特徴を抽出し、次に抽出された特徴をソース画像と同じサイズにアップサンプリングします。

次のステップは、顕著な特徴を抽出することです。まず、抽出された特徴マップ内の各点の絶対値をチャネル (つまり、L1 パラダイム) ごとに加算する必要があります。つまり、複数のチャネルを追加した後、チャネルが生成されます。チャネル内のチャネル 各値は、元のマルチチャネルの対応する値の L1 正規形の結果です。次に、同社は
ここに画像の説明を挿入します
単一チャネルのデータを次のように処理します。処理方法は次のとおりです。実際には、この値に近い値を加算して現在の値を置き換えます。
ここに画像の説明を挿入します
最後に、次の操作を実行すると、ここで少し混乱しますが、なぜ別の K が表示されるのでしょうか。うわー、手紙が多すぎる。
ここに画像の説明を挿入します
ここでの k は、vgg19 ネットワークの各ダウンサンプリング (最大プーリング) に対応します。各ダウンサンプリングによって生成された特徴マップに対して上記の操作を実行した後、各ダウンサンプリング結果の平均が計算されます。結果として得られる平均は、アクティビティ レベルの特徴と呼ばれ
ます生成されたアクティビティ レベルの特徴を使用してデシジョン チャートを計算します。

**それでは、この決定表をどのように計算するのでしょうか? **もっと魅力的なものを見に来てください

ここに画像の説明を挿入します
決定図の計算方法は上の図の通りですが、ちょっとわかりにくいですね、この3は何でしょうか?
ここに画像の説明を挿入します
OK OK OK、本題に戻りましょう。以下の損失関数を見てみましょう。ここで j には 2 つの値 1 と 2 があり、それぞれ赤外線画像と可視画像を表します。j の値を上の式を計算すると、 がわかります。つまり、F1 と F2、F2 と F1 を比較します。
ここに画像の説明を挿入します
簡単に言うと、赤外線画像と可視画像の活動量特性を比較するというもので、どちらか大きい方の部分(ピクセルレベル)を残し、対応するピクセルの活動量特性を比較するというものです。ピクセルのアクティビティ レベル特性値が大きい場合は、任意のピクセルをそのまま残します。

今では、マスクがどこから来たのかがわかりました。

最後に、損失の計算方法を付け加えておきます。
ここに画像の説明を挿入します

ネットワークアーキテクチャ

ここに画像の説明を挿入します
まず全体の構造を見てみると、ああ~~これは難しいことではありません。最初にこれを実行し、あれを実行し、次にあれを実行するだけです。

正直に言うと、それは簡単ではありません。
ここに画像の説明を挿入します

次に、このネットワーク アーキテクチャを詳しく見ていきます。

今回は各部分を個別に説明するのではなく、直接説明した方が理解しやすいと思います。

この図から、最初に 2 つの画像がチャネルごとに接続され、次に畳み込みが実行されることがわかります。著者は、C3 で非常に興味深い操作を実行しました。これは、ステップ サイズを 2 に設定し、他のパラメータを設定して別のスケールの特徴を生成するというものです。この利点は、ダウンサンプリングによって引き起こされる直接的な情報損失の問題を回避できることです。

その他は U-Net と同様のスキップ接続であり、畳み込み処理中の特徴量の損失を最小限に抑えることができる接続方法であり、符号化部と復号化部の対応するブロック間にスキップ接続があることがわかります。

デコード部にはアップサンプリングもあり、最終的にデコード部を通じて融合画像が生成されます。

要約する

この記事全体を通して私が最も驚いたのは、ネットワークがこれまで見てきたほとんどのネットワークとは異なるメモリ ユニットを使用していることです。この方法を使用してネットワークが最適なソリューションを生成するよう促すのは非常に興味深いです。

他の融合イメージ論文の解釈
==》論文コラムを読んでクリックしてください》==

【論文を読む】DIVFusion: 暗闇のない赤外線画像と可視画像の融合

【读论文】RFN-Nest: 赤外線画像と可視画像のためのエンドツーエンドの残留融合ネットワーク

【論文を読む】DDcGAN

【读论文】赤外線画像と可視画像の融合のための自己監視型機能適応

【读论文】FusionGAN: 赤外線画像と可視画像の融合のための敵対的生成ネットワーク

【读论文】DeepFuse: 極端な露出画像ペアを使用した露出融合のための教師なしディープアプローチ

【读论文】DenseFuse: 赤外線画像と可視画像への融合アプローチ

参考

[1] MUFusion: メモリユニットに基づく一般的な教師なし画像融合ネットワーク

おすすめ

転載: blog.csdn.net/qq_43627076/article/details/130125506