【論文を読む】AT-GAN

論文: https://www.sciencedirect.com/science/article/pii/S156625352200255X
権利侵害がある場合は、ブロガーにご連絡ください。

導入

私はおそらく学校に入学したばかりのときに記事を読んだのですが、この指標を読んですぐに崇拝しました。
ここに画像の説明を挿入します
今回紹介する論文は、今でもおなじみのImformation Fusionの論文で、画像融合の分野に画質評価が導入されており、IAMとSTMという2つのモジュールが規定されています。赤外線画像と可視光画像の違い。融合効果が強すぎるので次に見てみましょう。

ネットワークアーキテクチャ

ここに画像の説明を挿入します
全体的なネットワーク アーキテクチャは GAN で、左側にジェネレータ、右側にディスクリミネータが配置されており、非常にシンプルなネットワーク アーキテクチャであることがわかります。(最近はその傾向があるようです。巨大なネットワークは良い結果が得られるかもしれないが、リアルタイム性の要件を満たせない可能性があることを誰もが認識しているため、ネットワークの効率化を皆が意識しています。)

赤外線特徴抽出パスと可視光特徴抽出パスは非常に似ていることがわかります。違いは、赤外線特徴抽出ではIAMを使用するのに対し、可視光特徴抽出ではSTMを使用することです。これら 2 つのモジュールについては後ほど詳しく説明します。

次は少しずつ見ていきましょう。

ビルダー

私は

ここに画像の説明を挿入します
上の図は IAM のネットワーク アーキテクチャです。この記事のネットワーク モデルは、私が軽量モデルであることを常に示していることがわかりますIAM のアーキテクチャも非常にシンプルです。入力特徴は 4 つの畳み込み層に直接入力され、4 つの異なる結果が得られます。これらの結果には、順番に Q、K、V、F0 と名前を付けることができます突然、これらの文字に少し見覚えがあると感じたかどうかを確認してください。ちょっと変圧器っぽくないですか? はい、真下にあります。
ここに画像の説明を挿入します

okokok もうナンセンスです、ここでの IAM の計算プロセスは Transformer の計算プロセスと同じです、
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここでの Reshape はアテンション操作後の特徴量を F0 と同じサイズに戻し、アルファを乗じて加算することです。 F0 を押して最終フィーチャを取得します。

著者は、この注意方法を通じて、重要な赤外線ターゲット情報をできるだけ保持したいと考えています。

STM

ご存知のとおり、浅い特徴にはテクスチャ情報が存在しますが、単純に浅い特徴を抽出するとテクスチャ特徴に多くのノイズが発生するため、より深い特徴情報によってこの層の特徴情報を制約し、ノイズを低減したいと考えています。画像の情報。
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここでの著者の操作は、まず深い特徴と浅い特徴を結合し、次に畳み込みを実行して結合された特徴のチャネル数を半分にしてから、それらを深い特徴に追加することです。

ここまで発電機を紹介してきました。

弁別子

ここに画像の説明を挿入します
弁別器の構造は非常に使いやすく、畳み込み層と全結合層で構成されています。ここでの弁別器の出力は、以前に学習した GANMcc と似ており、マルチクラス出力の結果であることに注意してください。

損失関数

どれの

ここでは、記事の中で最も目を引くと思われるこの部分に焦点を当てます。

これまでの記事の多くは、損失を設定する際に、赤外線画像と可視光画像に対応する損失に固定のハイパーパラメータを割り当てていますが、これには何が問題があるのでしょうか。

たとえば、次の 2 つのソース イメージでは、
ここに画像の説明を挿入します
可視光イメージが強い光によって汚染されているため、赤外線イメージにより多くの情報を保存する必要があります。2 つのウェイトが同じに設定されている場合、結果は確実に異なります。とても満足できるでしょう。この設定で、次の 2 つのソース画像を見てみましょう。可視光画像の画質は非常に優れていることがわかりますが、赤外線画像の比重を高くすると、画像の情報が失われます。したがって、得られる画像結果は理想的ではありません。
ここに画像の説明を挿入します

上の 2 つの画像を見ると、作成者が 2 つの損失の比率を制御するために動的重みを使用する理由がわかります。では、作者は何をしたのでしょうか?

著者のイノベーションの 1 つは画質にあることがわかりました。それでは、画質評価を画像融合にどのように組み合わせるのでしょうか?

これがSEMの仕事です。

ここに画像の説明を挿入します
X と Y は、2 つの Q を計算し、2 つの比率に従って重みを割り当てることによって、赤外線画像と可視光画像とみなすことができます。

この Q は BRI-SQUE と画像エントロピーを組み合わせたもの、つまりこの 2 つの項目に基づいて Q が決定され、BRISQUE が小さいほど画質が良く、情報エントロピーが大きいほど情報が豊富であることがわかります。これら 2 つの項目を通じて、赤外線画像と可視画像の損失に重みを動的に割り当てることができます。

損失

ここに画像の説明を挿入します
全体的な損失は、内容の損失、構造の損失、対立の損失の 3 つの部分で構成されます。

コンテンツの損失

ここに画像の説明を挿入します
ここに画像の説明を挿入します
見慣れないのは、強度の低下と考えられるこの SD です。

したがって、実際には、コンテンツの損失は、勾配の損失と強度の損失で構成されます。

a は、前述した SEM によって取得された重みです。つまり、ソース画像の SEM 値が大きい場合、そのソース画像の勾配情報と強度情報が保持される傾向があります。

構造損失

ここに画像の説明を挿入します
構造損失についても同様であり、a は上記コンテンツ損失と同じであり、融合画像とソース画像間の構造損失を定量的に表すために SSIM (構造類似性) が使用されます。

損失に対して

ここに画像の説明を挿入します
ここにジェネレータの敵対的損失があります. ジェネレータによって生成された画像が弁別器に入力された後, 弁別器の入力画像が赤外画像と可視光画像の両方のように見えることを確実に望むことは明らかです. これは意味します.融合した画像は可視光と可視光の両方を保持しており、画像の情報は赤外線画像の情報を保持しています。

ここに画像の説明を挿入します
識別器の損失は上記のとおりですが、一方で、識別器が赤外線画像と可視光画像を正確に識別できることを期待しているため、最初の損失は、識別器の赤外線画像と可視光画像の識別能力を向上させることです。つまり、c は 1 A の数値に近くなるように設定されます。

2 番目の部分は敵対的損失です。識別器が融合画像を正確に識別できることが望ましいのですが、識別器がそれが融合画像であると考えていることをどのように示すのでしょうか?

識別器が入力画像が赤外線画像でも可視光画像でもないと考える場合、その画像は融合画像ということになるのでしょうか?

したがって、ここでは 2 つの点 d が 0 に近い数値に設定されます。

この時点で、損失関数が導入されます。

要約する

この記事は、今年学校が始まってすぐに読んだ記事です。今、読書体験について書くのにちょうど間に合うので、もう一度読んでいます。非常に強力な記事です。画質を兼ね備えた記事は初めて見ました。画像付き評価 融合記事、融合効果も非常に良く、ボスは本当に強いとしか言​​いようがありません!

他の融合画像論文の解釈
==》赤外線と可視光の画像融合コラム、クリックしてください》==

【論文を読む】FGANへの注意

【論文を読む】DIVFusion: 暗闇のない赤外線画像と可視画像の融合

【读论文】RFN-Nest: 赤外線画像と可視画像のためのエンドツーエンドの残留融合ネットワーク

【論文を読む】DDcGAN

【读论文】赤外線画像と可視画像の融合のための自己監視型機能適応

【读论文】FusionGAN: 赤外線画像と可視画像の融合のための敵対的生成ネットワーク

【读论文】DeepFuse: 極端な露出画像ペアを使用した露出融合のための教師なしディープアプローチ

【读论文】DenseFuse: 赤外線画像と可視画像への融合アプローチ

参考

[1] AT-GAN: 赤外線画像と可視画像の融合のための注意と遷移を備えた生成的敵対的ネットワーク

おすすめ

転載: blog.csdn.net/qq_43627076/article/details/130564046