[論文を読む] TCPMFNet

論文: https: //www.sciencedirect.com/science/article/pii/S1350449522003863
侵害がある場合はブロガーに連絡してください

簡単な紹介

今日紹介するのは TCPMFNet です。この論文で提案されている赤外線画像融合手法はビジョントランスフォーマを組み合わせたものであり、私も初めてこの知識に触れました。次にこの論文を見てみましょう。

ネットワーク構造

いつものように、まずはネットワーク全体のアーキテクチャを見てみましょう
ここに画像の説明を挿入します
この構造を見ると、ちょっと見覚えがあり、RFN-Nest と似ているような気がするので、RFN-Nest と比較してみましょう。

簡単に言えば、アーキテクチャ全体は、エンコーダー、機能融合デバイス、デコーダーの 3 つの部分で構成されます。エンコーダは 4 つのスケールで赤外線画像と視覚画像の特徴を抽出し、次に各スケールの特徴が対応する特徴融合デバイスに入力され、出力融合特徴がデコーダに入力されて最終的な融合画像が生成されます。次に、ネットワーク アーキテクチャ全体を分解し、部分ごとに説明します。

エンコーダ

ここに画像の説明を挿入します

エンコーダのアーキテクチャは上の図に示されています. 2 つのエンコーダがあり, 2 つのエンコーダ間でデータ伝送があることが非常に興味深いことがわかります. 著者はこれら 2 つのエンコーダをメイン オートエンコーダと名付けました (右図)と補助オートエンコーダ (図左)、2 つのエンコーダは同じネットワーク構造とパラメータ構成を共有します。

上の図のデコーダーの構造を見ると、各デコーダーが 5 つのレイヤーで構成されていることがわかります。2 番目のレイヤーから順に、stage0、stage1、stage2、stage3 となり、stage0 を除くメイン エンコーダーの各ステージが入力されます。補助エンコーダの出力、つまりstage1 の入力は、メイン エンコーダの stage0 の出力と補助エンコーダの stage1 の出力によってアップサンプリングされます (特徴行列のサイズは、最大プーリングと畳み込み後に変化します。したがって、補助エンコーダの stage1 の出力は、メイン エンコーダの stage0 の出力と同じサイズにアップサンプリングする必要があり、その結果が加算されます。

では、なぜこれを紹介する必要があるのでしょうか?

これは、次の式を理解しやすくするためです。

ここに画像の説明を挿入します
MSFIN はメイン エンコーダ stagei+1 の入力、MSFO はメイン エンコーダ stagei の出力、ASFO は stagei+1 の出力で、UP はアップサンプリング演算、Conv は畳み込み演算です。上記の内容を組み合わせると、これを理解してください。それは非常に簡単です。

では、なぜこのようなネットワーク構造を設計する必要があるのでしょうか? 単一のデコーダと比較して、これにはどのような利点がありますか?

著者の解説を読む

補助オートエンコーダからの特徴マップをメイン オートエンコーダからの特徴マップと融合すると、抽出されたソース画像の特徴をより多くのチャネルに分散できるため、特徴抽出のパフォーマンスが向上します。

下の図に示すように、紫色の丸でマークされた特徴マップの特徴情報がはっきりとわかります。よく見ると、メイン エンコーダーのチャンネル 24 の赤外線特徴と視覚特徴が比較的貧弱であることがわかります。チャンネル 56 の両方の特徴がよく保持されています。補助エンコーダーを見ると、ちょうどその逆であることがわかります。これは直接的に補完的です。2 つを加算すると、特徴情報をよりよく保持できるため、この構造が採用されています。
ここに画像の説明を挿入します

画像融合ネットワーク

ビジョントランスフォーマー

ブロガーは、アーキテクチャ全体の最も重要な部分が、私が最も興味を持った部分でもあると信じています。

この部分を見るには、まずビジョントランスフォーマーとは何かを理解する必要があります

下の図を見てください、これはビジョントランスフォーマーの元の論文に記載されているネットワーク構造です、それほど複雑ではないようですが、事実はさておき、確かにこんな感じです。
ここに画像の説明を挿入します
まず、ビジョン トランスフォーマー全体の全体的なアーキテクチャである左半分を見てみましょう。トランスフォーマーを思い出してください。最も独創的なトランスフォーマーは、自然言語処理に使用されます。各単語はネットワーク全体の入力としてベクトルとして使用されますが、ここでは、変換が困難な 3 次元データ (3 チャネル データ) を入力します。以前に使用した入力メソッドを使用します。そうしないと、パラメータの数が多すぎます

このとき、ある偉い人が VIT を提案しましたが、彼はどのようにしてそれを実現したのでしょうか? 続きを読みましょう。

最初のステップは、画像を複数のパッチに分割し、一連の操作を通じてこれらの複数のパッチを複数の 1 次元データに変換し、それをトランスフォーマーに入力して処理することです。これは、図の赤いボックスで実行されることです。下の図 操作、この操作はどのように行うべきですか?
ここに画像の説明を挿入します

このプロセスについて詳しく説明します。最初に行う必要があるのは、画像全体を複数のブロックに分割することです。上の図は直接 9 つのブロックに分割されています。次に、これらの 9 つのブロックが平坦化パッチの線形投影 (完全な平面投影) に入ります。これらの 9 つの出力はすでに 1 次元ベクトルであり、それらを位置エンコーディングに追加して、トランスフォーマーに必要な入力を取得します。

では、このプロセスはどのようにして達成できるのでしょうか?

畳み込み演算を直接使用して、上記の複雑なプロセスを実装できます。ここでは例として比較的小さな画像を示します。9x9x3 の画像データがあります (単なる例であり、通常はそれほど小さくありません)。現時点では、畳み込みを設定するだけで十分です。カーネル サイズを 3、ステップ サイズを 3、コンボリューション カーネルの数を 9 に設定します。画像全体に対してコンボリューションを実行するだけです。コンボリューション後、 3x3x9 のデータが得られます。このとき、3x3 は次元にタイル化されます。ベクトル9 で十分なので、長さ 9、次元 9 のトークンのセットを取得し、2D 画像データを 1D データに正常に変換します。このとき、トランスフォーマーの通常の操作、つまり各トークンに位置コード (1 次元位置コード) を追加するだけで、以降の操作はトランスフォーマーと一致します。位置コード 0。このトークンに対応する出力を使用して、分類操作を実装できます。

同様に、224x224 サイズの画像を操作し、各パッチを 16 に設定する場合、コンボリューション カーネル サイズを 16、ステップ サイズを 16、コンボリューション カーネルの数を 196 に設定するだけで済みます。

画像データをトランスフォーマーが受信できるデータに変換する方法を理解した後、トランスフォーマーのエンコーダーでどのような作業が行われるかについて説明します。

下の図に示すように、全体のアーキテクチャは実際には非常に単純であることがわかりますが、ここではマルチヘッド アテンション メカニズムであるマルチヘッド アテンションに焦点を当てましょう。
ここに画像の説明を挿入します

まず、トランスの注意メカニズムが何であるかを理解しましょう。この式を見てみましょう
ここに画像の説明を挿入します

単体で見ると非常に抽象的なので、一つずつ噛み砕いていきましょう。簡単に言うと、式全体は Q、K、V の 3 つの部分で構成されています。では、この 3 つのことをどのように理解すればよいでしょうか。

今人気のタレント番組を例にとると、Qは歌やダンスの実力などの評価基準、Kは個人の歌やダンスの実力、Vは基礎点と考えることができます。ダンス能力Kが評価基準Qを満たしているほど、最終スコアが高くなります。

具体的な計算プロセスはどのようなものですか? 引き続き見てみましょう

以下の図に示すように、ここでの q と k は両方ともベクトルなので、Q と K の転置計算の結果が得られます。この行列の意味は何でしょうか。
ここに画像の説明を挿入します

上の行列を見てください。1 行目を例にとると、各データは q1 と k の間で計算された結果です。つまり、1 行目のデータは実際には q1 とすべての k の一致度であるということでしょうか。同様です。次に、以下に示すように、ワンステップ計算が実行されます (ここではソフトマックス処理は実行されません。自分で実行できます)。

ここに画像の説明を挿入します

最終結果を観察すると、v1、v2、v3 の値はそれ自体で決定されるのではなく、v1、v2、v3 の 3 つの値と、v1、v2、v3 の重みによって決定されることがわかります。各値は q に等しく、k の相関度に関係します。

それぞれの値は、注目後のすべての値に影響されます。これは画像で何に使用されますか? この点については、論文の内容と合わせて後ほどお話します。

では、長いとはどういう意味でしょうか?

簡単に言うと、元のQ、K、Vを次元的に複数の点に分割し、例えば3つとも24次元とし、4頭注意を使用します このとき、各部の入力データはは 6 次元であり、計算後、最終結果が得られた後、これらの複数の結果が結合されて最終結果が得られます。

では、なぜロングを使用するのでしょうか?

振り返ってみると、計算プロセス全体が固定されていることがわかりますが、さまざまなタスクを実行する必要があるときにネットワークに学習させるにはどうすればよいでしょうか? これに対する答えは、なぜマルチヘッドアテンションを使用するのかということです

まず、transformer の元の論文にあるマルチヘッド アテンションの式を見てみましょう。

ここに画像の説明を挿入します

QKV に W を掛けていることがはっきりとわかります。この W は学習可能であり、さまざまなタスクを処理できます。

ここまで述べたところで、論文の内容を見ていきましょう。

ここに画像の説明を挿入します

機能融合ネットワーク

ここに画像の説明を挿入します
ネットワーク全体は比較的単純です。下から上に、最初は畳み込み層です。この畳み込み層の機能は、前に説明した画像データを 1 次元データに変換する畳み込み層と同じです。畳み込みでは、画像全体を畳み込み、結果の結果の最初の 2 つの次元を平坦化します。

その後、畳み込み層の出力は QKV として 3 つのコピーにコピーされ、マルチヘッド アテンション (マルチヘッド アテンション) に入力されます。実行された演算は前の内容を参照できます。アテンションの入力は追加されて最後の層 (mlp) に入力され、最後の mlp の出力がその入力に追加され、これが最終的な融合機能の結果となります。

この部分の式は次のとおりです. Res は残留接続、ATT はマルチヘッド アテンションの出力、TFO は最終出力を表します。
ここに画像の説明を挿入します
構造を理解した後、なぜ CNN を使い続ける代わりに VIT を使用する必要があるのか​​と疑問に思うかもしれません。

このとき、前回の記事で述べたように、トランスフォーマーの後に出力される各トークンにはすべてのトークンの情報が含まれていることを思い出し、 VIT に代入すると、各トークンにはイメージ内のパッチの情報が含まれます処理された各トークンが全体像の情報を持っているということなのでしょうか? CNN で得られる情報範囲は一般にコンボリューションカーネルサイズに限定されており、両者には明確な違いがあり、CNN が取得に適していると言えます。 , 一方、VIT はグローバル情報を取得できます。どちらも独自の利点があります。たとえば、この記事では、VIT はグローバル情報を非常によく取得できますが、一部のローカル処理は CNN ほど優れていないため、著者は 2 つを組み合わせて使用​​しています。 、以下に示すように、これは最終的な統合ネットワーク アーキテクチャです。

ここに画像の説明を挿入します

ネットワークには 3 つの融合パス、つまり畳み込み融合パス、トランスフォーマー融合パス、およびハイブリッド パスがあります。

式を見てみましょう
ここに画像の説明を挿入します
。Conv は畳み込み演算、TFO はトランスフォーマー、CFPO はコンボリューション パスの結果、TFPO はトランスフォーマー パスの結果、MPO はハイブリッド パスの結果であることは明らかです。 、FMが最終結果です。

ここで質問なのですが、VITが出力したトークンを畳み込み結果に直接加算する場合、トークンの次元を変換する必要があるのでしょうか?

メッシュ接続デコーダ

ここに画像の説明を挿入します
デコーダは比較的単純です。4 つのスケールの融合された特徴が入力として使用され、ネットワークはアップサンプリングとダウンサンプリングを実行し、さまざまな畳み込みノードへの入力として使用され、Final_conv の後で最終的に C2,0 に要約されます。が最終結果です。

具体的な構成については原文をご覧くださいので、ここでは重複した説明は行いません。

損失関数

全体の損失関数は次のとおりです。Ld は詳細損失関数、Lf は特徴損失関数です。ここに画像の説明を挿入します
詳細損失関数は比較的シンプルで、今でも私たちの古い友人である SSIM です。
ここに画像の説明を挿入します
特徴量損失関数を見てみましょう。ここで、Ff は融合特徴量、m はスケールの特徴量、Fvi は視覚特徴量、Fir は赤外線特徴量です。

Lf を見ると、著者は β1 を 0.6 に、β2 を 0.4 に設定しています。Ld はすでに画像の特徴を保持する傾向があり、Lf は両方の赤外線特徴を確保する必要があるため、この設定の理由は RFN の場合とほぼ同じであると思います。可能な限り保存しますが、Ld は視覚的特徴の保存にすでに有益であるため、ここでのパラメーター設定は赤外線特徴の保存に偏っています。最終的な Lf は複数のスケールでの特徴損失の合計であり、これも非常に興味深いものです。
ここに画像の説明を挿入します

要約する

その後のトレーニングとアブレーション実験は整理されません。この論文は私にとって本当に新しい世界への扉を開いたものでした。VIT 関連の知識に初めて触れました。上記の VIT の概要は、ほとんどが Mu を読んだ後のものですシェンの変圧器 わかりました、間違いがあればご指摘いただければ幸いです。

その他の融合イメージ論文の解釈と
論文コラムの読み物は、クリックしてください。

【論文を読む】DIVFusion: 暗闇のない赤外線画像と可視画像の融合

【读论文】RFN-Nest: 赤外線画像と可視画像のためのエンドツーエンドの残留融合ネットワーク

【論文を読む】DDcGAN

【读论文】赤外線画像と可視画像の融合のための自己監視型機能適応

【读论文】FusionGAN: 赤外線画像と可視画像の融合のための敵対的生成ネットワーク

【读论文】DeepFuse: 極端な露出画像ペアを使用した露出融合のための教師なしディープアプローチ

【读论文】DenseFuse: 赤外線画像と可視画像への融合アプローチ

参考

[1] TCPMFNet: 複合自動エンコーダとトランスフォーマを備えた赤外線および可視画像融合ネットワーク - 畳み込み並列混合融合戦略
[2] 画像は 16X16 ワードの価値がある: 大規模な画像認識のためのトランス
[3] 必要なのは注意だけです

おすすめ

転載: blog.csdn.net/qq_43627076/article/details/128559571