【画像融合】融合アルゴリズムの概要(随時更新)

按时间顺序,综述近5年的融合算法。重点分析了最近两年的work,欢迎留言探讨


序文


提示:以下是本篇文章正文内容,下面案例可供参考

1.SSR-ラプラシアンイメージフュージョン(2017)

论文:R. Wu、D. Yu、J. Liu、H. Wu、W. Chen、および Q. Gu、「赤外線および低光レベルの可視画像の改良された融合方法」、2017 年第 14 回ウェーブレット アクティブ メディア テクノロジと情報に関する国際コンピュータ会議処理 (ICCWAMTIP)、2017、147-151 ページ。

この論文では、低照度の可視画像と赤外画像を融合する方法を紹介します。この記事では主に画像の前処理ステップを追加し、その後のプロセスはいくつかの従来の処理方法の組み合わせと拡張です。Retinex の人間の目の生理学的特性に基づいて開発されたアルゴリズムである SSR (Single Scale Retinex) アルゴリズムは、可視光画像のコントラストを向上させるために使用されます。

ここに画像の説明を挿入
ここに画像の説明を挿入

2、FusionGAN(2019)

論文: Jiayi Ma、Wei Yu、Pengwei Liang、Chang Li、および Junjun Jiang. FusionGAN: 赤外線画像と可視画像の融合のための生成敵対的ネットワーク. Information Fusion 48, C (2019 年 8 月)、11 ~ 26、2019。

この論文では、GAN を画像融合のタスクに適用する FusionGAN を提案します。赤外画像 Ir と可視光画像 Iv がチャンネルで接続されて生成器に入力され、その出力が融合画像 If となります。可視画像内のテクスチャの詳細が完全には抽出されていないことを考慮して、融合画像 If と可視画像 Iv が識別器に入力されるため、If にはより多くのテクスチャの詳細が含まれます。ジェネレーターは、顕著な赤外線強度と追加の可視勾配を備えた融合画像を生成することを目的とし、ディスクリミネーターは、融合画像に可視画像の詳細を強制的に持たせることを目的としています。

ここに画像の説明を挿入
損失関数
発生器:
ここに画像の説明を挿入

識別子:
ここに画像の説明を挿入

3、MBNet(2020)

周、凱来ら。「モダリティの不均衡問題に対処することでマルチスペクトル歩行者検出を改善する。」コンピュータービジョンに関する欧州会議 (2020)。

モダリティの不均衡問題は、主に、照明モダリティの不均衡(光の変​​動)と特徴モダリティの不均衡(赤外特徴と可視特徴の位置ずれ、および不適切な融合方法)の 2 つの側面に分けられます。この論文では、2 つのモダリティを相互に補完するために、Differential Modality Aware Fusion (DMAF、Differential Modality Aware Fusion) モジュールを設計します。照明認識機能調整モジュール (IAFA、照明認識機能調整モジュール) は、照明条件に基づいて相補的な機能を選択し、2 つのモダリティ機能を適応的に調整します。

ここに画像の説明を挿入

DMAF モジュールの各モダリティには、共通部分と相違部分が含まれています。

ここに画像の説明を挿入
まず 2 つのモーダル フィーチャを直接減算して差分フィーチャを取得し、次に差分フィーチャに対してグローバル平均プーリングを実行し、次に Tanh アクティベーションを実行します。次に、元のフィーチャに対してチャネル レベルの重み付けを実行し、重み付けされたフィーチャを別のモーダル フィーチャに追加します。

ここに画像の説明を挿入

IAFA モジュールは、可視光画像から照明条件を予測できる小規模なネットワークを使用しており、その損失は次のように定義されます。

ここに画像の説明を挿入
赤外線カメラと可視光カメラはすべて同時に撮影されるわけではないため、特徴の不整合が生じる可能性があります。したがって、モダリティ アライメント (MA、モダリティ アライメント) モジュールは、各モダリティの各ピクセル (x、y) の特徴オフセット (dx、dy) を予測することが提案されています。これは、特徴オフセットが浮動小数点数であるため、双一次補間は次のようになります。 (x+dx, y+dy) を隣接する点の値に適合させるために使用されます。
IAFA モジュールはまず、再重み付けされた RGB と赤外線の特徴を結合し、アンカー提案段階でおおよそのアンカー位置を生成します。IAFC 段階で予測された回帰オフセット t0 は、位置予測の基本基準として変形可能なアンカーを生成するために使用されます。次に、変形可能なアンカーと信頼スコア s0 は、IAFC ステージを通じてさらに微調整されます。RGB および IR 特徴マップ予測の信頼スコアは、照明値によってさらに再重み付けされます。最終的な信頼スコアと回帰オフセット値は次のとおりです。
ここに画像の説明を挿入
分類損失関数は、焦点損失を使用してサンプルの不均衡の問題を解決します。
ここに画像の説明を挿入

4、DIDFuse(2020)

Zixiang Zhao、Shuang Xu、Chunxia Zhang、Junmin Liu、Jiangshe Zhang、Pengfei Li、DIDFuse: 赤外線画像と可視画像の融合のための深部画像分解、IJCAI 2020: 970-976。

このモデルは、事前情報、つまり、大規模な背景情報を表すベース情報と、相互に明らかな差異のある情報、つまり赤外線と可視のベース情報が可能な限り近い情報、および詳細情報を有効に活用します。 2 つはできるだけ異なります。トレーニング後、モデルはトレーニングされたエンコーダーとデコーダーを取得し、テスト段階に入ります。テストプロセスでは、融合層、つまり和と融合の融合を実現する融合層を追加し、それをスプライシングしてデコーダに入力して画像再構成を実現します。融合戦略の選択には 3 つの戦略があります: 直接加算、指定された重み加算、および L1 ノルム (特徴マップの L1 ノルムはそのアクティビティ測定とみなされ、その後、さまざまな特徴マップの L1 ノルムが計算されます)異なる融合ウェイトを設定します)。

損失関数

ここに画像の説明を挿入

5、DDcGAN(2020)

J. Ma、H. Xu、J. Jiang、X. Mei、X. -P. Zhang、「DDcGAN: 多重解像度画像融合のためのデュアルディスクリミネーター条件付き敵対的生成ネットワーク」、IEEE Transactions on Image Processing、vol. 29、4980-4995ページ、2020年。

この論文では、FusionGANに基づいて二重識別器を設計します。異なる解像度の画像を融合するために、著者らは、可視画像の解像度が赤外線画像の解像度の 4×4 倍であると仮定し、弁別器 Dv は生成された画像を可視画像から区別することを目的とし、弁別器 Di は次のことを目的としています。元の低解像度赤外線画像とダウンサンプリング (平均プーリング) を融合した画像を区別しますジェネレータとディスクリミネータのバランスを維持するために、各ディスクリミネータの入力層は、サンプル データと条件情報として対応するソース画像の両方を含む 2 つのチャネルではなく、サンプル データを含む 1 つのチャネルになります。

ここに画像の説明を挿入

6、ガン(2020)

J. Ma et al.、「詳細を保持する敵対的学習による赤外線画像と可視画像の融合」、Information Fusion、vol. 54、85–98ページ、2020年2月。

この論文のモデルは、以前の GAN モデルによって引き起こされたディテール損失の問題を改善するために使用され、エッジの保護メカニズムが追加されています。モデル生成部は融合画像を生成し、その融合結果は可視光源画像とともに識別部に送られ、可視光画像によるものであるか否かが判定される。

ここに画像の説明を挿入
損失関数:
ここに画像の説明を挿入
ここに画像の説明を挿入

7、ネストフューズ(2020)

H. リー、X. -J. Wu および T. Durrani、「NestFuse: ネスト接続および空間/チャネル アテンション モデルに基づく赤外線および可視画像融合アーキテクチャ」、IEEE Transactions on Instrumentation and Measurement、vol. 69、いいえ。12、9645-9656ページ、2020年12月。

この記事は、ネスト接続と空間/チャネル注意力に基づいた赤外線と可視の融合モデルであり、複数のスケールで重要な情報を保持できます。モデルは、エンコーダー、融合戦略、デコーダーの 3 つの部分に分かれています。融合戦略では、空間注意モデルとチャネル注意モデルを使用して、それぞれの空間位置とチャネルにおける深い特徴の重要性を記述します。まず、入力画像がエンコーダに送信されてマルチスケールの特徴が抽出され、融合戦略によって各スケールでこれらの特徴が融合され、最後にネスト接続に基づいてデコーダを通じて画像が再構成されます。

ここに画像の説明を挿入

8、AUFusion(2021)

Zixiang Zhao、Shuang Xu、Jiangshe Zhang、Chengyang Liang、Chunxia Zhang、Junmin Liu、「アルゴリズム展開による効率的でモデルベースの赤外線画像と可視画像の融合」、IEEE Transactions on Circuits and Systems for Video Technology、2021年。

この論文では、ネットワークの解釈可能性を高めるアルゴリズム拡張によってネットワークを構築します。まず、オートエンコーダーが特徴抽出と画像再構成のために事前トレーニングされます。次に、いくつかの手作業で設計された融合戦略 (ピクセルベースの加重平均) を使用して、さまざまなソース画像から抽出された深度特徴を統合し、画像融合を実現します。トレーニング中は赤外線と可視光が交互にネットワークに入力され、テスト中は赤外線と可視光がペアで入力されます。ネットワーク内の特徴 B 0と D 0は、それぞれぼかしフィルターとラプラシアン フィルターによって取得されます。

BCL および DCL モジュール設計。X は入力イメージを表し、B と D はそれぞれ基本特徴と詳細特徴を表し、
g B jはハイパス フィルター処理を表し、g D j はローパス フィルター処理を表します。

ここに画像の説明を挿入

ここに画像の説明を挿入
損失関数:

ここに画像の説明を挿入

ここに画像の説明を挿入
SSIM は 2 つの画像の類似性を測定します。この損失により、再構成された画像は、明るさ、構造、コントラストの点でソース画像に近づきます。
ここに画像の説明を挿入

9、注意FGAN

J. Li、H. Huo、C. Li、R. Wang、および Q. Feng、「AttendanceFGAN: Attendance-Based Generative Adversarial Networks を使用した赤外線画像と可視画像の融合」、IEEE Transactions on Multimedia、vol. 23、1383-1396ページ、2021年。

この論文では、赤外線と可視光の画像融合のためにマルチスケール アテンション メカニズムを GAN に追加します。マルチスケール アテンション メカニズムは、包括的な空間情報をキャプチャすることを目的としており、ジェネレータが赤外線画像の前景ターゲット情報と可視光画像の背景詳細情報に焦点を当てるのを支援すると同時に、ディスクリミネータが注目領域ではなく注目領域に注意を払うように制約します。入力画像全体。ジェネレーター部分では、2 つのマルチスケール アテンション モジュールが最初に赤外線画像と可視光画像のアテンション マップをそれぞれ取得し、次にチャネル次元で結合した後、2 つのアテンション マップとソース画像をフュージョン ネットワークに送信します。2 つの識別器はそれぞれ融合画像と赤外・可視光画像を区別するために使用され、構造は全く同じですが、パラメータは共有されていません。
ここに画像の説明を挿入
損失関数

ビルダー:

ここに画像の説明を挿入
ここに画像の説明を挿入
識別子: 最初の 2 つの項目はWasserstein 距離推定を表し、最後の項目はネットワーク正則化の勾配ペナルティを表します。
ここに画像の説明を挿入

10、ガンマック

J. Ma、H. Zhang、Z. Shao、P. Liang、H. Xu、「GANMcC: A Generative Adversarial Network With Multiclassification Constraints for Infrared and Visible Image Fusion」、IEEE Transactions on Instrumentation and Measurement、vol. 70、1-14ページ、2021年。

赤外画像の詳細情報は可視光より劣るとは限りませんし、RGB 画像のコントラストも赤外画像よりも優れている場合もあります。融合された画像には、顕著なコントラストと豊かなテクスチャの詳細の両方が含まれています。重要なのは、ソース画像のコントラストと勾配情報のバランスが取れていることを確認し、基本的に 2 つの異なるドメインの分布を同時に推定することです。GAN は教師なしの状況でターゲットの確率分布をより適切に推定でき、マルチカテゴリ GAN は複数の分布特徴を同時にさらに適合させて、この不均衡な情報融合を解決できます。可視画像が露出オーバーの場合、赤外線画像の対応する情報によって補正できるため、この方法ではコントラストを大幅に維持しながらハイライトを除去できます。
ネットワークアーキテクチャ

ここに画像の説明を挿入
生成器の場合、入力は 2 つのモダリティの混合入力でもあり、生成器によって融合された画像が取得されます。識別器の場合、入力画像 (赤外/可視光/核融合画像はオプション) を分類して入力画像のカテゴリを取得し、出力は 2 つの確率値を含むベクトルになります。融合画像の場合、多分類制約の下では、ジェネレータは両方の確率が高いことを期待します。つまり、弁別器はそれが赤外線画像と可視画像の両方であると考え、弁別器はこれら 2 つの確率が小さいことを期待します。同時に、つまり、ディスクリミネーターは融合を判断します。画像は赤外線でも可視でもありません。このプロセス中、融合されたイメージが両方のクラスで同じ程度の真/偽を持つことを保証するために、両方の確率が制約されます。継続的な敵対的学習の後、ジェネレーターは赤外線画像と可視画像の確率分布を同時に適合させることができ、その結果、顕著なコントラストと豊かなテクスチャの詳細を備えた結果が得られます。
損失関数

ジェネレーター: 重み β のサイズを調整することで各種類の情報の保持度を決定し、d は 1 に設定されます。
ここに画像の説明を挿入

識別子: c は 0 に設定されます。

ここに画像の説明を挿入

11、

12、

13、

14、ピアフュージョン(2022)

Linfeng Tang、Jiteng Yuan、Hao Zhang、Xingyu Jiang、Jiayi Ma.「PIAFusion: 照明認識に基づくプログレッシブ赤外線および可視画像融合ネットワーク」、Information Fusion、83-84、79-92 ページ、2022

不均衡な照明と融合画像の不十分な特徴の問題を考慮して、本論文は、顕著なオブジェクトの強度分布を適応的に維持し、背景のテクスチャ情報を保存する、照明知覚に基づくプログレッシブ画像融合ネットワーク(PIAFusion)を提案します。具体的には、この論文は、照明分布を推定し、照明確率を計算するための照明認識サブネットワークを設計します。さらに、照明確率を使用して、融合ネットワークのトレーニングをガイドする照明知覚損失を構築し、クロスモーダル差分知覚融合モジュールを使用して、赤外および可視特徴の共通情報と補完情報を融合します。さらに、この論文は、赤外線画像と可視画像の融合のための大規模なベンチマーク データセット (MSRS、マルチスペクトル道路シナリオ) をリリースしました。

ここに画像の説明を挿入
光知覚サブネットワークはクロスエントロピー損失関数を使用し、バックボーン ネットワーク損失関数は
ここに画像の説明を挿入ここに画像の説明を挿入

15、セアフュージョン(2022)

唐、林峰、袁季騰、馬嘉儀。「高レベルのビジョンタスクのループにおける画像融合: セマンティックを意識したリアルタイムの赤外線画像と可視画像の融合ネットワーク」情報フュージョン 82 (2022): 28-42。

この論文では、高レベルの視覚タスクを利用して画像融合を推進する、セマンティックを意識した画像融合フレームワークを提案しています。同時に、ネットワーク設計の観点からは、リアルタイム性の要求を考慮して軽量なネットワークが設計されています。また、ネットワークによるきめの細かい詳細の記述を強化するために、Gradient Residual Dense Block (GRDB) が設計されています。最後に、既存の評価指標は、画像融合の品質を測定するために EN、MI、SF およびその他の統計指標のみを使用していることを考慮します。著者らはまた、高レベルの視覚タスクのパフォーマンスによって融合結果の品質を測定する、タスク駆動型の評価も提案しています。

ここに画像の説明を挿入
ソース画像はフュージョン ネットワークを通過してフュージョン画像を生成し、フュージョン ネットワーク画像はセグメンテーション ネットワークを通過してセグメンテーション結果を取得します。セグメンテーション結果とラベルはセマンティック損失を構築し、画像とソース画像を融合する前にコンテンツ損失を構築します。セマンティック損失はセグメンテーション ネットワークを制約するためにのみ使用され、コンテンツ損失とセマンティック損失は一緒に融合の最適化を制約します。通信網。このようにして、意味論的損失は、高度な視覚タスク (セグメンテーション) に必要な意味論的情報をフュージョン ネットワークに戻すことができるため、フュージョン ネットワークはソース画像内の意味論的情報を効果的に保持できます。
ここに画像の説明を挿入

フュージョン ネットワークの場合、SeAFusion は、二重分岐特徴抽出と Concat フュージョンのフレームワークを使用して画像を再構成する一方、GRDB の勾配演算子によって抽出された特徴を残留接続として使用することで、ネットワークによる詳細な特徴の抽出を強化できます。

画像フュージョンにはグラウンドトゥルースがないため、フュージョン結果を使用して、フュージョン ネットワークのトレーニングをガイドするセグメンテーション モデルを事前トレーニングすることは不可能です。そのため、著者はバランスを維持するためにフュージョン ネットワークとセグメンテーション ネットワークを交互にトレーニングします。画像融合とセマンティック セグメンテーションの間の融合ネットワークのパフォーマンスを損なうことなく、ビジョン タスクのパフォーマンスを向上させます。

結果の比較:
ここに画像の説明を挿入

16、スウィンフュージョン(2022)

J. Ma、L. Tang、F. Fan、J. Huang、X. Mei、Y. Ma、「SwinFusion: Swin Transformer による一般画像融合のためのクロスドメイン長距離学習」、IEEE/CAA Journal of Automaticaシニカ、vol. 9、いいえ。7、1200-1217ページ、2022年7月。

一方で、この論文は、補完的な情報とグローバルな相互作用の十分な統合を達成するために、注意誘導型のクロスドメインモジュールを設計します。この方法は、セルフ アテンション ベースのドメイン内融合ユニットと、クロス アテンション ベースのドメイン間融合ユニット で構成され、同じドメイン内およびドメイン間の長い依存関係をマイニングして統合します。長距離依存関係モデリングを通じて、ネットワークはドメイン固有の情報抽出とクロスドメインの補完的な情報統合を完全に実現し、グローバルな観点から適切な見かけの強度を維持できます。セルフ アテンションとクロス アテンションにシフト ウィンドウ メカニズムが導入され、モデルが任意のサイズの画像を受信できるようになります。一方、マルチモーダル画像融合とデジタル写真画像融合は両方とも、構造、質感、強度保持の設計に一般化されます。すべての画像融合問題を制限するために、統一された損失関数形式が定義されています。SwinFusion モデルは、マルチモーダル画像フュージョン タスクとデジタル写真画像フュージョン タスクの両方で優れたパフォーマンスを発揮します。

ここに画像の説明を挿入

ここに画像の説明を挿入
SwinFusion モデルは、特徴抽出、注意に基づくクロスドメイン融合、再構成の 3 つの部分に分けることができます。

17、DIVFusion(2023)

Linfeng Tang、Xinyu Xiang、Hao Zhang、Meiqi Gong、Jiayi Ma.「DIVFusion: 暗闇のない赤外線画像と可視画像の融合」、Information Fusion、91、pp. 477-493、2023

(1) この論文の革新性:
現在の画像融合方法は、通常の照明下での赤外光画像と可視光画像を対象に設計されています。夜のシーンでは、既存の方法では可視光画像が著しく劣化し、その結果、テクスチャの詳細が弱くなり、視覚認識が低下し、その後の視覚アプリケーションに影響を及ぼします。画像強調と画像融合を独立したタスクとして扱うと、多くの場合、非互換性の問題が発生し、画像融合の結果が悪くなります。この論文では、低照度画像強調技術と画像融合技術を組み合わせて、暗闇を合理的に照らし、補完情報の集約を促進し、視覚的に優れた融合画像を取得します。
(2) 全体的なアーキテクチャ:
ここに画像の説明を挿入
まず、シーン照明デカップリング ネットワーク (SIDNet、シーン照明分離ネットワーク) は、ソース画像の情報特性を保持しながら、夜間の可視光画像の照明劣化を除去するように設計されています。相補的な情報を融合し、融合特徴のコントラストとテクスチャの詳細を強化するために、テクスチャ-コントラスト強化融合ネットワーク (TCEFNet、テクスチャ-コントラスト強化融合ネットワーク) が設計されています。提案された方法は、リアルな色と顕著なコントラストを備えた融合画像をエンドツーエンドで生成できます。
(3) 損失関数
は主に 2 つのトレーニング段階
ここに画像の説明を挿入
と 1 つの段階に分かれています。SIDNet は、エンコーダー、アテンション ブロック、デコーダーで構成される元の画像の自己教師あり再構成に使用されます。デコーダは、トレーニング中に SIDNet により良い特徴の生成を強制するだけなので、モデルを使用して画像を融合する場合、再構成された画像を生成する必要はありません。縮退した照明特徴が取り除かれ、その合計が次のステージの入力として使用されます。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここで、Lper は、ヒストグラム等化によって強化された画像を比較として使用することにより、強化された可視光画像を生成することができる。
第 2 段階: SIDNet を修正し、TCEFNet をトレーニングします。
強度の損失とテクスチャの損失に加えて、色の一貫性の損失も、強調や融合によって引き起こされる色の歪みを軽減するように設計されています。
ここに画像の説明を挿入
ここに画像の説明を挿入

18、CDDFuse(CVPR2023)

マルチモダリティ画像融合における相関駆動型デュアルブランチ特徴分解
マルチモダリティ画像融合における相関駆動型デュアルブランチ特徴分解

19、


要約する

提示:这里对文章进行总结:

例: 上記は今日お話しする内容です。この記事ではパンダの使用法を簡単に紹介するだけですが、パンダはデータを迅速かつ簡単に処理できるようにする多数の関数とメソッドを提供します。

おすすめ

転載: blog.csdn.net/qq_45752541/article/details/132309337