深層学習論文共有 (5) DDFM: マルチモダリティ画像融合のためのノイズ除去拡散モデル

序文

元の論文: https://arxiv.org/abs/2303.06840

タイトル: DDFM: マルチモダリティ画像融合のためのノイズ除去拡散モデル
著者: Zixiang Zhao1;2 Haowen Bai1 Yuanzhi Zhu2 Jiangshe Zhang1 Shuang Xu3 Yulun Zhang2 Kai Zhang2 Deyu Meng1 Radu Timofte2;4 Luc Van Gool2 1
西安交通大学 2Computer Vision Lab,チューリッヒ工科大学 � 3 ノースウェスタン工科大学 4 ヴュルツブルク大学

翻訳専用

概要

マルチモーダル画像融合は、異なるモダリティを組み合わせて、機能的なハイライトやテクスチャの詳細など、各モダリティの補完的な特徴を保持する融合画像を生成することを目的としています。強力な生成事前分布を活用し、トレーニングの不安定性と GAN ベースの生成手法の解釈可能性の欠如という課題に対処するために、ノイズ除去拡散確率モデル (DDPM) に基づく新しい融合アルゴリズムを提案します。融合タスクは、DDPM サンプリング フレームワークの下で条件付き生成問題として定式化され、さらに無条件生成サブ問題と最尤サブ問題に分割されます。後者は、潜在変数を使用して階層ベイズ方式でモデル化され、期待値最大化アルゴリズムによって推論されます。推論の理解を拡散サンプリングの反復に統合することにより、私たちの方法は、自然画像生成の事前分布とソース画像のクロスモーダル情報を備えた高品質の融合画像を生成できます。必要なのは無条件で事前トレーニングされた生成モデルだけであり、微調整は必要ないことに注意してください。多くの実験により、この方法が赤外可視光画像融合および医療画像融合において良好な融合効果を達成することが示されている。コードが掲載されます。

1. はじめに

画像融合は、マルチソース画像の基本情報を統合して、デジタル [15,53]、マルチモーダル [45,57]、リモート センシング [48,60] 画像タイプなどの複数のソースを含む高品質の融合画像 [29] を形成します。 。この技術は、より明確なオブジェクトとシーンの表現を提供し、顕著性検出 [32]、オブジェクト検出 [2]、セマンティック セグメンテーション [21] などのさまざまなアプリケーションがあります。画像融合のさまざまなサブカテゴリの中でも、赤外可視画像融合 (IVF) と医用画像融合 (MIF) は、クロスモーダル機能のモデリングとすべてのセンサーからの重要な情報の保持に重点を置いているため、マルチモーダル画像融合 (MMIF) において特に困難です。モダリティ。具体的には、IVF では、融合画像の目的は、赤外線画像の熱放射と可視光画像の詳細なテクスチャ情報を保存し、それによって照明条件に対する可視光画像の感度や、赤外線画像のノイズと低解像度の制限を回避することです。 。一方、MIF は複数の医用画像モダリティを融合することで異常箇所を正確に検出し、診断と治療を支援します [12]。

MMIF [20、51] によってもたらされる課題に対処するために、最近多くの方法が考案されており、生成モデル [7、30] は、融合画像の分布をシミュレートし、満足のいく融合結果を達成するために広く使用されています。その中で、敵対的生成ネットワーク (GAN) [26、27、25、20] に基づくモデルが主流です。図 1a に示すように、GAN ベースのモデルのワークフローには、ソース画像に関する情報を含む画像を作成するジェネレーターと、生成された画像がソース画像の中央と同様の多様体上にあるかどうかを判断するディスクリミネーターが含まれます。GAN ベースの手法は高品質の融合画像を生成できますが、不安定なトレーニング、解釈可能性の欠如、モード崩壊などの問題があり、生成されたサンプルの品質に重大な影響を与えます。さらに、GAN はブラックボックス モデルであるため、内部メカニズムや動作を理解することが難しく、制御可能な生成を実現するのに課題が生じています。
ここに画像の説明を挿入
図 1: (a) 既存の GAN ベースのメソッドのワークフロー。(b) 階層ベイジアン モデルの尤度補正プロット。(c) DDFM の全体的なワークフロー。

最近、ノイズ除去拡散確率モデル (DDPM) [9] が機械学習コミュニティの注目を集めています。このモデルは、ノイズで破損した画像をきれいな画像に復元する拡散プロセスをシミュレートすることで高品質の画像を生成します。DDPM は、有望な合成サンプルを生成するための一連の逆拡散ステップによるランジュバン拡散プロセスに基づいています [35]。GAN と比較すると、DDPM は弁別ネットワークを必要としないため、GAN でのトレーニングの不安定性やモードの崩壊という一般的な問題が軽減されます。さらに、ノイズ除去拡散に基づいて画像を生成するため、その生成プロセスは解釈可能であり、画像生成プロセスをより深く理解できるようになります [44]。

したがって、図 1c に示すように、ノイズ除去拡散画像融合モデル (DDFM) を提案します。条件付き生成タスクを DDPM ベースの事後サンプリング モデルとして説明します。これは、無条件生成拡散問題と最尤推定問題にさらに分解できます。前者は自然画像を事前に満たし、後者は尤度補正により元画像との類似性を制約します。識別手法と比較して、DDPM を使用して自然画像をアプリオリにモデル化すると、人工的に設計された損失関数では制御が難しい詳細をより適切に生成でき、視覚的に認識可能な画像が得られます。生成方法として、DDFM は DDPM 出力に尤度補正を適用することで、識別器のない融合画像の安定かつ制御可能な生成を実現します。

私たちの貢献は 3 つの領域に分類されます。
• 無条件生成モジュールと条件付き尤度補正モジュールで構成される ddpm ベースの MMIF 事後サンプリング モデルを導入します。融合された画像のサンプリングは、微調整なしで事前トレーニングされた DDPM によってのみ実現されます。
• 尤度補正では、尤度を明示的に求めることができないため、最適化損失を潜在変数を含む確率的推論問題として定式化し、EM アルゴリズムで解くことができます。次に、このスキームは DDPM ループに統合され、条件付き画像生成が完了します。
• IVF および MIF タスクに関する広範な評価により、DDFM が一貫して良好なフュージョン結果を提供し、ソース画像の構造と詳細情報を効果的に保存しながら、視覚的な忠実性の要件も満たしていることが示されています。

ここに画像の説明を挿入
図 2: DDFM (黄色でマーク) は、6 つの指標において MSRS [40] および RoadScene [46] の他のすべての手法を上回っています。

2. 背景

2.1. スコアベースの普及モデル

スコア SDE の定式化: 拡散モデルは、ノイズを徐々に追加することでクリーンなサンプルx 0 x_0を取得する事前定義された順方向プロセスを反転してサンプルを生成するように設計されています。バツ0ほぼガウス信号に変換x T x_TバツT
ここに画像の説明を挿入
この前進プロセスは、Ito 確率微分方程式 (SDE) [38]で記述できます。d wは標準のウィーナー過程、β ( t ) β(t)β ( t )は、分散保存 SDE を優先する事前定義されたノイズ テーブル [38] です。

この順方向プロセスは時間の経過とともに元に戻すことができますが、SDE [1] の形式で依然として存在します。

ここに画像の説明を挿入
ここでd ω ~ d\widetilde{\omega}dおお 逆に実行される標準ウィーナー (Wiener) プロセスに対応し、唯一不明な部分▽ xtlogpt ( xt ) \triangledown_{x_t}log_{p_t}(x_t)バツログ_ _p( ×) は、いわゆる分数関数s θ ( xt , t ) s_θ(x_t,t)s( ×t )ノイズ除去スコア マッチング手法を使用すると、スコア関数は次の目的でトレーニングできます [11,37]:
ここに画像の説明を挿入
ここで、 t は[ 0 ; T ][0;T][ 0 ;T ]とデータのペア( x 0 ; xt ) ∼ p 0 ( x ) p 0 t ( xt ∣ x 0 ) (x_0;x_t) \thicksim p_0(x)p_{0t}(xt|x0)( ×0;バツ)p0( × ) p0t _( x t x 0 )

拡散モデルによるサンプリング: 具体的には、無条件拡散生成プロセスはランダム ノイズ ベクトルx T 〜 N ( 0 ; I ) x_T \thicksim N(0;I)から開始されます。バツTN ( 0 ;I ) を計算し、式(2)の離散化に従って更新します。あるいは、DDIM 方式 [35] でサンプリング プロセスを理解することもできます。この場合、スコア関数は反復ttでのデノイザーと考えることもできます。時間tにおける任意の状態xt x_tバツノイズ除去されたx ~ 0 ∣ t \widetilde{x}_{0|t} を予測しますバツ 0∣t _:
ここに画像の説明を挿入
x ~ 0 ∣ t \widetilde{x}_{0|t}バツ 0∣t _与えられたxt x_tを意味しますバツx0x_0 _バツ0見積もり。Ho et al. [9] に従って、同じ表記法α t = 1 − β t α_t = 1−β_tを使用します。ある=1bα ‾ t = ∏ s = 1 t α s \overline{α}_t = \prod_{s=1}^tα_sある=s = 1あるsこの予測ではx ~ 0 ∣ t \widetilde{x}_{0|t}バツ 0∣t _と現在の状態xt x_tバツ, xt − 1 x_{t−1}バツt 1
ここに画像の説明を挿入
z 〜 N ( 0 , I ) z \thicksim N(0,I)から更新します。zN ( 0 ,I )σ ~ t 2 \widetilde{σ}^2_tp t2は分散で、通常は 0 に設定されます。次に、サンプリングされたxt − 1 x_{t−1}バツt 1最終画像x 0 x_0が生成されるまで、次のサンプリング反復に入力されます。バツ0このサンプリングプロセスの詳細については、補足資料または元の論文 [35] を参照してください。

拡散モデルのアプリケーション: 最近、拡散モデルは、GAN などの以前の生成モデルよりも高品質の画像を生成するように改良されました [5, 31]。さらに、拡散モデルは強力な事前生成とみなすことができ、多くの条件付き生成タスクに適用できます。拡散モデルに関する代表的な研究は安定拡散であり、テキストの手がかりを与えて画像を生成できます [33]。拡散モデルは、多くの低レベルの視覚タスクにも適用されます。たとえば、DDRM [14] は、縮退演算子 A のスペクトル空間で拡散サンプリングを実行して、観測値 y の欠落情報を再構築します。DDNM [50] は DDRM と同様の考え方を持ち、演算子 A のヌル空間を反復的に調整することで画像復元タスクを達成します。DPS [3] は、ラプラス近似を使用して事後サンプリングの対数尤度勾配を計算し、多くのノイズの多い非線形逆問題を処理できます。ΠGDM [36] では、著者らは対数尤度を扱いやすくするためにいくつかの近似を使用し、微分不可能な尺度でも逆問題を解決できるようにしています。

2.2. マルチモーダル画像融合

深層学習に基づいたマルチモーダル画像融合アルゴリズムは、ニューラルネットワークの強力なフィッティング能力を通じて効果的な特徴抽出と情報融合を実現します。融合アルゴリズムは主に、生成手法と識別手法の 2 つの分野に分かれています。生成方法 [26、23、27]、特に GAN ファミリーでは、敵対的トレーニング [7、28、30] を使用して、ソース画像と同じ分布を持つ融合画像を生成します。識別方法の場合、オートエンコーダベースのモデル [57、18、16、21、42、17、51] は、エンコーダとデコーダを使用して特徴を抽出し、それらを高次元多様体上で融合します。アルゴリズム展開モデル [4、6、58、49、59] は、効率と解釈可能性のバランスをとるために、従来の最適化手法とニューラル ネットワークを組み合わせています。統合モデル [46、52、45、54、13] は、トレーニング データとタスク固有のグラウンド トゥルースの欠如の問題を回避します。最近では、融合手法がセマンティック セグメンテーション [39] やオブジェクト検出 [20] などのパターン認識タスクと組み合わされて、下流のタスクとの相互作用を調査しています。自己教師あり学習 [19] は、ペア画像なしで融合ネットワークをトレーニングするために採用されています。さらに、前処理登録モジュール [47、10、43] により、登録されていない入力画像に対する堅牢性を強化できます。

2.3. 既存のアプローチとの比較

私たちのモデルに最も関連する方法は、最適化ベースの方法と GAN ベースの生成方法です。従来の最適化ベースの手法は、手作業で設計された損失関数によって制限されることが多く、関連するすべての側面を捉えるのに十分な柔軟性がない可能性があり、データ分布の変化に敏感です。一方、自然画像事前分布を組み込むと、生成損失関数だけではモデル化できない追加の知識が得られます。そして、不安定なトレーニングやモード崩壊に悩まされる可能性のある GAN ベースの生成手法と比較して、当社の DDFM はより安定した制御可能な融合を実現します。

3. 方法

このセクションでは、まず、DDPM 事後サンプリングを使用して融合画像を取得する新しい方法を提案します。次に、確立された画像融合損失関数から始めて、無条件 DDPM サンプリングの尤度補正方法が導出されます。最後に、階層ベイズ推論のソリューションを拡散サンプリングに組み込む DDFM アルゴリズムを提案します。さらに、本稿では、提案されたアルゴリズムの合理性も実証します。簡潔にするために、一部の方程式の導出を省略し、興味のある読者は補足資料を参照してください。DDFM を説明するための例として IVF を使用していることは注目に値します。MIF は IVF と同様に実行できます。

3.1. 拡散事後サンプリングによる画像の融合

まずモデル定式化の表記を与えます。赤外線画像、可視画像、融合画像は i ∈ RHW i\in\mathbb{R}^{HW}として表されます。RH Wv ∈ R 3 HW v\in\mathbb{R}^{3HW}vR3 H Wf ∈ R 3 HW f\in\mathbb{R}^{3HW}fR3HW _ _

iiが与えられることを期待します。i v v vfffの分布、つまりp ( f ∣ i , v ) p(f|i,v)p ( f i ,v ) はモデル化できるので、fff は事後分布からサンプリングできます。式(2)からインスピレーションを得て、拡散過程の逆SDEを次のように表すことができます:
ここに画像の説明を挿入
スコア関数、つまり▽ ftlogpt ( ft ∣ i , v ) \triangledown_{f_t}log_{p_t}(f_t|i,v)fログ_ _p( fv )は次のように計算されます。
ここに画像の説明を挿入
ここで、f ~ 0 ∣ t \widetilde{f}_{0|t}f 0∣t _f 0 f_0ですf0与えられたft f_tf無条件 DDPM からの推定。この方程式はベイズの定理から導かれ、近似方程式は [3] によって証明されます。

式 (7) の最初の項は、無条件拡散サンプリングのスコア関数を表しており、事前学習済み DDPM によって簡単に導出できます。次のセクションでは、▽ ftlogpt ( i , v ∣ f ~ 0 ∣ t ) \triangledown_{f_t}log_{p_t}(i,v|\widetilde{f}_{0|t}) の取得について説明しますfログ_ _p(v f 0∣t _メソッド。

3.2. 画像融合のための尤度補正

従来の画像劣化の逆問題 y = A(x) + n、ここでxxとは異なります。xは実際のイメージ、yyyは測定値、A ( ⋅ ) A(・)( )が既知であれば、その事後分布を明示的に取得できます。ただし、画像融合では、pt ( i , v ∣ f ~ t ) {p_t}(i,v|\widetilde{f}_{t})p(v f )またはpt ( i , v ∣ f ~ 0 ∣ t ) {p_t}(i,v|\widetilde{f}_{0|t})p(v f 0∣t _を明示的に表現することはできません。この問題を解決するために、損失関数から開始して、最適化された損失関数l ( i , v , f ~ 0 ∣ t ) l(i,v,\widetilde{f}_{0|t}) を確立します。l (v f 0∣t _)と確率モデル pt ( i , v ∣ f ~ 0 ∣ t ) p_t(i,v|\widetilde{f} _{0|t}) の尤度p(v f 0∣t _簡潔にするために、セクション 3.2.1 および 3.2.2 では、f ~ 0 ∣ t \widetilde{f} _{0|t} とします。f 0∣t _略してfff

3.2.1 尤度モデルの定式化

まず、画像融合タスクに一般的に使用される損失関数を示します [17、51、22、55]。

ここに画像の説明を挿入
次に、単純な変数置換x = f − vx=f - vを実装します。バツ=fvy = i − vy=i - vy=vyy
ここに画像の説明を挿入
に起因するものをyは既知ですが、xxxは未知であるため、この 1 ノルム最適化方程式は回帰モデルに対応します:y = kx + ϵ y = kx+\epsilony=k ×+ϵ , k は 1 に固定されます。正則化項とノイズ事前分布の関係によれば、ϵ \epsilonϵ はラプラシアン ノイズ、xxxはラプラス分布によって支配されます。したがって、ベイズ的な方法では次のようになります。
ここに画像の説明を挿入
ここでLAP ( ⋅ ) LAP( )ラップ( _ _)はラプラス分布です。ρρrc cγはそれぞれp ( x ) p(x)p ( x )およびp ( y ∣ x ) p(y|x)p ( y x )のスケール パラメーター。

[22,56] にヒントを得て、式 (9) の「1 ノルム最適化」を防ぐために、命題 1 を与えます。

提案1ラプラス分布に従う確率変数 (RV) ξ ξの場合ξは、正規分布の RV と指数分布の RV の結合として見ることができ、その式は次のとおりです。 したがって
ここに画像の説明を挿入
式 (10) のp ( x ) p(x)p ( x )およびp ( y ∣ x ) p(y|x)p ( y x )は、次の階層ベイズ フレームワークとして書き直すことができます:
ここに画像の説明を挿入
ここで、i = 1 , ..., H i = 1,...,H=1 ... Hおよびj = 1 , ..., W j = 1,...,Wj=1 ... W.上記の確率分析を通じて、式 (9) の最適化問題は最尤推論問題に変換できます。

さらに、[22,39] によれば、合計変動ペナルティ項r ( x ) = ∣ ∣ ▽ x ∣ ∣ 2 2 r(x) = ||\triangledown x||^2_2 も追加できます。r ( x )=∣∣ × 22、その結果、融合された画像 f はvvをよりよく保存します。vのテクスチャ情報、ここで▽ \triangledownは勾配演算子です。最終的に、確率推論問題の対数尤度関数は次のようになります。
ここに画像の説明を挿入
この階層ベイジアン モデルの確率プロットを図 1b に示します。このようにして、最適化問題式 (8) を確率モデル式 (13) の最尤問題に変換することは注目に値します。さらに、式 (8) の調整係数 φ を手動で指定する必要がある従来の最適化手法とは異なり、私たちのモデルの φ は潜在変数を推論することによって適応的に更新できるため、モデルをさまざまなデータ分布によりよく適合させることができます。この設計の有効性は、セクション 4.3 のアブレーション実験でも検証されています。次のセクションでは、それを推論する方法を検討します。

3.2.2 EM アルゴリズムによる尤度モデルの推論

式 (13) の最大対数尤度問題を解くには、潜在変数による最適化問題と見なすことができ、期待値最大化 (EM) アルゴリズムを使用して最適な xx を取得しますx。在 E E ステップEでは、対数尤度関数ペアp ( a , b ∣ x ( t ) , y ) p(a,b|x^{(t)},y) をp ( a ,b x( t )y )、いわゆるQQQ関数:MM
ここに画像の説明を挿入
単位Mステップで、最適なxxxは次のように取得されます。 次に
ここに画像の説明を挿入
、各ステップの実装の詳細を示します。

Eステップ命題 2 は、潜在変数の条件付き期待値の計算を与え、q 関数の導関数を導き出します。
提案2式(13)の潜在変数1 / mij 1/m_{ij}1/イジ1 / nij 1/n_{ij}1/ nイジの条件付き期待値は次のとおりです。
ここに画像の説明を挿入

証明:
ここに画像の説明を挿入
ここに画像の説明を挿入

このあとQQQ関数式 (14) は次のように推定されます。
ここに画像の説明を挿入
ここでmij m_{ij}メートルイジnij n_{ij}nイジE mij をそれぞれ式(16) ∣ xij ( t ) 、 yij [ 1 / mij ] E_{m_{ij}|x^{(t)}_{ij},y_{ij}}[1/m_ { ij}]Eメートルイジxij( t )yイジ[ 1/イジ]E nij ∣ xij ( t ) , yij [ 1 / nij ] E_{n_{ij}|x^{(t)}_{ij},y_{ij}}[1/n_{ij}]Enイジxij( t )yイジ[ 1/ nイジ]⊙ \odotは要素ごとの乗算です。んんmnnnは行列で、各要素はmij \sqrt{m_{ij}}メートルイジ そしてnij \sqrt{n_{ij}}nイジ

M ステップ: ここで、負のQQを見つける必要があります。xxに対するQ関数xの最小値は、この問題に対処するために半二次セグメンテーション アルゴリズムを使用します。つまり、
ここに画像の説明を挿入
次の制約のない最適化問題にさらに変換できます: 未知の
ここに画像の説明を挿入
変数k 、 u 、 xk、u、xk あなたx は、座標降下法を使用して反復的に解くことができます。

k の更新: これはデコンボリューション問題です。
ここに画像の説明を挿入
高速フーリエ変換 (fft) 演算子と逆フーリエ変換 (ifft) 演算子によって効率的に解くことができ、k の解は次のようになります。

ここに画像の説明を挿入
ここで⋅ ~ \widetilde{\cdot} は複素共役形式です。

u を更新します。これは「二重ノルム罰則付き回帰問題」です。u
ここに画像の説明を挿入
の解は次のとおりです。
ここに画像の説明を挿入
x を更新します。これは最小二乗問題です。x
ここに画像の説明を挿入
の解は、⊙ \odot
ここに画像の説明を挿入
です。⊙ は要素ごとの除算を表し、f の最終推定値は次
ここに画像の説明を挿入
のようになります。また、式 (10) のハイパーパラメータ γ は次のc &rρはxxからも求めることができますx (式(29)) は次のようにサンプリングされます。
ここに画像の説明を挿入

3.3. DDFM

概要3.2 節では,既存の損失関数から階層ベイジアンモデルを取得し,EM アルゴリズムを通じてモデル推論を実行する方法を提案する.このセクションでは、i と v を与えて f 0 f_0を生成する同じ反復フレームワーク内で推論と拡散サンプリングが統合される DDFM を紹介します。f0このアルゴリズムをアルゴリズム 1 と図 3 に示します。

DDFM には、無条件拡散サンプリング (UDS) モジュールと尤度補正 (EM) モジュールの 2 つのモジュールがあります。UDS モジュールは、融合された画像の視覚的な信頼性を向上させるために自然な画像事前処理を提供します。一方、EM モジュールは、ソース画像により多くの情報を保持する可能性を考慮して UDS モジュールの出力を修正する役割を果たします。
ここに画像の説明を挿入
ここに画像の説明を挿入
図 3: 1 回の反復における DDFM の計算グラフ。従来の DDPM とは異なり、尤度補正は EM アルゴリズムによって行われます。つまり、f ~ 0 ∣ t ⇒ f ^ 0 ∣ t \widetilde{f}_{0|t} \Rightarrow \hat{f}_{ 0 |t}f 0∣t _f^0∣t _更新します。

無条件拡散サンプリングモジュール.
セクション 2.1 では、拡散サンプリングについて簡単に紹介します。アルゴリズム 1 では、UDS (灰色の部分) が 2 つの部分に分割され、最初の部分ではft f_tが使用されます。ff ~ 0 ∣ t \widetilde{f}_{0|t} を推定しますf 0∣t _、2 番目の部分ではft f_tの両方が使用されます。fそしてf ^ 0 ∣ t \hat{f}_{0|t}f^0∣t _ft − 1 f_{t−1}を推定しますft 1式 (7) のスコアベースの DDPM から、事前トレーニングされた DDPM は現在の▽ ftlogpt ( ft ) \triangledown_{f_t}log_{p_t}(f_t) を直接出力できます。fログ_ _p( f),而▽ ftlogpt ( i , v ∣ f ~ 0 ∣ t ) \triangledown_{f_t}log_{p_t}(i,v|\widetilde{f}_{0|t})fログ_ _p(v f 0∣t _)は EM モジュールを通じて取得できます。

EM モジュール。EMモジュールの機能は、 f ~ 0 ∣ t ⇒ f ^ 0 ∣ t \widetilde{f}_{0|t} \Rightarrow \hat{f}_{0|t} を更新することです。f 0∣t _f^0∣t _アルゴリズム 1 と図 3 では、EM アルゴリズム (青と黄色) が UDS (灰色) に接続されています。DDPM サンプリングを使用して生成された初期推定値f ~ 0 ∣ t \widetilde{f}_{0|t} (5 行目)f 0∣t _EM アルゴリズムの最初の入力として、f ^ 0 ∣ t \hat{f}_{0|t}を取得します。f^0∣t _(行 6 ~ 13)、これは尤度補正された融合画像の推定値です。つまり、EM モジュールはf ~ 0 ∣ t \widetilde{f}_{0|t}となります。f 0∣t _f ^ 0 ∣ t \hat{f}_{0|t}に修正f^0∣t _可能性を満たすために。

3.4. ワンステップEMはなぜ機能するのでしょうか?

DDFM と従来の EM アルゴリズムの主な違いは、従来の方法では最適な x を取得するために複数の反復が必要であることです。つまり、アルゴリズム 1 の 6 ~ 13 行目の演算には複数のサイクルが必要です。ただし、DDFM では、サンプリングを実行するために DDPM フレームワークに組み込まれている EM アルゴリズムを 1 回繰り返すだけで済みます。以下に、それを正当化するための提案 3 を示します。

提案31 ステップの無条件拡散サンプリングと 1 ステップの EM 反復を組み合わせたものは、1 ステップの条件付き拡散サンプリングと同等です。

証明:
ここに画像の説明を挿入

4. 赤外線画像と可視画像の融合

このセクションでは、私たちの方法の優位性を実証するために、体外受精タスクに関する広範な実験を詳しく説明します。さらに関連する実験は補足資料に掲載されています。

4.1. 設定

データセットと事前訓練済みモデル[20,19] のスキームに従って、IVF 実験は TNO[41]、RoadScene[46]、MSRS[40]、M3FD[20] の 4 つのテスト データセットに対して実行されました。特定のタスクに対して微調整を行う必要はなく、事前トレーニングされた DDPM モデルを直接使用するため、トレーニング データセットがないことに注意してください。[5] で提案されている、ImageNet [34] でトレーニングされた事前トレーニング済みモデルを選択します。

メトリクス:定量実験ではエントロピー(EN)、標準偏差(SD)、相互情報量(MI)、視覚情報忠実度(VIF)、QAB=F、構造類似性指標尺度(SSIM)を用いて効果を総合的に評価します。メトリクスの詳細については、[24] を参照してください。

実装の詳細:融合画像の生成には、NVIDIA GeForce RTX 3090 GPU を搭載したマシンを使用します。すべての入力画像は [−1;1] に正規化されます。式(23)のψ \psiψ \etaηはそれぞれ 0.5 と 0.1 に設定されました。グリッド検索による選択については補足資料を参照してくださいψ \psiψη \eta _

ここに画像の説明を挿入
ここに画像の説明を挿入

4.2. SOTA手法との比較

このセクションでは、DDFM を、GAN ベースのメソッドのグループである fusongan [26]、GANMcC [27]、TarDAL [20]、UMFusion [43] などの最先端のメソッドと比較します。識別方法の例: U2Fusion [45]、RFNet[47]、DeFusion[19]。

定性的な比較融合結果の比較を図 4 と図 5 に示します。私たちの方法は、赤外線画像からの熱放射情報と可視光画像からの詳細なテクスチャ情報を効果的に組み合わせます。その結果、薄暗い環境にあるオブジェクトがはっきりと強調表示され、前景のオブジェクトと背景を区別しやすくなります。さらに、以前は低照度のために不鮮明だった背景の特徴が、鋭いエッジと豊富な輪郭情報を持つようになり、シーンを理解する能力が向上しました。

定量的な比較次に、表 1 に示すように、前述の 6 つの指標を使用して融合結果を定量的に比較します。私たちの手法は、ほぼすべてのメトリクスで優れたパフォーマンスを示し、さまざまな照明やオブジェクト クラスへの適用可能性を確認しています。特に、すべてのデータセットにおける MI、VIF、Qabf の優れた値は、ソース画像情報の完全性を維持しながら、人間の視覚に一致する画像を生成できることを示しています。

4.3. アブレーション研究

当社のさまざまなモジュールの信頼性を確認するために、広範なアブレーション実験が行われました。上記の 6 つの指標を使用して実験グループの融合パフォーマンスを評価した、Roadscene テスト セットの結果を表 2 に示します。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
無条件拡散サンプリング モジュールまずDDPMの有効性を検証しました。実験 I では、ノイズ除去拡散生成フレームワークを削除し、EM アルゴリズムのみを使用して式 (8) を解いて最適化し、融合画像を取得しました。公平を期すために、総反復数は DDFM と一致するようにしています。

EMモジュール次に、EM モジュール内のコンポーネントを検証します。式 II では、式 (13) の合計変動ペナルティ項 r(x) を削除しました。次に、ベイジアン推論モデルを削除します。前述したように、式 (8) の φ は階層ベイジアン モデルで自動的に推論できます。したがって、φ を手動で 0.1 (実験 III) および 1 (実験 IV) に設定し、ADMM アルゴリズムを使用してモデルを推論します。

要約すると、表 2 の結果は、どの実験グループも DDFM に匹敵する融合結果を達成できないことを示しており、この方法の有効性と合理性がさらに強調されています。

5. 医用画像融合

このセクションでは、MIF 実験を行って手法の有効性を検証します。

設定MIF 実験用にハーバード大学医療画像データセット [8] から、MRI-CT、MRI-PET、MRI-SPECT の画像ペアを含む 50 ペアの医療画像を選択します。MIF タスクの生成戦略と評価指標は、IVF の場合と同じです。

SOTA メソッドとの比較定性的および定量的な結果を図 6 および表 3 に示します。DDFM が構造情報を強調しながら複雑なテクスチャを保持し、その結果、視覚的メトリクスとほぼすべての数値メトリクスの両方で優れたパフォーマンスを実現していることは明らかです。

6. 結論

ノイズ除去拡散確率モデル(DDPM)に基づく生成画像融合アルゴリズムDDFMを提案した。生成問題は、無条件 DDPM (画像生成事前確率を利用する) と最尤部分問題 (ソース画像のクロスモーダル情報を保存する) に分割されます。後者は階層ベイジアン アプローチを使用してモデル化し、その EM アルゴリズム ベースのソリューションを条件付き画像融合用の無条件 DDPM に統合します。赤外可視光画像と医療画像の融合実験により、この方法が良好な融合効果を達成したことが示された。

参考文献

[1] ブライアン・DO・アンダーソン。逆時間拡散方程式モデル。確率過程とその応用、12(3):313–326、1982。2
[2] アレクセイ・ボチコフスキー、チェン・ヤオ・ワン、ホン・ユアン・マークリャオ。Yolov4: 物体検出の最適な速度と精度。CoRR、abs/2004.10934、2020. 1
[3] Hyungjin Chung、Jeongsol Kim、Michael T. McCann、Marc Louis Klasky、および Jong Chul Ye。一般的なノイズの多い逆問題に対する拡散事後サンプリング。ICLR、2023.3、6
[4] シン・デンとピエル・ルイジ・ドラゴッティ。マルチモーダル画像の復元と融合のためのディープ畳み込みニューラルネットワーク。IEEETrans. パターンアナル。マッハ。インテリジェンス、43(10):3333–3348、2021.3
[5] プラフラ・ダリワルとアレクサンダー・ニコル。拡散モデルは画像合成においてガンに勝ります。Advances in Neural InformationProcessing Systems、34:8780–8794、2021。3、7
[6] Fangyuan Gao、Xin Deng、Mai Xu、Jingyi Xu、および Pier LuigiDragotti。マルチモーダル畳み込み辞書学習。IEEE Trans。Image Process.、31:1325–1339、2022. 3
[7] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、BingXu、David Warde-Farley、Sherjil Ozair、Aaron C. Courville、Yoshua Bengio。生成的な敵対的ネット。NIPS、2672 ~ 2680 ページ、2014 年。1、3
[8] ハーバード大学の Web サイト。http://www.med.harvard.edu/AANLIB/home.html。8
[9] ジョナサン・ホー、アジェイ・ジェイン、ピーター・アッビール。ノイズ除去拡散確率モデル。NeurIPS にて、2020.2
[10] Zhanbo Huang、Jinyuan Liu、Xin Fan、Risheng Liu、WeiZhong、Zhongxuan Luo。Reconet: 高速かつ効率的なマルチモダリティ画像融合のための再帰的補正ネットワーク。コンピューター ビジョンに関するヨーロッパ会議 (ECCV)、2022 年。3
[11] Aapo Hyvarinen と Peter Dayan。スコアマッチングによる非正規化統計モデルの推定。Journalof Machine Learning Research、6(4)、2005 年。2
[12] Alex Pappachen James および Belur V. Dasarathy。Medicalimage fusion: 最先端技術の調査。情報 Fusion、19:4–19、2014。1
[13] ジョン・ヒョンジュ、キム・ヨンジュン、チャン・ヒョンソン、ナムクーハ、ソン・グァンフン。教師なしの深層画像と構造テンソル表現の融合。IEEEトランス。ImageProcess.、29:3845–3858、2020. 3
[14] Bahjat Kawar、Michael Elad、Stefano Ermon、JiamingSong。ノイズ除去拡散復元モデル。arXiv preprintarXiv:2201.11793、2022. 3
[15] Hui Li、Kede Ma、Hongwei Yong、および Lei Zhang。多重露出画像融合のための高速マルチスケール構造パッチ分解。IEEETrans. Image Process.、29:5805–5816、2020.1
[16] Hui Li、Xiao-Jun Wu、および Tariq S. Durrani。Nestfuse: ネストコネクションおよび空間/チャネル アテンション モデルに基づく赤外線画像と可視画像の融合アーキテクチャ。IEEE Trans.Instrum. Meas.、69(12):9645–9656、2020。3
[17] Hui Li、Xiao-Jun Wu、および Josef Kittler。Rfn-nest: 赤外線および可視画像用のエンドツーエンド残差融合ネットワーク。Inf. フュージョン、73:72–86、2021. 3、4
[18] ホイ・リーとシャオジュン・ウー。Densefuse: 赤外線画像と可視画像への融合アプローチ。IEEE Transactions on ImageProcessing、28(5):2614–2623、2018. 3
[19] Pengwei Liang、Junjun Jiang、Xianming Liu、および Jiayi Ma.分解による融合: 画像融合のための自己教師付き分解アプローチ。European Conference on Computer Vision (ECCV)、2022 年。3、6、7、8
[20] Jinyuan Liu、Xin Fan、Zhanbo Huang、Guanyao Wu、RishengLiu、Wei Zhong、および Zhongxuan Luo。ターゲットを認識したデュアル敵対学習と、赤外線と可視光を融合して物体を検出するマルチシナリオ マルチモダリティ ベンチマーク。InCVPR、5792 ~ 5801 ページ。IEEE、2022. 1、2、3、6、7、8
[21] 劉リーシェン、朱劉、劉金源、信範。高速マルチモダリティ画像融合のための階層的に集約された融合アーキテクチャの検索。ACM マルチメディア、1600 ~ 1608 ページ。ACM、2021。1、3
[22] Jiayi Ma、Chen Chen、Chang Li、および Jun Huang。グラジエント転送と全体的な変動の最小化による赤外線と可視画像の融合。Information Fusion、31:100–109、2016。4
[23] Jiayi Ma、Pengwei Liang、Wei Yu、Chen Chen、Xiaojie Guo、Jia Wu、Junjun Jiang。詳細を維持した敵対的学習による赤外線画像と可視画像の融合。Information Fusion、54:85–98、2020。3
[24] Jiayi Ma、Yong Ma、Chang Li。赤外線と可視画像の融合方法と応用: 調査。InformationFusion、45:153–178、2019. 7
[25] Jiayi Ma、Han Xu、Junjun Jiang、Xiaoguang Mei、および XiaoPing (Steven) Zhang. Ddcgan: 多重解像度画像融合のためのデュアルディスクリミネーター条件付き敵対的生成ネットワーク. IEEE Trans. Image Process., 29:4980– 4995 ,2020. 2
[26] Jiayi Ma, Wei Yu, Pengwei Liang, Chang Li, and Junjun Jiang. Fusiongan: 赤外線画像と可視画像の融合のための生成敵対的ネットワーク. Information Fusion, 48:11–26, 2019. 2, 3、7、8
[27] Jiayi Ma、Hao Zhang、Zhenfeng Shao、Pengwei Liang、および Han Xu. Ganmcc: 赤外線および可視画像融合のための多分類制約を備えた生成的敵対的ネットワーク. IEEE Trans. Instrum. Meas.、70:1 –14、2021 . 2、3、7、8
[28] Xudong Mao、Qing Li、Haoran Xie、Raymond YK Lau、ZhenWang、Stephen Paul Smolley。最小二乗法による敵対的生成ネットワーク。コンピューター ビジョンに関する IEEE 国際会議議事録、2794 ~ 2802 ページ、2017 年。3
[29] Bikash Meher、Sanjay Agrawal、Rutuparna Panda、および AjithAbraham。領域ベースの画像融合手法に関する調査。Information Fusion、48:119–132、2019。1
[30] Mehdi Mirza および Simon Osindero。条件付き生成敵対的ネット。arXiv プレプリント arXiv:1411.1784、2014. 1、3
[31] Alexander Quinn Nichol と Prafulla Dhariwal。改善されたノイズ除去拡散確率モデル。ICML、8162 ~ 8171 ページ、2021 年。3
[32] Xuebin Qin、Zichen Vincent Zhang、Chenyang Huang、ChaoGao、Masood Dehghan、Martin Jagersand。Basnet: �境界を意識した顕著なオブジェクトの検出。CVPR、7479 ~ 7489 ページ。Computer Vision Foundation / IEEE、2019. 1
[33] Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser、および Bjorn Ommer。高解像度画像 - 潜在拡散モデルによる合成。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、10684 ~ 10695 ページ、2022 年。3 [
34] Olga Russakovsky、Jia Deng、Hao Su、Jonathan Krause、Sanjeev Satheesh、Sean Ma、Zhiheng Huang、Andrej Karpathy、Aditya Khosla 、マイケル・S・バーンスタイン、アレクサンダー・C・バーグ、リー・フェイフェイ。Imagenet の大規模視覚認識チャレンジ。Int. J.Comput.ヴィズ、115(3):211–252、2015. 7
[35] ソング・ジャーミン、メン・チェンリン、ステファノ・エルモン。ノイズ除去拡散暗黙的モデル。ICLR、2021 年。2、3
[36] Jiaming Song、Arash Vahdat、Morteza Mardani、JanKautz。逆問題に対する擬似逆誘導拡散モデル。学習表現に関する国際会議、2023 年。3
[37] Yang Song と Stefano Ermon。データ分布の勾配を推定することによる生成モデリング。Advances inNeural Information Processing Systems、32、2019。2
[38] Yang Song、Jascha Sohl-Dickstein、Diederik P. Kingma、Abhishek Kumar、Stefano Ermon、および Ben Poole。確率微分方程式によるスコアベースの生成モデリング。ICLR 内。OpenReview.net、2021. 2
[39] 唐林峰、袁吉騰、馬嘉儀。高レベルのビジョンタスクのループにおける画像融合: セマンティックを意識したリアルタイムの赤外線および可視画像融合ネットワーク。情報 Fusion、82:28–42、2022。3、4
[40] Linfeng Tang、Jiteng Yuan、Hao Zhang、Xingyu Jiang、Jiayi Ma。Piafusion: 照明対応に基づいたプログレッシブ赤外線および可視画像融合ネットワーク。情報 Fusion、83-84:79–92、2022。1、6、8
[41] Alexander Toet および Maarten A. Hogervorst。カラーナイトビジョンの進歩。光学工学、51(1):1 – 20、2012. 6、8
[42] Vibashan VS、Jeya Maria Jose Valanarasu、Poojan Oza、および Vishal M. Patel。イメージフュージョントランス。CoRR、abs/2107.09011、2021. 3
[43] Di Wang、Jinyuan Liu、Xin Fan、および Risheng Liu.クロスモダリティ画像生成と登録による教師なしの位置ずれした赤外線画像と可視画像の融合.IJCAI、3508 ~ 3515 ページ.ijcai.org、2022.3、7、8
[44] zhisheng xiao、Karsten Kreis、および Arash vahdat. Tacklingthe Generation Learning Trilemma with DifFFUSINGANS. In ICLR, 2022. 2 [45] Han XU、JIAYI Ma、junjun jiang、xiaojie guo、および haibinling. U2Fusion: 教師なしイメージの
統合フュージョン ネットワーク. IEEE Trans. Pattern Anal. Mach. Intell., 44(1):502–518,2022. 1, 3, 7, 8 [46] Han Xu、Jiayi Ma、Zhuliang Le、Junjun Jiang、および XiaojieGuo
。 Fusiondn: 画像融合のための統合された高密度接続ネットワーク. AAAI Conference on Artificial Intelligence、AAAI、12484–12491 ページ、2020. 1、3、6、8
[47] Han Xu、Jiayi Ma、Jiteng Yuan、Zhuliang Le、および Wei Liu. Rfnet: マルチモーダル画像レジストレーションと融合を相互に強化するための教師なしネットワーク. CVPR において、19647 ~ 19656 ページ. IEEE、2022. 3、7、8
[ [48] Shuang Xu、Jiangshe Zhang、Zixiang Zhao、Kai Sun、JunminLiu、および Chunxia Zhang. パンシャープニングのためのディープ グラディエント投影ネットワーク. CVPR において、1366 ~ 1375 ページ. ComputerVision Foundation / IEEE、2021. 1 [49] Shuang Xu
、Zixiang Zhao、Yicheng Wang、Chunxia Zhang、Junmin Liu、および Jiangshe Zhang. 画像融合のための深層畳み込みスパーセコーディング ネットワーク. CoRR、abs/2005.08448,2020. 3 [50] Wang yinghuai、Yu Jiwen、および Zhang Jian. ゼロ ショット
imノイズ除去拡散ヌル空間モデルを使用した年齢復元.arXiv:2212.00490,2022.3
[51] ハオ・チャンとジャーイー・マー。Sdnet: リアルタイム画像融合のための多用途のスクイーズと分解ネットワーク。内部。J.コンピューティング。Vis.、129(10):2761–2785、2021. 1、3、4
[52] Hao Zhang、Han Xu、Yang Xiao、Xiaojie Guo、および Jiayi Ma.画像融合の再考: に基づく高速統合画像融合ネットワーク勾配と強度の比例維持。AAAI、12797 ~ 12804 ページ。AAAI プレス、2020 年。3
[53] チャン・シンチェン。深層学習ベースの多焦点イメージフュージョン: 調査と比較研究。IEEE Transactionson パターン分析とマシン インテリジェンス、2021 年。1
[54] Yu Zhang、Yu Liu、Peng Sun、Han Yan、Xiaolin Zhao、および LiZhang。IFCNN: 畳み込みニューラル ネットワークに基づく一般的な画像融合フレームワーク。情報 フュージョン、54:99–118、2020.3
[55] Zixiang Zhao、Haowen Bai、Jiangshe Zhang、Yulun Zhang、Shuang Xu、Zudi Lin、Radu Timofte、Luc Van Gool. Cddfuse: マルチモダリティ画像融合のための相関駆動型デュアルブランチ特徴分解. CoRR、abs/ 2211.14461、2022. 4
[56] Zixiang Zhao、Shuang Xu、Chunxia Zhang、Junmin Liu、および Jiangshe Zhang. 赤外および可視画像のベイジアン融合. Signal Processing, 177, 2020. 4 [57] Zixiang Zhao、Shuang Xu、Chun xia zhang
、Junmin Liu、Jiangshe Zhang、および Pengfei Li. DIDFuse: 赤外線画像と可視画像の融合のためのディープ画像分解. 人工知能に関する国際共同会議、IJCAI、970–976 ページ、2020. 1、3
[58] Zixiang Zhao、Shuang Xu、Jiangshe Zhang、Chengyang Liang、Chunxia Zhang、Junmin Liu、アルゴリズム展開による効率的かつモデルベースの赤外線画像と可視画像の融合、IEEE Trans. Circuits Syst. Video Technol.、32(3) : 1186–1196、2022. 3
[59] Zixiang Zhao、Jiangshe Zhang、Shuang Xu、Zudi Lin、および Hanspeter Pfister. 離散コサイン変換ネットワーク禁止深度マップ超解像度. コンピューター ビジョンとパターンレコに関する IEEE/CVF 会議議事録gnition (CVPR)、ページ 5697–5707、2022 年 6 月 3
[60] zixiang zhao、jiangshe zhang、shuang xu、kai sun、luhuang、junmin liu、および chunxia zhang. FGF-Gan: パンシャープニング経由の軽量かつ一般的な逆サリアル ネットワークガイド付きフィルター、ICME、1 ~ 6 ページ、IEEE、2021 年 1

おすすめ

転載: blog.csdn.net/qq_52358603/article/details/131922363