ICCV 2023 口頭 | DDFM: マルチモーダル画像融合に拡散モデルを使用する最初の方法

下のカードをクリックして「CVer」公開アカウントをフォローしてください

AI/CVの重要な情報をいち早くお届け

クリックして入ってください -> [イメージ融合と拡散モデル] コミュニケーショングループ

著者: Oppenheimer (出典: Zhihu、公認) | 編集者: CVer パブリック アカウント

https://zhuanlan.zhihu.com/p/653761272

CVer WeChat パブリック アカウントのバックグラウンドで返信: DDFM、この論文の PDF とコードをダウンロードできます

この記事は、ICCV2023 で西安交通大学とチューリッヒ工科大学の Zhao Zixiang 博士が執筆したマルチモーダル画像融合に関する最新の研究です。タイトルは「DDFM: マルチモダリティ画像融合のためのノイズ除去拡散モデル」です。この記事では、マルチモーダル画像融合の分野で拡散モデルを初めて使用しています。これは非常にエキサイティングな作品ですが、数学的導出には工学系の学生として困惑しました。この記事で提案するモデル DDFM の完全なプロセスは、図 1 の c によって実現され、各ステップの fT から fT−1 までのプロセスは、この記事の中心の 1 つである図 3 のプロセスを通じて実現されます。従来のバニラ DDPM モデル ft → f~0|t → ft−1 のプロセスがあり、この記事では EM アルゴリズムを通じて f~0|t と ft−1 の間に中間量 f^0|t を追加します。最尤問題を解くと (つまり、以下の方程式 13 を解くと)、プロセス全体は ft → f~0|t → f^0|t → ft−1 になります。このプロセスは、この記事のもう 1 つの核心である条件生成問題を解決するためのものです。具体的には、画像融合損失関数の最適化問題は最尤問題に変換されます。要約すると、この記事の DDFM の融合アイデアは次のように理解できます。まず、自然画像で事前トレーニングされた DDPM モデルを通じて無条件生成が実行され、予備結果が得られます (目的は融合結果を適合させることです)自然画像の前の世代まで)。次に、予備生成結果に対して条件生成(尤度補正)を行う。融合問題を隠れ変数の最尤推定問題に変換(式8を式13に変換)し、EMアルゴリズムを用いて最尤推定問題を解くことで条件生成が完了する。上記の 2 つのステップは ft → ft−1 の 1 回の反復を構成し、T 回の反復の後、最終的に融合画像 f0 が得られます。

この記事: https://https://arxiv.org/abs/2303.06840
コード: https://github.com/Zhaozixiang1228/MMIF-DDFM

記事のタイトルと著者情報:

DDFM: マルチモダリティ画像融合のためのノイズ除去拡散モデル

862f7a57420f0a2e3f0ce578d86e6426.png

CVer WeChat パブリック アカウントのバックグラウンドで返信: DDFM、この論文の PDF とコードをダウンロードできます

以下はテキスト部分です。

マルチモーダル画像融合の目的は、異なるモダリティの画像を結合し、補完的な情報を保持することで、トレーニングの不安定さや GAN モデルの解釈可能性の欠如などの問題を回避し、同時に強力な生成事前分布を有効に活用することです。 , この論文では、ノイズ除去拡散確率モデル (DDPM) のノイズ除去ベースの Fusion アルゴリズムを提案します。融合タスクは、DDPM サンプリング フレームワークの下で条件付き生成問題として設計され、無条件生成サブ問題と最尤サブ問題に分割されます。最尤部分問題は、潜在変数を使用した階層ベイジアン アプローチによってモデル化され、推論には期待値最大化アルゴリズムが使用されます。推論ソリューションを拡散サンプリング反復に統合することにより、私たちの方法は、ソース画像からの自然画像生成事前分布とクロスモーダル情報を備えた高品質の融合画像を生成できます。この記事の方法では、モデルを生成するために無条件の事前トレーニングが必要ですが、微調整は必要ないことに注意してください。実験により、この記事は赤外可視光融合および医療画像融合において非常にうまく機能することが示されています。

赤外線と可視光の融合 IVF は、融合画像が可視光照明に敏感になることを回避し、赤外線ノイズや低解像度に敏感になることを回避します。GAN ベースの融合手法は図 a に示すとおりで、融合画像を取得するジェネレータがあり、次に識別器が融合画像がソース画像のどのモダリティに近いかを判断します。GAN ベースの手法は、トレーニングが不安定になり、解釈可能性が欠如する傾向があります。また、GANベースの手法はブラックボックスであるため、GANの内部機構や挙動を理解することが難しく、制御可能な融合が困難です。

f9ddd401929ff5f9cd24afa0ca5fd186.png

最近、ノイズ除去拡散確率モデル (DDPM) が画像生成において大幅に進歩しており、ノイズで破損した画像をきれいな画像に復元する拡散プロセスをモデル化することで、高品質の画像を生成できます。DDPM はランジュバン拡散プロセスに基づいており、一連の逆拡散ステップを利用して良好な合成画像を生成します。GAN 手法と比較して、DDPM は識別器を必要としないため、GAN 手法に基づくトレーニングの不安定性やモードの崩壊などの問題が軽減されます。さらに、このタイプの方法は拡散プロセスに基づいているため、DDPM ベースの生成プロセスは解釈可能であり、画像生成プロセスをよりよく理解できます。

そこで本論文では、上図の c に示す構造を持つノイズ除去拡散画像融合モデル (DDFM) を提案し、条件付き生成タスクを DDPM に基づく事後サンプリング モデルとして設計します。無条件生成拡散問題と最尤推定問題の 2 つがあり、最初の問題は自然画像事前を満たすことができ、2 番目の問題は尤度補正を通じて生成画像とソース画像の類似度を制限します。判別法と比較して、DDPM を使用して自然画像をアプリオリにモデル化すると、より優れた詳細を生成できますが、これは損失関数の設計では実現が困難です。生成モデルとして、DDFM は安定した効果と制御可能な生成効果を備えています。1. 無条件生成モジュールと条件付き尤度補正モジュールを含むマルチモーダル画像融合タスクを実行するために、DDPM に基づく事後サンプリング モデルを導入します。サンプリングされた画像は、事前にトレーニングされた DDPM 微調整は必要ありません; 2. 尤度補正では、尤度を明示的に取得することが現実的ではないため、最適化損失は隠れた変数を含む確率的推論問題として表現され、これは次の方法で解決できます。 EM アルゴリズム、その後、この方法は DDPM ループに統合されます 完全な条件付き画像生成; 3. 実験は、この方法が IVF と医療画像融合の両方で良好な結果を達成できることを示しています。

スコアベースの拡散モデル: まず、スコア SDE 方程式を見てください。拡散モデルの目的は、事前に定義された順方向プロセスを反転してサンプルを生成することです。この順方向プロセスは、複数のノイズ付加プロセスを通じて、クリーンなサンプル x0 を徐々にガウス信号に近いサンプル xT に変換するものです。このプロセスを使用できます。微分方程式は次のように表されます。

511403aa55f2a1a82f529bb0d2bdcee7.png

ここで、 dw は標準ウィーナープロセス、β(t) は分散保存 SDE を容易にする事前定義されたノイズ テーブルです。

次のように、この順方向プロセスを逆にして、SDE の形式を維持することができます。

68b8c9796d3530ec786ccf54954fb87d.png 13b84a7705451be4633213c778da1d9b.png 03d6d15ca92138b2c19c5c2acba3730f.png fa5af6b0c969d769d25a3ad8f8d2858e.png

次に拡散モデルを使ったサンプリングです。無条件拡散生成プロセスは、式 2 の離散化形式に従って更新されるランダム ノイズ ベクトル xT から開始されます。サンプリング プロセスは DDIM の方法で理解することもできます。つまり、スコア関数をデノイザーとみなすことができます。次のように、反復 t で、状態 xt からデノイズ結果 x~0|t が予測されます。式。

ac7fe5a5be6181c1b96e702bddb4e2e3.png

このようにして、x~0|t は、xt が与えられた場合の x0 の推定値を表すことができます。

具体的なアップデート方法は以下の通りです。

2cc0f224ca6dc458c2c613aa9abbf4ab.png

x0 が生成されるまで上記の方法を使用します。

この記事は、DDPM と以前の方法との比較に基づいています。従来の最適化ベースの方法は主に人為的に設計された損失関数によって制限されており、データ分布が変化するとそのような方法の効果が低下する可能性があります。自然画像の事前分布を統合すると追加の知識が得られますが、損失関数だけを使用したモデリングでは十分とは言えません。GAN 手法と比較して、この記事の拡散モデル手法は不安定なトレーニングとモード崩壊を回避でき、各反復におけるソース画像生成プロセスの修正と尤度ベースの最適化を通じて、安定したトレーニングと制御可能な融合を得ることができます。

モデル構造

拡散事後サンプリングによる画像の融合: i、v、f を使用してそれぞれ赤外線、可視光、融合画像を表します。融合画像と可視光画像は両方とも RGB カラー イメージです。f の事後分布は i と v によってモデル化できるため、事後分布からサンプリングすることで f を取得できることが期待されます。式 2 からヒントを得て、拡散プロセスの逆 SDE は次の式で表すことができます。

972134b7290dcf1b502ba661358b523e.png

スコア関数は以下の式で計算できます。

0646fbb5fccb7e5bc15743de8083bb68.png

ここで、 f~0|t は、ft が与えられた無条件 DDPM からの f0 の推定値です。上記の式はベイズ理論に由来しており、その近似式は元の記事で引用されている文献に記載されています。上式の最初の項は、無条件拡散サンプリングのスコア関数を表しており、事前トレーニングされた DDPM を通じて簡単に導出できます。次のセクションでは、第 2 項がどのように取得されるかを説明します。

画像融合の尤度補正: 次の式に示す従来の画像劣化反転問題。

e72889c5157fcd7a3463ea5cb9acd16b.png

x はグラウンドトゥルース、y は測定方法、A は既知であり、その事後分布は明示的に取得できます。次に、画像融合問題で、ft または f~0|t が与えられた場合に i と i を取得する必要があります。 vは不可能です。この問題を解決するには、まず最適化関数と確率モデルの尤度の関係を確立する必要があります。以下では、f は f~0|t を表すために使用されます。

画像融合で一般的に使用される損失関数は次のとおりです。

b5d2ac603709f6e35b9d06a179626e6c.png

x=fv と y=iv を使用して変数を置き換えると、次の式が得られます。

883929cac0e1fcdc9b4a37cdf3abed99.png

y は既知で x は未知であるため、上式の第 1 項は、次の式で k が常に 1 となる回帰モデルに対応します。

2ec07826a3faa6c7289a0b8900242359.png

正規項とノイズ事前分布の関係によれば、ϵ はラプラス ノイズでなければならず、x はラプラス分布に従わなければなりません。そして、ベイズ基準によれば、次の式が成り立ちます。

79a186b3371b690dfb3b6ccd4662a7c8.png

47feb26a5cdf5f744d7f5e5a20104b2f.png

76234d022db07179cdf45846afa9ade1.png

したがって、式 10 の p(x) と p(y|x) は、次の階層ベイジアン フレームワークとして書くことができます。

2314ba21814324985b7f60c95fb5dee8.png

ここで、i と j はそれぞれ画像の高さと幅を表します。上式を通じて、式9の最適化問題を最尤推論問題に変換することができる。

さらに、可視光画像 v からのテクスチャ情報をよりよく保持するために、合計変動ペナルティ項を融合画像 f に追加することもできます。その形式は次のとおりです。最初に x の勾配を取得し、次に L2 ノルムを計算します。

bae406ae07f56a2a23ca64786faed44f.png

最終的に、確率推論問題の対数尤度関数は次のように表されます。

1c0aa3348dad6de71859e3d02446486a.png

この階層ベイジアン モデルの確率プロットは、図 1 の形式 b です。

ここで、式 8 の最適化問題は、式 13 の最尤問題の確率モデルに変換されます。さらに、パラメータペナルティ項パラメータ ϕ を手動で調整する従来の方法とは異なり、この方法は、隠れた変数について推論することによってパラメータ ϕ を適応的に更新できるため、モデルがさまざまなデータ分布によりよく適合できます。

以下は、EM アルゴリズムによる尤度モデルの推論です。隠れた変数を含む最適化問題とみなすことができる式 13 の最大対数尤度問題を解くために、この記事では期待値最大化 (EM) アルゴリズムを使用して x を取得します。EMの手順は以下の通りです。

c3b13e25b1a8b59a440b36d62bc2929c.png

Eステップでは、以下の命題2に従って隠れ変数の条件付き期待値の計算結果を計算し、Q方程式の導出を求める。

命題 2: 隠れ変数 1/m と 1/n の条件付き期待値は次のように計算されます 証明プロセスについては、原文を読むことができます。

9548dd63927e4a47674163fbb87cf795.png

次に、m の事後確率はベイズ理論を通じて次のように取得できます。

42b047d93fbadf466c6aa6cf0f15c578.png

同時に、m の事後確率は次の式で計算できます。

207371789c534c6abb3c64306d46ef4e.png

ここで、 IN は逆ガウス分布です。

nについても式17と同様に次式のように計算できます。

d2d0b0d97829fa8f4a99bd5342599c1f.png

また、n は次式のように逆ガウス分布を用いて計算することもできます。

01c78251751a512f595995451c9b4b82.png

最終的に、1/m と 1/n の条件付き期待値は、式 18 と式 20 の逆ガウス分布の平均パラメーターになります。

次に、Q 方程式は次の式から導出されます。

34a708e1c45c1011dcb0313a7c0acd4e.png

M ステップでは、x に関する負の Q 関数を最小化する必要があり、次の式に示すように、この問題を処理するために半二次分割アルゴリズムが使用されます。

81c0e5419a0e2d919512dbe4e1dbbd04.png

これは、さらに次のような制約のない最適化問題に変換できます。

86bcfcc6dfa2a8c437ac490c8d558a68.png

式内の未知の変数 k、u、x は、座標降下によって反復的に解くことができます。

k の更新は、次の式に示すようにデコンボリューション処理です。

c335ea91e0fc1f59fd3d56af4066d612.png

次の式に示すように、高速フーリエ変換とその逆変換演算子を使用して取得できます。

98014c5177cc13b9a1a508f9a343d4e7.png

次の式に示すように、u の更新は L2 ノルムペナルティ付き回帰問題です。

c58199bdca1837e2d1ee01cda4551eed.png

以下のように計算されます。

6ba6a45750bc521a8e69513cbcf5d5bf.png

次の式に示すように、x の更新は最小二乗問題です。

d88244412fd9923c054d7d2fa420e7c6.png

以下のように計算されます。

48cfc6de4d30d6eeefbbe0a5d9c0415c.png

ad54cc77a49207e787e862547e83d9a5.png

DDFM: 前述の説明は、既存の損失関数から階層ベイジアン モデルを取得し、EM アルゴリズムを通じて推論を実行することです。以下では、本論文の DDFM がどのように推論法と拡散サンプリングを同じフレームワークに統合し、入力 v と i に従って融合画像 f を取得するかを説明します。アルゴリズムの流れは次のとおりです。

820db42f1df86e8f2acbc29e009772d8.png 21cdc77a602dc3b92c43f789d06f1c58.png

DDFM には 2 つのモジュールが含まれており、1 つは無条件拡散サンプリング モジュール (UDS) で、もう 1 つは尤度補正 (EM モジュール) です。UDS モジュールは、自然な画像の事前分布を提供し、融合された画像により優れた視覚効果を提供するために使用されます。EM モジュールは、尤度を使用してソース画像のより多くの情報を保護し、UDS 出力を修正するために使用されます。

c2e4388d80436a4632dc3b5f277df27d.png

583192875279a10f2a5bddf17f353d06.png

EM モジュールは、f~0|t を f^0|t に更新するために使用されます。これは、上記のアルゴリズムの青と黄色の部分に対応します。DDPM サンプリングによって取得された f~0|t (5 行目) を EM の開始入力として使用して、尤度補正された融合画像の推定値である f^0|t (6 行目から 13 行目) を取得します。一般に、EM モジュールは、尤度を満たすために f~0|t を f^0|t に更新します。

シングルステップ EM が機能する理由: この記事の DDFM と従来の EM アルゴリズムの最大の違いは、従来の方法では x を取得するために複数の反復が必要であることです。つまり、上記のアルゴリズムの 6 行目から 13 行目では複数のループが必要です。この記事の DDFM は 1 段階の EM 反復のみを必要とし、DDPM フレームワークに直接埋め込んでサンプリングを完了できます。この合理性を説明するための命題 3 を以下に示します。

命題 3: シングルステップの無条件拡散サンプリングとシングルステップの EM 反復を組み合わせたものは、シングルステップの条件付き拡散サンプリングと同等です。以下は証明プロセスの結論です。

a3669b2c80d53457647194cf4c11063b.png

つまり、条件付きサンプリングは、無条件拡散サンプリングとシングルステップ EM アルゴリズムに分けることができます。これは、この記事の UDS モジュールと EM モジュールに対応します。

実験部分

まずは体外受精の実験結果です。実験は 4 つのデータ セットで検証されました: TNO、RoadScene、MSRS、および M3FD. この記事の方法は特定のタスクの微調整を必要としないため、トレーニング セットを必要とせず、直接使用できることに注意してください。事前トレーニングされた DDPM メソッド。この記事では、imagenet で事前トレーニングされたモデルを使用します。比較実験結果は以下の通り。

a5136301dd72075918032f7cfc21b92f.png 6203e9a2adfc086f361646f87a08b50f.png

1 つのアブレーション実験は UDS モジュール用であり、もう 1 つは EM モジュール用です。UDS モジュールの場合、ノイズ除去拡散生成ネットワークは削除され、EM アルゴリズムのみを使用して式 8 の最適化問題を解き、融合結果を取得します (実験 I)。公平に比較​​するために、全体の反復数は DDFM と同じに設定されています。EM モジュールは、式 13 の合計変動ペナルティ項を削除し、次にベイジアン推論モデルを削除します (実験 II)。前述したように、式 8 のパラメーター ϕ は階層ベイジアン モデルで推論できるため、ここではパラメーター ϕ をそれぞれ 0.1 と 1 に設定し (実験 III と IV)、ADMM を使用してモデルを推論します。上記の設定での実験結果を以下の表に示します。

9651d557f77ab49599a477b2a92f8046.png

次の一連の実験は、MRI-CT、MRI-PET、MRI-SPECT を含むハーバード医用画像データセットでテストされた医用画像融合の結果です。

792a715c8135eb91e4a40945350ba91f.png ee04e85ab141aa1b6d1430c99491de58.png

CVer WeChat パブリック アカウントのバックグラウンドで返信: DDFM、この論文の PDF とコードをダウンロードできます

クリックして入ってください -> [イメージ融合と拡散モデル] コミュニケーショングループ

ICCV/CVPR 2023 の論文とコードのダウンロード

 
  

バックステージ返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
图像融合和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像融合或者扩散模型 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像融合或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
 
  
▲点击上方卡片,关注CVer公众号
整理するのは簡単ではありません、いいねして見てくださいcef526dba70dc0c134bcb47b38488c31.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/133054393