医用画像分類のためのデュアルガイド拡散ネットワーク

DiffMIC: 医用画像分類のためのデュアルガイド拡散ネットワーク

まとめ

近年、拡散確率モデルは生成画像モデリングにおいて顕著なパフォーマンスを示し、コンピュータ ビジョン コミュニティで幅広い注目を集めています。ただし、拡散ベースの研究の多くは生成タスクに焦点を当てていますが、拡散モデルを一般的な医用画像分類に適用した研究はほとんどありません。この論文では、医用画像内の予期せぬノイズと摂動を除去し、意味論的表現を確実に捕捉することにより、一般的な医用画像分類問題に対処する最初の拡散ベースのモデル (DiffMIC と呼ばれる) を提案します。この目標を達成するために、段階的に地域の注目を高めるために各拡散ステップを複数の粒度に設定する二条件ガイダンス戦略を設計します。さらに、順拡散プロセスで最大平均差の正則化を強制することにより、各粒度で相互情報を学習することを提案します。私たちは、超音波画像での胎盤成熟度の等級付け、ダーモスコピー画像での皮膚病変の等級付け、眼底画像での糖尿病性網膜症の等級付けを含む 3 つの異なる画像モダリティにおける医療分類タスクにおける DiffMIC の有効性を評価しました。私たちの実験結果は、DiffMIC が最先端の方法を大幅に上回るパフォーマンスを示し、提案されたモデルの一般性と有効性を実証しています。
コードアドレス

本稿での手法

ここに画像の説明を挿入
図 1 は、医用画像分類ネットワークの概略図を示しています。入力医療画像 x が与えられると、それを画像エンコーダーに渡して画像特徴埋め込み ρ(x) を取得し、二重粒度条件付きガイダンス (DCG) モデルを使用してグローバル事前分布 (yg) とローカル事前分布 (yyl) を生成します。 。トレーニング段階では、グラウンド トゥルース y0 とさまざまな事前分布に拡散プロセスを適用し、3 つのノイズの多い変数 ygt、ylt、および yt (ygt のグローバル事前分布、ylt のローカル事前分布、yt の二重事前分布) を生成します。次に、3 つのノイズ変数 ygt、ylt、yt をそれぞれの事前分布と組み合わせて、それぞれ潜在空間に投影します。さらに、ノイズ除去 U-Net で 3 つの射影埋め込みを画像特徴埋め込み ρ(x) とそれぞれ統合し、ygt、ylt、および yt サンプルのノイズ分布を予測します。yg t と yl t の予測ノイズに対する条件固有の最大平均差分 (MMD) 正則化損失を設計し、yt の予測ノイズの平均二乗誤差 (MSE) のノイズ推定損失を利用して DiffMIC を協調的にトレーニングします。通信網。

最大平均差 (MMD) は、すべてのモーメントを比較することによって 2 つの分布間の類似性を測定します。これは、カーネル関数を通じて効果的に達成できます。InfoVAE からインスピレーションを得て、条件固有の MMD 正則化損失のペアを導入して、サンプリングされたノイズ分布とガウス分布の間の相互情報を学習します。
具体的には、時間ステップ t がグローバルな事前条件によってのみ制約される拡散プロセスからノイズ変数 ygt をサンプリングし、mm正則化損失を次のように計算します。
ここに画像の説明を挿入

実験結果

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_45745941/article/details/132055379