MSA【3】:SAMed


序文

SAMedこれは大規模画像セグメンテーション モデル Segment Anything Model (SAM) に基づいて構築されており、大規模モデルのカスタマイズを医療画像セグメンテーションに適用する新しい研究パラダイムを探ることを目的としています。

元の論文リンク:医療画像セグメンテーションのためのカスタマイズされたセグメント何でもモデル


1. 要約とはじめに

1.1. 抽象的な

この論文では、医療画像セグメンテーションの一般的なソリューションを提案します。SAMed

  • SAMedSAM画像エンコーダーに低ランクベースの微調整戦略 ( ) を採用しLoRA、注釈付きの医療画像セグメンテーション データセット上でキュー エンコーダーおよびマスク デコーダーとともに微調整します。
  • Warmup戦略とAdamWオプティマイザーを微調整したSAMed結果、収束が成功し、損失が減少しました。

とは異なりSAMSAMed医療画像は意味的にセグメント化できます。

1.2. 導入

医用画像データとそれに対応する意味ラベルが不足しているため、大規模な CV モデルを直接使用して医用画像のセグメンテーションの問題を解決することはできません。

  • 大規模な CV モデルは、強度の分散に基づいてさまざまなセグメンテーション領域の境界を決定します。これは、自然画像では合理的ですが、医療画像では合理的ではありません。
    • 基本的な大規模セグメンテーション モデルは、強度値が大きく変化する領域を特定することにより、異なる領域間の境界の可能性を特定できます。
    • ただし、医療画像には複雑な構造とテクスチャが含まれており、正確なセグメンテーションのために特殊なアルゴリズムとモデルが必要です。
      • MRI 画像では、組織が異なれば信号強度も異なり、組織間の境界は必ずしも明確に定義されるわけではありません。
      • 医療画像のセグメンテーションには、形状、テクスチャ、背景など、画像の解剖学的および病理学的特徴を考慮できるモデルが必要です。
  • 大規模な CV モデルは、セグメント化された領域を意味のある意味カテゴリに関連付けることができません

ここに画像の説明を挿入します


2. 方法

2.1. 概要

空間解像度がH × WH \times Wであると仮定すると、H×W、チャンネル数はCCC x ∈ RH × W × C x \in \mathbb{R}^{H \times W \times C}の医用画像バツRH × W × C、各ピクセルは事前定義されたカテゴリ リストY = { y 0 , y 1 , ⋯ , yk } Y = \{y_0, y_1, \cdots, y_k \}Y={ y0y1y}要素 (y 0 y_0y0通常は背景として表示されます)

ここに画像の説明を挿入します

  • SAMed画像エンコーダのすべてのパラメータはフリーズされており、トレーニング可能なバイパスは各トランスモジュール用に設計されています。
    • に示すようにLoRA、これらのバイパスはまずトランス フィーチャを低レベル空間に圧縮し、次に圧縮されたフィーチャを再投影して、フリーズされたトランス ブロック内の出力フィーチャのチャネルと一致させます。
  • SAMedSAMed自動セグメンテーションは推論中にヒントなしで実行できる ため、ヒント エンコーダは使用されません。
    • SAMですべてのヒントを削除すると、SAMデフォルトの埋め込みが更新されるため、SAMedこの埋め込みもトレーニング中に微調整されます。
  • LoRA変換デコーダの微調整はオプションです
    • 変換デコーダーをフリーズし、LoRAすべてのパラメーターではなくレイヤーを使用して微調整する場合、更新されたパラメーターのモデル サイズをさらに縮小して展開を容易にすることができますが、パフォーマンスが若干低下します。
  • SAM元のセグメンテーション ヘッダーは、セグメンテーション キューのあいまいさを解決するために複数のセグメンテーション マスクを出力します。
    • SAMed複数のセグメンテーション マスクも予測しますが、各マスクはYYを表しますYのカテゴリであるSAMedk 個のセグメンテーション マスクが予測されます

2.2. 画像エンコーダの LoRA

エンコードされたトークンのシーケンスF ∈ RB × N × C in F \in \mathbb{R}^{B \times N \times C_{in}} が与えられるとします。FRB × N × Cそして投影層W ∈ RC out × C in W \in \mathbb{R}^{C_{out} \times C_{in}} によるWRCあなた_× C演算F ^ ∈ RB × N × C out \hat{F} \in \mathbb{R}^{B \times N \times C_{out}} の出力トークン列F^RB × N × Cあなた_

  • 投影層
    • 入力データを元の空間から新しい空間(多くの場合異なる次元)にマッピングするレイヤー
    • 投影レイヤーは通常、重みやバイアスなどの学習可能なパラメーターのセットで構成され、トレーニング中に最適化されます。

LoRAWWを想定してWの更新は段階的に安定して行う必要があり、SAMedそのLoRA戦略は次のとおりです。
ここに画像の説明を挿入します

  • SAMedWW を維持するために、まず変圧器層をフリーズします。Wは固定され、バイパスが追加されて低ランク近似が完了します。
    • このバイパスには 2 つの線形層A ∈ R r × C in A \in \mathbb{R}^{r \times C_{in}} が含まれていますRr × CB ∈ RC out × r B \in \mathbb{R}^{C_{out} \times r}BRCあなた_× r
    • その中r ≪ { C in , C out } r \ll \{ C_{in}, C_{out} \}r{ CCあなた_}

したがって、層W ^ \hat{W}を更新しますW^の処理プロセスは
ここに画像の説明を挿入します
。 マルチヘッドセルフアテンションメカニズムはコサイン類似度を使用して焦点を当てる領域を決定するため、QQQK.KKまたはVV注意スコアに影響を与えるには、 Vの投影レイヤーを適用することLoRAが賢明です。

QQLoRAに適用することが観察されました。QVVVプロジェクション レイヤーを使用すると、SAMedより優れたパフォーマンスが得られるため、マルチヘッドセルフ アテンション処理戦略は次のような
ここに画像の説明を挿入します
パラメーターの意味になります。

  • W q W_qWqW k W_kW W v W_v WvSAMは、 の凍結された投影レイヤーです。 A q A_qqB q B_qBqA v A_vvそしてBvB_vBvLoRAトレーニング可能なパラメータです

2.3. プロンプトエンコーダとマスクデコーダ

SAMのヒント付きエンコーダーは、ヒントがない場合にデフォルトの埋め込みを使用するため、SAMedこのデフォルトの埋め込みは微調整中に保持され、トレーニングされます。

SAMのマスク デコーダは、軽量の変換レイヤーとセグメンテーション ヘッドで構成されます。

  • オプションでLoRA軽量コンバーター層に適用し、分割ヘッダーを微調整します

  • または、マスク デコーダ
    ここに画像の説明を挿入します
    SAMedのすべてのパラメータを直接微調整し、SAMセグメンテーション ヘッダーをわずかに変更してYYをカスタマイズします。Yの各意味カテゴリの出力は次の図に示すようになります。

  • SAMのあいまいな予測とは異なり、 YYSAMedは決定論的な方法で予測されます。Yの各意味カテゴリ

  • SAMedマスク デコーダは、k 個のセマンティック マスクS ^ l ∈ R h × w × k \hat{S}_l \in \mathbb{R}^{h \times w \times k} を同時に予測します。S^Rh × w × k、各意味ラベルに対応

  • 最後に、予測されたセグメンテーション マップが次のように生成されます。

    • ここで、d = − 1 d = -1d=1 は、最後の次元 (チャネル次元) に対してSoftmaxandargmax演算
      ここに画像の説明を挿入します

2.4. トレーニング戦略

2.4.1. 損失関数

SAMedクロスエントロピーとダイス損失を使用して微調整プロセスを監視します
ここに画像の説明を挿入します

2.4.2. 準備し始める

  • SAMedウォームアップを使用してトレーニングプロセスを安定させ、トレーニングの初期段階で医療データに慣れる
  • SAMed指数関数的な学習率の減衰を使用して、トレーニング プロセスを徐々に収束させます。
    ここに画像の説明を挿入します

2.4.3. AdamW オプティマイザー

ここに画像の説明を挿入します


要約する

問題の結論:

  1. 自然画像セグメンテーションでは境界に重点が置かれていますが、解剖学的構造または病理学的構造の分析も医療画像セグメンテーションにおいて重要な役割を果たします。
  2. SAM は医療画像でセマンティック セグメンテーションを実現できません

貢献ポイント:

  1. まず、SAM は、医療画像のセマンティック ラベル セグメンテーションにおける機能を調査するために拡張されています。
  2. パフォーマンス、展開、ストレージのオーバーヘッドを考慮して、画像エンコーダの適応と一連のチューニング戦略が提案されます。

おすすめ

転載: blog.csdn.net/HoraceYan/article/details/134087406