記事ディレクトリ
序文
SAMed
これは大規模画像セグメンテーション モデル Segment Anything Model (SAM) に基づいて構築されており、大規模モデルのカスタマイズを医療画像セグメンテーションに適用する新しい研究パラダイムを探ることを目的としています。
元の論文リンク:医療画像セグメンテーションのためのカスタマイズされたセグメント何でもモデル
1. 要約とはじめに
1.1. 抽象的な
この論文では、医療画像セグメンテーションの一般的なソリューションを提案します。SAMed
SAMed
SAM
画像エンコーダーに低ランクベースの微調整戦略 ( ) を採用しLoRA
、注釈付きの医療画像セグメンテーション データセット上でキュー エンコーダーおよびマスク デコーダーとともに微調整します。Warmup
戦略とAdamW
オプティマイザーを微調整したSAMed
結果、収束が成功し、損失が減少しました。
とは異なりSAM
、SAMed
医療画像は意味的にセグメント化できます。
1.2. 導入
医用画像データとそれに対応する意味ラベルが不足しているため、大規模な CV モデルを直接使用して医用画像のセグメンテーションの問題を解決することはできません。
- 大規模な CV モデルは、強度の分散に基づいてさまざまなセグメンテーション領域の境界を決定します。これは、自然画像では合理的ですが、医療画像では合理的ではありません。
- 基本的な大規模セグメンテーション モデルは、強度値が大きく変化する領域を特定することにより、異なる領域間の境界の可能性を特定できます。
- ただし、医療画像には複雑な構造とテクスチャが含まれており、正確なセグメンテーションのために特殊なアルゴリズムとモデルが必要です。
- MRI 画像では、組織が異なれば信号強度も異なり、組織間の境界は必ずしも明確に定義されるわけではありません。
- 医療画像のセグメンテーションには、形状、テクスチャ、背景など、画像の解剖学的および病理学的特徴を考慮できるモデルが必要です。
- 大規模な CV モデルは、セグメント化された領域を意味のある意味カテゴリに関連付けることができません
2. 方法
2.1. 概要
空間解像度がH × WH \times Wであると仮定すると、H×W、チャンネル数はCCC x ∈ RH × W × C x \in \mathbb{R}^{H \times W \times C}の医用画像バツ∈RH × W × C、各ピクセルは事前定義されたカテゴリ リストY = { y 0 , y 1 , ⋯ , yk } Y = \{y_0, y_1, \cdots, y_k \}Y={ y0、y1、⋯、yk}要素 (y 0 y_0y0通常は背景として表示されます)
SAMed
画像エンコーダのすべてのパラメータはフリーズされており、トレーニング可能なバイパスは各トランスモジュール用に設計されています。- に示すように
LoRA
、これらのバイパスはまずトランス フィーチャを低レベル空間に圧縮し、次に圧縮されたフィーチャを再投影して、フリーズされたトランス ブロック内の出力フィーチャのチャネルと一致させます。
- に示すように
SAMed
SAMed
自動セグメンテーションは推論中にヒントなしで実行できる ため、ヒント エンコーダは使用されません。SAM
ですべてのヒントを削除すると、SAM
デフォルトの埋め込みが更新されるため、SAMed
この埋め込みもトレーニング中に微調整されます。
LoRA
変換デコーダの微調整はオプションです 。- 変換デコーダーをフリーズし、
LoRA
すべてのパラメーターではなくレイヤーを使用して微調整する場合、更新されたパラメーターのモデル サイズをさらに縮小して展開を容易にすることができますが、パフォーマンスが若干低下します。
- 変換デコーダーをフリーズし、
SAM
元のセグメンテーション ヘッダーは、セグメンテーション キューのあいまいさを解決するために複数のセグメンテーション マスクを出力します。SAMed
複数のセグメンテーション マスクも予測しますが、各マスクはYYを表しますYのカテゴリであるSAMed
k 個のセグメンテーション マスクが予測されます
2.2. 画像エンコーダの LoRA
エンコードされたトークンのシーケンスF ∈ RB × N × C in F \in \mathbb{R}^{B \times N \times C_{in}} が与えられるとします。F∈RB × N × Cでそして投影層W ∈ RC out × C in W \in \mathbb{R}^{C_{out} \times C_{in}} によるW∈RCあなたは_× Cで演算F ^ ∈ RB × N × C out \hat{F} \in \mathbb{R}^{B \times N \times C_{out}} の出力トークン列F^∈RB × N × Cあなたは_
- 投影層
- 入力データを元の空間から新しい空間(多くの場合異なる次元)にマッピングするレイヤー
- 投影レイヤーは通常、重みやバイアスなどの学習可能なパラメーターのセットで構成され、トレーニング中に最適化されます。
LoRA
WWを想定してWの更新は段階的に安定して行う必要があり、SAMed
そのLoRA
戦略は次のとおりです。
SAMed
WW を維持するために、まず変圧器層をフリーズします。Wは固定され、バイパスが追加されて低ランク近似が完了します。- このバイパスには 2 つの線形層A ∈ R r × C in A \in \mathbb{R}^{r \times C_{in}} が含まれていますあ∈Rr × Cで和B ∈ RC out × r B \in \mathbb{R}^{C_{out} \times r}B∈RCあなたは_× r
- その中r ≪ { C in , C out } r \ll \{ C_{in}, C_{out} \}r≪{ Cで、Cあなたは_}
したがって、層W ^ \hat{W}を更新しますW^の処理プロセスは
。 マルチヘッドセルフアテンションメカニズムはコサイン類似度を使用して焦点を当てる領域を決定するため、QQQ、K.KKまたはVV注意スコアに影響を与えるには、 Vの投影レイヤーを適用することLoRA
が賢明です。
QQLoRA
に適用することが観察されました。QとVVVプロジェクション レイヤーを使用すると、SAMed
より優れたパフォーマンスが得られるため、マルチヘッドセルフ アテンション処理戦略は次のような
パラメーターの意味になります。
- W q W_qWq、W k W_kWk 和 W v W_v Wv
SAM
は、 の凍結された投影レイヤーです。 A q A_qあq、B q B_qBq、A v A_vあvそしてBvB_vBvLoRA
トレーニング可能なパラメータです
2.3. プロンプトエンコーダとマスクデコーダ
SAM
のヒント付きエンコーダーは、ヒントがない場合にデフォルトの埋め込みを使用するため、SAMed
このデフォルトの埋め込みは微調整中に保持され、トレーニングされます。
SAM
のマスク デコーダは、軽量の変換レイヤーとセグメンテーション ヘッドで構成されます。
-
オプションで
LoRA
軽量コンバーター層に適用し、分割ヘッダーを微調整します -
または、マスク デコーダ
SAMed
のすべてのパラメータを直接微調整し、SAM
セグメンテーション ヘッダーをわずかに変更してYYをカスタマイズします。Yの各意味カテゴリの出力は次の図に示すようになります。 -
SAM
のあいまいな予測とは異なり、 YYSAMed
は決定論的な方法で予測されます。Yの各意味カテゴリ -
SAMed
マスク デコーダは、k 個のセマンティック マスクS ^ l ∈ R h × w × k \hat{S}_l \in \mathbb{R}^{h \times w \times k} を同時に予測します。S^私∈Rh × w × k、各意味ラベルに対応 -
最後に、予測されたセグメンテーション マップが次のように生成されます。
- ここで、d = − 1 d = -1d=− 1 は、最後の次元 (チャネル次元) に対して
Softmax
andargmax
演算
- ここで、d = − 1 d = -1d=− 1 は、最後の次元 (チャネル次元) に対して
2.4. トレーニング戦略
2.4.1. 損失関数
SAMed
クロスエントロピーとダイス損失を使用して微調整プロセスを監視します
2.4.2. 準備し始める
SAMed
ウォームアップを使用してトレーニングプロセスを安定させ、トレーニングの初期段階で医療データに慣れるSAMed
指数関数的な学習率の減衰を使用して、トレーニング プロセスを徐々に収束させます。
2.4.3. AdamW オプティマイザー
要約する
問題の結論:
- 自然画像セグメンテーションでは境界に重点が置かれていますが、解剖学的構造または病理学的構造の分析も医療画像セグメンテーションにおいて重要な役割を果たします。
- SAM は医療画像でセマンティック セグメンテーションを実現できません
貢献ポイント:
- まず、SAM は、医療画像のセマンティック ラベル セグメンテーションにおける機能を調査するために拡張されています。
- パフォーマンス、展開、ストレージのオーバーヘッドを考慮して、画像エンコーダの適応と一連のチューニング戦略が提案されます。