MSA【3】：SAMed

記事ディレクトリ

序文
1. 要約とはじめに
- 1.1. 抽象的な
- 1.2. 導入
2. 方法
要約する

序文

SAMedこれは大規模画像セグメンテーションモデル Segment Anything Model (SAM) に基づいて構築されており、大規模モデルのカスタマイズを医療画像セグメンテーションに適用する新しい研究パラダイムを探ることを目的としています。

元の論文リンク:医療画像セグメンテーションのためのカスタマイズされたセグメント何でもモデル

1. 要約とはじめに

1.1. 抽象的な

この論文では、医療画像セグメンテーションの一般的なソリューションを提案します。SAMed

SAMedSAM画像エンコーダーに低ランクベースの微調整戦略 ( ) を採用しLoRA、注釈付きの医療画像セグメンテーションデータセット上でキューエンコーダーおよびマスクデコーダーとともに微調整します。
Warmup戦略とAdamWオプティマイザーを微調整したSAMed結果、収束が成功し、損失が減少しました。

とは異なりSAM、SAMed医療画像は意味的にセグメント化できます。

1.2. 導入

医用画像データとそれに対応する意味ラベルが不足しているため、大規模な CV モデルを直接使用して医用画像のセグメンテーションの問題を解決することはできません。

大規模な CV モデルは、強度の分散に基づいてさまざまなセグメンテーション領域の境界を決定します。これは、自然画像では合理的ですが、医療画像では合理的ではありません。
- 基本的な大規模セグメンテーションモデルは、強度値が大きく変化する領域を特定することにより、異なる領域間の境界の可能性を特定できます。
- ただし、医療画像には複雑な構造とテクスチャが含まれており、正確なセグメンテーションのために特殊なアルゴリズムとモデルが必要です。
  - MRI 画像では、組織が異なれば信号強度も異なり、組織間の境界は必ずしも明確に定義されるわけではありません。
  - 医療画像のセグメンテーションには、形状、テクスチャ、背景など、画像の解剖学的および病理学的特徴を考慮できるモデルが必要です。
大規模な CV モデルは、セグメント化された領域を意味のある意味カテゴリに関連付けることができません

ここに画像の説明を挿入します

2. 方法

2.1. 概要

空間解像度が $\times Wであると仮定すると、$ 、チャンネル数は $C$ $\in \mathbb{R}^{H \times W \times C}$ の医用画像 $バツ \in R^{H \times W \times C}$ 、各ピクセルは事前定義されたカテゴリリスト $\{y_0, y_1, \cdots, y_k \}$ 要素 ( $y_0$ 通常は背景として表示されます)

ここに画像の説明を挿入します

SAMed画像エンコーダのすべてのパラメータはフリーズされており、トレーニング可能なバイパスは各トランスモジュール用に設計されています。
- に示すようにLoRA、これらのバイパスはまずトランスフィーチャを低レベル空間に圧縮し、次に圧縮されたフィーチャを再投影して、フリーズされたトランスブロック内の出力フィーチャのチャネルと一致させます。
SAMedSAMed自動セグメンテーションは推論中にヒントなしで実行できるため、ヒントエンコーダは使用されません。
- SAMですべてのヒントを削除すると、SAMデフォルトの埋め込みが更新されるため、SAMedこの埋め込みもトレーニング中に微調整されます。
LoRA変換デコーダの微調整はオプションです。
- 変換デコーダーをフリーズし、LoRAすべてのパラメーターではなくレイヤーを使用して微調整する場合、更新されたパラメーターのモデルサイズをさらに縮小して展開を容易にすることができますが、パフォーマンスが若干低下します。
SAM元のセグメンテーションヘッダーは、セグメンテーションキューのあいまいさを解決するために複数のセグメンテーションマスクを出力します。
- SAMed複数のセグメンテーションマスクも予測しますが、各マスクは $Y$ のカテゴリであるSAMedk 個のセグメンテーションマスクが予測されます

2.2. 画像エンコーダの LoRA

エンコードされたトークンのシーケンス $\in \mathbb{R}^{B \times N \times C_{in}} が与えられるとします。$ そして投影層 $\in \mathbb{R}^{C_{out} \times C_{in}} による$ 演算 $\hat{F} \in \mathbb{R}^{B \times N \times C_{out}} の出力トークン列$

投影層
- 入力データを元の空間から新しい空間（多くの場合異なる次元）にマッピングするレイヤー
- 投影レイヤーは通常、重みやバイアスなどの学習可能なパラメーターのセットで構成され、トレーニング中に最適化されます。

LoRAを想定して $W$ の更新は段階的に安定して行う必要があり、SAMedそのLoRA戦略は次のとおりです。
ここに画像の説明を挿入します

SAMed維持するために、まず変圧器層をフリーズします。 $W$ は固定され、バイパスが追加されて低ランク近似が完了します。
- このバイパスには 2 つの線形層 $\in \mathbb{R}^{r \times C_{in}} が含まれています$ 和 $\in \mathbb{R}^{C_{out} \times r}$
- その中 $\ll \{ C_{in}, C_{out} \}$

したがって、層 $\hat{W}を更新します$ の処理プロセスは
ここに画像の説明を挿入します
。マルチヘッドセルフアテンションメカニズムはコサイン類似度を使用して焦点を当てる領域を決定するため、 $Q$ 、 $K$ または $注意スコアに影響を与えるには、 V$ の投影レイヤーを適用することLoRAが賢明です。

LoRAに適用することが観察されました。 $Q$ と $V$ プロジェクションレイヤーを使用すると、SAMedより優れたパフォーマンスが得られるため、マルチヘッドセルフアテンション処理戦略は次のような
ここに画像の説明を挿入します
パラメーターの意味になります。

$W_q$ 、 $W_k$ 和 $W_v$ SAMは、の凍結された投影レイヤーです。 $A_q$ 、 $B_q$ 、 $A_v$ そして $B_v$ LoRAトレーニング可能なパラメータです

2.3. プロンプトエンコーダとマスクデコーダ

SAMのヒント付きエンコーダーは、ヒントがない場合にデフォルトの埋め込みを使用するため、SAMedこのデフォルトの埋め込みは微調整中に保持され、トレーニングされます。

SAMのマスクデコーダは、軽量の変換レイヤーとセグメンテーションヘッドで構成されます。

オプションでLoRA軽量コンバーター層に適用し、分割ヘッダーを微調整します
または、マスクデコーダ

SAMedのすべてのパラメータを直接微調整し、SAMセグメンテーションヘッダーをわずかに変更して $Y$ の各意味カテゴリの出力は次の図に示すようになります。
SAMのあいまいな予測とは異なり、 SAMedは決定論的な方法で予測されます。 $Y$ の各意味カテゴリ
SAMedマスクデコーダは、k 個のセマンティックマスク $\hat{S}_l \in \mathbb{R}^{h \times w \times k} を同時に予測します。$ 、各意味ラベルに対応
最後に、予測されたセグメンテーションマップが次のように生成されます。
- ここで、 $d = - 1 は$ 、最後の次元 (チャネル次元) に対してSoftmaxandargmax演算

2.4. トレーニング戦略

2.4.1. 損失関数

SAMedクロスエントロピーとダイス損失を使用して微調整プロセスを監視します
ここに画像の説明を挿入します

2.4.2. 準備し始める

SAMedウォームアップを使用してトレーニングプロセスを安定させ、トレーニングの初期段階で医療データに慣れる
SAMed指数関数的な学習率の減衰を使用して、トレーニングプロセスを徐々に収束させます。

2.4.3. AdamW オプティマイザー

ここに画像の説明を挿入します

要約する

問題の結論:

自然画像セグメンテーションでは境界に重点が置かれていますが、解剖学的構造または病理学的構造の分析も医療画像セグメンテーションにおいて重要な役割を果たします。
SAM は医療画像でセマンティックセグメンテーションを実現できません

貢献ポイント:

まず、SAM は、医療画像のセマンティックラベルセグメンテーションにおける機能を調査するために拡張されています。
パフォーマンス、展開、ストレージのオーバーヘッドを考慮して、画像エンコーダの適応と一連のチューニング戦略が提案されます。

記事ディレクトリ

序文

1. 要約とはじめに

1.1. 抽象的な

1.2. 導入

2. 方法

2.1. 概要

2.2. 画像エンコーダの LoRA

2.3. プロンプトエンコーダとマスクデコーダ

2.4. トレーニング戦略

2.4.1. 損失関数

2.4.2. 準備し始める

2.4.3. AdamW オプティマイザー

要約する

おすすめ