ICCV 2023 | 臓器セグメンテーションと腫瘍検出のための CLIP 主導のユニバーサル モデル

下のカードをクリックして「CVer」公開アカウントをフォローしてください

AI/CVの重要な情報をいち早くお届け

クリックして入力します—> [医用画像および画像セグメンテーション] Exchange グループ

CVer WeChat パブリック アカウントのバックグラウンドで返信: CLIP セグメンテーション、この論文の PDF とコードをダウンロードできます。勉強しなさい!

転載元:GiantPandaCV

44ea0a5901b7cbbf3569063644bc31e0.png

臓器セグメンテーションと腫瘍検出のための CLIP 駆動のユニバーサル モデル

論文: https://arxiv.org/abs/2301.00785

コード (オープンソース):

https://github.com/ljwztc/CLIP-Driven-Universal-Model

目次

  • 序文

  • 概要

  • テキストブランチ

  • ビジョンブランチ

  • マスクされたバックプロパゲーション

  • 実験

  • 要約する

  • 参考

序文

今回紹介する記事はCLIPを医療画像に応用したものであり、アイデアとしては革新的なものではありません。CLIP (Contrastive Language-Image Pre-training) はマルチモーダル モデルであり、テキスト データと画像データの両方を処理できることを意味します。その目標は、テキスト説明と画像コンテンツを関連付けて、モデルがテキスト説明と画像の間の意味論的な関係を理解できるようにすることです。大量のテキストと画像を学習することで意味を理解するための一般知識を獲得し、この一般知識をさまざまな具体的なタスクで微調整することで、モデルをさまざまな分野のタスクに適応させることができます。CLIP は、対照的な学習方法を使用してモデルをトレーニングします。これには、モデルが関連するテキストの説明と画像を一致させ、無関係なテキストの説明と画像を分離する必要があります。このようにして、モデルはテキストと画像の間の意味上の類似性を捉える方法を学習できます。

この解釈では、後で登場する CLIP 埋め込みは、テキストと画像の間の意味論的な関係を表す CLIP モデルによって生成される特徴ベクトルを指します。これらの埋め込みベクトルは、CLIP モデルのコア出力の 1 つです。これらはテキストの説明と画像コンテンツの間の関連情報をエンコードし、モデルがテキストと画像の間の意味上の類似性を理解できるようにします。CLIP 埋め込みベクトルは大規模なデータで事前トレーニングされているため、新しいモデルを最初からトレーニングすることなく、さまざまなタスクに使用できます。この多用途性により、CLIP 埋め込みには複数の分野で幅広い応用の可能性があります。

下流タスクでは、CLIP は事前トレーニングから得た能力、つまり画像とテキストがペアであるかどうかを予測する能力を再利用します。具体的には、分類データセットの場合、すべてのクラスの名前をテキストとして使用し、CLIP にどの入力画像がペアである可能性が最も高いかを予測させます。もちろん、下記(2)の「[クラス]の写真」のように、プロンプトを追加してテキストを追加することもできます。明らかに、このプロセスはゼロショット移行です。

50e72fe0b2a5c7c949a33acce7cc5206.png
画像の説明を追加してください

CLIPの詳細については、この記事では詳しく紹介しません。

この記事に戻ると、現在、医療画像の分野では公開データセットの数が増加しています。ただし、各データセットのサイズが小さいことと部分的なラベル付けの問題、およびさまざまな種類の腫瘍の探索が限られているため、結果として得られるモデルは多くの場合、特定の臓器/腫瘍のセグメント化に限定され、解剖学的構造のセマンティクスも無視されます。 . 新しい領域に拡張することはできません。これらの問題を解決するために、本論文では、CLIP学習に基づくテキスト埋め込みの一般的なモデルを提案し、それをセグメンテーションモデルに統合します。この CLIP ベースのラベル エンコーディングは解剖学的関係をキャプチャし、モデルが構造化された特徴の埋め込みを学習し、25 の臓器と 6 種類の腫瘍をセグメント化できるようにします。提案されたモデルは 14 のデータセットの組み合わせから開発され、合計 3,410 の CT スキャンを使用してトレーニングされ、その後 3 つの追加のデータセットからの 6,162 の外部 CT スキャンで評価されました。

概要

公開されている腹部イメージング用のデータセットは、さまざまな臓器や腫瘍に焦点を当てています。たとえば、4 臓器セグメンテーション用の AbdomenCT-1K データセット、16 臓器セグメンテーション用の WORD データセット、および 104 の解剖学的構造のセグメント化された TotalSegmentor データセット (注意を払う必要はありません)これらのデータセットについては、ここでは例を示します)。これらのデータセット間でラベル分類に一貫性がないため、これらのデータセットの組み合わせで AI モデルをトレーニングするときに部分的なラベル付けの問題が発生します。部分的なラベル付けの問題については、例を挙げます。たとえば、画像スライスの場合、肝臓と脾臓という 2 つのカテゴリがありますが、小さな肝臓セグメンテーション データ セットでは、肝臓のみがラベル付けされます。同時に、これらの小さなデータセットを結合する必要があるため、ラベル付けの問題が発生します。

部分ラベルを最大限に活用するために、臓器セグメンテーションと腫瘍検出を実行できる単一モデルを構築することを目的として、いくつかのアプローチが研究されています。これらの研究には次の制限があります。 (1) 結合されたデータセットのサイズが小さいため、データセットを結合する可能性があまり明らかではありません。それらのパフォーマンスはデータセット固有のモデルと同様であり、公式ベンチマークでは評価されていません。(2) 1 ビット有効ラベルの採用により、臓器と腫瘍の間の意味論的な関係は破棄されます。関連する実験が論文で行われており、プロンプトを使用した場合のパフォーマンスは、(直交性のある) ワンホット エンコーディングを使用した場合よりも優れています。直交性とは、「ワンホット」エンコーディングにおいて、各カテゴリ間の表現が互いに独立しており、重複や相互作用がないことを意味します。具体的には、N 個の異なるカテゴリを持つ分類問題の場合、ワンホット エンコーディングを使用した後、各カテゴリは長さ N のベクトルで表され、そのうち 1 つの要素だけが値 1 (現在のカテゴリを表す) を持ち、残りの要素は値は 0 です。これにより、各カテゴリの表現が直交し、他のカテゴリの影響を受けないようになります。直交性により、各カテゴリの表現が他のカテゴリの表現に干渉しないため、モデルは異なるカテゴリを明確に区別できます。これは、自然言語処理における画像分類や語彙分類など、多くの分類タスクで役立ちます。ただし、直交性には、特に複雑な関係や意味論的な情報が関係するタスクでは、いくつかの制限もあります。場合によっては、ワンホット エンコーディングは各カテゴリを他のカテゴリから独立して扱うため、カテゴリ間の相関関係や意味論的な関係を捕捉できない場合があります。これにより、特定の機械学習タスクにおけるモデルのパフォーマンスが制限される可能性があります。

5afe0dea7739e2ccf88316dfe55b1d12.png
画像の説明を追加してください

以下の図は、腹部臓器のセグメンテーションと腫瘍検出のためにこの記事で提案されている CLIP に基づく一般的なモデルです。ラベルの不一致と直交性の問題に対処するために、CLIP 埋め込みがセグメンテーション モデルと統合され、柔軟で強力なセグメンターが実現します。このモデルは、部分的にラベル付けされたデータセットから効果的に学習でき、高いパフォーマンスを実現します。

ef029d6de81ad7b1c3a140d0f1bb764d.png
画像の説明を追加してください

テキストブランチ

概要図の上部に示されているように、特定のクラスの CLIP 埋め込みは、CLIP の事前トレーニングされたテキスト エンコーダーと医療プロンプトで構成されます (たとえば、「[CLS] のコンピューター断層撮影」、ここで [CLS] ] は特定のクラス名です) が生成されます。CLIP 埋め込みとグローバル画像特徴 (fimage) は、まず一緒に連結され、次にテキストベースのコントローラーである MLP に入力され (これは他の研究で行われています)、パラメーター (θk) を生成します。つまり、θk = MLP(wk ⊕) f)、⊕は接続を表します。CLIP 埋め込みは 1 つの有効なラベルよりも大幅に優れていますが、医療リマインダー テンプレートの選択が重要です。

最後に、Text ブランチで k 個の生成パラメータ θ を取得します。これはセグメント化されるすべてのカテゴリに対応し、ラベルの直交性の問題を解決するために k 個のブランチを形成します。676e0b040f6c23c26f59cf7a9314e627.png

上の図に示すように、ワンホット エンコーディングと CLIP エンコーディングを比較しながら、埋め込み空間の t-SNE 視覚化をさらに実証します。見てわかるように、CLIP エンコードされたデコーダ埋め込みは、より優れた特徴クラスタリングと解剖学的構造を示します。たとえば、一般モデルの右腎臓と左腎臓の特徴は、埋め込み空間内でより近くなります (肝臓と肝臓腫瘍も近いため、ワンホット直交性が回避されます)。これは、以下の図に示す CLIP 埋め込みとは異なります。それらの間のコサイン類似度は高度に一致しています。これにより、CLIP ベースのエンコーディングが、モデルが解剖学的関係をキャプチャし、構造化された特徴の埋め込みを学習するのに役立つことが検証されます。

37265536f4a5fc73785e1725aba04573.png
画像の説明を追加してください

ビジョンブランチ

画像は、まず等間隔と標準化された強度比を使用して前処理され、異なるデータセット間のドメインの違いが減少し (ドメイン ギャップが削減され)、その後ビジュアル エンコーダーによって処理されます。F がビジュアル エンコーダによって抽出された画像の特徴を表すものとします。F を処理するには、1 × 1 × 1 の畳み込みカーネルを持つ 3 つの連続した畳み込み層、つまりテキスト駆動型デコーダーが使用されます。最初の 2 つのレイヤーには 8 チャンネルがあり、最後のレイヤーには 1 チャンネルがあります。クラス k の予測は、Pk = シグモイド (((F ∗ θk1) ∗ θk2) ∗ θk3) として計算されます。ここで、θk = {θk1, θk2, θk3} はテキスト ブランチで計算され、* は畳み込みを表します。カテゴリ k ごとに、各カテゴリの前景を表す予測 Pk ∈ を生成し、1 対多の方法で計算します (つまり、各ピクセルが同時に複数のカテゴリに属する​​可能性があるため、ソフトマックスの代わりにシグモイドを使用します)。

マスクされたバックプロパゲーション

ラベルの不一致の問題を解決するために、この記事ではマスク逆伝播技術を提案します。監視には BCE 損失関数を使用します。対応するカテゴリに含まれない損失項はマスクされ、正確な監視のみが逆伝播されてフレームワーク全体が更新されます。マスクされたバックプロパゲーションは、ラベル付けの問題の一部におけるラベルの不一致を解決します。具体的には、部分的にラベル付けされたデータセットは、他のいくつかの臓器を背景としてラベル付けし、既存のトレーニング スキームを無効にしてしまいます。

実験

MSD データセットでの比較は以下の表の通りで、一般的なモデルの性能が nnUNet を上回っていることがわかります。

17b4574206d2fe05b9d3840b5cf97e0a.png
画像の説明を追加してください

いくつかの腫瘍検出ケースの視覚化は次のとおりです。

be2670bcc508cd67f34fc34364aaae62.png
画像の説明を追加してください

記事では一般モデルのFLOPSも検証しましたが、一般モデルはCLIPのテキストエンコーダのみを使用するため、バックボーンに制限がなく、パラメータ数も非常に少なくて済みます。この記事では、CLIP の事前トレーニング済みテキスト エンコーダー ViTB/32 をテキスト ブランチとして使用します。CLIP 埋め込みは固定辞書のみに依存するため、テキストの特徴を抽出して保存することで、トレーニングおよび推論の段階でテキスト エンコーダーによって発生するオーバーヘッドを削減できます。

8e7e53c56500021664690b6a554e95da.png
画像の説明を追加してください

要約する

全体として、この記事では、医療画像のセグメンテーションと腫瘍検出に CLIP 埋め込みを使用する一般的なモデルを紹介します。このモデルは、複数の側面で優れたパフォーマンスを示し、医療画像セグメンテーション タスクにおけるいくつかの課題に対処し、特に解剖学的構造のキャプチャとラベルの不一致と直交性の処理において大幅な進歩を達成しました。この記事では、特に医療画像のセグメンテーション タスクにおいて、従来のワンホット エンコーディングやその他の事前トレーニング済み埋め込みと比較した CLIP 埋め込みの利点を強調しています。CLIP 埋め込みにより、画像とテキストの関係がより適切に把握されます。

CVer WeChat パブリック アカウントのバックグラウンドで返信: CLIP セグメンテーション、この論文の PDF とコードをダウンロードできます。勉強しなさい!

クリックして入力します—> [医用画像および画像セグメンテーション] Exchange グループ

ICCV/CVPR 2023 の論文とコードのダウンロード

 
  

バックステージ返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
医疗影像和图像分割交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-医疗影像或者图像分割 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如医疗影像或者图像分割+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

おすすめ

転載: blog.csdn.net/amusi1994/article/details/133446741