MedNext: 医療画像セグメンテーションのための ConvNet のトランスフォーマー駆動のスケーリング


序文

論文: http://arxiv.org/abs/2303.09975
コード: なし

注釈付きの大規模な医療セグメンテーション データセットが不足しているため、医療画像セグメンテーションで自然画像セグメンテーションに匹敵するパフォーマンスを達成することが困難になります。畳み込みネットワークは帰納的バイアスが高いので(帰納的バイアスの説明については、このブログ投稿[機械学習] 帰納的バイアス (帰納的バイアス) を参照してください) (画像処理により適しているという意味のような気がします)。トレーニングしやすく、パフォーマンスも優れています。最近、ConvNeXt アーキテクチャは、Transformer を模倣して ConvNet を最新化しようとしています。この研究では、データが不足している医療現場の課題に合わせて、最新のスケーラブルな畳み込みアーキテクチャが設計されています。Transformer ベースの大規模畳み込みカーネル セグメンテーション ネットワークである MedNeXt を提案します。これにより、
(1) 医療画像セグメンテーション用の完全な ConvNeXt 3D エンコーダ/デコーダ ネットワークが導入されます
(2) 残余の ConvNeXt アップサンプリングおよびダウンサンプリング ブロック、スケール全体でセマンティックな豊かさを維持します
(3) 新しい限られた医療データでのパフォーマンスの飽和を防ぐために、小さなカーネル ネットワークをアップサンプリングすることでカーネル サイズを繰り返し増加させる手法 (4) 複合スケーリングのための MedNeXt の複数の
レベル (深さ、幅)、カーネル サイズ)。
これにより、CT および MRI モダリティとさまざまなデータセット サイズにわたる 4 つのタスクで最先端のパフォーマンスが実現し、医療画像セグメンテーションのための最新のディープ アーキテクチャを実現します。


1. はじめに

トランスフォーマーは広く使用されていますが、誘導バイアスが限られているため、大規模なアノテーション付きデータセットのパフォーマンス向上を最大化するのに問題があります。畳み込みの固有の誘導バイアスを維持し、Transformer の構造を利用して改善するために、最近提案された ConvNext は、自然な画像処理のための畳み込みネットワークの競争力のあるパフォーマンスを再確立します。
ConvNeXt アーキテクチャは、深層、拡張層、縮小層で構成される Transformer 反転ボトルネックを使用しており、さらに、長距離表現学習を複製する大規模なディープ カーネルと、巨大なトレーニングを再現します。データ セットは Transformer ベースのネットワークよりも優れています。それどころか、小さな畳み込みカーネルを積み重ねる VGGNet は、今でも雨と雪の画像セグメンテーションにおける畳み込みニューラル ネットワークを設計するための主要な技術です。標準 UNet のバリアントを使用する nnUNet など、すぐに使用できるデータ効率の高いソリューションは、幅広いタスクにわたって引き続き効果的です。
ConvNeXt は、Vision および Swin Transformer の長距離空間学習機能と、ConvNet に固有の誘導バイアスを組み合わせます。
逆ボトルネック設計により、カーネル サイズに関係なく幅を拡張 (チャネルの増加) できます。(1) 大規模な畳み込みカーネルを通じて長距離の空間依存関係を学習(2) 複数のネットワーク レベルを同時にスケーリングこれらを達成するには、大規模ネットワークが限られたトレーニング データにオーバーフィットする傾向に対処する必要が
あります。最近、大規模なコンボリューション カーネルが医療画像のセグメンテーションに適用されています。大規模なカーネル 3D-Unet は、コンボリューション カーネルをディープ カーネルと深度拡張カーネルに分割して、臓器および脳腫瘍のセグメンテーションのパフォーマンスを向上させます。一定数のレイヤーを使用しながらカーネル スケーリングを検討しています。そしてチャンネル。3D-UX-Net は ConvNext を使用し、SwinUNETR のトランスフォーマーは ConvNeXt ブロックに置き換えられ、複数のセグメンテーション タスクで高いパフォーマンスを実現します。ただし、これは標準の畳み込みコードでのみ使用されるため、その利点は限られています。





この研究では、医療画像セグメンテーションにおける限られたデータセットの課題に独自に対処しながら、ConvNeXt 設計の可能性を最大限に活用します。

助ける:

  1. 純粋に ConvNeXt ブロックのみ
  2. 残存する逆ボトルネック
  3. アップカーン
  4. 複合スケーリング

2. 提案手法

2.1 完全に ConvNext 3D セグメンテーション アーキテクチャ

私たちは、ConvNeXt の全体的な設計を 3D-Unet のようなフレームワークの構成要素として採用することで、MedNeXt のこれらの利点を活用します。この ConvNeXt ブロックはアップサンプリングとダウンサンプリングでも使用しており、その結果、ConvNeXt ブロックを完全に使用する最初の医療セグメンテーション アーキテクチャが誕生しました。
MedNeXt ブロックには、C チャネル入力として記述される Transformer ブロックを模倣する 3 つのレイヤーがあります。

  1. Depthwise Convolution Layer: この層には Depthwise Convolution が含まれており、畳み込みカーネルのサイズは kxkxk で、その後に正規化層 (GN GroupNorm) が続き、出力チャネルは C です。深さ方向の畳み込みの性質により、この層の大きなカーネルで SwinTransformer の大きなアテンション ウィンドウを複製できます。同時に計算を制限し、「重労働」を拡張層に委任します。(つまり、前の conv3x3, dilation, groups=channels は空間情報を融合し、後者の conv1x1 はチャンネル情報を融合し、パラメータ量が少なく、チャンネル数が増加し、計算量はすぐには増加しません) )。

  2. 拡張層: 過完全な畳み込み層が含まれます。出力チャネルの数は CR で、その後に GELU アクティベーション関数が続きます。R の値が大きいほど、ネットワークは幅方向に拡張できます (ズームイン?)。コンボリューション カーネルの計算量の制限は 1x1x1 です。この層は、幅のスケーリングを前の層の受容野のスケーリングから効果的に分離します。
    ここに画像の説明を挿入
    (a) MedNeXt のアーキテクチャ。ネットワークには 4 つのエンコーダー層、デコーダー層、および 1 つのボトルネック層があります。MedNeXt モジュールは、アップサンプリング層とダウンサンプリング層にも存在します。各デコード層で詳細な監視を使用し、より低い解像度ではより低い損失重みを使用します (途中の適切なデコーダの出力が損失の計算に使用されます)。すべての残差は累積されますが、テンソル サイズを維持するために畳み込みがパディングされます。
    ここに画像の説明を挿入
    (b) アップサンプリング カーネル ( UpKern ) は、同様に構成された MedNeXt アーキテクチャのペアを初期化します (
    ここに画像の説明を挿入
    © MedNeXt のリーダーボード上のパフォーマンス)。

  3. 圧縮層: 1 × 1 × 1 カーネルと C 出力チャネルを備えた畳み込み層で、特徴マップに対してチャネル圧縮を実行します。
    MedNext は、畳み込みニューラル ネットワークに固有の帰納的バイアスを保存し、まばらな医療データセットでのトレーニングを容易にします。当社の完全な ConvNeXt アーキテクチャは、標準レイヤーとアップサンプリング レイヤーでのスケーリング (より多くのチャネル) と受容フィールド (より大きなカーネル) もサポートしています。ディープ スケーリング (より多くのレイヤー) に加えて、これら 3 つの直交タイプのスケーリングを調査して、効率的な医療画像セグメンテーションのための複合スケーラブル MedNeXt を設計します。

2.2 逆ボトルネックが残っている場合のリサンプリング

元の ConvNeXt 設計では、標準のストライド コンボリューションで個別のダウンサンプリング レイヤーを使用します。また、同じアップサンプリング レイヤーを標準のストライド トランスポーズ コンボリューションでも使用できます。ただし、リサンプリング時に幅またはカーネルベースの ConvNeXt スケーリングを利用することはできません。逆ボトルネックをリサンプリング ブロックまで拡張することで改善します。これは、MedNeXt ブロックのダウンサンプリングとアップサンプリングのために、最初の深さの層にそれぞれストライド畳み込みまたは転置畳み込みを挿入することによって行われます。MedNext は、Transformer のような逆ボトルネックを最大限に活用して、低空間解像度ですべてのコンポーネントに豊富なセマンティック情報を保存します。これは、高密度の医療画像セグメンテーション タスクにメリットをもたらします。

2.3 UpKern:飽和のない大規模なカーネル畳み込み

大規模なコンボリューション カーネルは、Transformer の大きなアテンション ウィンドウに近似しますが、それでもパフォーマンスが飽和する傾向があります。医療画像セグメンテーション タスクのデータ量が大幅に少ないため、大規模なカーネル ネットワークではパフォーマンスの飽和が問題になる可能性があります。Swin Transformer V2 のアイデアを借用し、より小さいアテンション ウィンドウで別のネットワークをトレーニングし、大きなアテンション ウィンドウでネットワークを初期化します。
UpKern を使用すると、互換性のないサイズ (テンソルとして表される) の畳み込みカーネルを 3 線形にアップサンプリングし、互換性のある事前トレーニング済みの小さなカーネル ネットワークで大規模なカーネル ネットワークを初期化することで、カーネル サイズを反復的に増やすことができます。これにより、MedNext は、医療画像のセグメンテーションによくある比較的限られたデータ シナリオにおける大規模なカーネル ネットワークのパフォーマンス飽和を克服するのに役立つ、シンプルかつ効果的な初期化手法を提供します。

2.4 深さ、幅、受容野の複合スケーリング

複数のレベル (深さ、幅、受容野、解像度など) で同時にスケーリングすると、1 つのレベルでのスケーリングを超える利点が得られます。3D ネットワークでカーネル サイズを無限に拡張するための計算要件はすぐに法外なものになり、さまざまなレベルの同時スケーリングを調査する必要があります。図 1a と一致して、私たちのスケーリングでは、深さ、幅、および受容野のサイズに対応する、ブロックの数 (B)、拡大率 (R)、およびカーネル サイズ (k) をテストします。
さらに大きなカーネル サイズを調査し、各構成で k = {3, 5} を実験し、MedNeXt アーキテクチャの複合スケーリングを通じてパフォーマンスを最大化します。

3. 実験計画

ここに画像の説明を挿入
カーネル サイズでの MedNeXt の 5 倍相互検証 CV の結果: {3, 5} は、畳み込み、トランスフォーマー、大規模なカーネル ネットワークを含む 7 つのベースラインを上回っています。

統合フレームワークは、パッチ サイズ、間隔、拡張、トレーニング、評価よりも 1 つのネットワークを優先することなく、すべてのネットワークに共通のテストベッドを提供します。

このデータセットの多様性は、イメージング モダリティとトレーニング セット サイズの観点から、私たちの方法の有効性を示しています。


4. 結果

  1. 特にアップサンプリング層とダウンサンプリング層に残る反転ボトルネックにより、医療画像セグメンテーション用の MedNeXt (MedNeXt-B リサンプリングと標準リサンプリング) が機能的に有効になります。逆に、これらの変更されたブロックが存在しないと、パフォーマンスが大幅に低下します。これは、リサンプリング中に特徴マップの意味上の豊かさが維持されるためである可能性があります。
  2. 医療画像セグメンテーションのための大規模なカーネル ネットワークのトレーニングは困難な作業であり、スクラッチからトレーニングされた大規模なカーネルを備えた MedNeXt は MedNeXt-B では見ることができません (UpKern と From Scratch)。UpKern は BTCV および AMOS22 上のカーネルのパフォーマンスを 5 × 5 × 5 向上させますが、UpKern がないと、大きなカーネルのパフォーマンスは小さなカーネルのパフォーマンスと区別できなくなります。
  3. トレーニング済みの MedNeXt-B がカーネルを 3× 3×3 で再トレーニングしたため、大きなカーネルのパフォーマンスの向上は、効果的なトレーニング スケジュールが長くなった (Upkern 対トレーニング 2×) だけではなく、UpKern と大きなカーネルの組み合わせによるものであると考えられます。対応する大規模なカーネルに匹敵することはできません。
    これは、MedNeXt の修正によって ConvNeXt アーキテクチャが医療画像セグメンテーションに正常に移行されたことを強調しています。さらに、畳み込みベースライン、トランスフォーマー ベースライン、大規模カーネル ベースラインなどのベースラインと比較して、4 つのデータセットすべてで MedNeXt アーキテクチャのパフォーマンスを決定します。MedNeXt の有効性についていくつかのレベルで説明します。

要約する

自然画像分析と比較すると、医療画像セグメンテーションには、トレーニング データが限られているなどの固有のドメイン課題があるため、拡張ネットワークのメリットを享受できるアーキテクチャが不足しています。MedNext には、限られた医療画像データセットでの高性能を実現するために調整された、Transformer からインスピレーションを得たスケーラブルなフル ConvNeXt 3D セグメンテーション アーキテクチャが備わっています。4 つの困難なタスクに関する 7 つの強力なベースラインに対する MedNeXt の最先端のパフォーマンスを実証します。さらに、自然画像用の ConvNeXt と同様に、医療画像セグメンテーション用の深いネットワークを構築するための標準畳み込みブロックの効率的な最新化として、複合スケーラブルな MedNeXt 設計を提案します。

おすすめ

転載: blog.csdn.net/goodenough5/article/details/129840902