医用画像セグメンテーションのためのトランスフォーマーと CNN の融合
記事ディレクトリ
概要
多くの臨床ニーズの前提条件である医用画像のセグメンテーションは、畳み込みニューラル ネットワーク (CNN) の最近の進歩によって大幅に進歩しました。ただし、明示的な長距離関係のモデル化には一般的な制限があり、既存の治療法では、積極的なダウンサンプリング操作とともに深いエンコーダーを構築することに頼っており、冗長で深いネットワークと局所的な詳細の損失につながります。したがって、セグメンテーション タスクでは、低レベルの詳細をしっかりと把握しながら、グローバル コンテキストのモデリングの効率を向上させる、より良いソリューションが待たれています。この論文では、この課題に対処するために、新しい並列インブランチ アーキテクチャである TransFuse を提案します。TransFuse は、Transformer と CNN を並列スタイルで組み合わせ、グローバルな依存関係と低レベルの空間詳細の両方をより浅い方法で効率的にキャプチャできます。さらに、新しい融合技術である BiFusion モジュールが、両方のブランチのマルチレベル機能を効率的に融合するために作成されています。広範な実験により、TransFuse がポリープ、皮膚病変、股関節、前立腺のセグメンテーションを含む 2D および 3D 医療画像セットの両方で最新の最先端の結果を達成し、パラメーターが大幅に減少し、推論速度が向上することが実証されました。
序章
CNN
- CNN は、多臓器セグメンテーション、肝病変セグメンテーション、脳補体セグメンテーションなど、多くの医療画像セグメンテーション タスクで優れたパフォーマンスを達成しており、特定のタスクの特徴表現をモデリングする際の CNN の強力な能力を示しています。
- 短所: CNN の主な問題は、全文コンテキスト情報を取得する効率が低いことです。受容野を積み重ねて拡張する場合、継続的なダウンサンプリングと畳み込み操作が必要になり、ネットワーク構造が非常に深くなります。このプロセスは、ローカル情報の損失と詳細な情報の拒否も、高密度の予測タスクでは非常に重要です
変成器
- 短所: Transformer には独自の制限もあります。つまり、特に詳細な特徴が非常に重要である医療画像の場合、きめ細かい特徴をより適切にモデル化することができず、局所情報をモデル化する際に空間帰納的パラノイアが欠けています。
トランスヒューズ
- 低レベルの空間特徴と高レベルの意味論的特徴を効果的にキャプチャできます
- グラデーションの消失や効果的に再利用できない機能などの問題を軽減するために深いネットワークを構築する必要はありません。
- モデル効率と推論速度が大幅に向上し、クラウドや端末への展開効率も大幅に向上
提案手法
2つの平行な分岐
-
CNN支局
- 受容野を拡大し、機能を局所的なものから全体的なものに変換します。
-
変圧器分岐
- グローバルな自己注意から始めて、最後にローカルな詳細を回復します
-
2つのメリット
- CNNとTransformerのそれぞれの利点を効果的に活用し、深いネットワークを構築することなくグローバルな情報を効果的に取得し、正確な低レベル情報を維持します。
- 特徴抽出のプロセスで、BIfusion は CNN と Transformer の異なる特性を同時に利用するため、融合がより効果的になります。
変圧器分岐
-
HXWX3 の入力はパッチ (パッチ番号 = 16) に分割され、パッチは線形にマッピングされて平坦化され、Transformer に送信される前にトレーニング可能な位置情報が埋め込まれます。
-
トランスにはL層MSAとMLPが含まれています
- SA ( zi ) = ソフトマックス ( qik TD h ) v SA(z_i) = ソフトマックス(\frac{q_ik^T}{\sqrt{D_h}})vS A ( z私は)=so f t max ( _Dふq私はkT) v
-
Transformer エンコーダーで処理された結果は Decoder に送信され、デコーダー部分では SETR の動作と同様にプログレッシブ アップサンプリング方式 (PUP) が採用されます。
-
まず、Z^L の出力が D0 チャネルを使用して元の 2 次元次元に再整形され、次に 2 つの連続したアップサンプリング畳み込み層を使用して空間解像度が復元され、最後に異なるサイズのアップサンプリング結果が取得されます。特徴融合のための CNN の特徴マップに似ています
CNN支局
- CNN のブランチとして ResNet を使用する
- 最初の 4 つのレイヤーの出力を保持し、それらを Transformer の結果と融合して、融合された特徴抽出を取得します。
BiFusion モジュール
-
CNNとTransformerで抽出した特徴量の融合
-
チャンネルの注目
-
t ^ i = チャネル Attn ( ti ) \widehat{t}^i = ChannelAttn(t^i)t 私=チャンネル接続( t _ _ _ _ _私)
-
SEブロック
-
-
空間的注意
-
g ^ i = チャネル Attn ( gi ) \widehat{g}^i = ChannelAttn(g^i)g 私=チャネルアトン( g _ _ _ _私)
-
CBAM ブロックは空間フィルターとして機能し、局所的な詳細を強調し、無関係な領域を抑制します。低レベルの CNN 特徴にはノイズが含まれます。
-
-
3x3 コンボリューション
-
b ^ i = C onv ( ti W 1 i ⋅ gi W 2 i ) \widehat{b}^i = Conv(t^iW^i_1 \cdot g^iW^i_2)b 私=コンv ( t _ _私はW1私は⋅g私はW2私は)
-
2 つのブランチの特徴間のきめの細かい相互作用をモデル化するためのアダマール積、行列ドット積
-
-
残りの接続
- fi = 残差 ( [ bi , ti , gi ] ) f^i = 残差([b^i,t^i,g^i])f私=残余( [ b _ _ _ _ _私、t私、g私])
-
アテンション ゲート (AG) を使用して最終的なセグメンテーション結果を生成する
- fi + 1 = C onv ( [ Up ( fi ) , AG ( fi + 1 , U p ( fi ) ) ] ) f^{i+1} = Conv([Up(f^i), AG(f^ {i+1}、上(f^i))])f私+1 _=Con v ( [ Up ( f _ _私)、AG ( f _i + 1、上( f _私))])
-
損失関数
- 加重された mIoU 損失
- 紀元前の喪失
実験と結果
データ収集
-
ポリープのセグメンテーション
-
Kvasir、CVC-ClinicDB、CVC-ColonDB、EndoScene、ETIS
- 352×352
-
-
皮膚の損傷
-
2017 International Skin Imaging Collaboration 皮膚病変セグメンテーション データセット (ISIC2017)
- 192×256
-
-
股関節のセグメンテーション
-
前立腺セグメンテーション
-
医療セグメンテーション Decathlon による前立腺容積測定マルチモダリティ MRI
- 320×320
-
実装の詳細
-
トランスフューズ-S
- ResNet-34 (R34) および 8 層 DeiT-Small (DeiT-S)
-
トランスフューズ-L
- Res2Net-50 および 10 層 DeiT-Base (DeiT-B)
-
トランスフューズ-L*
- ResNetV2-50 および ViT-B
評価結果
-
ポリープ分割の結果
-
平均的なダイス
- Dice 係数は、2 つのサンプル間の類似性を計算するために通常使用される、設定された類似性測定関数であり、値は [0,1] です。
-
ニャー
-
表1にポリープセグメンテーションの比較結果を示しますが、TransFuse-S/Lは他のCNNネットワークと比較してSOTAに達しており、PraNetなどに比べてパラメータ数が20%削減されており、リアルタイム性が優れています。
-
また、事前トレーニングされた TransFuse-L* のパフォーマンスも、SETR や TransUNet よりも優れています。
-
-
皮膚病変のセグメンテーションの結果
- 皮膚病変セグメンテーション実験では、パフォーマンス指標は、Jaccard インデックス、Dice 係数、およびピクセルごとの精度です。
- 表 2 では、TransFuse は前処理や後処理を行わなくても UNet++ よりも優れたパフォーマンスを示しますが、UNet++ はバックボーンとして事前トレーニングされた R34 を使用する必要があります。
-
股関節セグメンテーションの結果
- ハウスドルフ距離 (HD)
- 平均表面距離 (ASD)
- 表 3: 股関節セグメント化の比較結果。主に腓骨、左大腿骨、右大腿骨をセグメント化する必要があります。UNet++ や HRNet と比較して、TransFuse は HD および ASD に優れています。これは、この論文で提案した TransFuse が微細構造を効果的にキャプチャし、より鮮明で正確な輪郭を生成できることを十分に証明しています。
-
前立腺セグメンテーションの結果
- nnUNet は現在、前立腺セグメンテーションのナンバーワンのセグメンテーション ネットワークです。
- 表 4: TransFuse と nnUMet の比較結果。nnUNet-3d と比較すると、TransFuse-S はパフォーマンスが優れているだけでなく、パラメータの数が 41% 減少し、スループット レートが 50% 増加していることがわかります。
-
アブレーション研究
- 表 5: 平行ブランチのアブレーション実験、表 6 に BiFusion のアブレーション実験を示します。
- CNN と Transformer のパフォーマンスが 2 つのブランチで最高であることがわかりますが、BiFusion の空間アテンション、チャネル アテンション、および内積計算の組み合わせによりパフォーマンスが向上します。
結論
コメントをレビューする
公式レビューコメント:https://miccai2021.org/openaccess/paperlinks/2021/09/01/496-Paper0016.html
評価: 6、6、6
参考:http://t.csdn.cn/d2JR8