ローカルとグローバルのコンテキスト インタラクションの再考: 医療画像セグメンテーションへの SegNetr の応用

ガイド

论文:《SegNetr: U 字型ネットワークにおけるローカルとグローバルの相互作用とスキップ接続を再考する》

今回は主に、SegNetr従来のコーデック ネットワークにおけるローカルとグローバルのインタラクションやロング ジャンプ接続の動作を考慮して改良された、「Medical Image Segmentation Network」と呼ばれる軽量の医療画像セグメンテーション ネットワークを紹介します。

ご存知のとおり、医療画像セグメンテーションの分野では、基本的に U-Net タイプのネットワークが主流となっています。しかし、著者は、既存の U 字型セグメンテーション ネットワークには依然として次の問題があると考えています。

  1. 畳み込み演算に基づいて長距離のコンテキスト依存性を捕捉できないことを補うため、複雑なセルフアテンション モジュールの設計に重点を置き、それによってネットワークのパラメータと計算の複雑さが増加します。
  2. エンコーダとデコーダの間の空間的位置の相関関係を無視して、エンコーダとデコーダの機能を融合するのはあまりにも単純すぎます。

上記の問題に対処するために、この論文では、線形複雑さSegNetr任意の段階でローカルとグローバルの相互作用を動的に実行できる新しいブロックを紹介します同時に、この論文は、エンコーダ機能の空間位置情報を保存し、それらをデコーダ機能と正確に融合するために使用される、一般的な情報保存スキップ接続を設計します。

最後に, 本稿では, 4つの主流の医用画像セグメンテーションデータセットに対する提案手法の有効性を検証する. 従来のものと比較して, U-NetSegNetrのパラメータと計算量はそれぞれ59%と76%削減された. セグメンテーション性能は現状と同等である芸術的な手法。この論文で提案する方法は、プラグ アンド プレイコンポーネントでもあり、任意のコーデック ネットワークに簡単に適用して、モデルのセグメンテーション パフォーマンスをさらに向上させることができることは注目に値します。

方法

この論文の方法を図 1 に示します。これは、ブロックと2 つの重要なコンポーネントSegNetrを含む、典型的な階層型 U 字型ネットワークであることがわかりますネットワークをより軽量にするために、著者は基本的な畳み込み構成要素として をベースにしています。SegNetr ブロックは、エンコーダおよびデコーダの段階で動的なローカルとグローバルの相互作用を可能にします。パッチ結合を使用すると、元の画像情報を失わずに解像度を 2 分の 1 に下げることができます。さらに、IRSC を使用してエンコーダとデコーダの機能を融合し、深さが増すにつれてネットワークによって失われる詳細情報を削減します。SegNetrIRSCMBConv

EfficientNetV2 の MBConv と Fused-MBConv

セグネット

まず、SegNetr ブロックを見てみましょう。これは SegNetr ネットワーク全体のコア コンポーネントであり、ローカルとグローバルの相互作用を通じて機能の動的な処理を可能にします。MBConv をベース畳み込みモジュールとして使用し、相互作用を実現するためにローカル ブランチとグローバル ブランチを導入します。

「ローカル」および「グローバル」コンテキストのキャプチャを実現するにはどうすればよいですか?

ここで、ローカルな相互作用は、ローカルな分岐中に重複しない小さなパッチのアテンション マトリックスを計算することによって実現されます。グローバル ブランチは、空間的に不連続なパッチに対する集約および置換操作を通じてグローバルな相互作用を実現します。ローカル ブランチとグローバル ブランチは、最終的に加重加算によって結合されます。この設計により、計算の複雑さが軽減されるだけでなく、画像内のローカルおよびグローバル情報がより適切にキャプチャされます。

CIHR

情報を保持するスキップ接続は、Patch MergingとによるPatch Reverseエンコーダ機能とデコーダ機能の融合を実現します。その中で、Patch Merging特定の操作は入力特徴マップの解像度を低下させると同時に、より高解像度の詳細を保持するためにチャネル次元を拡張します。While は、Patch Reverseエンコーダーの空間解像度を回復し、デコーダーのアップサンプリングされた機能と融合するために使用されます。これにより、特徴マップの詳細と位置情報がより適切に復元され、セグメンテーションの精度が向上します。

実験

:::ブロック-1

首先,在ISIC2017数据集上,SegNetr和TransUNet的IoU达到了最高值(0.775),比基准U-Net高出3.9%。即使是参数更少的SegNetr-S也能够获得与UNeXt-L相似的分割性能。在PH2数据集上,我们观察到基于Transformer的方法Swin-UNet的分割性能最差,这与目标数据集的数据量直接相关。而本文方法在该数据集上获得了最佳的分割性能,并保持了较低的计算开销。虽然该方法使用了基于窗口位移的注意力方法,但卷积神经网络具有更好的归纳偏差,因此与Swin-UNet或TransUNet等基于Transformer的方法相比,对数据量的依赖性较小。 :::

:::block-1

在表格2中,作者将SegNetr的IoU和Dice与双编码器FATNet进行了比较,结果显示SegNetr的IoU和Dice分别比FATNet高出1.6%和0.8%,而GFLOPs则减少了32.65。在ACDC数据集中,左心室的分割相对较容易,U-Net的IoU为0.861,但比SegNetr差1.1%。心肌位于左右心室之间,呈环状模式,所提方法的IoU比专注于边界分割的EANet高0.6%。此外,我们观察到四个网络UNeXt、UNeXt-L、SegNetr-S和SegNetr的分割性能,发现更小的参数可能限制了网络的学习能力。 :::

:::block-1

如图所示,可以看出,SegNetr 能够在较少的数据情况下准确描述皮肤病变,并实现多类别分割,最小化欠分割和过分割的情况。

:::

总结

SegNetr 通过引入 SegNetr 块和信息保留跳跃连接来改进 U 型网络的分割性能。其中,SegNetr 块通过局部-全局交互实现更好的特征表示,而信息保留跳跃连接则提供了更好的特征融合机制。这些方法使得 SegNetr 在减少计算复杂度的同时,能够获得与传统方法相媲美甚至更好的分割性能。

写在最后

医療画像アプリケーションの分野におけるディープラーニングの研究に興味のある子供用の靴をお持ちの場合は、画面の下部にある QR コードをスキャンするか、WeChat アカウント cv_huber を直接検索して編集者の友人を追加してください。 :学校/会社-研究方向-ニックネームなど 友達を交換して一緒に学びましょう!

おすすめ

転載: juejin.im/post/7266336495031271460