記事ディレクトリ
- 1。概要
- 2トランスアーキテクチャの分析
- 2.1 重看 Self-attention Mechanism
- 2.2効率的な自己注意メカニズム
- 2.3相対位置エンコーディング
- 3UTNetの全体的な構造
- 4つの実験
- 5まとめ
- 6参照リンク
1。概要
私はずっと前にMICCAI2021で受け取ったこの記事を読みましたが、コードを複製してデバッグした後、時間内にリーディングノートを整理していません。この記事にもMICCAIに関する実験的な比較作業があまりないため、提案された方法は明確で理解しやすく、学ぶ価値があります。arXiv:https://arxiv.org/abs/2107.00781。事前の信頼として、このリーディングノートでは最初にトランスフォーマーアーキテクチャとその医療画像セグメンテーションへの応用を紹介します。次に、論文で提案されているUTNetアーキテクチャ(バックボーンU-Net、ハイブリッドトランスフォーマーおよびその他のモジュール)を分析します。最後に、次の論文の実験結果。
FCNなどの畳み込みエンコーダ-デコーダアーキテクチャから派生したモデルは、過去数年間でセマンティックセグメンテーションで大幅な進歩を遂げましたが、そのようなモデルには2つの制限があります。第1に、畳み込みは隣接するピクセルからのみ情報を収集でき、明示的なグローバル依存関係を抽出する機能がありません。第2に、畳み込みカーネルのサイズと形状は固定されていることが多いため、入力画像やその他のコンテンツに柔軟に適応できません。代わりに、Transformerアーキテクチャは