論文の読書 - SegNext: 畳み込み注意に基づいたセマンティック セグメンテーションの再考

用紙情報

論文名: SegNeXt: セマンティック セグメンテーションのための畳み込みアテンション デザインの再考

プロジェクトGitHub:

GitHub - Visual-Attendant-Network/SegNeXt: 「SegNeXt: セマンティック セグメンテーションのための畳み込みアテンション デザインの再考」(NeurIPS 2022) の公式 Pytorch 実装

記事: https://arxiv.org/pdf/2209.08575.pdf

時間: 2022.09

モチベーションとイノベーション

モチベーション

Vision Transformer の「次元削減ストライキ」により、CV 分野の多くの SOTA ソリューションが ViT ソリューションによって支配されるようになり、セマンティック セグメンテーションも例外ではありません。以前に成功したセマンティック セグメンテーションの作業 (DeepLabV3+、HRNet、SETR、SegFormer) を再検討することにより、著者は、以下の表に示すように、さまざまなモデルのいくつかの重要な属性を要約しています。上記の観察に基づいて、著者らは、成功するセマンティック セグメンテーション モデルには次の特性が必要であると考えています。(i) エンコーダとしての強力なバックボーン ネットワーク。以前の CNN ベースのモデルと比較して、Transformer ベースのモデルのパフォーマンス向上は主に、より強力なバックボーン ネットワークによってもたらされます。(ii) マルチスケールの情報インタラクション。主に個々のオブジェクトを認識する画像分類タスクとは異なり、セマンティック セグメンテーションは集中的な予測タスクであるため、単一の画像内でさまざまなサイズのオブジェクトを処理する必要があります。(iii) 空間的注意。空間的注意により、モデルはセマンティック領域内の領域に優先順位を付けることでセグメンテーションを実行できます。(iv) 計算の複雑さが低い。これは、リモート センシングや都市シーンからの高解像度画像を扱う場合に特に重要です。

 革新

上記の分析を考慮して、この論文では、著者らは畳み込み注意の設計を再考し、セマンティック セグメンテーションのための効率的かつ効果的なエンコーダ/デコーダ アーキテクチャを提案します。デコーダーの特徴リファインナーとして畳み込みを使用した以前の Transformer ベースのモデルとは異なり、私たちの方法は、Transformer-畳み込みエンコーダー-デコーダー アーキテクチャを逆転させます。つまり、エンコーダーに従来の畳み込みモジュールを採用しますが、マルチスケール畳み込みアテンションが追加されます。デコーダはハンバーガー モデル (セルフ アテンションの代替) を使用して、コンテキスト情報をさらに抽出します。具体的には:

  1. エンコーダー内の各ブロックについて、従来の畳み込みブロックの設計を更新し、マルチスケール畳み込み機能を利用して、単純な要素ごとの乗算を通じて空間的注意を喚起します。著者らは、空間的注意を構築するためのこの単純なアプローチが、空間情報をエンコードする際の標準的な畳み込みや自己注意よりも効果的であることを発見しました。

  2. デコーダについては、著者らはさまざまな段階からマルチレベルの特徴を収集し、Hamburger を使用してグローバルなコンテキスト情報をさらに抽出します。この設定の下で、私たちの方法はローカルからグローバルまでのマルチスケールコンテキストを取得し、空間次元とチャネル次元の適応性を実現し、低レベルから高レベルまで情報を集約できます。

以下の図に示すように、SegNeXt は最近の Transformer ベースの手法を大幅に上回ります。特に、当社の SegNeXt-S は SegFormer-B2 よりも優れています (81.3 % 対 81.0%)。

 助ける

  1. この論文では、優れたセマンティック セグメンテーション モデルが持つべき機能を特定し、マルチスケールの畳み込み機能を通じて空間的注意を呼び起こす、SegNeXt と呼ばれる新しいカスタムメイドのネットワーク アーキテクチャを提案します。

  2. 著者らは、シンプルで安価な畳み込みを備えたエンコーダが、特にオブジェクトの詳細を扱う場合に、必要な計算量が大幅に少なくなりながら、ビジョン Transformer よりも優れたパフォーマンスを発揮できることを示しています。

  3. 私たちのアプローチは、ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context、iSAID などのさまざまなセグメンテーション ベンチマークにおける最先端のセマンティック セグメンテーション手法のパフォーマンスを大幅に向上させます。

方法

畳み込みエンコーダ

 これまでのほとんどの研究に倣い、著者らはエンコーダにピラミッド構造を採用しました。エンコーダのビルディング ブロックについて、著者らは ViT と同様の構造を採用していますが、異なる点は、セルフ アテンション メカニズムを使用する代わりに、新しいマルチスケール畳み込みアテンション (MSCA) モジュールが設計されていることです。以下の図 2 (a) に示すように、MSCA は 3 つの部分で構成されます。ローカル情報を集約するためのディープ コンボリューションマルチスケール コンテキストをキャプチャするためのマルチブランチ ディープ バンド コンボリューション (軽量で計算量が少ない)および 1×1 コンボリューションです。異なるチャネル間の関係をモデル化しますここで、1×1 畳み込みの出力は、MSCA の入力を再重み付けるためのアテンション ウェイトとして直接使用されます。数学的には、MSCA は次のように記述できます。

 ここで、F は入力特徴を表します。Att と Out は、それぞれアテンション マップと出力です。⊗ は要素ごとの行列乗算演算です。DW-Conv は深さ方向の畳み込み Scalei 、 i ∈ {0,1,2,3} を示し、図 2(b) の i 番目のブランチを示します。Scale0 は ID 接続です。各ブランチで、著者らは 2 つの深さ方向のバンド畳み込みを使用して、大きなカーネルによる標準の深さ方向の畳み込みを近似します。ここでは、各ブランチのカーネル サイズをそれぞれ 7、11、21 (マルチスケール) に設定します。著者が深度ストリップ畳み込みを選択した理由は 2 つあります。一方で、バンド付き畳み込みは軽量です。カーネル サイズ 7 × 7 の標準 2D コンボリューションをエミュレートするには、7 × 1 コンボリューションと 1 × 7 コンボリューションのペアのみが必要です。一方、分割されたシーンには人物や電柱などの帯状のオブジェクトがいくつか存在します。したがって、バンド状畳み込みはグリッド コンボリューションの補足となり、バンド状の特徴を抽出するのに役立ちます。

一連のビルディング ブロックを積み重ねることで、MSCAN と呼ばれる提案された畳み込みエンコーダーが得られます。MSCAN の場合、著者らは、空間解像度を低下させる 4 つの段階からなる一般的な階層を採用しています。

 ここで、H と W はそれぞれ入力画像の高さと幅です。各ステージは、ダウンサンプリング ブロックと多数のビルディング ブロックで構成されます。ダウンサンプリング ブロックには、ストライド 2 およびカーネル サイズ 3x3 の畳み込みがあり、その後にバッチ ノルム層が続きます。MSCAN の各構成要素で、作成者はバッチ ノルムの方がセグメンテーションのパフォーマンスが向上することがわかったため、レイヤー ノルムの代わりにバッチ ノルムを使用していることに注意してください。

MSCA をスタックしてさまざまな MSCA バックボーン情報と SegNeXt アーキテクチャ情報を取得することにより、著者は、それぞれ MSCAN-T、MSCAN-S、MSCAN-B、MSCAN-L という名前の異なるサイズの 4 つのエンコーダ モデルを設計しました。対応する全体的なセグメンテーション モデルは、それぞれ SegNeXt-T、SegNeXt-S、SegNeXt-B、SegNeXt-L と呼ばれます。このうち、erはフィードフォワードネットワークの拡張率、「C」と「L」はそれぞれチャネル数とビルディングブロック数、Decoder Dimensionsはデコーダ内のMLPのサイズ、「Parameter」はその数を示します。 ADE20K のパラメータ。

 デコーダ

 セグメンテーション モデルでは、エンコーダーのほとんどは ImageNet データセットで事前トレーニングされます。高レベルのセマンティクスをキャプチャするには、通常、エンコーダに適用されるデコーダが必要です。この研究では、上の図に示すように、著者らは 3 つの単純なデコーダ構造を調査しました。1 つ目は、SegFormer で採用されている、純粋に MLP ベースの構造です。2 つ目は主に CNN ベースのモデルを採用します。この構造では、エンコーダの出力は、ASPP、PSP、DANet などの重いデコーダ ヘッドへの入力として直接使用されます。最後の構造は、本稿の SegNeXt で採用されている構造です。著者らは最後の 3 つのステージの機能を集約し、軽量のハンバーガーを使用してグローバル コンテキストをさらにモデル化します。著者らは、強力な畳み込みエンコーダと組み合わせると、軽量デコーダの方が計算効率が高くパフォーマンスが向上することを発見しました。

ステージ 1 からステージ 4 までの特徴を集約する SegFormer のデコーダーとは異なり、私たちのデコーダーは最後の 3 つのステージからの特徴のみを受け取ります。これは、この論文の SegNeXt が畳み込みに基づいているためです。ステージ 1 の機能には低レベルの情報が多すぎるため、パフォーマンスが低下します。さらに、ステージ 1 での操作は、大きな計算オーバーヘッドをもたらします。この論文の実験部分では、著者らは畳み込み SegNeXt が最近の最先端の Transformer ベースの SegFormer や HRFormer よりも優れたパフォーマンスを発揮することを実証します。

実験

1. タブ 3. ImageNet 検証セットの最先端の方法との比較。表4. リモートセンシングデータセットiSAIDに関する最先端の手法との比較。

 2. MSCA が設計したアブレーション研究。

 3. Cityscapes データセット上の SegNeXt-B と SegFormer-B2 の定性的比較。

 4. ADE20K、Cityscapes、COCO-Stuff ベンチマークにおける最先端の手法との比較。

 5. 表 10 Pascal VOC データセットに関する最先端の手法との比較。表 11 Cityscapes テスト データセットにおける最先端のリアルタイム手法との比較。

 6. Pascal Context ベンチマークの比較。

要約する

この論文では、著者らは以前に成功したセグメンテーション モデルを分析し、そのモデルが持つ優れた機能を発見しました。これらの発見に基づいて、著者らはカスタム畳み込みアテンション モジュール MSCA と CNN スタイルのネットワーク SegNeXt を提案します。実験結果は、SegNeXt が現在の最先端の Transformer ベースの方法よりもかなり優れていることを示しています。最近、Transformer ベースのモデルがさまざまなセグメンテーション リーダーボードを独占しています。代わりに、この論文では、適切な設計を使用した場合、CNN ベースの手法が Transformer ベースの手法よりも優れたパフォーマンスを発揮できることを示しています。

付録

バン

https://blog.csdn.net/amusi1994/article/details/123102970?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166771924316782388053715%2522%252C%2522scm%2522%25 3A%252220140713.130102334..%2522%257D&request_id =166771924316782388053715&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-1-123102970-null-null.142^v63^control,201^v3^control_2,213^v1^control&utm_term =VAN&spm =1018.2226.3001.4187

低ランクの表現

元の画像 = 低ランク行列 + ノイズ

画像のグローバル情報は画像の下位部分です

低ランクの表現

ハンバーガー

 次の図は、行列分解を使用して地球規模の空域情報をモデル化する Hamberger のアーキテクチャの概略図です。Hamburger 氏のオリジナル論文「Is tention Better Than Matrix Decomposition?」は、上位 3% のスコアで ICLR 2021 に受理されました。

 前: https://zhuanlan.zhihu.com/p/369769485

中記事:https://zhuanlan.zhihu.com/p/369855045

次へ: https://zhuanlan.zhihu.com/p/370410446

おすすめ

転載: blog.csdn.net/qq_43687860/article/details/129122842