SegNext: セマンティック セグメンテーションのための畳み込みアテンションの再考

&オリジナル情報

原題:「SegNeXt: セマンティック セグメンテーションのための畳み込みアテンション デザインの再考」

翻訳引用:Guo M H、Lu C Z、Hou Q、他Segnext: セマンティック セグメンテーションのための畳み込みアテンション デザインの再考[J]。神経情報処理システムの進歩、2022、35: 1140-1156。

翻訳链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/08050f40fff41616ccfc3080e60a301a-Paper-Conference.pdficon-default.png?t=N7T8https://proceedings.neurips.cc/paper_files/paper/2022/file/08050f40fff41616ccfc3080e60a301a-Paper-Conference.pdf

0. 概要

        我々は、セマンティック セグメンテーションのための単純な畳み込みネットワーク アーキテクチャである SegNeXt を提案します。トランスフォーマーベースのモデルは、空間情報をエンコードする際の自己注意の効率により、最近セマンティック セグメンテーションの分野で主流を占めています。この論文では、畳み込みアテンションが、transformer のセルフ アテンション メカニズムよりもコンテキスト情報をエンコードする効率的かつ効果的な方法であることを示します。成功したセグメンテーション モデルが持つ特性を再検討することで、セグメンテーション モデルのパフォーマンスの向上につながるいくつかの重要なコンポーネントを発見しました。これは、安価な畳み込み演算を使用する新しい畳み込みアテンション ネットワークを設計する動機になります。当社の SegNeXt は、余分な機能を省き、ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context、iSAID などの一般的なベンチマークにおける以前の最先端の手法のパフォーマンスを大幅に向上させます。特に、SegNext は NAS-FPN を使用した EfficientNet-L2 を上回り、パラメーターの 1/10 のみを使用しながら、Pascal VOC 2012 テスト リーダーボードで 90.6% の mIoU を達成しました。平均すると、SegNext は、ADE20K データセットの最先端の手法と比較して、同等以下の計算量で mIoU を約 2.0% 改善します。

1 はじめに

        コンピュータ ビジョンの最も基本的な研究トピックの 1 つであるセマンティック セグメンテーションは、各ピクセルにセマンティック カテゴリを割り当てることを目的としています。過去10年間で広く注目を集めました。 FCN や DeepLab シリーズなどの初期の CNN ベースのモデルから、SETR や SegFormer などの最近のトランスフォーマー ベースの手法に至るまで、セマンティック セグメンテーション モデルはネットワーク アーキテクチャに大きな革命をもたらしました。

        以前に成功したセマンティック セグメンテーションの作業を再検討することで、表 1 に示すように、いくつかの異なるモデルの主な特徴をまとめました。上記の観察に基づいて、成功するセマンティック セグメンテーション モデルには次の特性が必要であると考えられます。

        (i) エンコーダとしての強力なバックボーン ネットワーク。以前の CNN ベースのモデルと比較して、トランスベースのモデルのパフォーマンス向上は主に、より強力なバックボーン ネットワークによるものです。

        (ii) マルチスケールの情報インタラクション。主に単一のオブジェクトを識別する画像分類タスクとは異なり、セマンティック セグメンテーションは高密度の予測タスクであるため、単一の画像内でさまざまなサイズのオブジェクトを処理する必要があります。

        (iii) 空間的注意。空間的注意により、モデルはセマンティック領域内の領域に優先順位を付けることでセグメンテーションを実行できます。

        (iv) 計算の複雑さが低い。これは、リモート センシングや都市シーンからの高解像度画像を処理する場合に特に重要です。

        上記の分析を考慮して、この論文では、畳み込みアテンションの設計を再考し、セマンティック セグメンテーションのための効率的かつ効果的なアーキテクチャを提案します。デコーダーの特徴オプティマイザーとして畳み込みを使用する以前のトランスフォーマー ベースのモデルとは異なり、私たちのアプローチはトランスフォーマー、畳み込みエンコーダー、 デコーダーのアーキテクチャを逆転させます a i=2>。具体的には、エンコーダの各ブロックについて、従来の畳み込みブロックの設計を改善し マルチスケールを利用します。単純な要素ごとの乗算を通じて空間的注意を喚起する畳み込み機能。これは[25]に続くアプローチです。私たちは、空間的注意を構築するこの単純な方法が、空間情報をエンコードする際の標準的な畳み込みと自己注意よりも効率的であることを発見しました。 デコーダーの場合、さまざまなステージからマルチレベルの特徴を収集します。グローバルコンテキストは、Hamburger [22] を使用してさらに抽出されます。この設定では私たちのメソッドは、ローカルからグローバルまでマルチスケールのコンテキストを取得し、空間次元とチャネル次元での適応性を実現し、低レベルから高レベルまで情報を集約できます。

        私たちのネットワークは SegNeXt と呼ばれています。デコーダ部分を除いて、主に畳み込み演算で構成されています。デコーダ 部分には、[22] (Ham) は、グローバル情報の抽出に使用されます。これにより、SegNeXt は、トランスフォーマーに大きく依存していた以前のセグメンテーション方法よりも効率的になります。図 1 に示すように、SegNeXt は、最近のトランスフォーマーベースの手法よりもパフォーマンスが大幅に優れています。特に、Cityscapes データセットからの高解像度都市シーンを処理する場合、SegNeXt-S は計算コストの約 1/6 (124.6G 対 717.1G) と 1/2 (1390 万対 2760 万) のパラメータのみを使用します。 、パフォーマンスは SegFormer-B2 よりも優れています (81.3% 対 81.0%)。 分解に基づくハンバーガー モジュール

私たちの貢献は次のように要約できます。

  • 私たちは、優れたセマンティック セグメンテーション モデルが持つべき特性を特定し、SegNeXt と呼ばれる新しいカスタム ネットワーク アーキテクチャを提案します。マルチスケールの畳み込み機能によって呼び出される、空間的注意< i=2>。
  • シンプルで安価な畳み込みを備えたエンコーダーは、必要な計算コストを抑えながら、ビジュアル トランスフォーマーよりもオブジェクトの詳細をうまく処理できることを示します。
  • 私たちの手法は、ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context、iSAID などのさまざまなセグメンテーション ベンチマークにおける最先端のセマンティック セグメンテーション手法のパフォーマンスを大幅に向上させます。

表 1: 成功したセマンティック セグメンテーション手法から観察された、モデルのパフォーマンスの向上に有益なプロパティ。ここで、n はピクセルまたはトークンの数を表します。強力なエンコーダは、ViT [16] や VAN [25] などの強力なバックボーン ネットワークを表します。

図 1: Cityscapes (左) および ADE20K (右) 検証セットのパフォーマンス計算曲線。 FLOP は、都市景観の場合は 2,048×1,024、ADE20K の場合は 512×512 の入力サイズを使用して計算されました。円の大きさはパラメータの数を示します。円が大きいほど、より多くのパラメーターを表します。 SegNeXt がセグメンテーションのパフォーマンスと計算の複雑さの間で最適なトレードオフを達成していることがわかります。

2.関連作品

2.1. セマンティックセグメンテーション

        セマンティック セグメンテーションは、コンピュータ ビジョンの基本的なタスクです。 FCN [60] が提案されて以来、畳み込みニューラル ネットワーク (CNN) [1、71、98、106、20、99、79、21、51] は大きな成功を収め、セマンティック セグメンテーションの一般的なアーキテクチャになりました。最近、トランスフォーマーベースの手法 [108、90、100、73、70、50、10、9] が大きな可能性を示し、CNN ベースの手法を上回りました。

        ディープ ラーニングの時代では、セグメンテーション モデルのアーキテクチャはエンコーダとデコーダの 2 つの部分に大別できます。 エンコーダの場合、研究者は通常、カスタマイズされたアーキテクチャではなく、一般的な分類ネットワーク (ResNet [28]、ResNeXt [91]、DenseNet [33] など) を採用します。 ただし、セマンティック セグメンテーションは、画像分類とは異なり、高密度の予測タスクです。分類タスクの改善は、難しいセグメンテーション タスクでは明らかではない可能性があります [29]。したがって、Res2Net [21]、HRNet [79]、SETR [108]、SegFormer [90]、HRFormer [100]、MPViT [44]、DPT [70] など、いくつかのカスタマイズされたエンコーダが登場しました。 デコーダについては、通常、エンコーダと連携してより良い結果を達成します。さまざまな目的に応じて、マルチスケール受容野[106, 6, 88]、 [71, 90, 7]、受容野を拡大する [4, 4, 69]、エッジ機能の強化 [107, 2, 15, 48, 102]、グローバル コンテキストのキャプチャ a> [20、35、101、46、24、27、103]。

        この論文では、セマンティック セグメンテーションの成功したモデルの特徴を要約し、SegNeXt という名前の CNN ベースのモデルを提案します。私たちの論文に最も関連する研究は [69] で、k × k 畳み込みを k × 1 と 1 × k 畳み込みに分解します。 この研究は、セマンティック セグメンテーションにおける大規模なコンボリューション カーネルの重要性を示していますが、マルチスケールの受容野の重要性を無視しており、大規模なコンボリューション カーネルによる抽出を活用する方法については考慮していません。スケールの特徴は注意の形でセグメント化されます。

2.2. マルチスケールネットワーク

        マルチスケール ネットワークの設計は、コンピューター ビジョンの一般的な方向性です。 セグメンテーション モデルの場合、マルチスケール ブロックはエンコーダー [79、21、75] パートとデコーダー [106、98、5] パートに表示されます。 GoogleNet [75] は、私たちのアプローチに最も関連性の高いマルチスケール アーキテクチャの 1 つであり、マルチブランチ構造。私たちのアプローチに関連するもう 1 つの研究は HRNet [79] です。より深いレベルでは、HRNet は高解像度の特徴を維持し、それらを低解像度の特徴と集約して、マルチスケールの特徴抽出を実現します。

        以前の方法とは異なり、SegNeXt はエンコーダでマルチスケール特徴をキャプチャすることに加えて、効率的なアテンション メカニズムも導入し、より安価で大規模なコンボリューション カーネルを使用します。これにより、私たちのモデルは前述のセグメンテーション方法よりも高いパフォーマンスを達成することができます。

2.3. アテンションメカニズム

        アテンション メカニズム適応選択プロセスです。ネットワークが重要な部分に集中するようにしてください。一般に、セマンティック セグメンテーションでは、 チャネル アテンション 空間の 2 つのカテゴリに分類できます [26]。注意。異なる種類の注意は異なる役割を果たします。たとえば、空間的注意は主に重要な空間領域に焦点を当てます [16, 13, 64, 58, 23]。 チャネル アテンションを使用する目的は、ネットワークがこれらの重要なオブジェクトに選択的に焦点を当てるようにすることです。その重要性は以前の研究で証明されています [31、8、 80]。最近人気のビジュアル トランスフォーマー [16、58、94、81、82、57、90、34、56、100、93] について話すと、通常、チャネル次元の性別での適応は無視されます。

        ビジュアル アテンション ネットワーク (VAN) [25] は、Segnext と最も関連性の高い研究です。また、 大畳み込み核アテンション (LKA) メカニズムを使用してチャネルとスペース アテンションを構築することも提案しています。 。 VAN は画像分類において優れたパフォーマンスを達成していますが、ネットワーク設計プロセスにおけるマルチスケール特徴集約の役割を無視しています。これはセグメンテーション タスクにとって非常に重要です。

図 2: 提案された MSCA と MSCAN の概略図。ここで、d,k1×k2は、k1×k2のカーネルサイズを用いた深さ畳み込み(d)を意味する。畳み込みを使用してマルチスケール特徴を抽出し、それらを MSCA 入力のアテンション ウェイトとして再重み付けします。

3.方法

        このセクションでは、提案されている SegNeXt のアーキテクチャについて詳しく説明します。基本的には、これまでのほとんどの作品で採用されているシンプルで分かりやすいエンコーダ・デコーダアーキテクチャを採用しています。

3.1. 畳み込みエンコーダ

        エンコーダとしてピラミッド構造を採用していますが、これはほとんどの以前の研究 [90、4、20] に基づいています。私たちのエンコーダのビルディング ブロックについては、ViT [16, 90] に似た構造を採用していますが、違いは、セルフ アテンション メカニズムを使用する代わりに、新しいマルチスケール畳み込みアテンション (MSCA) モジュールを設計していることです。図 2(a) に示すように、MSCA は 3 つの部分で構成されます。ローカル情報を集約する深度コンボリューション、マルチスケール コンテキストをキャプチャするマルチブランチ深度ストリップ コンボリューション、および異なるチャネル間の関係をモデル化する 1 × 1 コンボリューションです。 1×1 畳み込みの出力は、MSCA の入力を再重み付けるためのアテンション ウェイトとして直接使用されます。数学的には、MSCA は次のように記述できます。

         ⊗ は要素ごとの行列乗算演算を表します。 DW-Conv は深さ畳み込み、Scalei、i∈{0,1,2,3} を表し、図 2(b) の i 番目のブランチを示します。 Scale0 は ID 接続です。 [69] のアプローチに従い、各ブランチで 2 つの深さストリップ畳み込みを使用して、大きなカーネルによる標準深さ畳み込みを近似します。ここでは、各ブランチのコア サイズはそれぞれ 7、11、21 に設定されています。ディープ ストリップ コンボリューションを選択する理由は 2 つあります。一方で、ストライプ畳み込みは軽量です。 7×7 カーネル サイズの標準 2D コンボリューションをシミュレートするには、7×1 コンボリューションと 1×7 コンボリューションのペアのみが必要です。一方、分割されたシーンには人体や電柱などの帯状の物体がいくつか存在します。したがって、ストリップ コンボリューションはグリッド コンボリューションによって補完でき、 ストライプ特徴の抽出に役立ちます[69, 30]。

        一連のビルディング ブロックを積み重ねることにより、MSCAN と呼ばれる提案された畳み込みエンコーダーが作成されます。 MSCANでは、H/4×W/4、H/8×W/8、H/16×W/16、H/32×W/32と徐々に空間解像度が低下する4段階の共通階層構造を採用しています。ここで、H と W はそれぞれ入力画像の高さと幅です。各ステージは、上で説明したように、ダウンサンプリング ブロックと一連のビルディング ブロックで構成されます。ダウンサンプリング ブロックには、ストライド 2 およびカーネル サイズ 3x3 の畳み込みがあり、その後にバッチ正規化層が続きます [36]。バッチ正規化によりセグメンテーションのパフォーマンスがさらに向上することがわかったので、MSCAN の各構成要素でレイヤー正規化の代わりにバッチ正規化を使用していることは注目に値します。

        私たちは、MSCAN-T、MSCAN-S、MSCAN-B、MSCAN-Lという名前の異なるサイズの4つのエンコーダモデルを設計しました。対応する全体的なセグメンテーション モデルは、それぞれ SegNeXt-T、SegNeXt-S、SegNeXt-B、および SegNeXt-L と呼ばれます。詳細なネットワーク設定を表 2 に示します。

表 2: 提案された SegNeXt のさまざまなサイズの詳細設定。この表で、「e.r.」 は、フィードフォワード ネットワークの例における拡大率を示します。 「C」と「L」はそれぞれチャネルと構成要素の数です。 「デコーダ次元」は、デコーダの MLP 次元を表します。 「パラメータ」は ADE20K データセットに基づいて計算されます [111]。パラメータの数は、異なるデータセットのカテゴリ数の違いにより若干異なる場合があります。

3.2.デコーダ

        セグメンテーション モデル [90、108、4] では、エンコーダーのほとんどが ImageNet データセットで事前トレーニングされています。高レベルのセマンティクスをキャプチャするには、通常、エンコーダの上に適用されるデコーダが必要です。この研究では、図 3 に示す 3 つの単純なデコーダ構造を研究します。最初の構造は、SegFormer [90] で採用されている純粋な MLP 構造です。 2 番目のタイプは、主に CNN を使用するモデルです。この構造では、エンコーダの出力は、ASPP [4]、PSP [106]、および DANet [20] などの重いデコーダ ヘッドに入力として直接渡されます。最後の構造は、SegNeXt で使用される構造です。最後の 3 つのステージからの特徴を集約し、軽量の Hamburger [22] を使用してグローバル コンテキストをさらにモデル化します。強力な畳み込みエンコーダーと組み合わせると、軽量デコーダーを使用するとパフォーマンス、つまり計算効率が向上することがわかりました。

        ステージ 1 からステージ 4 までの特徴を集約する SegFormer のデコーダーとは異なり、 このデコーダーは最後の 3 つのステージからの特徴のみを受信することに注意してください。これは、SegNeXt が畳み込みに基づいているためです。ステージ 1 の機能には低レベルの情報が多すぎるため、パフォーマンスに悪影響を及ぼします。さらに、フェーズ 1 の操作では、大量の計算オーバーヘッドが発生します。 実験セクションでは、畳み込み SegNeXt が最近の Transformer ベースの SegFormer [90] や HRFormer [100] よりもはるかに優れたパフォーマンスを発揮することを示します。

図 3: 3 つの異なるデコーダ設計。

4. 実験

データセット。 ImageNet-1K [14]、ADE20K [111]、Cityscapes [12]、Pascal VOC [17]、Pascal Context [65]、COCO-Stuff [3]、iSAID [84] を含む 7 つの一般的なデータセットでメソッドを評価します。 。 ImageNet [14] は最も有名な画像分類データセットであり、1,000 のカテゴリが含まれています。ほとんどのセグメンテーション方法と同様に、これを MSCAN エンコーダの事前トレーニングに使用します。 ADE20K [111] は、150 のセマンティック カテゴリを含む挑戦的なデータセットです。これには、トレーニング、検証、テスト セット用にそれぞれ 20,210/2,000/3,352 個の画像が含まれています。 Cityscapes [12] は主に都市のシーンに焦点を当てており、19 のカテゴリーをカバーする 5,000 枚の高解像度画像が含まれています。トレーニング、検証、テストにそれぞれ 2,975/500/1,525 個の画像が使用されます。 Pascal VOC [17] には、20 の前景カテゴリと 1 つの背景カテゴリが含まれます。強化後は、トレーニング、検証、テスト用に 10,582/1,449/1,456 個の画像が含まれています。 Pascal Context [65] には、59 の前景カテゴリと 1 つの背景カテゴリが含まれています。トレーニング セットと検証セットには、それぞれ 4,996 枚と 5,104 枚の画像が含まれています。 COCO-Stuff [3] も、172 のセマンティック カテゴリと合計 164,000 の画像を含む、挑戦的なベンチマーク データセットです。 iSAID [84] は、15 の前景カテゴリと 1 つの背景カテゴリを含む大規模な航空画像セグメンテーション ベンチマーク データセットです。そのトレーニング、検証、テスト セットには、それぞれ 1,411/458/937 個の画像が含まれます。

実装の詳細。実験には Jittor [32] と Pytorch [68] を使用します。私たちの実装は、分類とセグメンテーションのための timm (Apache-2.0) [85] および mmsegmentation (Apache-2.0) [11] ライブラリに基づいています。私たちのセグメンテーション モデルのすべてのエンコーダーは、ImageNet-1K データセット [14] で事前トレーニングされています。分類とセグメンテーションの評価指標として、それぞれ Top-1 精度と和集合に対する平均交差 (mIoU) を使用します。すべてのモデルは、8 つの RTX 3090 GPU を含むノードでトレーニングされます。

        ImageNet の事前トレーニングでは、データ拡張方法とトレーニング設定は DeiT [78] と同じです。セグメンテーションの実験では、ランダムな水平反転ランダムなスケーリングなど、いくつかの一般的なデータ拡張手法を採用しました。 a>[61] を使用します。初期学習率は 0.00006 に設定され、多項式学習率減衰戦略が採用されます。 ADE20K、Cityscapes、iSAID データセットでは 160,000 回の反復、COCO-Stuff、Pascal VOC、Pascal Context データセットでは 80,000 回の反復でトレーニングしました。テスト中は、公平な比較のためにシングルスケール (SS) とマルチスケール (MS) の反転テスト戦略を使用します。詳細については、補足資料をご覧ください。 AdamW 他のすべてのデータセットの場合は 16 に設定されます。モデルのトレーニングには バッチ サイズは、Cityscapes データセットの場合は 8 に設定され、 ランダムに切り取られます (0.5 ~ 2) および

4.1. ImageNet でのエンコーダーのパフォーマンス

        ImageNet 事前トレーニングは、セグメンテーション モデルをトレーニングするための一般的な戦略です [106、5、90、100、4]。ここでは、MSCAN のパフォーマンスを、最近人気のあるいくつかの CNN および Transformer ベースの分類モデルと比較します。表 3 に示すように、私たちの MSCAN は、最近の CNN ベースのメソッド ConvNeXt [59] のパフォーマンスを上回っており、Swin Transformer [58] や SegFormer のエンコーダ MiT などの一般的な Transformer ベースのメソッドを上回っています。

表 5: デコーダのさまざまなアテンション メカニズムのパフォーマンス。 SegNeXt-B w/Ham は、MSCAN-B エンコーダと Ham デコーダを意味します。 FLOP は 512×512 の入力サイズを使用して計算されます。

4.2.アブレーション研究

MSCA 設計についての消去調査を実施します。 ImageNet および ADE20K データセットの MSCA 設計に関するカリング調査を実施します。 K × K ブランチには、深さ方向に分離可能な 1 × K 畳み込みと深さ方向に分離可能な K × 1 畳み込みが含まれます。 1 × 1 畳み込みは、チャネル ブレンディング操作を表します。 アテンションは要素レベルのプロダクトを表し、ネットワークが適応能力を獲得できるようにします。結果を表6に示す。各パートが最終的なパフォーマンスに貢献していることがわかります。

デコーダのグローバル コンテキスト。デコーダは、マルチスケール フィーチャのグローバル コンテキストを統合するためにセグメンテーション モデルにおいて重要な役割を果たします。ここでは、さまざまなグローバル コンテキスト モジュールがデコーダに及ぼす影響を調査します。これまでのほとんどの研究で示されているように [83、20]、アテンションベースのデコーダはピラミッド構造 [106、4] よりも CNN で優れたパフォーマンスを達成するため、アテンションベースのデコーダを使用した結果のみを示します。具体的には、複雑度が O(n^2) の非ローカル (NL) アテンション [83]、CCNet [35]、EMANet [46]、HamNet [22] を含む 4 つの異なるタイプのアテンションベースのデコーダの結果を示します。 。表 5 に示すように、Ham は複雑さとパフォーマンスの最適なバランスを実現しています。したがって、デコーダでは Hamburger [22] を使用します。

デコーダの構造。画像分類とは異なり、セグメンテーション モデルには高解像度の出力が必要です。セグメンテーション タスク用に 3 つの異なるデコーダ設計の選別研究を実施しました。そのすべてを図 3 に示します。対応する結果を表 7 に示します。 SegNeXt (c) が最高のパフォーマンスを達成し、計算コストが低いことがわかります。

セグメンテーション タスクにおける MSCA の重要性を実験的に証明しています。比較のために、VAN [25] のアプローチに従い、MSCA の複数のブランチを大規模な畳み込みカーネルによる単一の畳み込みに置き換えます。表 8 と表 3 に示すように、ImageNet 分類タスクにおける両方のエンコーダーのパフォーマンスは近いですが、MSCA を使用した SegNeXt は MSCA を使用しない設定よりも優れた結果を生成することがわかります。これは、エンコーダーでマルチスケールの特徴を集約することがセマンティック セグメンテーションにとって重要であることを示しています。

表 6: MSCA 設計の削除検討。 Top-1 は ImageNet データセットの Top-1 精度を表し、mIoU は ADE20K ベンチマークの mIoU を表します。結果は MSCAN-T モデルに基づいています。

表 7: さまざまなデコーダ構造のパフォーマンス。 SegNeXt-T (a) は、図 3(a) の構造がデコーダで使用されることを示します。 FLOP は 512×512 の入力サイズを使用して計算されます。 SegNeXt-T (c) ステージ 1 付きは、ステージ 1 の出力もデコーダに供給されることを意味します。

表 8: マルチスケール畳み込みアテンション (MSCA) の重要性。 MSCA なしの SegNeXt-T は、MSCA で複数のブランチを使用する代わりに、大規模な畳み込みカーネルを持つ 1 つのブランチのみを使用することを意味します。これは、[25] と同じアプローチです。 FLOP は 512×512 の入力サイズを使用して計算されます。

図 4: Cityscapes データセットにおける SegNeXt-B と SegFormer-B2 の定性的比較。さらに視覚的な結果については、追加資料をご覧ください。

4.3. 現在の先進的な手法との比較

        このサブセクションでは、私たちの方法を、HRNet [79]、ResNeSt [104]、EfficientNet [77] などの最先端の CNN ベースの方法、および Swin Transformer [58] などのトランスフォーマーベースの方法と比較します。 ]、SegFormer [90]、HRFormer [100]、MaskFormer [10]、および Mask2Former [9]。

パフォーマンスとコンピューティングのトレードオフ。 ADE20K と Cityscapes は、セマンティック セグメンテーションで広く使用されている 2 つのベンチマーク データセットです。図 1 に示すように、Cityscapes および ADE20K 検証セットに対するさまざまな手法のパフォーマンス計算曲線をプロットしました。明らかに、私たちの方法は、SegFormer [90]、HRFormer [100]、MaskFormer [10] などの他の最先端の方法と比較して、パフォーマンスと計算の間で最良のトレードオフを達成しています。

最先端の変圧器モデルとの比較。 SegNeXt を、ADE20K、Cityscapes、COCO-Stuff、Pascal Context などの最先端のトランスフォーマー モデルと比較します。表 9 に示すように、SegNeXt-L は、ADE20K データセット上の Swin-T バックボーン ネットワークの Mask2Former と比較して、同様のパラメーターと計算コストで mIoU を 3.3 パーセント ポイント (51.0 対 47.7) 改善します。さらに、ADE20K データセットの SegFormer-B2 と比較して、SegNeXt-B は計算量の 56% のみを使用し、mIoU を 2.0 パーセントポイント (48.5 対 46.5) 改善します。特に、SegFormer [90] の自己注意は入力サイズと 2 次の複雑さの関係があるため、私たちのメソッドは畳み込み演算を使用しますが、これにより、Cityscapes データセット内の高解像度画像を処理するときにメソッドのパフォーマンスが向上します。たとえば、SegNext-B は、SegFormer-B2 よりも mIoU を 1.6 パーセント ポイント向上させます (81.0 対 82.6) が、使用する計算量は少なくなります (40% 少なくなります)。図 4 には、SegFormer との定性的な比較も示しています。私たちが提案した MSCA のおかげで、私たちの方法はオブジェクトの詳細を適切に識別できることがわかります。

最先端の CNN との比較。 表 4、表 10、表 12 に示すように、SegNeXt を ResNeSt-269 [104]、EfficientNet-L2 [112]、HRNet などの最先端の CNN と比較します。 -W48 [79] Pascal VOC 2012、Pascal Context、および iSAID データセットに基づいて比較が行われます。 SegNeXt-L は、セグメンテーション タスク用に特別に設計された、パラメータと計算が少なく、一般的な HRNet (OCR) [79、99] モデル (60.3 対 56.3) よりも優れたパフォーマンスを発揮します。さらに、SegNeXt-L は、Pascal VOC 2012 テスト リーダーボードで追加の 3 億個の使用できない画像で事前トレーニングされた EfficientNet-L2 (NAS-FPN) よりも優れたパフォーマンスを示します。 EfficientNet-L2 (NAS-FPN) には 4 億 8,500 万個のパラメータがあるのに対し、SegNeXt-L には 487,000 個のパラメータしかないことに注意してください。

リアルタイム方式との比較。 最先端のパフォーマンスに加えて、私たちのアプローチはリアルタイムの導入にも適しています。特別なソフトウェアまたはハードウェア アクセラレーションを使用しない場合でも、SegNeXt-T は、768 × 1,536 のサイズの画像を処理する場合、単一の 3090 RTX GPU で 25 フレーム/秒 (FPS) を達成しました。表 11 に示すように、私たちの方法は、Cityscapes テスト セットでのリアルタイム セグメンテーションの新しい最先端の結果を設定します。

表 9: ADE20K、Cityscapes、および COCO-Stuff ベンチマーク データセットにおける最先端の手法との比較。 FLOP 数 (G) は、ADE20K と COCO-Stuff の場合は 512×512、Cityscapes の場合は 2,048×1,024 の入力サイズで計算されます。 †ImageNet-22K で事前トレーニングされたモデルを示します。

表 10: Pascal VOC データセットにおける最先端の手法との比較。 ∗ は COCO [55] を使用した事前トレーニングを示します。 †JFT-300M [74] を使用した事前トレーニングを示します。 $ は、追加の 3 億枚のラベルなし画像を使用した事前トレーニングを意味します。

表 11: Cityscapes テスト データセットにおける最先端のリアルタイム手法との比較。単一の RTX-3090 GPU と AMD EPYC 7543 32 コア プロセッサ CPU を使用してアプローチをテストします。 SegNeXt-T は、最適化を一切使用せずに 25 フレーム/秒 (FPS) を達成でき、リアルタイム アプリケーションの要件を満たします。

4.4. 弱く監視されたセマンティックセグメンテーション

        このサブセクションでは、提案されたネットワークを弱く監視されたセマンティック セグメンテーション タスクに適用します。このタスクでは、疑似セグメンテーション マップは通常、CAM [110] を使用して分類モデルから生成されます。以前の作品では主に VGGNet [72] または ResNets [28、87] を CAM ジェネレーターとして利用していました。ここでは、MSCAN によって生成された CAM のパフォーマンスをテストします。私たちはEPS [43] アーキテクチャを使用し、トレーニング戦略とレシピに従います。数値結果を表 13 に示します。 ResNet38 バックボーンを MSCAN に置き換えるだけで、EPS ベースラインと比較してパフォーマンスが大幅に向上することがわかります。 SegNeXt をセグメンテーション ネットワークとして使用すると、パフォーマンスの向上がさらに高まります。

表 12: Pascal Context ベンチマークの比較。 FLOP 数は 512×512 の入力サイズに基づいて計算されます。 ∗ は、ImageNet-22K 事前トレーニングが使用されることを示します。 †ADE20Kを使用した事前トレーニングを示します。

表 13: PASCAL VOC 2012 検証セットにおける、以前の最先端の弱教師セマンティック セグメンテーション手法との比較。私たちが使用する MSCAN-B を除き、すべてのセグメンテーション結果は ResNet バックボーン [28、87] に基づいています。

5. まとめと考察

        このペーパーでは、以前に成功したセグメンテーション モデルを分析し、それらが持つ優れた特性を見つけます。これらの発見に基づいて、カスタマイズされた畳み込みアテンション モジュール MSCA と CNN スタイルのネットワーク SegNeXt を提案します。実験結果は、SegNeXt が現在の最先端のトランスベースの方法を大幅に上回っていることを示しています。最近、トランスベースのモデルがさまざまなセグメンテーションのランキングを独占しています。ただし、この論文では、適切な設計を使用すると、CNN ベースの手法がトランスフォーマ ベースの手法よりも優れたパフォーマンスを発揮できることを示しています。この論文が研究者に CNN の可能性をさらに探究してもらうことを願っています。私たちのモデルには、このアプローチを 1 億以上のパラメーターや他のビジョンまたは NLP タスクのパフォーマンスを持つ大規模モデルに拡張することなど、限界もあります。これらの問題は今後の作業で解決される予定です。

おすすめ

転載: blog.csdn.net/ADICDFHL/article/details/132037110