SegNext: セマンティック セグメンテーションにおける畳み込みアテンション デザインの再考

論文リンク: https://arxiv.org/abs/2209.08575

github:  https://github.com/Visual-tention-Network/SegNeXt

参考動画:【中国語に翻訳して読んでみる】SegNextの論文を一行一行集中的に読むと、その謎が30分でサクッと理解できる!-人工知能/ディープラーニング/コンピュータービジョン_哔哩哔哩_bilibili

まとめ

この論文では、セマンティック セグメンテーション タスク用の単純な畳み込みニューラル ネットワーク構造を提案しています。最近、トランスフォーマーベースのモデルは、空間情報をエンコードする際のセルフアテンション メカニズムの効率性により、セマンティック セグメンテーションの分野で主流を占めています。この論文では、畳み込み注意の方が、変換における自己注意よりもコンテキスト情報のエンコードに効果的であることを発見し、セグメンテーション モデルの成功者の特徴を再調査することで、セグメンテーション モデルのパフォーマンス向上につながるいくつかの重要な要素を発見しました。コンポーネント。これは、安価な畳み込み演算を使用した新しい畳み込みアテンション ネットワークを設計する動機となります(付加機能なし) ディープ ニューラル ネットワークを使用しないトリックにより、誰でも微調整することなくトレーニング セットを拡張でき、学習率とパラメーターにより優れた結果を達成できます。当社の SegNeXt ネットワークは、ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context、iSAID などのいくつかの一般的なデータセットで SOTA パフォーマンスを達成しています。SegNeXt ネットワークは、NAS-FPN を使用した EfficientNet-L2 と比較して、PascalVOC データセット上で miou を 90.6% 向上させ、パラメーターの 10% のみを使用します。平均すると、SegNeXt は同等か約 2.0% の mIoU 向上が達成されます。計算負荷の高い ADE20K データセット。

これまでに成功したセマンティック セグメンテーションの作業を振り返ると、さまざまなモデルのいくつかの重要な特性が明らかになりました。

(1)エンコーダとしての強力なバックボーンネットワーク

(2)マルチスケール情報インタラクション: 主に個々のオブジェクトを認識する画像分類タスクとは異なり、セマンティック セグメンテーションは集中的な予測タスクであるため、単一の画像内で異なるサイズのオブジェクトを処理する必要があります。

(3)空間的注意: 空間的注意により、モデルは意味領域内の領域に優先順位を付けることでセグメンテーションを実行できます。

(4)計算量が少ない

主な貢献

1. 優れたセマンティック セグメンテーション モデルが持つべき機能を決定し、マルチスケール コンボリューション機能を通じて空間的注意を喚起する SegNext と呼ばれる新しいカスタム ネットワーク アーキテクチャを提案します。

2. シンプルで安価な畳み込みを使用するエンコーダーは、特にオブジェクトの詳細を処理する場合、計算コストがはるかに少なくて済むため、vit よりも優れたパフォーマンスを発揮できます。

3. 一部のデータセットのパフォーマンスが大幅に向上しました

関連事業

セマンティックセグメンテーション

基本的なコンピューター ビジョン タスク。

この論文では、成功したセマンティック セグメンテーション モデルの特徴を要約し、CNN ベースのモデル SegNeXt を提案します。私たちの論文に最も関係のある研究は [62] で、kXk 畳み込みを k 1 および 1k 畳み込みのペアに分解します。この研究は、大規模な畳み込みカーネルを使用したセマンティック セグメンテーションの問題を示していますが、マルチスケールの受容野の重要性を無視しており、大規模なカーネルでこれらのマルチスケールの特徴抽出をセグメンテーションに利用する方法については考慮していません。

マルチスケールネットワーク

マルチスケール ネットワークの設計は、コンピューター ビジョンの一般的な方向性です。セグメンテーション モデルの場合、マルチスケール ブロックはエンコーダー部分とデコーダー部分の両方に表示されます。以前の手法とは異なり、SegNext では、エンコーダでマルチスケール特徴をキャプチャするだけでなく、効果的なアテンション メカニズムを導入し、より単純で大規模なカーネル畳み込みを採用することで、モデルが上記のセグメンテーション手法よりも優れたパフォーマンスを実現できるようになります。

注意メカニズム

アテンション メカニズムは適応的な選択プロセスであり、その目的はネットワークを重要な部分に集中させることです。一般に、セマンティック セグメンテーションでは、チャネル アテンションと空間アテンションを含む 2 つのカテゴリに分類できます。

異なる種類の注意は異なる役割を果たします。たとえば、主に重要な空間領域に焦点を当てる空間的注意とは異なり、チャネル アテンションの使用は、以前の研究で重要であることが示されている重要なオブジェクトにネットワークが選択的に注意を向けるようにすることを目的としています。最近人気のあるビジョン トランスフォーマーに関しては、通常、チャネル次元での適応は無視されます。
ビジュアル アテンション ネットワーク (VAN) は、SegNeXt に最も関連した研究であり、ラージ カーネル アテンション (LKA) メカニズムを利用してチャネルと空間的注意を構築することも提案しています。VAN は画像分類において優れたパフォーマンスを達成しますが、マルチスケール機能の集約は、セグメンテーションなどのタスクにとって重要ですが、ネットワーク設計プロセスでは無視されます。

方法

前作からのエンコーダー・デコーダー構造を採用

畳み込みエンコーダ

前回の研究をほぼ踏襲し、エンコーダにはピラミッド構造を採用し、エンコーダの構成ブロックについては VIT と同様の構造を採用していますが、セルフ アテンション メカニズムを使用する代わりに、新しいマルチスケール畳み込みアテンションを設計します。 (MSCA) モジュール

図に示すように、MSCA は 3 つの部分で構成されます。ローカル情報を集約するための深さ畳み込み、マルチスケール コンテキストをキャプチャするためのマルチブランチ深さ方向のストリップ畳み込み、および異なるチャネル間の関係を調整する1X1 畳み込み(SeNet を参照)。1×1 畳み込みの出力は、MSCA の入力を再重み付けるためのアテンション ウェイトとして直接使用されます。

数学的には、MSCA は次のように記述できます。

マルチブランチの深さ方向のストリップ畳み込み

一方で、バンド付き畳み込みは軽量です。カーネル サイズ 7X7 の標準 2D コンボリューションを模倣するには、7X1 コンボリューションと 1X7 コンボリューションのペアだけが必要ですが、セグメント化されたシーンには人や電柱などのいくつかのストリップ オブジェクトが存在します。ストリップ コンボリューション この製品はグリッド コンボリューションを補足するものであり、バンドの特徴を抽出するのに役立ちます。

MSCAN

一連のビルディング ブロックを積み重ねることで、MSCAN という名前の提案された畳み込みエンコーダーが得られます。MSCAN の場合、空間解像度を下げる 4 段階とそれに続く4 段階で構成される共通の階層を採用しますここで、H と W はそれぞれ入力画像の高さと幅です。各ステージにはダウンサンプリング モジュールと構築スタックが含まれています。ダウンサンプリング ブロックには、ストライド 2 およびカーネル サイズ 3X3 の畳み込みがあり、その後にバッチ正規化層が続きます。MSCAN の各ビルディング ブロックでは、バッチ正規化の方が大きいことがわかったため、層正規化層正規化の代わりにバッチ正規化を使用することに注意くださいセグメンテーションのパフォーマンスが向上します。

*注意: バッチ正規化はストライプ畳み込みに適しています

  1. バッチ正規化: バッチ正規化は、コンピューター ビジョンで広く使用されています。これは、畳み込みニューラル ネットワーク (CNN)、特により深いネットワーク層で一般的に使用されます。バッチ正規化では、サンプルの小さなバッチごとの特徴を正規化することで、ネットワークの安定性と汎化能力を向上させ、収束を高速化できます。画像分類、物体検出、画像セグメンテーションなどのコンピューター ビジョン タスクにおいて、バッチ正規化は、ネットワークがさまざまなスケールや分布の画像データをより適切に処理し、モデルのパフォーマンスと堅牢性を向上させるのに役立ちます。

  2. レイヤーの正規化: レイヤーの正規化がコンピューター ビジョンで使用されることは比較的まれですが、特定の状況では依然として応用価値があります。レイヤー正規化は、リカレント ニューラル ネットワーク (RNN) やセルフ アテンション メカニズム (Self-Attention) モデルなどのシーケンス データでよく使用されます。ビデオ解析、オプティカル フロー推定、人間の姿勢推定などのコンピューター ビジョン タスクでは、レイヤーの正規化は、ネットワークがシーケンス データの時間依存性を処理し、勾配の消失や勾配の爆発の問題を軽減し、データの精度を向上させるのに役立ちます。時系列でのモデル化、モデリング機能。

モデルサイズ

サイズの異なる 4 つのエンコーダ モデルを設計し、それぞれ MSCAN-T、MSCAN-S、MSCAN-B、MSCAN-L という名前を付けました。対応する全体的なセグメンテーション モデルは、SegNeXt-T、SegNeXt-S、SegNeXt-B、SegNeXt-L です。詳細なネットワーク設定を表 2 に示します。

 

デコーダ

 セグメンテーション モデルでは、エンコーダーのほとんどは ImageNet データセットで事前トレーニングされます。高レベルのセマンティクスをキャプチャするには、通常、エンコーダに適用されるデコーダが必要です。この研究では、図 3 に示す 3 つの単純なデコーダ構造を調査します。

1 つ目は、SegFormer を使用した、純粋な MLP ベースの構造です。

2 つ目は主に CNN ベースのモデルを採用します。この構造では、エンコーダの出力が ASPP、PSP、DANet などの高負荷デコーダ ヘッドの入力として直接使用されます。

最後は当社セグネクストが採用している構造です。最初の 3 つの段階からの機能を集約し、軽量のハンバーガーを使用してグローバル コンテキストをさらにモデル化します強力な畳み込みエンコーダーと組み合わせると、軽量デコーダーのほうが計算効率が高くなります。

ステージ 1 からステージ 4 までの特徴を集約する SegFormer のデコーダーとは異なり、Hamburger デコーダーは最後の 3 つのステージからの特徴のみを受け取ります。これは、SegNext が畳み込みベースであるためです。ステージ 1 の機能には低レベルの情報が多すぎるため、パフォーマンスが低下します。さらに、ステージ 1 での操作は大きな計算オーバーヘッドをもたらします。当社の畳み込み SegNeXt は、最近のトランスフォーマー ベースの SegFormer や HRFormer よりもはるかに優れたパフォーマンスを発揮します。

実験

ImageNet-1K、ADE20K、Cityscapes、Pascal VOC、Pascal Context、COCO-Stuff、iSAID を含む 7 つの一般的なデータセットでメソッドを評価します。

ImageNet は最も有名な画像分類データセットで、1,000 のカテゴリが含まれています。ほとんどのセグメンテーション手法と同様に、MSCAN エンコーダの事前トレーニングに使用します。

 

要約する

 この論文では、以前に成功したセグメンテーション モデルを分析し、それらが持つ優れた特性を見つけます。これらの発見に基づいて、カスタム畳み込みアテンション モジュール MSCA と CNN のようなネットワーク SegNeXt を提案します。実験結果は、SegNeXt が最先端のトランスフォーマーベースの方法よりも大幅に優れていることを示しています。この論文は、適切な設計を使用した場合、CNN ベースの手法がトランスベースの手法よりも優れたパフォーマンスを発揮できることを示しています。この論文が研究者に CNN の可能性をさらに調査するよう促すことを願っています。

私たちが提案したモデルには、1億パラメータを超える大規模モデルへのこの方法の拡張や、他のビジョンまたはNLPタスクでのパフォーマンスなどの制限もあります。これらの問題については今後の作業で対処していきます。

おすすめ

転載: blog.csdn.net/Scabbards_/article/details/131228234