【論文朗読】Visual Attendant Network原文翻訳

[論文リンク] https://arxiv.org/abs/2202.09741

まとめ

  もともと自然言語処理タスク用に設計されましたが、セルフ アテンション メカニズムは複数のコンピューター ビジョン分野で旋風を巻き起こしています。ただし、画像の 2 次元の性質により、コンピューター ビジョンでの自己注意の使用には 3 つの課題が生じます。(1) 画像を 1 次元シーケンスとして扱うと、その 2 次元構造が無視されます; (2) 二次計算量は高解像度画像にはコストがかかりすぎます; (3) 空間適応性のみを取得し、チャネル適応性を無視します。この論文では、自己注意力の適応的かつ長期的な相関関係を有効にし、その欠点を回避するために、ラージ カーネル アテンション (LKA) と呼ばれる新しい線形注意力を提案します。さらに、ビジュアル アテンション ネットワーク (VAN) と呼ばれる LKA ベースのニューラル ネットワークを提案します。そのシンプルさにも関わらず、VAN は、画像分類、物体検出、セマンティック セグメンテーション、パノプティック セグメンテーション、姿勢推定などの複数のタスクにおいて、同様のサイズの ViT および CNN よりも優れたパフォーマンスを発揮します。たとえば、VAN-B6 は、ImageNet ベンチマークで 87.8% の精度を達成し、パノプティック セグメンテーション タスクでは最先端のパフォーマンス (58.2 PQ) を達成します。さらに、ADE20K ベンチマークのセマンティック セグメンテーション タスクでは、VAN-B2 の mIoU が SWIN-T を 4% (50.1 対 46.1) 上回り、ターゲット検出タスクでは AP が 2.6% (48.8 対 46.2) を超えています。 COCO データセットの。これにより、コミュニティに新しいシンプルかつ強力なベースライン アプローチが提供されます。コードはhttps://github.com/Visual-Attendance-Networkで入手できます。

1.はじめに

  最も基本的な特徴抽出器であるビジュアル バックボーンは、コンピューター ビジョンの分野における基本的な研究方向です。CNN は、その優れた特徴抽出パフォーマンスにより、過去 10 年間、アクセスできない研究テーマでした。AlexNet が深層学習の時代を再開した後、より深いネットワーク、より効率的なアーキテクチャ、より強力なマルチスケール機能、およびアテンション メカニズムを使用することで、いくつかのブレークスルーが達成され、より強力なビジュアル バックボーンが得られました。変換不変性と共有スライディング ウィンドウ戦略により、CNN は本質的に、任意のサイズの入力を使用するさまざまな視覚タスクに対して効率的です。より高度なビジョン バックボーンは、多くの場合、画像分類、オブジェクト検出、セマンティック セグメンテーション、姿勢推定などのさまざまなタスクで大幅なパフォーマンス向上を実現します。
  認知心理学と神経科学の研究者は、観察された反応時間と生物学的経路に沿った推定信号伝達時間に基づいて、人間の視覚系は考えられる刺激の一部のみを詳細に処理し、残りはほとんど処理されないと考えています。選択的注意は、視覚の複雑な組み合わせの側面を処理するための重要なメカニズムです。アテンション メカニズムは、入力特徴に基づく適応的な選択プロセスとみなすことができます。フル アテンション ネットワークが提案されて以来、セルフ アテンション モデル (トランスフォーマーとしても知られる) は、自然言語処理の分野で急速に主流のアーキテクチャになりました。
  最近、Dosovitskiy らは、変換器バックボーンをコンピュータ ビジョンに導入することにより、画像分類タスクにおいて有名な CNN を超える ViT を提案しました。強力なモデリング機能のおかげで、トランスフォーマーベースのビジョン バックボーンは、オブジェクト検出、セマンティック セグメンテーションなどのさまざまなタスクのリーダーボードをすぐに占めます。
目覚ましい成功にもかかわらず、畳み込み演算と自己注意には依然として欠点があります。畳み込み演算では静的な重みが使用され、適応性に欠けますが、これが重要であることがわかっています。また、セルフ アテンションはもともと 1 次元の NLP タスク用に設計されているため、2 次元の画像を 1 次元のシーケンスとして扱い、画像の重要な 2 次元構造を破壊します。高解像度画像の処理も、二次計算とメモリのオーバーヘッドのため困難です。さらに、自己注意は、空間次元の適応のみを考慮し、チャネル次元の適応を無視する特別な注意であり、視覚タスクにとっても重要です。
  この論文では、視覚タスクに合わせて調整されたラージ カーネル アテンション (LKA) と呼ばれる新しい線形アテンション メカニズムを提案します。LKA は、局所的な構造情報、長距離依存性、適応性など、畳み込みと自己注意の利点を吸収します。同時に、チャネル次元での適応性を無視するという欠点も回避します。LKA に基づいて、ビジュアル アテンション ネットワーク (VAN) と呼ばれる新しいビジュアル バックボーンを提案します。これは、よく知られている CNN ベースおよびトランスフォーマー ベースのバックボーンを大幅に上回ります。この記事の貢献は次のように要約されます。

  • 我々は、コンボリューションとセルフアテンションの利点を考慮しながら、それらの欠点を回避する、コンピュータービジョン用の新しい線形アテンションメカニズムである LKA を設計します。LKA に基づいて、VAN と呼ばれるシンプルなビジュアル バックボーンをさらに導入します。
  • 私たちは広範な実験で、画像分類、オブジェクト検出、セマンティック セグメンテーション、インスタンス セグメンテーション、姿勢推定などのさまざまなタスクにおいて、VAN が同レベルの ViT や CNN よりも優れたパフォーマンスを発揮することを示しました。
    ここに画像の説明を挿入します

2 関連作品

2.1 畳み込みニューラル ネットワーク

  強力な特徴表現を効率的に計算する方法は、コンピューター ビジョンにおける最も基本的な問題です。畳み込みニューラル ネットワークは、ローカル コンテキスト情報と翻訳不変性を利用するため、ニューラル ネットワークの効果が大幅に向上します。AlexNet 以来、CNN は急速にコンピューター ビジョンの主流のフレームワークになりました。使いやすさをさらに向上させるために、研究者は CNN の深さと重みに多大な労力を費やしてきました。私たちの研究には、標準の畳み込みを深さ方向の畳み込みとポイント方向の畳み込み (1 × 1 畳み込みとも呼ばれます) の 2 つの部分に分離する MobileNet との類似点があります。私たちの方法は、畳み込みを深さ方向の畳み込み、深さ方向および中心方向の畳み込み、および点方向の畳み込みの 3 つの部分に分解します。この分解のおかげで、私たちの方法は大規模なカーネル畳み込みを効率的に分解するのにより適しています。また、適応特性を取得するためのメソッドにアテンション メカニズムを導入します。

2.2 視覚的注意の方法

  アテンション メカニズムは、RAM 内のコンピューター ビジョンに導入された、入力特徴に基づく適応選択のプロセスとみなすことができます。画像分類、物体検出、セマンティック セグメンテーションなど、多くの視覚タスクに利点をもたらします。コンピュータビジョンにおける注意は、チャネル注意、空間注意、時間的注意、分岐注意、およびチャネル注意と空間注意などのそれらの組み合わせの 4 つの基本カテゴリに分類できます。それぞれのタイプの注意は、視覚的なタスクにおいて異なる効果をもたらします。
  NLP から生まれた自己注意は、特別な注意メカニズムです。長距離の依存関係と適応性を捉える効果があるため、コンピューター ビジョンにおいてますます重要な役割を果たしています。さまざまなディープ セルフ アテンション ネットワーク (ビジョン トランスフォーマーとも呼ばれる) は、さまざまな視覚タスクにおいて主流の CNN よりも大幅に優れたパフォーマンスを達成しており、注意ベースのモデルの大きな可能性を示しています。ただし、自己注意はもともと NLP のために設計されました。コンピューター ビジョン タスクを扱う場合、3 つの欠点があります。(1) 画像を 1 次元のシーケンスとして扱い、画像の 2 次元構造を無視します。(2) 高解像度の画像の場合、二次計算の計算量は非常に高価です。(3) 空間適応性のみを実現し、チャネル次元の適応性を無視します。視覚タスクの場合、異なるチャネルが異なるオブジェクトを表すことがよくあります。チャネル適応は視覚的なタスクにも重要です。これらの問題を解決するために、我々は新しい視覚的注意手法、すなわちLKAを提案する。これには、適応性や長期的な依存関係などの自己注意メカニズムの利点が組み込まれています。さらに、ローカルのコンテキスト情報の活用など、畳み込みの利点も活用します。

2.3 ビジュアル MLP

  CMM が登場する前は、多層パーセプトロン (mlp) が一般的なコンピューター ビジョン ツールでした。しかし、MLPは計算量が多く効率が低いため、長らく限界がありました。最近のいくつかの研究では、標準 MLP を空間 MLP とチャネル MLP に分離することに成功しました。この分解により、計算コストとパラメータ量が大幅に削減され、MLP の驚くべきパフォーマンスが解放されます。MLP のより包括的なレビューについては、読者は最近の研究を参照してください。私たちのアプローチに最も関連する MLP は gMLP です。gMLP は、標準の MLP を分解するだけでなく、アテンション メカニズムも導入します。ただし、gMLP には 2 つの欠点があります。一方で、gMLP は入力サイズに敏感であり、固定サイズの画像のみを処理できます。一方、gMLP は画像のグローバル情報のみを考慮し、画像のローカル構造を無視します。私たちの方法は、その利点を最大限に活用し、欠点を回避することができます。

3. 方法

3.1 大きなカーネルへの注意

  アテンション メカニズムは、入力特徴に基づいて特徴的な特徴を選択し、ノイズ応答を自動的に無視する適応的な選択プロセスとみなすことができます。アテンション メカニズムの重要なステップは、さまざまな領域の重要性を表すアテンション マップを生成することです。これを行うには、さまざまな機能間の関係を理解する必要があります。
ここに画像の説明を挿入します異なるパーツ間の関係を確立するには 2 つのよく知られた方法があります。1 つ目は、セルフアテンション メカニズムを使用してリモートの依存関係を取得することです。コンピュータ ビジョンにおけるセルフ アテンションの適用には、セクション 2.2 で列挙した 3 つの明らかな欠点があります。2 つ目は、大規模なカーネル畳み込みを使用して相関関係を構築し、アテンション マップを生成することです。しかし、このアプローチには明らかな欠点もあります。大規模なカーネル畳み込みは、多くの計算オーバーヘッドとパラメータ量をもたらします。
  上記の欠点を克服し、セルフアテンションとラージカーネル畳み込みの利点を活用するために、ラージカーネル畳み込み演算を分解して長距離関係を捕捉することを提案します。図 2 に示すように、大規模なカーネル コンボリューションは、空間ローカル コンボリューション (深度コンボリューション)、空間リモート コンボリューション (深度拡張コンボリューション)、およびチャネル コンボリューション (1×1 コンボリューション) の 3 つの部分に分割できます。具体的には、K × KK \times Kと置くことができます。K×Kの畳み込みは、 ⌈ K d ⌉ × ⌈ K d ⌉ \lceil \frac Kd \rceil \times \lceil \frac Kd \rceil にdK×dK深さのホールの畳み込みホールは   d\d d、a( 2 d − 1 ) × ( 2 d − 1 ) (2d−1) × (2d−1)( 21 )×( 21 )深さ方向の畳み込みと 1×1 の畳み込み。上記の分解を通じて、小さな計算コストとパラメータで長距離の関係を捉えることができます。長期的な関係を取得した後、ポイントの重要性を推定し、アテンション マップを生成できます。
ここに画像の説明を挿入します
図 3(a) に示すように、LKA モジュールは次のように記述できますF ∈ RC × H × WF \in \Bbb R^{C \times H \times W}FRC × H × Wは入力特徴量であり、A アテンション ∈ RC × H × W アテンション \in \Bbb R^{C \times H \times W}注意_ _ _ _ _ _ _RC × H × Wはアテンションマップを表します。アテンション マップの値は、各機能の重要性を表します。⨂ \bigotimes⨂ は内積を表します。一般的なアテンション手法とは異なり、表 3 に示すように、LKA はシグモイドやソフトマックスなどの追加の正規化関数を必要としません。また、アテンション手法の重要な役割は、標準化されたアテンション マップではなく、入力特徴に基づいて出力を適応的に調整することであると考えています。表 1 に示すように、私たちが提案する LKA は、畳み込みと自己注意の利点を組み合わせています。ローカルのコンテキスト情報、大きな受容野、線形の複雑さ、動的なプロセスも考慮されます。さらに、LKA は空間次元だけでなくチャネル次元でも適応性を実現します。ディープ ニューラル ネットワークでは、通常、異なるチャネルが異なるオブジェクトを表し、視覚的なタスクではチャネルの次元の適応性も重要であることに注意してください。
ここに画像の説明を挿入します

3.2 ビジュアル アテンション ネットワーク (VAN)

  私たちの VAN は単純な階層構造を持ち、空間解像度が減少する 4 つのステージのシーケンス、つまりH 4 × W 4 \frac H4 \times \frac W4 を出力します。4H×4W高さ 8 × 幅 8 \frac H8 \times \frac W88H×8W,高さ 16 × 幅 16 \frac H{16} \times \frac W{16}16H×16WH 32 × W 32 \frac H{32} \times \frac W{32}32H×32Wその中でも、H.H.H W W W は入力画像の幅と高さを表します。解像度が低下すると、出力チャンネルの数が増加します。出力チャンネルC i C_iC私は変更点を表 5 に示します。
  図 4 に示すように、各段階で、ステップ サイズを使用してダウンサンプリング レートを制御し、まず入力をダウンサンプリングします。ダウンサンプリング後、ステージ内の他のすべてのレイヤーは同じ出力サイズ、つまり空間解像度とチャンネル数を維持します。それから、L.L.Lセットのバッチ正規化、1 × 1 畳み込み、GELU アクティベーション、ラージ カーネル アテンション、およびフィードフォワード ネットワークが順次スタックされて特徴が抽出されます。パラメータの量と計算コストに基づいて、VAN-B0、VAN-B1、VAN-B2、VAN-B3、VAN-B4、VAN-B5、VAN-B6 の 7 つのアーキテクチャを設計しました。ネットワーク全体の詳細を表 5 に示します。
**複雑さの分析。**分解されたパラメータ量と浮動小数点演算量を与えます。計算式を簡略化するため、計算過程のズレによる計算量は無視しています。入力フィーチャと出力フィーチャのサイズが同じであると仮定しますH × W × CH × W × CH×W×C._ _ パラメータ量P ( K , d ) P(K, d)P ( K d )および FLOPF ( K , d ) F(K, d)F ( K d )は次のように表現できます。
ここに画像の説明を挿入します
ここで、dddは空隙率、KKK はカーネル サイズを表します。FLOP とパラメータの計算式によると、FLOP とパラメータの予算削減率は同じです。
実装の詳細K = 21 K = 21
に設定します。K=21K=21の場合K=21K=21時間では、式 (3) はd = 3 d = 3になります。d=5 × 5 5 × 5に対応する3 の最小値を取得します。5×5と7 × 7の深さの畳み込み7×7の穴は3 つの深さの畳み込みです。さまざまなチャネル数の具体的なパラメータを表 2 に示します。結果は、パラメータと FLOP の点で、私たちの分解方法が大規模なカーネル畳み込みの分解よりも明らかな利点があることを示しています。
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します

4. 実験

  このセクションでは、定量的および定性的な実験により、提案された方法の有効性と高効率を実証します。ImageNet-1K および ImageNet-22K の画像分類データセット、COCO オブジェクト検出、インスタンス セグメンテーション、パノラマ セグメンテーション、姿勢推定ベンチマーク、および ADE20K セマンティック セグメンテーション データセットに関する定量的実験を実施します。さらに、ImageNet 検証セット上の GradCAM を使用して、実験結果とクラス活性化マップ (CAM) を視覚化します。この実験は Pytorch と Jittor に基づいています。

4.1 画像の分類

4.1.1 ImageNet-1K 実験

セットアップ
  ImageNet-1K データセットに対して画像分類を実行します。これには、1,000 の異なるカテゴリからの 128 万のトレーニング画像と 50,000 の検証画像が含まれています。トレーニング計画全体は基本的に [19] と一致しています。ランダムなトリミング、ランダムな水平反転、ラベルのスムージング、ミックスアップ、カットミックス、およびランダムな消去を使用してトレーニング データを強化します。トレーニング中は、運動量 = 0.9 および重み減衰 = 5 × 1 0 − 2 5 \times10^{−2} を使用します。5×1 02の AdamW オプティマイザーは 300 エポックでトレーニングされ、バッチサイズは 1024 でした。コサイン スケジューリングとウォームアップ戦略は、学習率 (LR) を調整するために使用されます。初期学習率は5 × 1 0 − 4 5 \times 10^{−4}5×1 0−4 . _ アテンション層には LayerScale のバリアントを採用し、初期値は
0.01xout = x + diag ( λ 1 , λ 2 , … λ d ) ( f ( x ) + x ) x_{out} = x + diag ( λ_1、λ_2、… λ_d)(f(x) + x)バツあなた_=バツ+dia g ( λ _1l2d) ( f ( x )+x ) xout = x + diag ( λ 1 , λ 2 , … , λ d ) f ( x ) x_{out} = x + diag(λ_1, λ_2,…,λ_d)f(x) を置き換えますバツあなた_=バツ+dia g ( λ _1l2ld) f ( x )、元の LayerScale よりも優れたパフォーマンスが得られます。指数移動平均 (EMA) は、トレーニング プロセスを改善するためにも使用されます。評価段階では、単一のトリミング設定の下での ImageNet 検証セットでトップ 1 の精度を報告します。
アブレーション実験
  LKA の各コンポーネントが不可欠であることを実証するために、アブレーション実験を実行しました。実験結果を迅速に得るために、ベースライン モデルとして VAN-B0 を選択します。表 3 の実験結果は、LKA のすべての部分がパフォーマンスを向上させるために不可欠であることを示しています。

  • DW-Conv
    DW-Conv は、画像のローカル コンテキスト情報を利用できます。これがないと、分類パフォーマンスは 0.5% (74.9% 対 75.4%) 低下します。これは、画像処理中の局所構造情報の重要性を示しています。
  • DW-D-Conv
    DW-D-Conv は Deep Atrous Convolution の略で、LKA で長距離の依存関係を捕捉する役割を果たします。これがないと、分類パフォーマンスは 1.3% (74.1% 対 75.4%) 低下します。これは、長距離の依存関係が視覚タスクにとって重要であるという考えを裏付けています。
  • アテンション メカニズム
    の導入により、ネットワークは適応特性を実現できるようになります。これにより、VAN-B0では約1.1%(74.3%対75.4%)の改善を達成しました。また、アテンションを加算演算に置き換える精度も低くありません。
  • 1x1Conv
    ここで、1 × 1 Conv はチャネル次元の関係をキャプチャします。アテンションメカニズムと組み合わせることで、チャネル次元の適応性が導入されます。0.8% (74.6% 対 75.4%) の改善は、チャネル寸法適応性の必要性を証明しています。
  • シグモイド関数
    シグモイド関数は、アテンション マップを 0 から 1 に正規化する、一般的に使用される正規化関数です。しかし、私たちの実験では、LKA モジュールには不要であることがわかりました。シグモイドを使用しない場合、当社の VAN-B0 は、
    より少ない計算量で 0.2% (75.4% 対 75.2%) の改善を達成します。

  上記の分析を通じて、私たちが提案する LKA はローカル情報を利用し、長距離の依存関係を捕捉でき、チャネル次元と空間次元の両方で適応できることがわかります。さらに、実験結果は、これらの特徴が認識タスクにプラスであることも示しています。標準の畳み込みはローカルのコンテキスト情報を最大限に活用できますが、長距離の依存関係と適応性は無視されます。自己注意の場合、長距離の依存関係を捉えることができ、空間次元での適応性を備えていますが、局所的な情報と空間次元での適応性は無視されます。一方、上記の議論を表 1 にまとめます。
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します
  さらに、表 6 のアブレーション スタディも実行して、さまざまなサイズのコンボリューション カーネルを分解します。21×21 畳み込みの分解は 7×7 畳み込みの分解よりもパフォーマンスが良いことがわかり、視覚タスクには大きなカーネルが重要であることがわかります。より大きな 28×28 畳み込みを分解すると、21×21 畳み込みを分解する場合に比べてゲインが大きくないことがわかります。したがって、デフォルトでは 21×21 の畳み込みを分解することを選択します。
既存の手法との比較。
  表 7 は、VAN と他の MLP、CNN、および VIT との比較を示しています。パラメータの数と計算コストが同等の場合、VAN は一般的な CNN (ResNet、ResNeXt、ConvNeXt など)、ViT (DeiT、PVT、Swin-Transformer など)、および MLP (MLP-Mixer、ResMLP、gMLP、等。)。図 6 では、さまざまなタスクについて、私たちの手法と同様のレベルの古典的な手法との比較を視覚的に示しています。ここで、私たちの手法の改善がはっきりとわかります。以下の説明では、各カテゴリの代表的なネットワークを選択します。
  ConvNeXt は、大規模な受容野 (7×7 畳み込み) や高度なトレーニング戦略 (300 エポック、データ拡張など) など、ViT の利点の一部を吸収する特別な CNN です。ConvNeXt と比較すると、VAN のより大きな受容野と適応性により、VAN-b2 は ConvNeXt-T と比較して 0.7% 向上しました (82.8% 対 82.1%)。Swin - Transformer は、ローカル アテンションとスライディング ウィンドウを使用する ViT のよく知られたバリアントです。VAN は 2D 構造情報に適しており、より大きな受容野を持ち、チャネル次元で適応性があるため、VAN-b2 は Swin-t より 1.5% (82.8% 対 81.3%) 優れています。MLP の場合は、gMPL を選択します。VAN-B2 は gMLPS [72] より 3.2% 高く (82.8% 対 79.6%)、これは局所性の重要性を反映しています。
スループット
  RTX 3090 ハードウェア環境で Swin トランスと VAN のスループットをテストしました。結果を表4に示す。さらに、精度とスループットのグラフもプロットしました。図 5 に示すように、VAN は Swin トランスよりも優れた精度とスループットのトレードオフを達成しています。
ここに画像の説明を挿入します

4.1.2 視覚化

  クラス アクティベーション マッピング (CAM) は、関心領域 (アテンション マップ) を視覚化するための一般的なツールです。Grad-CAM を使用して、VAN-B2 モデルによって生成された ImageNet 検証セットに対するアテンションを視覚化します。図 7 の結果からわかるように、VAN-B2 は対象物に明確に焦点を合わせることができます。したがって、視覚化は、私たちのアプローチの有効性を直感的に示します。さらに、Swin-T、ConvNeXtT、および VAN-B2 によって生成されたさまざまな CAM を比較しました。VANB2 の活性化領域がより正確であることがわかります。特にオブジェクトが画像 (最後の 3 行) を占める場合、図 7 に示すように、私たちの方法には明らかな利点があり、長期的な相関関係を取得できることがわかります。
ここに画像の説明を挿入します

4.1.3 ImageNet-22K に基づく事前トレーニング

設定
  ImageNet-22K は、約 1,400 万の画像と 21,841 のカテゴリを含む大規模な画像分類データセットです。Swin-Transformer と ConvNeXt に続いて、EMA を使用せずに 90 エポックの VAN を事前トレーニングしました。バッチサイズは 8196 に設定されます。その他のトレーニングの詳細は ImageNet-1k と同じです。ImageNet-22K で事前トレーニングした後、ImageNet-1K で 30 エポックの間モデルを微調整しました。224 × 224 入力でモデルを事前トレーニングし、次に 224 × 224 と 384 × 384 入力でモデルをそれぞれ微調整します。
結果
  現在の最先端の CNN (ConvNeXt、EFFNetV2 など) と Vit (Swin-Transformer、ViT、CoAtNet など) を比較します。表 8 に示すように、VAN は 2 億パラメータの下で 87.8% というトップ 1 の精度に達し、異なる解像度で同レベルの ViT、Swin-Transformer、EFFNetV2、および ConvNeXt を上回り、大規模な事前トレーニングへの高い適応性を証明しています。 。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

4.2 物体の検出

設定
  118,000 のトレーニング セットと 5,000 の検証セットを含む COCO 2017 ベンチマークでオブジェクト検出とインスタンス セグメンテーションの実験を実施しました。
MMDetection は、検出モデルを実装するためのコード ベースとして使用されます。公平な比較のために、Swin Transformer および PoolFormer と同じトレーニング/検証戦略を採用します。私たちの方法の有効性を証明するためのさまざまな検出モデル (Mask R-CNN、RetinaNet、Cascade Mask R-CNN、Sparse R-CNN など)。すべてのバックボーン モデルは ImageNet で事前トレーニングされています。
結果を
  表 9 および表 10 に示します。RetinaNet 1x および Mask R-CNN 1x の設定では、VAN の効果は、CNN ベースの手法 ResNet およびトランスベースの手法 PVT よりも大幅に優れています。さらに、表 11 では、2 つの最先端のメソッド、Swin-Transformer と ConvNeXt も比較しています。結果は、VAN がマスク RCNN やカスケード マスク R-CNN などのさまざまな検出方法の下で最先端のパフォーマンスを達成できることを示しています。

4.3 セマンティックセグメンテーション

セットアップ
  セマンティック セグメンテーション用の 150 のセマンティック カテゴリが含まれる ADE20K で実験を行いました。トレーニング、検証、テストのためにデータをそれぞれ 20000、2000、3000 の割合で分割します。MMSEG が基本フレームワークとして使用され、2 つのよく知られたセグメンテーション ヘッド、Semantic FPN と UpperNet が VAN バックボーンの評価に使用されます。公平な比較のために、2 つのトレーニング/検証スキーム [98] と [15] を採用し、検証セットの定量的結果を表 12 の上部と下部にそれぞれ示します。すべてのバックボーン モデルは、ImageNet-1K または ImageNet-22K で事前トレーニングされています。
結果
  表 12 の上部からわかるように、FPN を使用するさまざまなバックボーン ネットワークでは、van ベースの方法が CNN ベース (ResNet、ResNeXt) またはトランスフォーマー ベース (PVT、PoolFormer、PVTv2) の方法よりも優れています。たとえば、同様のパラメータ量と FLOP で mIoU をそれぞれ 1.3 (B0)、0.4 (B1)、1.5 (B2)、0.8 (B3) 増加させることで、4 つの PVTv2 バリアントを上回りました。表 12 の下半分では、4 つの VAN バリアントも、以前の CNN ベースの手法や swin-transformer ベースの手法と比較して、同様の数のパラメータと FLOP で優れたパフォーマンスを示しています。たとえば、UpperNet に基づくと、VAN-B2 は ResNet-101 と SwinT よりそれぞれ 5.2 mIoU と 4.0 mIoU 高くなります。ImageNet-22K 事前トレーニング モデルの場合、表 13 に示すように、VAN は Swin-Transformer や ConvNeXt よりも優れたパフォーマンスを発揮し、計算オーバーヘッドが少なくなります。

4.4 パノラマのセグメンテーション

COCO パノラマ セグメンテーション データ セットでパノラマ セグメンテーションを実行するように設定し
  、セグメンテーション ヘッドとして Mask2Former を選択します。公平な比較のために、MMDetection のデフォルト設定を採用し、Mask2Former の同じトレーニング/検証スキームを採用します。すべてのバックボーン モデルは、ImageNet-1K または ImageNet-22K で事前トレーニングされています。
結果
  を表 14 に示します。大規模モデルと小規模モデルの両方で、VAN が Swin-Transformer よりも優れていることがわかります。ここで、VAN-B2 は Swin-T を 1.7 PQ 上回っています。さらに、VAN-B6 は 58.2 PQ を達成し、パノラマ セグメンテーション タスクで最先端のパフォーマンスを達成していることも注目に値します。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

4.5 姿勢推定

セットアップ
  17 のキーポイントを持つ 200K の画像を含む COCO 人間姿勢推定データセットに対して姿勢推定実験を行います。モデルは COCO train 2017 データセットでトレーニングされ、COCO val 2017 データセットでテストされます。デコーダ部にはSwin-TransformerやPVTと同じSimpleBaselineを採用しています。すべての実験は MMPose に基づいていました。
結果
  実験結果を表 15 に示します。256×192 の入力の場合、VAN-B2 は Swin-T および PVT-S よりも 2.5AP (74.9 対 72.4) および 3.5AP (74.9 対 71.4) 優れていますが、計算量とパラメータは同等です。さらに、VAN-B2 は、256 × 192 入力サイズおよび 1.8AP (76.7 対 76.7 対 . 74.9) で Swin-B 2AP (74.9 対 72.9) を上回り、人気のある CNN ベースのモデル HRNet-W32 を上回ります。 Transformer ベースのモデルに加えて。

4.6 詳細な分類

  CUB-200 データセットを使用して詳細な分類を実行します。これは一般的に使用される詳細な分類ベンチマークであり、鳥の 200 のサブカテゴリに属する​​ 11,788 枚の画像が含まれています。このタスク用に特定のアルゴリズムを設計したのではなく、最後の線形層を 200 のカテゴリに置き換えただけです。mmclassification に基づいてモデルを実装します。表 16 の結果は、VAN-B4 が特別な設計なしで 91.3% のトップ 1 精度アルゴリズムを達成し、DeiT や ViT-B を上回ったことを示しています。

4.7 有意性の検出

  EDNに基づいて顕著性検出を行います。バックボーンを VAN に置き換え、DUTS、DUT-O、PASCAL-S などの一般的な顕著性検出ベンチマークの実験を行います。表 17 の結果は、VAN がすべてのデータセットにおいて他の主要な ResNet および PVT よりも大幅に優れていることを示しています。

5 件のディスカッション

  最近、Transformer ベースのモデルがさまざまなビジュアル ランキングを急速に制覇しています。私たちは、自己注意が特別な注意メカニズムにすぎないことを知っています。しかし、人々は徐々に自己注意を怠らず、潜在的な注意方法を無視します。本稿では、新しいアテンションモジュールLKAとCNNベースのネットワークVANを提案する。視覚的なタスクに関しては、最先端の Transformer ベースのメソッドよりも優れたパフォーマンスを発揮します。この論文が、人々に自己注意がかけがえのないものであるのか、そしてどのような注意が視覚的課題に適しているのかを再考するきっかけになれば幸いです。

6 仕事の未来

今後も以下の方向でVANの改善を進めてまいります。

  • 構造自体の継続的な改善この記事では、直感的な構造のみを示します。異なるカーネル サイズの採用、マルチスケール構造の導入、マルチブランチ構造の使用などはすべて、改善の大きな可能性を秘めています。
  • 大規模な自己教師あり学習および転移学習VAN は、CNN と ViT の利点を自然に組み合わせます。VAN は画像の 2 次元構造情報を利用できる一方で、入力画像に応じて出力を動的に調整できるため、自己教師あり学習や転移学習に適します上記 2 つの点を組み合わせることで、VAN は画像の自己教師あり学習と転移学習の分野でより優れたパフォーマンスを達成できると考えられます。
  • その他の応用分野リソースが限られているため、当社は視覚タスクのみに優れています。VAN が NLP の TCN などの他の分野でもうまく機能するかどうかは、まだ検討する価値があります。VANが一般的なモデルになることを期待しています。

7 まとめ

  この論文では、畳み込みと自己注意の利点を組み合わせて、新しい視覚的注意 LKA アルゴリズムを提案します。LKA に基づいて、画像分類、ターゲット検出、セマンティック セグメンテーションなどの視覚タスクで最先端のパフォーマンスを実現するビジュアル バックボーン VAN を構築しました。今後は、第 6 節で述べた方向に沿って、この枠組みの改善を進めていきます。

おすすめ

転載: blog.csdn.net/qq_41776136/article/details/132793738