Nvidia の最新オープンソース | FasterViT: ハードウェア最適化のための効率的なニューラル ネットワーク アーキテクチャ

タイトル: FasterViT: 階層的注意を備えた高速ビジョン トランスフォーマー
論文: https://arxiv.org/pdf/2306.06189.pdf
コード: https://github.com/NVlabs/FasterViT

ガイド

今回は、コンピュータービジョン分野における画像処理速度の向上を目指す研究チームの最新のオープンソースの効率的なニューラルネットワークアーキテクチャ「 」をおNVIDIA届けします。FasterViT

従来のニューラル ネットワーク アーキテクチャと同様に、ローカル特徴学習の利点とグローバル モデリング機能の利点FasterViTが組み合わされていますさらに、この論文のハイライトは、 と呼ばれる手法の導入です。この手法は、計算コストを削減するために、二次複雑度を持つグローバル セルフ アテンション メカニズムをマルチレベル アテンションに分解します。この方法では、効率的なウィンドウベースのセルフアテンション メカニズムが利用されており、各ウィンドウにはローカルおよびグローバルの特徴学習に参加するための専用の「 」があります。高レベルの出力機能では、グローバル セルフ アテンション メカニズムにより、低コストでウィンドウ間の効率的な通信が実現されます。CNNTransformerHierarchical Attention, HATcarrier tokens

FasterViT精度と画像処理速度の間の最適なトレードオフ ポイントを実現し、画像分類、オブジェクト検出、セマンティック セグメンテーションなどの複数のコンピューター ビジョン タスクで広く検証されています。研究者らはまた、HAT既存のネットワークのプラグイン モジュールとして使用してパフォーマンスを向上できることも実証しました。高解像度の画像で競合他社よりもFasterViT高速かつ正確なパフォーマンスを実証します。

モチベーション

FasterViTこの提案の動機は、高解像度画像を扱う際に CV 分野で直面する効率の問題を解決することです。ViT はさまざまなタスクで優れたパフォーマンスを実現しますが、高解像度の画像ではセルフアテンションメカニズムの計算量が多くなり、処理速度が遅くなります。さらに、元の ViT モデルには、特徴表現を学習する際のマルチスケールの機能が欠けており、オブジェクト検出やセマンティック セグメンテーションなどの一部の下流タスクでは、この等方性構造は適用できません。

FasterViT のアーキテクチャ設計は、CV タスクで最高のスループットを達成することに焦点を当てており、並列コンピューティングに優れた主流の汎用ハードウェア向けに最適化されています。このアーキテクチャの計算には、CUDA コアと Tensor コアをコンピューティング ユニットとして備えた一連のストリーミング マルチプロセッサ (SM) が含まれます。コンピューティングには頻繁なデータ転送が必要であり、データ移動帯域幅がコンピューティングに影響を与える可能性があります。したがって、計算に依存する操作は数学に依存し、メモリ転送に依存する操作はメモリに依存します。スループットを最大化するには、この 2 つの間でトレードオフを行う必要があります。以下で詳しく分析してみましょう。

多くのネットワークを見てきた友人なら、一般的な階層化されたビジュアル モデルでは、深さが増すにつれて中間表現の空間次元が縮小することを知っています。初期のネットワーク層は通常、空間次元が大きく、チャネル数が少ないため (例: 112x112x64?)、メモリに制約されます。これにより、送信コストに追加のオーバーヘッドを課す深さ方向の分離可能な畳み込みや疎な畳み込みではなく、密な畳み込みなどの計算集約的な操作により適しています。さらに、非線形アクティベーション、プーリング、バッチ正規化など、行列演算で表現できない演算もいくつかありますが、これらもメモリによって制限されるため、できるだけ使用しないようにする必要があります。対照的に、後続の層は通常、計算の制約があり、計算集約的な操作が必要になります。たとえば、階層型 CNN の特徴マップ サイズは、高次元コンボリューション カーネルでは 14x14 です。これにより、スループットへの影響が比較的少なく、レイヤーの正規化やアテンション メカニズムなど、より表現力豊かな操作を行う余地が生まれます。

方法

フレームワーク

上記では、いくつかの動機を簡単に分析しました。これらの点に基づいて、この論文では、高速化されたコンピューティング ハードウェアの恩恵を受けることができる新しいアーキテクチャを提案します。全体的なフレームワークは図に示されています。

ファストヴィット

とても簡潔ですか?この方法では、畳み込み層の初期段階を利用して、より高解像度の入力を処理していることがわかります。モデルの後半は、特徴マップ全体にわたる空間推論のために、新しい階層型アテンション レイヤーに依存します。この設計では、論文は計算とスループットのアーキテクチャを最適化します。したがって、ネットワークの前半とダウンサンプリング ブロックでは高密度の畳み込みカーネルが使用されます。また、より高解像度のステージ (ステージ 1、2) では、スクイーズ励起操作が回避され、レイヤーの正規化が最小限に抑えられます。GPU ハードウェアはメモリ転送コストと比べて不釣り合いに多くの時間を計算に費やすため、アーキテクチャの後半 (ステージ 3 と 4) は通常、計算に限定されます。したがって、マルチヘッド アテンション メカニズムの適用がボトルネックになることはありません。

実際、次のネットワーク設計のアイデアは悪くありません。主にHATのデザインアイデアを見ていきます。

帽子

HAT は、新しいウィンドウ型アテンション メカニズムです。このモジュールは、低い計算コストでローカルおよびグローバル情報の交換を促進することを目的としており、キャリア マーカー (CT) の概念を導入し、階層的なセルフ アテンション オペレーションを実行します。

上の図に示すように、HAT モジュールは、Swin の動作と同様に、まず入力特徴マップをローカル ウィンドウに分割します。各ローカル ウィンドウはフラグのセットによって表されます。重要なアイデアは、各ローカル ウィンドウ内の情報を要約するために CT を導入することです。CT はプーリングと畳み込み演算によって取得され、それぞれのローカル ウィンドウの概要情報が提供されます。各部分ウィンドウには固有の CT があります。

HAT ブロックでは、CT はマルチヘッド セルフ アテンション (MHSA) 操作を受け、その後層正規化と多層パーセプトロン (MLP) 操作が続きます。この注意プロセスにより、CT は情報を交換し、グローバルな特徴を要約することができます。次に、ローカル ウィンドウ マーカーと CT が連結され、別の一連のアテンション操作がそれらの相互作用をモデル化するために適用され、短距離および長距離の空間情報の伝達が可能になります。その後、マーカーはそれぞれのローカル ウィンドウと CT に再度分割され、この段階でこれらの操作が複数のレイヤーに繰り返し適用されます。長距離の相互作用を促進するために、グローバルな情報伝播は最後のこの段階で実行されます。出力は、CT をアップサンプリングし、ローカル ウィンドウ マーカーと結合することによって計算されます。

位置情報を組み込むために、2 層 MLP を使用して CT とローカル ウィンドウ マーカーに絶対位置バイアスを追加します。さらに、画像サンプルの局所性による注意力を高めるために、SwinV2 で提案されている対数空間相対位置バイアスが採用されています。全体として、HAT モジュールはローカル ウィンドウとグローバル フィーチャ間の情報交換を可能にし、フィーチャ マップ階層全体における空間推論能力を効果的に促進します。

上の図は、効率的なグローバル ローカル セルフ アテンション メカニズムのアテンション マップの比較を簡単に示しています。提案された階層的注意は、自己注意をローカル部分とサブグローバル部分に分割し、両方とも 2 つの集中的な注意操作に圧縮できることがわかります。

実験

画像分類

:::ブロック-1

ImageNet-1K データセットでは、FasterViT モデルは、さまざまなハイブリッド、畳み込み、および Transformer ベースのネットワークと比較して、同じスループットでより高い精度を実現します。例えば、ConvNeXt-Tと比較して精度が2.2%向上しました。精度とスループットのトレードオフを考慮すると、FasterViT モデルは、Swin Transformer ファミリなどの Transformer ベースのモデルと比較して、速度に大きな利点があります。さらに、FasterViT は、EfficientFormer や MaxViT などの最近のハイブリッド モデルと比較して、平均スループットでより高いパフォーマンスと、より優れた ImageNet トップ 1 パフォーマンスを実現します。TensorRT などのモデルの最適化に関しては、FasterViT モデルの遅延精度のパレート フロンティア傾向が依然として存在します。
:::

ターゲットの検出

:::ブロック-1

MS COCO データセット上で Cascade Mask R-CNN ネットワークを使用したオブジェクト検出とインスタンス セグメンテーションのパフォーマンス評価では、FasterViT モデルの方が精度とスループットの点で優れたパフォーマンスを示しました。たとえば、FasterViT-4 は、ボックス AP メトリクスで ConvNeXt-B と Swin-B よりも 0.2 と 1.0、マスク AP メトリクスで 0.3 と 1.0 優れており、スループットはそれぞれ 15% と 30% 高速です。同様の傾向が他のモデルバリエーションでも観察されました。さらに、FasterViT-4 を ImageNet-21K の事前トレーニング済みバックボーン ネットワークとして使用し、最先端の DINO モデルを使用した追加の物体検出実験により、58.7 のボックス AP を達成し、より複雑なバックボーン ネットワークとして FasterViT が検証されました。最先端のモデルの有効性。

:::

セマンティックセグメンテーション

:::ブロック-1

ADE20K データセットでは、セマンティック セグメンテーション実験に UPerNet ネットワークを使用して、FasterViT モデルもパフォーマンスとスループットの間のトレードオフで良好なパフォーマンスを達成しました。たとえば、FasterViT-4 は、mIoU メトリクスで Swin-B を上回り、シングルスケール推論とマルチスケール推論が 1.0 および 0.7 向上し、スループットが 16.94% 高くなります。ConvNeXt-B と比較すると、マルチスケール推論の観点から、FasterViT-4 のスループットは依然として 7.01% 増加し、mIoU は 0.4 増加しています。

:::

要約する

FasterViT は、CNN と ViT の利点を組み合わせたハイブリッド ネットワーク構造として設計されており、効率的な画像処理速度を実現します。同時に、高解像度画像を処理するために、短距離および長距離の空間依存性を捕捉し、ウィンドウ間の相互作用を効果的にモデル化する新しい HAT モジュールが論文で導入されています。これらの改善により、この論文のモデルは画像処理速度とパフォーマンスの間の最適なバランスを達成することができます。

おすすめ

転載: blog.csdn.net/CVHub/article/details/131270674