効率的なマルチヘッドセルフアテンション
论文: ResT: 視覚認識 のための効率的な変換器
効率的な注意力の紹介
この論文では、画像認識の一般的なバックボーンとして機能する、ResT と呼ばれる効率的なマルチスケール ビジュアル トランスフォーマーを提案します。画像認識の一般的なバックボーンとして使用できます。
既存の変換方式とは異なり、標準の変換モジュールを採用して固定解像度の生画像を処理します。
ReST にはいくつかの利点があります。
- 単純な深さ方向の畳み込みでメモリを圧縮する、メモリ効率の高いマルチヘッドセルフアテンションを構築します。
単純な深さ方向の畳み込みを通じてメモリを圧縮し、マルチヘッドの多様性機能を維持しながらインタラクションをアテンションヘッド次元全体に投影する、メモリ効率の高いマルチヘッドセルフアテンションが構築されます; (2) 位置エンコーディングは空間アテンションとして構築されます
。より柔軟で、任意の入力画像を処理できます。