論文ポータル:視覚認識のためのボトルネック トランスフォーマー前の
記事: ViT モデル - pytorch 実装
BoTNet の目的:
ネットワークにアテンション メカニズムを追加します。
BoTNetの手法:
ResNet では、 ResNet Bottleneck をBottleneck Transformerに置き換えます。
BoT の構造:
左: 標準的なトランスフォーマーの構造、
中央: ボトルネック トランスフォーマー (BoT) の構造、
右: ResNet でのボット アプリケーションの例。
BotNet-50 の構造:
ResNet-50と比較すると、c5ステージの残存構造がBoT構造に置き換えられています。
MHSA の構造:
マルチヘッドセルフアテンションの構造については、「アテンションだけが必要」を参照してください。
注: 位置埋め込みモジュールを導入して、注意を引く位置情報を追加します。
位置埋め込み:
著者は、MHSA の相対位置エンコーディング (埋め込み) モジュールを紹介します。
著者はアブレーション実験を実施し、位置エンコーディングなし / 相対位置エンコーディング / 絶対位置エンコーディングとさまざまな加算方法のモデルのパフォーマンスを比較し、最終的に qk T + qrrelative T qk^T + qr^T_{relative} であることを発見しました。qk _T+qr _関連する_ _ _ _ _T最もよく機能します。