BoTNet アテンション メカニズム - pytorch の実装

論文ポータル:視覚認識のためのボトルネック トランスフォーマー前の
記事: ViT モデル - pytorch 実装

BoTNet の目的:

ネットワークにアテンション メカニズムを追加します

BoTNetの手法:

ResNet では、 ResNet Bottleneck をBottleneck Transformerに置き換えます。
ボットネットのアプローチ

BoT の構造:

左: 標準的なトランスフォーマーの構造、
中央: ボトルネック トランスフォーマー (BoT) の構造、
右: ResNet でのボット アプリケーションの例。
ボトルネックトランスの構造

BotNet-50 の構造:

ResNet-50と比較すると、c5ステージの残存構造がBoT構造に置き換えられています。
BoTNet-50の構造

MHSA の構造:

マルチヘッドセルフアテンションの構造については、「アテンションだけが必要」を参照してください。
注: 位置埋め込みモジュールを導入して、注意を引く位置情報を追加します。
ここに画像の説明を挿入

位置埋め込み:

著者は、MHSA の相対位置エンコーディング (埋め込み) モジュールを紹介します。
相対位置エンコーディング
著者はアブレーション実験を実施し、位置エンコーディングなし / 相対位置エンコーディング / 絶対位置エンコーディングとさまざまな加算方法のモデルのパフォーマンスを比較し、最終的に qk T + qrrelative T qk^T + qr^T_{relative} であることを発見しました。qk _T+qr _関連する_ _ _ _ _T最もよく機能します。
位置エンコーディング

おすすめ

転載: blog.csdn.net/Peach_____/article/details/129066191
おすすめ