変圧器とDETR

RNN は
並列化が難しい

変換器
1 と入力ベクトル x1 ~ x4 にそれぞれ行列 W を乗算して、埋め込みベクトル a1 ~ a4 を取得します。
2. ベクトル a1 ~ a4 に Wq、Wk、Wv を乗算して、異なる qi、ki、vi を取得します (i={1,2,3,4})。
3. q1 を使用して各 k (ki) に注意を払い、a1、i (i={1,2,3,4})、q1、k1、q1、k2、... を取得し、正規化演算を実行します。
4. 計算された a1、i に対してソフトマックス演算を実行して ~a1、i を取得します。次に、それに a1、i、およびすべての vi 値を乗算し、それらを加算して b1 を取得し、次に計算して bi を取得します。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
マルチヘッドセルフアテンションは
セルフアテンションの 2 番目のステップにあり、複数の wq、wk、および wv 行列を乗算して qi,j、ki,j、vi,j を取得します。

位置コード
位置埋め込み

DETR
ここに画像の説明を挿入
1. CNN を使用して特徴を抽出する
2. トランスフォーマー エンコーダーを使用してグローバル データをエンコードおよび抽出する
3. トランスフォーマー デコーダーを使用して予測フレームを生成する
4. フレームと GT を使用して 2 部グラフ損失を作成する

おすすめ

転載: blog.csdn.net/threestooegs/article/details/129678202