CVPR2023| ハイブリッド マッチングを使用した DETR 1 対 1 および 1 対多のマッチング ハイブリッド戦略に基づいた改良された DETR アルゴリズム
- 論文リンク: https://arxiv.org/pdf/2207.13080.pdf
- ソースコードリンク: https://github.com/HDETR/H-Deformable-DETR
導入
DEtection TRansformer (DETR) に基づくモデルは、さまざまな基本的な視覚認識タスク (ターゲット検出、インスタンス セグメンテーション、パノラマ セグメンテーション、指向性ターゲット セグメンテーション、ビデオ インスタンス セグメンテーション、姿勢推定、マルチターゲット トラッキング、奥行き推定、テキスト検出、ライン セグメンテーション) で良好に機能します。検出、点群またはマルチビューに基づく 3D ターゲット検出、視覚的質問応答などの分野で大きな成功を収めています。
DETR モデルを改善するには、Transformer エンコーダ、Transformer エンコーダ アーキテクチャ、クエリ式の再設計など、さまざまな角度から改善する必要があります。以前の改良された方法とは異なり、この方法は、1 対 1 マッチング (1 つの GT に 1 つのクエリのみが割り当てられる) によって引き起こされる非効率的なトレーニングの問題に焦点を当てています。たとえば、COCO データセット内の画像の 99% 以上に含まれるアノテーション ボックスが 30 未満であるため、Deformable-DETR はプール内の 300 クエリから 30 未満の一致する GT を選択することのみを考慮し、残りの 270 を超えるクエリにはアノテーションが付けられます。 ∅ \空集合∅、分類損失によってのみ監視されます。
1 対 1 マッチングの欠点を克服し、アクティブ クエリを探索する利点を解放するために、この論文では、各順伝播プロセスで GT マッチングのためのより有益なクエリを生成する単純なハイブリッド マッチング戦略を提案します。混合マッチングの中心的な考え方は、1 対多のマッチングを使用してトレーニング戦略を改善し、1 対 1 のマッチングを使用して NMS 後処理を回避することです。
ここでは、1 対 1 のマッチングと 1 対多のマッチングに同意するために 2 つのデコーダー ブランチが使用されています。トレーニング フェーズでは、1 つのデコーダ ブランチが 1 対 1 マッチングのクエリのセットを処理するように維持され、別のデコーダ ブランチが 1 対多マッチングの追加のクエリを処理します。評価フェーズでは、最初のデコーダ ブランチのみが使用され、最初のクエリ セットは 1 対 1 マッチング方法によって監視されます。この方法では、NMS の後処理が回避され、推論段階で追加の計算コストが発生しません。
この記事のメソッド
DETR法についての紹介
DETR アーキテクチャ
与えられた入力I \mathbf{I}I、DETR はまずバックボーン エンコーダーと Transformer エンコーダーを使用して、一連の拡張ピクセル エンベディングを抽出しますX = { x 0 , x 1 , … , x N } \mathbf{X} = \{\mathbf{x}_{0},\ mathbf{x}_{1},\ldots,\mathbf{x}_{N}\}バツ={ ×0、バツ1、…、バツN} . 次に、ピクセル埋め込みとデフォルトのオブジェクトクエリ埋め込みグループQ = { q 0 , q 1 , … , qn } \mathbf{Q} = \{\mathbf{q}_{0},\mathbf{q}_{1} ,\ldots,\mathbf{q}_{n}\}Q={ q0、q1、…、qんTransformer デコーダを渡します。次に、DETR は、各 Transformer デコーダーの後にタスク固有の予測ヘッドを更新されたオブジェクト クエリの埋め込みに適用して、一連の予測P = { p 0 , p 1 , … , pn } \mathbf{P}=\{\mathbf{ p}_{0}、\mathbf{p}_{1}、\ldots、\mathbf{p}_{n}\}P={ p0、p1、…、pん} . 最後に、DETR は予測と GT の前に 1 対 1 のバイナリ マッチングを実行します。DETR は、最小マッチング損失に基づいて GT と予測値を照合し、対応する監視損失を適用します。
変形可能な DETR アーキテクチャ
Deformable DETR の主な改善点は次のとおりです。
-
マルチスケールの変形可能なセルフ アテンション モジュールとマルチスケールの変形可能なクロス アテンション モジュールを使用して、元のマルチヘッド セルフ アテンションまたはクロス アテンションを置き換えます。
-
元の独立した階層型予測手法は、反復改良型予測手法に置き換えられました。
-
元の Transformer エンコーダ出力から生成された動的クエリは、クエリに関係なく、元の画像コンテンツを置き換えます。
ハイブリッド ブランチ アーキテクチャ
2 セットのクエリを維持しますQ = { q 1 , q 2 , … , qn } \mathbf{Q} = \{\mathbf{q}_{1},\mathbf{q}_{2},\ldots,\ mathbf {q}_{n}\}Q={ q1、q2、…、qん}和Q = { q^1, q^2, ..., q^n} \mathbf{Q} = \{\width{\mathbf{q}}_{1},\width{\mathbf{q }} _{2},\ldots,\width{\mathbf{q}}_{n}\}Q={ q 1、q 2、…、q ん} . 予測結果に対して 1 対 1 または 1 対多のマッチングを使用します。
1 対 1 で一致するブランチ
LLを使用するL Transformer デコーダは、クエリの最初のセットを処理し、各デコーダ層の予測を形成します。予測と GT の間のバイナリ マッチングを使用して、損失を計算します。
L one 2 one = ∑ l = 1 LLH ungarian ( P l , G ) \mathcal{L}_{one2one} = \sum_{l=1}^{L} \mathcal{L}_{ハンガリー語}(\mathbf{P}^{l},\mathbf{G})L1 2 1 _ _ _ _=l = 1∑LLハンガリー人_ _ _ _ _( Pl、G )は、分類損失、 L 1 \mathcal{L}_{1}
を含む、DETR および Deformable DETR と同じ損失関数を使用します。L1損失とGIOUの損失。
1対多のマッチングブランチ
同じ L Transformer レイヤーを使用して 2 番目のクエリ セットを処理し、LLを取得しますLグループの予想。1 対多のマッチングを実現するには、GTKK拡張ターゲットを取得するためにK回 G ^ = { G 1 , G 2 , … , GK } \widehat{\mathbf{G}} = \{\mathbf{G}^{1},\mathbf{G}^ { 2},\ldots,\mathbf{G}^{K}\}G
={
G1、G2、…、GK },G 1 = G 2 = … = GK = G \mathbf{G}^{1}=\mathbf{G}^{2}=\ldots=\mathbf{G}^{K}=\mathbf{ G}G1=G2=…=GK=G._ _ ここでは、二部マッチング予測と拡張ターゲットも使用されます。
L one 2 many = ∑ l = 1 LLH ungarian ( P ^ l , G ^ ) \mathcal{L}_{one2many} = \sum_{l=1}^{L}\mathcal{L}_{ハンガリアン}( \ワイドハット{\mathbf{P}}^{l},\ワイドハット{\mathbf{G}})L2人の男_ _=l = 1∑LLハンガリー人_ _ _ _ _(P
l、G
)
トレーニング プロセス全体で2 つの損失 λ L one 2 many + L one 2 one \lambda\mathcal{L}_{one2many}+\mathcal{L}_{one2one} の組み合わせを使用しますλL _2人の男_ _+L1 2 1 _ _ _ _。
その他の組み合わせバリエーション
ハイブリッド トレーニング サイクル フレームワーク
ハイブリッド エポック スキーム。主な変更点は、異なるトレーニング サイクル中に異なる戦略を使用することです。
1対多のマッチングトレーニングサイクル
初期ρ \rhoではρトレーニング サイクル。LLを処理するために 1 対多のマッチング戦略を使用します。L Transformer デコーダ層LLグループLの出力も GTG ^ = { G 1 , G 2 , … , GK } \widehat{\mathbf{G}} = \{\mathbf{G}^{1},\mathbf{G }^ を拡張する必要があります。 {2},\ldots,\mathbf{G}^{K}\}G ={ G1、G2、…、GK }. 以前と同じ 1 対多のマッチング戦略を使用します。
1対1のマッチングトレーニングサイクル
残りの( 1 − ρ ) (1-\rho)( 1−ρ )トレーニング サイクルでは、1 対多のマッチングではなく 1 対 1 のマッチングが使用されます。
混合層戦略
ハイブリッドレイヤースキーム。ここでは、さまざまな Transformer デコーダ出力に対してさまざまなペアリング戦略が使用されます: 最初のL 1 L_{1}L1Transformer デコーダ層は 1 対多のマッチングを使用します。L 2 L_{2}が残っていますL2各デコーダ層は 1 対 1 のペアリング戦略を使用します。