画像 追跡 - MOTRv2: 事前トレーニングされたオブジェクトによるエンドツーエンドのマルチオブジェクト追跡のブートストラップ ... (CVPR 2023)

画像追跡 - MOTRv2: 事前トレーニングされたオブジェクト検出器によるエンドツーエンドの複数オブジェクト追跡のブートストラップ - 事前トレーニングされたオブジェクト検出器によるエンドツーエンドのブートストラップ複数オブジェクト追跡 (CVPR 2023)

免責事項: この翻訳は単なる個人的な研究記録です。

記事情報

まとめ

  この論文では、事前トレーニングされたオブジェクト検出器を使用した、ガイド付きのエンドツーエンドのマルチオブジェクト追跡のためのシンプルかつ効果的なパイプラインである MOTRv2 を提案します。MOTR [43] や TrackFormer [20] などの既存のエンドツーエンド手法は、主に検出パフォーマンスが低いため、再追跡攻撃者の検出には劣っています。私たちの目標は、追加の物体検出器をエレガントに組み込むことで MOTR を改善することです。まずクエリのアンカー定式化を採用し、次に追加のオブジェクト検出器を使用してアンカーとして提案を生成し、MOTR の前に検出を提供します。簡単な変更により、MOTR における共同学習検出タスクと関連付けタスク間の競合が大幅に軽減されます。MOTRv2 はクエリの伝播を維持し、大規模なベンチマークで適切に拡張します。MOTRv2 は、第 1 回グループ ダンス マルチプレイヤー トラッキング チャレンジで 1 位にランクされました (DanceTrack で 73.4% の HOTA)。さらに、MOTRv2 は BDD100K データセットで最先端のパフォーマンスを実現します。このシンプルで効果的なパイプラインがエンドツーエンドの MOT コミュニティに新しい洞察を提供できることを願っています。コードは https://github.com/megvii-research/MOTRv2 にあります。

1 はじめに

  Multiple Object Tracking (MOT) は、ストリーミング ビデオ内のすべてのオブジェクトの軌道を予測することを目的としています。これは、検出と関連付けの 2 つの部分に分けることができます。長い間、MOT における最先端のパフォーマンスは、優れた検出パフォーマンスを持ち、さまざまな出現分布に対応できる検出再追跡手法 [4、36、44、45] によって独占されてきました。これらのトラッカー [44] は、まず YOLOX [11] などのオブジェクト検出器を使用して各フレーム内のオブジェクトの位置を特定し、ReID 特徴または IoU マッチングを通じて軌跡を相関させます。これらの手法の優れたパフォーマンスは、検出パフォーマンスに偏りをもたらすデータセットとメトリクスに部分的に起因しています。ただし、DanceTrack データセット [27] によって明らかになったように、複雑な動作ではそれらの関連付け戦略をまだ改善する必要があります。

ここに画像の説明を挿入

図 1. DanceTrack および BDD100K データセットにおける MOTR (灰色のバー) と MOTRv2 (オレンジ色のバー) のパフォーマンスの比較。MOTRv2 は、さまざまなシナリオにおける MOTR のパフォーマンスを大幅に向上させます。

  最近、MOTR [43] は MOT のための完全なエンドツーエンドのフレームワークを導入しました。関連付けプロセスは更新軌跡クエリによって実行され、発生中のオブジェクトは検出クエリによって検出されます。DanceTrack での関連付けのパフォーマンスは印象的ですが、検出結果は、特に MOT17 データセットでの検出再追跡手法ほど良好ではありません。検出パフォーマンスが低いのは、結合検出と関連付けプロセスの間の競合によるものであると考えられます。最先端のトラッカー [6、9、44] は追加の物体検出器を使用する傾向があるため、当然の疑問は、MOTR と追加の物体検出器を組み合わせて検出パフォーマンスを向上させる方法です。直接的なアプローチは、軌跡クエリからの予測と追加のオブジェクト検出器 (TransTrack [28] と同様) の間で IoU マッチングを実行することです。私たちの実践では、MOTR のエンドツーエンド特性には準拠せず、物体検出にわずかな改善しかもたらしません。

  検出結果を入力として受け取る検出再追跡手法にヒントを得て、検出結果を入力として受け取り、関連付けの MOTR 学習を削減できるかどうかを疑問に思います。最近、DETR のアンカーベースのモデリングである程度の進歩が見られました [18、35]。たとえば、DAB-DETR は、位置決めボックスの中心点、高さ、幅を使用してターゲット クエリを初期化します。それらと同様に、MOTR の検出と軌跡クエリの初期化を変更します。MOTR の検出クエリの学習可能な位置埋め込み (PE) をアンカーのサインコサイン PE [30] に置き換え、MOTR 用のアンカーベースのトラッカーが得られます。このアンカーベースのモデリングを使用すると、追加のオブジェクト検出器によって生成された提案が MOTR のアンカー初期化として機能し、ローカル事前分布を提供できます。トランス デコーダはアンカーの相対オフセットを予測するために使用され、これにより検出タスクの最適化が容易になります。

ここに画像の説明を挿入

図 2. MOTRv2 の全体的なアーキテクチャ。最先端の検出器 YOLOX [11] によって生成された提案は、MOTR [43] で初期の物体を検出するために使用される検出クエリを置き換える提案クエリの生成に使用されます。軌跡クエリは前のフレームから転送され、追跡されたオブジェクトの境界ボックスを予測するために使用されます。画像特徴とともに提案クエリと軌跡クエリを連結したものが MOTR に入力され、フレームごとに予測が生成されます。

  オリジナルの MOTR と比較して、提案された MOTRv2 には多くの利点があります。追加の物体検出器によってもたらされる優れた検出パフォーマンスの恩恵を大きく受けます。検出タスクは MOTR フレームワークから暗黙的に切り離され、共有トランスフォーマー デコーダー内の検出タスクと関連付けタスク間の競合が軽減されます。MOTRv2 は、追加の検出器からの検出結果が与えられた場合に、フレーム全体でインスタンスを追跡することを学習します。

  オリジナルの MOTR と比較して、MOTRv2 は、DanceTrack、BDD100K、MOT17 データセットのパフォーマンスが大幅に向上しています (図 1 を参照)。DanceTrack データセットでは、MOTRv2 は検出ピアを大幅に上回り (OC-SORT [6] と比較して HOTA が 14.8%)、AssA メトリクスは 2 番目に優れた方法を 18.8% 上回っています。大規模なマルチクラス BDD100K データセット [42] では、43.6% の mMOTA を達成しました。これは、以前の最良のソリューションである Unicorn [41] より 2.4% 優れています。MOTRv2 は、MOT17 データセットでも最先端のパフォーマンスを実現します [15、21]。私たちのシンプルでエレガントなデザインが、将来のエンドツーエンドのマルチオブジェクト追跡研究の強力なベースラインとして機能することを願っています。

2.関連作品

  を検出して追跡します主な方法 [6、44] は主に検出-再追跡パイプラインに従います。オブジェクト検出器はまず各フレームのオブジェクト境界ボックスを予測し、次に別のアルゴリズムを使用して隣接するフレーム間のインスタンス境界ボックスを関連付けます。これらの方法のパフォーマンスは、物体検出の品質に大きく依存します。

  ハンガリーのアルゴリズム [14] を使用した関連付けのさまざまな試みがあります。 SORT [4] は、追跡された各インスタンスにカルマン フィルター [37] を適用し、カルマン フィルターの予測ボックスと検出ボックスの間の交差和集合比 (IoU) を使用します。マッチングのための行列。Deep SORT [38] は、インスタンスの外観特徴を抽出するために別のネットワークを導入し、SORT の上でペアワイズ コサイン距離を使用します。JDE [36]、Track-RCNN [25]、FairMOT [45]、および Unicorn [41] は、オブジェクト検出と外観埋め込みの共同トレーニングをさらに検討しました。ByteTrack [44] は、強力な YOLOX ベースの [11] 検出器を活用して、最先端のパフォーマンスを実現します。高スコア検出ボックスだけでなく、低スコア検出ボックスを関連付ける拡張 SORT アルゴリズムが導入されています。BoT-SORT [1] はさらに、より優れたカルマン フィルター状態、カメラの動き補償、および ReID 機能の融合を設計します。TransMOT [9] と GTR [48] は、特徴の相互作用や履歴情報の集約などの割り当て行列を計算するときに時空間変換器を使用します。OC-SORT [6] は、線形運動の仮定を緩和し、学習可能な運動モデルを使用します。

  私たちの方法は堅牢な検出器の恩恵も受けていますが、類似度行列を計算する代わりに、アンカーを使用した軌跡クエリを使用して動きと外観を共同でモデル化します。

  クエリの伝播によって追跡されますMOT の別のパラダイムは、クエリベースのオブジェクト検出器 [7、29、49] を追跡まで拡張します。これらのメソッドでは、各クエリが別のフレームで同じインスタンスを呼び出すように強制されます。クエリと画像特徴間の対話は、時間内に並列または直列に実行できます。

  並列アプローチでは、短いビデオを入力として受け取り、一連のクエリを使用してすべてのフレームと対話して、インスタンスの軌跡を予測します。VisTR [34] とその後の研究 [8、40] は、短いビデオ クリップ内の軌跡を検出するために DETR [7] を拡張しました。並列方式ではビデオ全体を入力として必要とするため、メモリを消費し、数十フレームの短いビデオ クリップに制限されます。

  シリアル アプローチでは、画像特徴とのクエリ インタラクションをフレームごとに実行し、インスタンスに関連付けられた軌跡クエリを繰り返し更新します。Trackor++ [2] は、R-CNN [12] 回帰ヘッドを利用して、フレーム間で反復的なインスタンスの再局在化を行います。TrackFormer [20] と MOTR [43] は、Deformable DETR [49] から拡張されています。これらは、オブジェクトの境界ボックスを予測し、軌跡クエリを更新して、後続のフレームで同じインスタンスを検出します。MeMOT [5] は、短期および長期のインスタンス特徴のメモリ バンクを構築して、軌跡クエリを生成します。TransTrack [28] は、軌道クエリを 1 回伝播して、次のフレームでオブジェクトの位置を見つけます。P3AFormer [46] は、フローガイドによる画像特徴伝播を採用しています。MOTR とは異なり、TransTrack と P3AFormer は、ビデオ全体にクエリを伝播するのではなく、履歴トラックと現在の検出で位置ベースのハンガリー語マッチングを引き続き使用します。

  私たちの方法は、長期のエンドツーエンド追跡のためのクエリ伝播方法を継承すると同時に、強力なオブジェクト検出器を活用してオブジェクトの位置事前情報を提供します。提案された方法は、複雑な動きの追跡パフォーマンスの点で、既存のマッチングおよびクエリベースの方法を大幅に上回ります。

3. 方法

  ここでは、プロポーザル クエリの生成 (セクション 3.4) とプロポーザルの伝播 (セクション 3.5) に基づいた MOTRv2 を紹介します。

3.1 改訂された MOTR

  MOTR [43] は、変形可能な DETR [49] アーキテクチャに基づいた、完全にエンドツーエンドのマルチオブジェクト追跡フレームワークです。軌跡クエリとターゲット クエリが導入されました。オブジェクト クエリは、初期のオブジェクトや失われたオブジェクトを検出する役割を果たしますが、各軌跡クエリは、時間の経過とともに一意のインスタンスを追跡する役割を果たします。軌跡クエリを初期化するために、MOTR は新しく検出されたオブジェクトに関連付けられたオブジェクト クエリの出力を使用します。追跡クエリは、状態と現在の画像の特徴に基づいて時間の経過とともに更新されるため、オンライン形式で追跡を予測できます。

  MOTR のトラックレット対応ラベル割り当てでは、以前に追跡されたインスタンスに軌跡クエリを割り当て、バイナリ マッチングを介して残りのインスタンスにターゲット クエリを割り当てます。MOTR は、軌跡クエリの機能を強化するために時間集約ネットワークを導入し、フレーム間の損失のバランスをとるために集合平均損失を導入します。

3.2 動機

  エンドツーエンドのマルチオブジェクト追跡フレームワークの主な制限は、独立したオブジェクト検出器に依存する検出再追跡方法 [6、44] と比較して検出パフォーマンスが低いことです。この制限に対処するために、YOLOX [11] オブジェクト検出器を組み込んでオブジェクト アンカーとして提案を生成し、MOTR の前に検出を提供することを提案します。これにより、MOTR における共同学習検出と関連付けタスク間の競合が大幅に軽減され、検出パフォーマンスが向上します。

3.3 全体的なアーキテクチャ

  図 2 に示すように、提案されている MOTRv2 アーキテクチャは、最先端の物体検出器と改良されたアンカーベースの MOTR トラッカーという 2 つの主要コンポーネントで構成されています。

  オブジェクト検出コンポーネントは、まずトレーニングと推論のための提案を生成します。YOLOX はフレームごとに、中心座標、幅、高さ、信頼度の値を含む一連の提案を生成します。修正されたアンカーベースの MOTR コンポーネントは、生成された提案に基づいて軌道の関連付けを学習します。セクション 3.4 では、元の MOTR フレームワークにおける検出クエリの提案クエリへの置き換えについて説明します。修正された MOTR は、軌跡クエリと提案クエリの連結を入力として受け取るようになりました。セクション 3.5 では、追跡されたオブジェクトの境界ボックスを更新するための結合クエリとフレーム機能の間の相互作用について説明します。

3.4 プロポーザルクエリの生成

  このセクションでは、提案クエリ生成モジュールが YOLOX からの高品質の提案を MOTR に提供する方法について説明します。このモジュールへの入力は、ビデオのフレームごとに YOLOX によって生成された一連の提案ボックスです。オブジェクト検出に固定数の学習可能なクエリを使用する DETR [7] や MOTR とは異なり、私たちのフレームワークは、YOLOX によって生成された選択された提案に基づいて、提案クエリの数を動的に決定します。

  具体的には、フレーム t に対して、YOLOX はN t N_tを生成します。N提案。それぞれは中心座標( xt , yt ) (x_t,y_t)で構成されます。( ×y)、高さht h_th、幅wt w_twと信頼スコアst s_tsの境界ボックス表現。図 3 のオレンジ色の部分に示すように、共有クエリqs q_sを導入します。qs一連の提案クエリを生成します。共有クエリのサイズは1×D 1×D1×Dの学習可能な埋め込み。最初にサイズNt×D N_t×DN×DN t N_tN提案箱の予測スコアst s_tsサイズN t × D N_t × Dのサインコサイン位置エンコーディングによって生成N×D のスコアの埋め込み。次に、ブロードキャストされたクエリがスコア埋め込みと合計されて、提案クエリが生成されます。YOLOX 提案ボックスは、提案クエリのアンカーとして機能します。実際には、10 個の学習可能なアンカー (DAB-DETR [18] と同様) を使用し、それらを YOLOX 提案と連結して、YOLOX 検出器が見逃したオブジェクトを呼び出します。

ここに画像の説明を挿入

図 3. 追跡のための提案クエリの生成と提案の伝播。プロポーザル クエリの生成はオレンジ色でマークされ、プロポーザルの伝播パスは青でマークされ、灰色の点線のボックスは N 個のトランスフォーマ デコーダを表します。簡単にするために、MOTR のクエリ対話モジュールは省略されています。

3.5 提案の普及

  MOTR [43] では、軌道クエリと検出クエリが連結され、物体検出と軌道関連付けを同時に行うために変換デコーダに入力されます。前のフレームから生成された軌跡クエリは追跡されたオブジェクトを表し、現在のフレームの境界ボックスを予測するために使用されます。検出クエリは、初期のオブジェクトを検出するための学習可能な埋め込みの固定セットです。MOTR とは異なり、私たちの方法は提案クエリを使用して初期のオブジェクトを検出し、軌道クエリの予測は以前のフレーム予測に基づいています。

  最初のフレーム( t = 0 ) (t=0)( t=0 ) の場合、YOLOX によって検出される初期のオブジェクトのみが存在します。前述したように、YOLOX 提案の共有クエリqs q_sqs予測されたスコアを考慮して提案クエリが生成されます。YOLOX の提案P 0 P_0P0位置エンコード後、提案クエリはセルフ アテンションを介してさらに更新され、変形可能なアテンションを介して画像特徴と相互作用して、軌跡クエリqtr , 0 q_{tr,0}を生成します。qt r , 0と YOLOX 提案P 0 P_0P0( ∆ x , ∆ y , ∆ w , ∆ h )の相対オフセット(∆x,∆y,∆w,∆h)( Δ x ,Δy _Δw _Δh ) _ Y^0 \hat{Y}_0 を予測しますY^0提案はP 0 P_0ですP0と予測されたオフセットの合計。

  その他のフレームの場合( t > 0 ) (t>0)( t>0 ) 、MOTR と同様に、前のフレームで生成された軌道からqtr , t − 1 q_{tr,t−1} をqt r t 1現在のフレーム q_{p,t} の提案を使用して qp , t をクエリしますqp t接続する。前のフレームのボックス予測Y ^ t − 1 \hat{Y}_{t−1}Y^t 1YOLOX の提案にも対応しますP t P_tP現在のフレームのアンカーとして機能するように連結されます。アンカーのサインコサイン符号化は、連結クエリの位置埋め込みとして使用され、その後、変換デコーダに入力されて、予測および更新された軌跡クエリが生成されます。境界ボックス予測は、信頼スコアとアンカーの相対オフセット、および更新された軌跡クエリqtr 、 t q_{tr,t}で構成されます。qt r t追尾された物体を検出するために、さらに次のフレームに転送されます。

ここに画像の説明を挿入

図 4. (a) シーケンス「dancetrack0005」のフレーム 100 上の YOLOX プロポーザル (太字ボックス) と高度に重複する MOTR トラック クエリ ボックス予測 (茶色のボックス) の視覚化、および (b) プロポーザル クエリと同じインスタンスの対応する軌跡クエリ。

  分析上記の設計では、提案クエリは初期のオブジェクトまたは紛失したオブジェクトの検出のみに制限されており、一方、軌道クエリは追跡されたオブジェクトの再位置特定を担当します。プロポーザル クエリでは、追跡されたオブジェクトが繰り返し検出されるのを避けるために、トラジェクトリ クエリからの情報を集約する必要があります。また、トラジェクトリ クエリは YOLOX プロポーザルを利用してオブジェクトのローカリゼーションを向上させることができます。これは、トランスフォーマー デコーダーのセルフ アテンション レイヤーによって実現されます。提案クエリと軌跡クエリの間の相互作用をよりよく理解するために、図 4 のクエリ セルフ アテンション グラフを視覚化します。同じ例では、提案クエリと対応する軌跡クエリの類似性が高く、それらの間で明確な情報交換が行われており、これにより仮説が検証されます。

4. 実験

4.1 データセットと指標

データセットDanceTrack [27]、MOT17 [15、21]、BDD100K [42] データセットを使用してメソッドを評価します。

  DanceTrack [27] は、ダンス シーンにおける複数の人物を追跡するための大規模なデータセットです。均一な外観と多様なモーションを備えているため、フレーム間でインスタンスを関連付けることが困難です。DanceTrack には 100 のビデオが含まれています。そのうち 40 はトレーニング用、25 は検証用、35 はテスト用です。動画の平均長さは 52.9 秒です。

  MOT17 [15、21] は、トレーニング用の 7 つのシーケンスとテスト用の 7 つのシーケンスを含む、広く使用されているデータセットです。主に、歩行者の単純で直線的な動きを伴う、比較的混雑した街路シーンが含まれています。

  BDD100K [42] は自動運転シナリオ用のデータセットです。これには、トレーニング用の 1400 シーケンスと検証用の 200 シーケンスを含むマルチオブジェクト追跡サブセットが含まれています。シーケンスの長さは約 40 秒、対象クラスの数は 8 です。これを使用して、マルチクラスのマルチオブジェクト追跡パフォーマンスをテストします。

インジケーター我々は、複数物体追跡のための高次のメトリック(高次追跡精度; HOTA)[19]を使用して方法を評価し、検出精度(DetA)と関連付け精度(AssA)に分解された寄与を分析します。MOT17 および BDD100K データセットについては、MOTA [3] および IDF1 [23] メトリクスをリストします。

4.2 実装の詳細

提案が生成されましたYOLOX [11] 検出器と、ByteTrack [44] および DanceTrack [27] によって提供される重みを使用して、オブジェクトの提案を生成します。入力画像サイズなどのハイパーパラメータは ByteTrack と一致します。提案の再現率を最大化するために、信頼スコアが 0.05 を超えるすべての YOLOX 予測ボックスを提案として保持します。DanceTrack [27] の場合、DanceTrack 公式 GitHub リポジトリ (https://github.com/DanceTrack/DanceTrack) の YOLOX 重みを使用します。CrowdHuman [24] と MOT17 については、ByteTrack [44] の MOT17 テスト セットからの公開重みを使用します。これら 2 つのデータセットでは YOLOX をトレーニングしませんが、MOTR をトレーニングする前にすべての画像の提案を生成するためにのみ使用します。BDD100K [42] の場合、その MOT セットをトレーニング用の 100k 画像セットと一緒に使用します。YOLOX 検出器は、8 つの Tesla V100 GPU で 16 エポックに対してトレーニングされました。他のトレーニング ハイパーパラメーターについては ByteTrack [44] に従います。

モーター私たちの実装は、機能抽出のための ResNet50 [13] バックボーンを備えた公式リポジトリ (https://github.com/megvii-research/MOTR) に基づいています。すべての MOTR モデルは、GPU あたり 1 のバッチ サイズで 8 GPU でトレーニングされます。DanceTrack [27] では、YOLOX [11] に従い、MOTR をトレーニングするために HSV オーグメンテーションを採用します。トレーニング中にグラウンド トゥルースの軌跡と一致する軌跡クエリを伝播する元の実装とは対照的に、0.5 より高い信頼性スコアで軌跡クエリを伝播します。これにより、当然のことながら、偽陽性 (FP; スコアは高いが、軌跡の欠落などのインスタンスはありません) と偽が生成されます。推論中の FP および FN の処理を​​強化するための負の (FN; 未検出インスタンス) 軌跡クエリ。このように、MOTR に従ってネガティブな軌跡クエリを手動で挿入したり、ポジティブな軌跡クエリを削除したりすることはありません。つまり、pdrop = 0 p_{drop} = 0pドロップ_ _=0ピンインサート = 0 p_{挿入}=0p_ _=0アブレーション研究と最先端の比較モデルを、固定クリップ サイズ 5 で 5 エポックに対してトレーニングします。クリップ内のフレームのサンプリング ステップは 1 ~ 10 からランダムに選択されます。初期学習率2 × 1 0 − 4 2×10^{−4}2×1 04 は、第 4 エポックでは 10 分の 1 に減少しました。MOT17 [15、21] では、トレーニング エポックの数が 50 に減り、学習率は 40 エポックで低下します。BDD100K [42] の場合、クリップ サイズ 4、ランダム サンプリング ステップ 1 から 4 で 2.5 エポックをトレーニングします。学習率は 2 番目のエポックの終わりに低下します。マルチクラス MOT の拡張のために、各 YOLOX 提案にはクラス ラベルも含まれており、クラスごとに異なる学習可能な埋め込み (共有クエリ) を使用します。その他の設定は変更しません。

表 1. DanceTrack [27] テスト セットでの最先端の手法とのパフォーマンスの比較。既存の方法の結果は、DanceTrack [27] からのものです。MOTRv2* は、トレーニング セットとテスト セットの両方に検証セットを追加する追加の関連付けを持つ MOTRv2 を示します。

ここに画像の説明を挿入

CrowdHuman との共同トレーニング検出パフォーマンスを向上させるために、多数の静的な CrowdHuman 画像も利用します。DanceTrack データセットについては、MOTR における MOT17 と CrowdHuman の共同トレーニングと同様に、Crowdhum 用の疑似ビデオ クリップを生成し、DanceTracks と共同トレーニングします。疑似ビデオ クリップの長さも 5 に設定されます。共同トレーニングには、DanceTrack [27] データセットのトレーニング セットからの 41796 個のサンプルと、CrowdHuman [24] データセットのトレーニング セットと検証セットからの 19370 個のサンプルを使用します。MOT17 データセットの場合、CrowdHuman 検証セットと MOT17 トレーニング セットを連結する MOTR の元の設定を維持します。

表 2. BDD100K [42] MOT 検証セットでの最先端の手法とのパフォーマンスの比較。MOTR* は、YOLOX プロポーザルを使用しない MOTRv2 を指します。

ここに画像の説明を挿入

4.3 DanceTrackの現状比較

  MOTRv2 を DanceTrack [27] テスト セットの最先端のメソッドと比較し、結果を表 1 に示します。追加機能なしで、私たちのメソッドは 69.9 の HOTA を達成し、すべての高次メトリクスで最高のパフォーマンスを示し、他の最先端のメソッドを大幅に上回ります。ByteTrack [44] や OC-SORT [6] などのマッチングベースの方法と比較して、私たちの方法はより優れた関連付け精度 (59.0% 対 38.3%) を示し、同時に適切な検出精度 (83.0 % 対 80.3%) も達成しています。MOTRv2 は 69.9% の高次追跡精度 (HOTA) を達成し、これは以前の最良の方法より 14.8% 高くなります。IDF1 メトリクスにおける以前の方法と MOTRv2 の間の大きなギャップも、複雑な動きにおける私たちの方法の優位性を示しています。より良いパフォーマンスを実現するために、後処理で追加の関連付けを適用します。つまり、1 つのトラックのみが存在し、別のトラックが 20 ~ 100 フレーム以内に表示される場合、それらは同じインスタンスのトラックであると見なされます。関連を追加し、トレーニング用の検証セットを追加し、4 つのモデルのアンサンブルを使用することで、DanceTrack テスト セットで 73.4% の HOTA をさらに達成しました。

4.4 BDD100Kの最新技術の比較

  表 2 は、BDD100k [42] 追跡検証セットの結果を示しています。MOTRv2 は、すべての方法の中で最も高い mMOTA と mIDF1 を達成しました。公正な比較のために、MOTR* として示される、共同トレーニングとボックス伝播用の 100k 画像セットを MOTR に装備します。YOLOX スキームを使用することにより、MOTRv2 は MOTR* よりも 8.1% mMOTA および 8.3% mIDF1 が高く、YOLOX 提案がマルチクラス検出および追跡パフォーマンスを大幅に向上させることを示しています。他の最先端の方法と比較すると、MOTRv2 は最高のトラッカーである Unicorn を mMOTA 2.4% および mIDF1 1.1% 上回っています。mMOTA と mIDF1 (すべてのクラスの平均) が高いほど、MOTRv2 がマルチクラス シナリオをより適切に処理することを示します。全体的な MOTA (-1.0%) と IDF1 (+1.4%) の差は、この方法の方が相対的に優れていることを示しています。

4.5 MOTChallengeの比較

  さらに、MOT17 [15、21] および MOT20 [10] データセットで MOTRv2 のパフォーマンスを最先端の手法と比較します。表3にMOT17との比較を示します。YOLOX 提案の導入により、元の MOTR [43] と比較して、検出 (DetA) と関連付け (AssA) の精度がそれぞれ 3.5% と 4.9% 一貫して向上しました。提案された方法は、混雑したシーンにおけるクエリベースのトラッカーのパフォーマンスを最先端の水準にまで高めます。残りのパフォーマンス ギャップは、MOT17 データセットのサイズが小さい (合計 215 秒) ことが原因であると考えられますが、このサイズではクエリベースのトラッカーをトレーニングするには不十分です。表 4 は、MOT20 [10] データセットに関する結果を示しています。私たちの方法と ByteTrack [44] の間のパフォーマンスのギャップは、特に AssA メトリックに関して、MOT17 での共同トレーニングによって狭めることができます。これは、MOT チャレンジのパフォーマンスが低いのは、実際のビデオのサイズが小さいことが原因である可能性が高いことも示唆しています。

表 3. MOT17 データセットの既存の手法との比較。

ここに画像の説明を挿入

表 4. MOT20 テスト セットの既存の方法との比較。

ここに画像の説明を挿入

4.6 アブレーション研究

  このセクションでは、YOLOX 提案、提案の伝播、CrowdHuman の共同トレーニングなど、メソッドのいくつかのコンポーネントを検討します。表 5 は、DanceTrack 検証セットとテスト セットに対するコンポーネントの影響をまとめたものです。改善は 2 つのグループ間で一貫していました。

表 5. DanceTrack の累積的な改善の概要。

ここに画像の説明を挿入

表 6. DanceTrack 検証セットでの CrowdHuman と YOLOX 提案に関する共同トレーニングのためのアブレーション研究。

ここに画像の説明を挿入

YOLOXの提案YOLOX プロポーザルを使用する利点をさらに深く調べるために、CrowdHuman 共同トレーニングを使用した場合と使用しない場合の 2 つのシナリオで YOLOX プロポーザルの効果をテストしました。表 6 は、YOLOX 予測をプロポーザル クエリとして使用すると、CrowdHuman データセットの有無にかかわらず、3 つの指標 (HOTA、DetA、および AssA) すべてが一貫して改善されることを示しています。CrowdHuman データセットを使用して共同トレーニングすると、YOLOX 提案により関連付け精度 (AssA) が 9.3% 大幅に向上します。事前トレーニングされたオブジェクト検出器 YOLOX を単独で使用すると、CrowdHuman データセットを使用した共同トレーニングよりも優れたパフォーマンスを発揮します (HOTA 56.7 対 60.7)。

  YOLOX スキームと CrowdHuman の両方を使用した共同トレーニングにより、予想どおり検出精度が向上しました。しかし、AssA の 5.6% の低下が示すように、CrowdHuman の偽ビデオの使用は協会のトレーニングに悪影響を及ぼしているようです。これは、2 つのデータセット間のギャップによって引き起こされる可能性があります。CrowdHuman の疑似ビデオは、より困難な検出を処理するために学習可能な検出クエリを有効にする方向にトレーニングにバイアスをかけており、アフィン変換によって作成された疑似ビデオの人間の動きは、DanceTrack の異なる動きと同等です。YOLOX 提案を使用すると、CrowdHuman の共同トレーニングが容易になることは注目に値します。YOLOX 提案を使用した私たちのアプローチにより、MOTR の検出が容易になり、それによって検出に対するバイアスや、検出タスクと関連付けタスクの間の矛盾が軽減されます。したがって、YOLOX の提案により、CrowdHuman との共同トレーニングにより、追跡パフォーマンスを損なうのではなく、さらに向上させることができます。

提案の配布ここでは、現在のフレームから次のフレームに提案 (中心点、幅、高さ) を伝播する効果を示します。比較のベースラインは、MOTR [43] および TransTrack [28] で適用される基準点の伝播です。これは、前のフレームの中心点のみがクエリ参照点として使用されることを意味します。さらに、クエリの学習可能な位置の埋め込みをアンカー (または参照点) のサインコサイン位置エンコードに置き換えた場合の効果を調査します。表 7 から、中心点の代わりに 4D 提案 (ボックス) を伝播すると、関連付けのパフォーマンスが向上することが簡単にわかります。これは、MOTRv2 がインスタンスの関連付けに使用される前のフレームの境界ボックス予測からの幅と高さの情報を活用していることを示しています。対照的に、sin-cos 位置エンコーディングは、変形可能な DETR の学習可能な位置埋め込みを使用した元の設計と比較して、関連付けにほとんど役立ちません [49]。したがって、ポイントの代わりにアンカー ボックスを使用することは、YOLOX 検出結果を導入するために重要であるだけでなく、MOTR デコーダーに位置情報を提供するのにも十分です。

表 7. 伝播アンカー対中心点、および学習可能対 sin-cos 位置エンコーディングのアブレーション研究。

ここに画像の説明を挿入

表 8. YOLOX 提案の信頼スコアを使用した効果と信頼スコアをエンコードするさまざまな方法。

ここに画像の説明を挿入

スコアのエンコードセクション 3.4 で説明したように、提案クエリは 2 つの部分の合計です:(1)信頼スコアのエンコード、(2)共有学習可能なクエリの埋め込み。YOLOX 提案の信頼スコアをエンコードする 2 つの方法、線形投影とサインコサイン位置エンコードを調査します。線形投影の場合、サイズ 1×D の単純な重み行列を使用して、分数スカラーを D 次元の分数埋め込みに拡張します。さらに、信頼スコアをまったく使用せず、提案クエリを埋め込んだ共有クエリのみを使用してテストします。表 8 は、スコア埋め込みを使用しない場合のパフォーマンスが最悪であることを示しており、信頼スコアが MOTR に重要な情報を提供することを意味しています。また、学習可能な埋め込みと sin-cos エンコーディングはどちらも適切に機能し、関連付けには sin-cos エンコーディングを使用する方が効果的です。

クエリのノイズ除去トレーニングでの高速収束のために、DanceTrack と MOT17 の補助タスクとしてクエリ デノイズ [16] (QD) を導入します。表 9 は、デフォルトのノイズ レベル (0.4) を使用したクエリのノイズ除去がアソシエーションのパフォーマンスに悪影響を及ぼすことを示しています。通常、アーティファクトの規模はインスタンスのフレーム間の動きに比べて大きいため、これは検出と追跡の間のギャップによるものであると考えられます。私たちが選択したノイズ範囲により、DetA が 2.1% 改善されます。クエリのノイズ除去により検出パフォーマンスが向上し、HOTA メトリクスがさらに 0.8% 向上します。

表 9. DanceTrack 検証セットに対するクエリのノイズ除去の影響。ノイズスケールλ 1 λ_11λ 2 λ_22の定義は DN-DETR [16] に従います。

ここに画像の説明を挿入

表 10. MOT17 valhalf に対する軌跡クエリ アライメントの影響。

ここに画像の説明を挿入

クエリの調整を追跡します群衆シーンでの YOLOX の正確なオブジェクト検出を最大限に活用するために、特に MOT17 [15、21] および MOT20 [10] データセットで MOTRv2 を強化するための軌跡クエリ アライメントをさらに導入します。まず、MOTR 予測ボックスと YOLOX 提案の間の Intersection over Union (IoU) 行列を計算します。次に、IoU 行列に対してハンガリー マッチングを実行して最適なマッチング ペアを見つけ、IoU が 0.5 を超えるすべてのマッチング ペアのボックスを保持します。その後、3 つの独立したアライメント戦略を提案します。一致した YOLOX ボックスは、(1) このフレームの MOTR ボックス予測と、(2) 次のフレームで対応するインスタンスを検出するための軌跡クエリ アンカーを置き換えることができます。さらに、(3) 不一致の MOTR 予測は偽陽性の可能性があるため、予測から削除できます。図 5 は、これらの位置合わせの効果を示しています。これらの位置合わせはアンカーまたは予測ボックスにのみ適用され、クエリ埋め込みの伝播は変更されないことに注意してください。これにより、メソッドのエンドツーエンドの性質が維持されます。

  私たちは、MOT17 で 3 つのメソッドすべてをテストし、各トレーニング シーケンスの前半をトレーニングに使用し、残りを検証に使用しました。すべてのアライメントはトレーニング中に適用され、アライメントされたメソッドのアブレーション スタディは推論中に実行されます。結果を表10に示す。3 つの方法の中で、アライメント アンカーは、単独で使用すると MOTA を 8.4%、IDF1 を 3.9% 向上させることができるため、検出と追跡のパフォーマンスに最も有益です (行 1 と 3)。アンカーを対応する YOLOX スキームに合わせて配置すると、アンカーの伝播中の位置推定エラーの蓄積が軽減され、それによって検出と関連付けの精度が向上します (図 5(a) を参照)。どの YOLOX ボックスにも一致しない MOTR 予測を削除すると、すべての設定での検出パフォーマンスが向上します。アンカーの配置に加えて、MOTA がさらに 2.0% 改善されます (行 2 対 4) (図 5(b) を参照)。最後に、フレームごとの予測アライメントは、MOTA と IDF1 をさらに改善するために使用できる直感的な方法として機能します。

ここに画像の説明を挿入

図 5. 軌跡クエリの位置合わせの図: (a) 不正確な MOTR 位置特定は、対応する YOLOX 提案ボックスに置き換えられ、アンカーの予測と位置特定が向上します; (b) 誤検出と反復軌跡クエリ。

5. ディスカッション

  本稿では、MOTR トラッカーと YOLOX 検出器を完全に組み合わせた MOTRv2 を提案します。YOLOX は高品質のオブジェクト提案を生成し、MOTR が新しいオブジェクトをより簡単に検出できるようにします。これにより、物体検出の複雑さが軽減され、MOTR は関連付けプロセスに集中できるようになります。MOTRv2 は、エンドツーエンド フレームワークは高パフォーマンス MOT には適さないという一般的な認識を打ち破り、以前のエンドツーエンド MOT フレームワークが失敗する理由を説明します。これがコミュニティにエンドツーエンドの MOT に関する新しい洞察を提供できることを願っています。

制限事項 MOTR の最適化問題は YOLOX スキームを使用することで大幅に軽減されますが、提案された方法は依然としてデータを大量に消費し、小さなデータセットでは十分なパフォーマンスを発揮しません。さらに、たとえば 2 人の人物がすれ違うときなど、軌跡のクエリがいくつか繰り返されることが観察されます。この場合、1 つの軌跡クエリが間違った対象をたどる可能性があり、その結果、同じ人物に対する 2 つの軌跡クエリが生成される可能性があります (図 5(b) を参照)。この観察は、将来の改善の可能性に対する貴重なヒントとして役立ちます。もう 1 つの制限は効率です。ボトルネックは主に MOTR [43] 部分に起因します。定量的には、YOLOX [11] 検出器は 2080Ti 上で 25 FPS で動作しますが、MOTR は 9.5 FPS で動作します。これら 2 つのコンポーネントを追加すると、6.9 FPS の速度が得られます。

参考文献

[1] ニル・アハロン、ロイ・オーフェイグ、ベン=ザイオン・ボブロフスキー。ボットソート: 複数の歩行者を追跡する堅牢な関連付け。arXiv プレプリント arXiv:2206.14651、2022. 2、6
[2] Philipp Bergmann、Tim Meinhardt、Laura Leal-Taixe。付加機能なしの追跡。ICCV にて、2019 年 3、6
[3] Keni Bernardin と Rainer Stiefelhagen。複数のオブジェクト追跡パフォーマンスの評価: 明確な mot メトリクス。EURASIP Journal on Image and Video Processing、2008:1–10、2008. 5
[4] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos、Ben Upcroft。シンプルなオンラインおよびリアルタイム追跡。ICIP にて、2016.1、2
[5] Jiarui Cai、Mingze Xu、Wei Li、Yuanjun Xiong、Wei Xia、Zhuowen Tu、Stefano Soatto。Memot: メモリを使用したマルチオブジェクト追跡。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、8090 ~ 8100 ページ、2022 年。3 [
6] Jinkun Cao、Xinshuo Weng、Rawal Khirodkar、Jiangmiao Pang、および Kris Kidani。観察中心のソート: 堅牢な複数オブジェクト追跡のためにソートを再考します。arXiv プレプリント arXiv:2203.14360、2022。1、2、3、5、6
[7] Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov、および Sergey Zagoruyko。トランスフォーマーを使用したエンドツーエンドの物体検出。ECCV、2020 年。3
[8] Bowen Cheng、Ishan Misra、Alexander G. Schwing、Alexander Kirillov、および Rohit Girdhar。ユニバーサル画像セグメンテーションのためのマスクされたアテンションのマスク トランスフォーマー。CVPR にて、2022.3
[9] Peng Chu、Jiang Wang、Quanzeng You、Haibin Ling、Zicheng Liu。Transmot: 複数のオブジェクト追跡用の時空間グラフ トランスフォーマー。arXiv プレプリント arXiv:2104.00194、2021 年 1、2
[10] パトリック・デンドルファー、ハミッド・レザトフィギ、アントン・ミラン、ジャベン・シー、ダニエル・クレマース、イアン・リード、ステファン・ロス、コンラッド・シンドラー、ローラ・レアル・タイシェ。Mot20: 混雑したシーンでの複数のオブジェクト追跡のベンチマーク。arXiv プレプリント arXiv:2003.09003、2020. 6、8
[11] Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、および Jian Sun。Yolox: 2021 年は yolo シリーズを超える。arXiv プレプリント arXiv:2107.08430、2021. 1、2、3、5、8
[12] ロス・ガーシック、ジェフ・ドナヒュー、トレバー・ダレル、ジテンドラ・マリク。正確なオブジェクト検出とセマンティック セグメンテーションのための豊富な機能階層。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、580 ~ 587 ページ、2014 年。3
[13] Kaiming He、Xiangyu Zhang、Shaoqing Ren、および Jian Sun。画像認識のための深層残差学習。CVPR、2016 年。5
[14] ハロルド W クーン。代入問題のハンガリー法。海軍研究兵站季報、2(1-2):83–97、1955 年。2
[15] Laura Leal-Taixe、Anton Milan、Ian Reid、Stefan Roth、および Konrad Schindler。Motchallenge 2015: マルチターゲット追跡のベンチマークを目指して。arXiv プレプリント arXiv:1504.01942、2015. 2、4、5、6、8
[16] Feng Li、Hao Zhang、Shilong Liu、Jian Guo、Lionel M Ni、および Lei Zhang. Dn-detr: クエリのノイズ除去を導入することで detr トレーニングを加速する. コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録では、ページ 13619–13627、2022. 7、8
[17] Siyuan Li、Martin Danelljan、Henghui Ding、Thomas E Huang、および Fisher Yu. 野生のあらゆるものを追跡. コンピュータ ビジョンに関する欧州会議にて、498 ~ 515 ページ. Springer 、 2022. 6
[18] Shilong Liu、Feng Li、Hao Zhang、Xiao Yang、Xianbiao Qi、Hang Su、Jun Zhu、および Lei Zhang. Dab-detr: 動的アンカー ボックスは detr のより良いクエリです. arXiv プレプリント arXiv:2201.12329 、 2022.2、4
[19] ジョナサン・ルイテン、アジョサ・オセプ、パトリック・デンドルファー、フィリップ・トール、アンドレアス・ガイガー、ローラ・レアル=タイシェ、バスティアン・ライベ。保田: 複数のオブジェクトの追跡を評価するための高次のメトリック。IJCV、129(2):548–578、2021。5
[20] ティム・マインハルト、アレクサンダー・キリロフ、ローラ・レアル=タイシェ、クリストフ・フェイヒテンホーファー。Trackformer: トランスフォーマーを使用したマルチオブジェクト追跡。arXiv プレプリント arXiv:2101.02702、2021. 1、3、6
[21] アントン ミラン、ローラ レアル-タイシェ、イアン リード、ステファン ロス、およびコンラッド シンドラー。Mot16: マルチオブジェクト追跡のベンチマーク。arXiv プレプリント arXiv:1603.00831、2016. 2、4、5、6、8
[22] Jiangmiao Pang、Linlu Qiu、Xia Li、Haofeng Chen、Qi Li、Trevor Darrell、および Fisher Yu。複数のオブジェクト追跡のための準高密度類似性学習。CVPR にて、2021.5、6
[23] エルジス・リスタニ、フランチェスコ・ソレラ、ロジャー・ゾウ、リタ・クッキアラ、カルロ・トマシ。マルチターゲット、マルチカメラ追跡のためのパフォーマンス測定とデータセット。ECCV、2016 年。5
[24] Shuai Shao、Zijian Zhao、Boxun Li、Tete Xiao、Gang Yu、Xiangyu Zhang、および Jian Sun。Crowdhuman: 群衆の中で人間を検出するためのベンチマーク。arXiv プレプリント arXiv:1805.00123、2018. 5
[25] Bing Shuai、Andrew G Berneshawi、Davide Modolo、Joseph Tighe。siamese track-rcnn を使用したマルチオブジェクト追跡。arXiv プレプリント arXiv:2004.07786、2020. 2
[26] Daniel Stadler および Jurgen Beyerer。群衆の中で複数人を追跡するためのあいまいな割り当てをモデル化します。コンピューター ビジョンのアプリケーションに関する IEEE/CVF 冬季会議議事録
、133 ~ 142 ページ、2022 年。6
[27] Peize Sun、Jinkun Cao、Yi Jiang、Zehuan Yuan、Song Bai、Kris Kidani、および Ping Luo. ダンストラック: 均一な外観と多様な動きにおけるマルチオブジェクト トラッキング. arXiv プレプリント arXiv:2111.14690, 2021. 1, 4, 5
[28] Peize Sun、Yi Jiang、Rufeng Zhang、Enze Xie、Jinkun Cao、Xinting Hu、Tao Kong、Zehuan Yuan、Changhu Wang、および Ping Luo. Transtrack: トランストラックを使用した複数オブジェクトの追跡. arXiv プレプリント arXiv: 2012.15460, 2020. 1, 3, 5, 6, 7
[29] Peize Sun、Rufeng Zhang、Yi Jiang、Tao Kong、Chenfeng Xu、Wei Zhan、およびmasa好 富塚. スパース r-cnn: 学習可能なエンドツーエンドのオブジェクト検出提案。arXiv プレプリント arXiv:2011.12450、2020. 3
[30] アシシュ・バスワニ、ノーム・シェイザー、ニキ・パルマー、ヤコブ・ウスコレイト、リオン・ジョーンズ、エイダン・N・ゴメス、ウカシュ・カイザー、イリア・ポロスキン。必要なのは注意力だけです。NeurlPS、2017 年。2
[31] Qiang Wang、Yun Zheng、Pan Pan、および Yinghui Xu。相関学習による複数のオブジェクトの追跡。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、3876 ~ 3886 ページ、2021 年。6
[32] Shuai Wang、Hao Sheng、Yang Zhang、Yubin Wu、および Zhang Xiong。実際のデータを使用しない一般的な反復追跡フレームワーク。コンピューター ビジョンに関する IEEE/CVF 国際会議議事録、13219 ~ 13228 ページ、2021 年。6
[33] Yongxin Wang、Kris Kidani、および Xinshuo Weng. グラフ ニューラル ネットワークを使用した共同オブジェクト検出とマルチオブジェクト追跡. 2021 年 IEEE ロボティクスとオートメーションに関する国際会議 (ICRA)、13708 ~ 13715 ページ. IEEE、2021. 6
[ 34] Yuqing Wang、Zhaoliang Xu、Xinlong Wang、Chunhua Shen、Baoshan Cheng、Hao Shen、および Huaxia Xia. トランスフォーマーによるエンドツーエンドのビデオ インスタンス セグメンテーション. CVPR にて、2021. 3 [35] Yingming Wang、Xiangyu Zhang
、 Tong Yang、Jian Sun. アンカー detr: トランスベース検出器のクエリ設計. arXiv プレプリント arXiv:2109.07107, 2021. 2 [ 36
] Zhongdao Wang、Liang Zheng、Yixuan Liu、Yali Li、および Shengjin Wang. リアルタイムに向けてマルチオブジェクト追跡、ECCV にて、2020 年 1、2
[37] Greg Welch、Gary Bishop 他、カルマン フィルターの紹介、1995 年 2
[38] Nicolai Wojke、Alex Bewley、および Dietrich Paulus. 深い関連性メトリクスによるシンプルなオンラインおよびリアルタイム追跡. ICIP にて、2017. 2 [39] Jialian Wu、Jiale Cao、Liangchen Song、Yu Wang、Ming Yang、および
Junsong Yuan. 検出およびセグメント化するトラック: オンライン マルチオブジェクト トラッカー. CVPR にて、2021. 5, 6
[40] Junfeng Wu、Yi Jiang、Wenqing Zhang、Xiang Bai、および Song Bai. Seqformer: イライラするほどシンプルなビデオ モデルインスタンス セグメンテーション. arXiv プレプリント arXiv:2112.08275, 2021. 3
[41] Bin Yan、Yi Jiang、Peize Sun、Dong Wang、Zehuan Yuan、Ping Luo、および Huchuan Lu. オブジェクト追跡の壮大な統合に向けて. ECCV にて、2022. 2 、6
[42] Fisher Yu、Haofeng Chen、Xin Wang、Wenqi Xian、Yingying Chen、Fangchen Liu、Vashsht Madhavan、Trevor Darrell. Bdd100k: 異種混合マルチタスク学習のための多様な運転データセット. コンピュータ ビジョンとパターン認識に関する IEEE/CVF 会議にて(CVPR)、2020 年 6 月、2、4、5、6
[43] Fangao Zeng、Bin Dong、Yuang Zhang、Tiancai Wang、Xiangyu Zhang、および Yichen Wei.Motr: トランスフォーマーを使用したエンドツーエンドの複数オブジェクト追跡。 European Conference on Computer Vision、659 ~ 675 ページ、Springer、2022 年、1、2、3、4、5、6、7、8 [44] Yifu Zhang、Peize Sun、
Yi Jiang、Dongdong Yu、Zehuan Yuan、Ping Luo 、Wenyu Liu、および Xinggang Wang. バイトトラック: すべての検出ボックスを関連付けることによる複数オブジェクトの追跡. arXiv プレプリント arXiv:2110.06864, 2021. 1, 2, 3, 5, 6
[45] Yifu Zhang、Chunyu Wang、Xinggang Wang、Wenjun Zeng、および Wenyu Liu. Fairmot: 複数のオブジェクト追跡における検出と再識別の公平性について. IJCV、1 ~ 19 ページ、2021. 1、2、5、6
[ [46] Zelin Zhao、Ze Wu、Yueqing Zhuang、Boxun Li、および Jiaya Jia. ピクセル単位の分布としてのオブジェクトの追跡、2022. 3、6 [47] Xingyi Zhou、Vladlen Koltun、および Philipp Krâhenbrèuhl. オブジェクトの
追跡ポイントとして. ECCV において、2020. 5, 6
[48] Xingyi Zhou、Tianwei ying、Vladlen Koltun、および Philipp Krâhenbrèuhl. グローバル トラッキング変圧器. CVPR において、2022. 2 [
49] Xizhou Zhu、Weijie Su、 Lewei Lu、Bin Li、Xiaogang Wang、Jifeng Dai. Deformable detr: エンドツーエンドの物体検出のための変形可能なトランスフォーマー. ICLR にて、2020. 3、7

おすすめ

転載: blog.csdn.net/i6101206007/article/details/132133276