画像追跡 - MOTR: Transformer を使用したエンドツーエンドの複数オブジェクト追跡 (ECCV 2022)

免責事項: この翻訳は単なる個人的な研究記録です。

記事情報

  • 标题:MOTR: Transformer を使用したエンドツーエンドの複数オブジェクト追跡 (ECCV 2022)
  • 著者: Fangao Zeng*、Bin Dong*、Yuang Zhang*、Tiancai Wang、Xiangyu Zhang、Yichen Wei (*均等寄稿、**責任著者)
  • 記事リンク: https://arxiv.org/pdf/2105.03247.pdf
  • 記事コード: https: //github.com/megvii-research/MOTR

まとめ

  オブジェクトの時間モデリングは、複数オブジェクト追跡 (MOT) における重要な課題です。既存の方法は、動きベースおよび外観ベースの類似性ヒューリスティックを介して追跡のための検出を関連付けます。関連付けの後処理の性質により、ビデオ シーケンスの時間的変動をエンドツーエンドで悪用することが防止されます。

  この論文では、DETR [6] を拡張し、ビデオ全体で追跡されるインスタンスをモデル化する「追跡クエリ」を導入する MOTR を提案します。追跡クエリはフレームごとに送信および更新され、時間の経過とともに反復予測を実行します。追跡クエリと初期のターゲット クエリをトレーニングするために、トラックレット対応のラベル割り当てを提案します。さらに、時間的関係モデリングを強化するために、時間的集約ネットワークと集団平均損失を提案します。DanceTrack の実験結果は、MOTR が HOTA メトリックに関して最先端の手法である ByteTrack [42] を 6.5% 大幅に上回ることを示しています。MOT17 では、MOTR は関連付けパフォーマンスの点で同時期の作品 TrackFormer [18] および TransTrack [29] を上回っています。MOTR は、将来の時間モデリングと Transformer ベースのトラッカー研究のための強力なベースラインとして機能します。コードは https://github.com/megvii-research/MOTR にあります。

キーワード: マルチターゲット追跡、トランスフォーマー、エンドツーエンド

1 はじめに

  複数オブジェクト追跡 (MOT) は、連続画像シーケンス内のインスタンスの軌跡を予測します [39、2]。既存の方法のほとんどは、MOT の時間的関連を外観と動きに分割します。外観の分散は通常、ペアごとの Re-ID 類似性 [37, 43] によって測定され、動きは IoU [4] またはモデルへのカルマン フィルタリング [3] ヒューリスティックによって測定されます。これらの方法では、後処理で類似性に基づくマッチングが必要ですが、これがフレーム間の時間情報フローのボトルネックになります。このペーパーでは、関節の動きと外観のモデリングを特徴とする完全なエンドツーエンドの MOT フレームワークを紹介することを目的としています。

  最近、DETR [6, 45] がエンドツーエンドの物体検出のために提案されました。オブジェクト検出をアンサンブル予測問題として定式化します。図 1(a) に示すように、オブジェクトの分離表現であるオブジェクト クエリが Transformer デコーダに供給され、画像の特徴と対話してその表現を更新します。さらに、ターゲット クエリとグランド トゥルース間の 1 対 1 の割り当てを実現するために、2 部マッチングが採用され、NMS のような後処理が不要になります。物体検出とは異なり、MOT はシーケンス予測問題とみなすことができます。エンドツーエンド DETR システムでシーケンス予測を実行する方法は未解決の問題です。

ここに画像の説明を挿入

図 1: (a) DETR は、オブジェクト クエリと画像特徴を相互作用させることでエンドツーエンドの検出を実現し、更新されたクエリとオブジェクトの間で 1 対 1 の割り当てを実行します。(b) MOTR は、軌跡クエリを更新することで一連のシーケンス予測を実行します。各トラック クエリはトラックを表します。カラーで見るのがベスト。

  機械翻訳では反復予測が一般的です [30、31]。出力コンテキストは隠れた状態で表され、文の特徴はデコーダー内で隠れた状態と繰り返し相互作用して、翻訳された単語を予測します。これらの機械翻訳の進歩に触発されて、MOT にはターゲット シーケンスのセットが必要であるため、MOT をシーケンス セットの予測問題として直感的に捉えています。各シーケンスはターゲット軌道に対応します。技術的には、DETR のターゲット クエリを拡張して、ターゲット シーケンスの予測に使用されるクエリを追跡します。軌道クエリは、ターゲット軌道の非表示状態として機能します。図 1(b) に示すように、軌道クエリの表現は Transformer デコーダで更新され、ターゲット軌道を反復的に予測するために使用されます。具体的には、追跡クエリは、フレーム特徴に対するセルフアテンションおよびクロスアテンションを介して更新されます。更新された軌跡クエリは、境界ボックスを予測するためにさらに使用されます。オブジェクトの軌道は、さまざまなフレームでの軌道クエリのすべての予測から取得できます。

  上記の目標を達成するには、2 つの問題を解決する必要があります: 1) 追跡クエリを通じてターゲットを追跡する; 2) 初期および終了したターゲットを処理する。最初の問題に対処するために、トラックレット対応ラベル割り当て (TALA) を導入します。これは、追跡クエリの予測が、同じアイデンティティを持つ一連の境界ボックスによって監視されることを意味します。2 番目の問題に対処するために、可変長の追跡クエリセットを維持します。初期ターゲットに対するクエリはこのセットにマージされますが、終了ターゲットに対するクエリは削除されます。このプロセスを入口と出口のメカニズムと呼びます。このように、MOTR は推論中に明示的な軌道の関連付けを必要としません。さらに、軌跡クエリの反復更新により、外観と動きの時間的モデリングが可能になります。

  時間モデリングを強化するために、集合平均損失 (CAL) と時間集約ネットワーク (TAN) をさらに提案します。CAL を使用して、MOTR はトレーニング中にビデオ クリップを入力として受け取ります。MOTR のパラメータは、ビデオ クリップ全体に対して計算された合計損失に基づいて更新されます。TAN は、クエリを追跡するためのショートカットを導入し、Transformer のキー クエリ メカニズムを通じて以前の状態の履歴情報を集約します。

  MOTR はシンプルなオンライン トラッカーです。ラベルの割り当てを少し変更するだけで、DETR の上に簡単に開発できます。これは、同時の研究である TransTrack [29] や TrackFormer [18] で使用されている NMS や IoU マッチングの追跡などの後処理を必要としない、真のエンドツーエンドの MOT フレームワークです。MOT17 および DanceTrack データセットの実験結果は、MOTR が優れたパフォーマンスを発揮することを示しています。DanceTrack [28] では、MOTR は最先端の ByteTrack [42] よりも HOTA メトリクスと AssA メトリクスでそれぞれ 6.5% と 8.1% 優れています。

要約すると、私たちの貢献は次のとおりです。

  • 私たちは、MOTR という名前の完全なエンドツーエンドの MOT フレームワークを提案します。MOTR は、外観と位置の変化を共同で暗黙的に学習できます。

  • MOT をシーケンスのセットを予測する問題として定式化します。反復的な更新と予測のために、以前の隠れた状態から追跡クエリを生成します。

  • 追跡クエリとターゲット間の 1 対 1 の割り当てのために、トラックレット対応のラベル割り当てを提案します。初期および終了した軌道を処理するために、インアンドアウト メカニズムが導入されています。

  • さらに、時間モデリングを強化するために CAL と TAN を提案します。

2.関連作品

トランスベースのアーキテクチャTransformer [31] は、機械翻訳のために入力シーケンス全体から情報を集約するために初めて導入されました。これには主に自己注意と相互注意のメカニズムが含まれます。それ以来、音声処理 [13、7] やコンピュータ ビジョン [34、5] など、多くの分野に徐々に導入されてきました。最近、DETR [6] は、畳み込みニューラル ネットワーク (CNN)、Transformer、および 2 部マッチングを組み合わせて、エンドツーエンドの物体検出を実行しました。高速収束を達成するために、Deformable DETR [45] は、Transformer エンコーダと Transformer デコーダに変形可能なアテンション モジュールを導入しています。ViT [9] は、画像分類のための純粋な Transformer アーキテクチャを構築します。さらに、Swin-Transformer [16] は、ローカル ウィンドウ内でセルフ アテンションを実行し、効率を高めるシフト ウィンドウ スキームを提案しています。VisTR [36] は、ビデオ インスタンスのセグメンテーションを実行するために、単純なエンドツーエンドの並列シーケンス予測フレームワークを採用しています。

複数のターゲットの追跡主流の MOT 方法は、主に検出および追跡パラダイムに従います [3、12、22、24、39]。これらの方法では通常、最初にオブジェクト検出器を使用して各フレーム内のオブジェクトの位置を特定し、次に隣接するフレーム間で追跡相関を実行して追跡結果を生成します。SORT [3] は、軌道の関連付けのためにカルマン フィルター [38] とハンガリーのアルゴリズム [11] を組み合わせています。DeepSORT [39] と Tracktor [2] は追加のコサイン距離を導入し、トラックの関連付けの外観の類似性を計算します。Track RCNN [26]、JDE [37]、および FairMOT [43] は、共同トレーニング フレームワークのオブジェクト検出器の上に Re-ID ブランチをさらに追加し、オブジェクト検出と Re-ID 特徴学習を組み合わせています。TransMOT [8] は、関連付けのための時空間グラフ変換器を構築します。私たちの同時期の研究である TransTrack [29] と TrackFormer [18] も、MOT 用の Transformer ベースのフレームワークを開発しました。それらとの直接の比較については、セクション 3.7 を参照してください。

反復シーケンス予測エンコーダ/デコーダ アーキテクチャを使用したシーケンス間のシーケンス (seq2seq) 予測は、機械翻訳 [30、31] やテキスト認識 [25] で一般的です。seq2seq フレームワークでは、エンコーダ ネットワークが入力を中間表現にエンコードします。次に、タスク固有のコンテキスト情報を含む隠れた状態が導入され、中間表現と繰り返し対話して、デコーダー ネットワークを通じてターゲット シーケンスを生成します。反復デコード プロセスには複数の反復が含まれます。各反復で、隠れ状態はターゲット シーケンスの 1 つの要素をデコードします。

3. 方法

3.1 オブジェクト検出におけるクエリ

DETR [6] では、オブジェクトを検出するために一連の固定長オブジェクト クエリが導入されています。ターゲット クエリは Transformer デコーダに供給され、Transformer エンコーダから抽出された画像特徴と対話してその表現を更新します。さらに、更新されたターゲット クエリとグランド トゥルースの間の 1 対 1 の割り当てを実現するために、2 部マッチングが使用されます。ここでは、オブジェクトクエリを単純に「検出クエリ」と記述して、オブジェクト検出用のクエリを指定します。

3.2 検出クエリと追跡クエリ

DETR をオブジェクト検出から MOT に適用すると、1) 1 つの追跡クエリを通じてオブジェクトを追跡する方法、2) 初期オブジェクトと終了オブジェクトを処理する方法という 2 つの主な問題が発生します。このペーパーでは、検出クエリをトレース クエリまで拡張します。トレース クエリセットは動的に更新され、長さは可変です。図 2 に示すように、軌跡クエリ セットは空に初期化され、DETR の検出クエリを使用して初期のオブジェクト (T2 のオブジェクト 3) が検出されます。検出されたオブジェクトの隠れた状態により、次のフレームの追跡クエリが生成され、終端オブジェクトに割り当てられた軌跡クエリが軌跡クエリのセットから削除されます (T4 のオブジェクト 2)。

3.3 トラックレット対応のラベル割り当て

DETR では、すべての検出クエリとグラウンド トゥルースの間で 2 部マッチングを実行することによってラベルの割り当てが決定されるため、検出 (オブジェクト) クエリを画像内の任意のオブジェクトに割り当てることができます。一方、MOTR では、検出クエリは初期のオブジェクトを検出するためにのみ使用され、追跡クエリは追跡されたすべてのオブジェクトを予測します。ここでは、この問題に対処するためにトラックレット対応ラベル割り当て (TALA) を導入します。

  一般に、TALA には 2 つの戦略が含まれています。検出クエリの場合、DETR の割り当て戦略を初期ターゲットのみに変更します。この場合、検出クエリと初期ターゲットのグラウンド トゥルースの間で 2 部一致が行われます。クエリを追跡するために、目標に合わせた割り当て戦略を設計します。トレース クエリは前のフレームと同じ割り当てに従うため、前述の 2 部マッチングから除外されます。

ここに画像の説明を挿入

図 2: いくつかの典型的な MOT 状況における検出 (ターゲット) クエリと追跡クエリの更新プロセス。トレース クエリセットは動的に更新され、長さは可変です。追跡クエリ セットは空に初期化され、検出クエリは初期オブジェクトの検出に使用されます。検出されたすべてのオブジェクトの隠れ状態が連結されて、次のフレームの追跡クエリが生成されます。終端ターゲットに割り当てられた軌跡クエリは、軌跡クエリ セットから削除されます。

  正式には、追跡クエリの予測をY ^ tr \widehat{Y}_{tr}と表します。Y 、検出クエリの予測をY ^ det \widehat{Y}_{det}として示します。Y デット_ _Y新しい Y_{新しい}Y新しい_ _初期ターゲットの真理値です。追跡クエリと検出クエリのラベル割り当て結果は、ω tr ω_{tr}と書くことができます。おおωはω_{det}を与えますおおデット_ _フレームii用i、検出クエリのラベル割り当ては、検出クエリと初期ターゲットの間の 2 部マッチングから取得されます。

ここに画像の説明を挿入

ここでL \mathcal{L}Lは DETR で定義されたペアごとのマッチング コスト、Ω i Ω_iおお私はは、検出クエリと初期ターゲットの間のすべての 2 部一致の空間です。追跡クエリ割り当ての場合、初期のオブジェクトと前のフレームの追跡対象オブジェクトの割り当てをマージします。つまり、i > 1 i > 1の場合>1

ここに画像の説明を挿入

最初のフレーム( i = 1 ) (i=1)(私は=1 )最初のフレームには追跡ターゲットがないため、追跡クエリの割り当てω tr 1 ω^1_{tr}おおてら_1は空集合∅ ∅ . 連続したフレームの場合( i > 1 ) (i>1)(私は>1 )、軌跡クエリ割り当てω tri ω^i_{tr}おおてら_私はは前の軌跡クエリ割り当てω tri − 1 ω^{i−1}_{tr}おおてら_i 1新入生の目標割り当てω deti − 1 ω^{i−1}_{det}おおデット_ _i 1カスケード。

  実際には、Transformer の強力な注意メカニズムのおかげで、TALA 戦略はシンプルかつ効果的です。フレームごとに、検出クエリと追跡クエリが連結されて Transformer デコーダに供給され、それらの表現が更新されます。Transformer デコーダのセルフ アテンションを介したクエリ インタラクションにより、追跡されたオブジェクトを検出する検出クエリが抑制されるため、検出クエリは初期のオブジェクトのみを検出します。このメカニズムは、DETR の重複排除、つまり、スコアの低い重複ボックスの抑制に似ています。

ここに画像の説明を挿入

図 3: MOTR の全体的なアーキテクチャ。「Enc」は、Convolutional Neural Network バックボーンと、フレームごとに画像の特徴を抽出する Transformer Encoder を表します。検出クエリqd q_dqdトレースクエリqtr q_{tr}qの連結が変形可能 DETR デコーダ (Dec) に供給されて、隠れ状態が生成されます。非表示状態は、初期および追跡対象の予測Y ^ \widehat{Y}を生成するために使用されます。Y クエリ インタラクション モジュール (QIM) は、非表示状態を入力として受け取り、次のフレームの追跡クエリを生成します。

3.4 MOTR アーキテクチャ

  MOTR の全体的なアーキテクチャを図 3 に示します。ビデオ シーケンスは、ResNet-50 [10] などの畳み込みニューラル ネットワーク (CNN) や Deformable DETR [45] エンコーダーに供給されて、フレームの特徴が抽出されます。

  最初のフレームには追跡クエリはなく、固定長の学習可能な検出クエリのみを割り当てます (図 3 のqd q_d)qd) は、Deformable DETR [45] デコーダに供給されます。連続したフレームの場合、前のフレームからの追跡クエリと学習可能な検出クエリを連結したものをデコーダに入力します。これらのクエリは、デコーダ内の画像特徴と対話して、境界ボックス予測の隠れ状態を生成します。非表示状態はクエリ インタラクション モジュール (QIM) にも供給され、次のフレームの軌道クエリが生成されます。

  トレーニング段階では、セクション 3.3 で説明したように、ラベルが各フレームに割り当てられます。ビデオ クリップのすべての予測は、予測ライブラリ{ Y ^ 1 , Y ^ 2 , … , Y ^ N } \{\widehat{Y}_1,\widehat{Y}_2,...,\widehat{Y} に集められます。 _N \}{ Y 1Y 2Y Nそして、セクション 3.6 で説明されている提案された集団平均損失 (CAL) を監視に使用します。推論時間中、ビデオ ストリームはオンラインで処理され、各フレームの予測が生成されます。

3.5 クエリインタラクションモジュール

このセクションでは、Query Interaction Module (QIM) について説明します。QIM には、ターゲットの入口と出口のメカニズムおよび一時的な集約ネットワークが含まれています。

ターゲットの入口と出口上で述べたように、ビデオ シーケンス内の一部のオブジェクトは中間フレームに表示されたり、消えたりする場合があります。ここでは、私たちのアプローチで初期ターゲットと終了ターゲットが処理される方法を示します。どのフレームでも、追跡クエリは検出クエリと連結されて Transformer デコーダに供給され、その結果、非表示状態になります (図 4 の左側を参照)。

ここに画像の説明を挿入

図 4: クエリ インタラクション モジュール (QIM) の構造。QIM への入力は、Transformer デコーダーによって生成された隠れ状態と対応する予測スコアです。推論フェーズでは、信頼スコアに基づいて初期ターゲットを保持し、終了ターゲットを破棄します。Temporal Aggregation Network (TAN) は、長期的なモデリングを強化します。

  トレーニング中に、一致したオブジェクトがグラウンド トゥルース内で消える場合、または予測されたバウンディング ボックスとオブジェクトの間の交差対結合 (IoU) の比率 (IoU) がしきい値 0.5 を下回った場合、終了したオブジェクトの非表示状態は削除されます。 。つまり、これらのオブジェクトが現在のフレームで消え、残りの非表示状態が残っている場合、対応する非表示状態がフィルタリングされます。初期ターゲットの場合、式 1 で定義された初期ターゲットω deti ω^i_{det}に基づきますおおデット_ _私は対応する非表示状態を維持するための割り当て。

  図 4 に示すように、推論のために、予測された分類スコアを使用して、初期のオブジェクトの出現と追跡されたオブジェクトの消失を判断します。ターゲット クエリについては、分類スコアを状態しきい値τ en τ_{en}よりも高く維持します。tエン_他の隠れた状態を削除しながら予測します。トレースクエリの場合は、連続するMMを削除します。Mフレームの分類スコアが終了しきい値τ ex τ_{ex}tエックス_の予測を、他の隠れた状態を維持しながら行います。

時間集約ネットワークここでは、時間関係モデリングを強化し、追跡対象のオブジェクトにコンテキスト事前分布を提供するために、QIM に時間集約ネットワーク (TAN) を導入します。

  図 4 に示すように、TAN への入力は、追跡されたオブジェクト (オブジェクト「1」) のフィルター処理された非表示状態です。最後のフレームからトレース クエリqtriq^i_{tr}も収集しますqてら_私は、時間的な集計の場合。TAN は、改良された Transformer デコーダ レイヤです。最後のフレームの追跡クエリとフィルタリングされた隠れ状態が合計されて、マルチヘッド セルフ アテンション (MHA) のキー コンポーネントとクエリ コンポーネントになります。隠れた状態自体が MHA の値コンポーネントです。MHA の後、フィードフォワード ネットワーク (FFN) を適用し、その結果を初期ターゲット (ターゲット "3") の隠れ状態と連結して、次のフレーム _{tr}qてら_+ 1

3.6 集団平均損失

  MOTR はカルマン フィルターのような手作りのヒューリスティックではなく、データから時間的な分散を学習するため、トレーニング サンプルは軌跡の時間モデリングにとって重要です。2 フレーム以内のトレーニングなどの一般的なトレーニング戦略では、長距離のオブジェクトの動きのトレーニング サンプルを生成できません。対照的に、MOTR はビデオ クリップを入力として受け取ります。このようにして、一時的な学習のために長距離オブジェクトの動きのトレーニング サンプルを生成できます。

  私たちの集団平均損失 (CAL) は、フレームごとに損失を計算するのではなく、複数の予測を収集することですY ^ = { Y ^ i } i = 1 N \widehat{Y}=\{\widehat{Y}_i\} ^N_ {i=1}Y ={ Y 私は}i = 1N。然后通过真值 Y = { Y i } i = 1 N Y=\{Y_i\}^N_{i=1} Y={ Y私は}i = 1Nそしてマッチング結果ω = { ω i } i = 1 N ω=\{ω_i\}^N_{i=1}おお={ ああ私は}i = 1Nビデオ シーケンス全体の損失を計算します。CAL は、ビデオ シーケンス全体にわたる全体的な損失をターゲットの数で正規化したものです。

ここに画像の説明を挿入

その中V i = V tri + V deti V_i=V^i_{tr}+V^i_{det}V私はVてら_私は+Vデット_ _私はiiを示しますフレームiにおけるグラウンド トゥルース オブジェクトの総数V トリ V^i_{tr}Vてら_私はVデティV^i_{det}Vデット_ _私はiiですiフレームの追跡オブジェクトと新しく生まれたオブジェクトの数L \数学{L}Lは単一フレームの損失であり、DETR の検出損失に似ています。単一フレーム損失L \mathcal{L}L は次のように定式化できます。

ここに画像の説明を挿入

ここで、L cls \mathcal{L}_{cls}Lクラス_ _は焦点損失です [14]。L l 1 \mathcal{L}_{l_1}L1L1 損失を示します。L giou \mathcal{L}_{giou}L・オーユーは一般化された IoU 損失 [21]。λ cls λ_{cls}クラス_ _λ l 1 λ_{l_1}1λ giou λ_{giou}・オーユーは対応する重み係数です。

3.7 ディスカッション

  DETR に基づいて、私たちの同時研究である TransTrack [29] と TrackFormer [18] も MOT 用の Transformer ベースのフレームワークを開発しました。ただし、それらと比較すると、私たちの方法には大きな違いがあります。

  TransTrack は、完全な軌道をいくつかの独立した短い軌道の構成としてモデル化します。検出 - 再追跡パラダイムと同様に、TransTrack は MOT を 2 つのサブタスクに分離します: 1) オブジェクトのペアを 2 つの隣接するフレーム内の短い軌道として検出する; 2) IoU マッチングを介して短い軌道を完全な軌道に関連付けます。一方、MOTR の場合、IoU マッチングを行わずに軌跡クエリを反復更新することで、エンドツーエンドの方法で完全な軌跡をモデル化します。

  TrackFormer は、クエリを追跡するというアイデアを私たちと共有してくれました。ただし、TrackFormer は引き続き 2 つの隣接するフレーム内で学習します。セクション 3.6 で述べたように、短距離学習では時間学習が比較的弱くなります。したがって、TrackFormer は、Track NMS や Re-ID 機能などのヒューリスティックを採用して、重複したトラックを除外します。TrackFormer とは異なり、MOTR は CAL と TAN を介してより強力な時間的動きを学習するため、これらのヒューリスティックの必要がありません。TransTrack および TrackFormer との直接比較については、表 1 を参照してください。

  ここで、TrackFormer と TransTrack が arXiv に登場するずっと前に、私たちがこの作業を独立して開始したことを明らかにします。これらは正式に出版されていないことを付け加えて、私たちはそれらを私たちの研究の基礎となっている以前の著作物ではなく、同時代の独立した著作物とみなしています。

表 1: 他の Transformer ベースの MOT メソッドとの比較。

ここに画像の説明を挿入

表 2: 評価に使用された選択されたデータセットの統計。

ここに画像の説明を挿入

4. 実験

4.1 データセットと指標

データセット総合的な評価のために、DanceTrack [28]、MOT17 [19]、BDD100k [41] の 3 つのデータセットで実験を行います。MOT17 [19] には、7 つのトレーニング シーケンスと 7 つのテスト シーケンスが含まれています。DanceTrack [28] は、均一な外観と多様な動きを備えた最近のマルチオブジェクト追跡データセットです。トレーニングと評価用のビデオがさらに含まれており、追跡パフォーマンスを検証するためのより良いオプションが提供されます。BDD100k [41] は、MOT 軌跡が複数のオブジェクト クラスを持つ自動運転データセットです。詳細については、表 2 に示すデータセットの統計を参照してください。

評価指標私たちは、標準的な評価プロトコルに従ってメソッドを評価します。一般的なメトリクスには、複数オブジェクト追跡、複数オブジェクト追跡精度 (MOTA)、アイデンティティ スイッチング (IDS)、およびアイデンティティ F1 スコア (IDF1) を評価するための高次メトリクス [17] (HOTA、AssA、DetA) が含まれます。

4.2 実装の詳細

CenterTrack [44] の設定に従って、MOTR はランダム フリッピングやランダム クロッピングなどのいくつかのデータ拡張方法を採用します。入力画像の短辺は 800 にリサイズされ、最大サイズは 1536 に制限されます。この解像度では、Tesla V100 の推論速度は約 7.5 FPS になります。可変フレーム レートを考慮して、ランダムな間隔でキーフレームをサンプリングします。さらに、確率pdrop p_{drop}を使用します。pドロップ_ _追跡されたクエリを消去し、初期のターゲットに対してさらにサンプルを生成し、確率 p_{insert} でピン挿入します。p_ _偽陽性トレース クエリを挿入して、終了したターゲットをシミュレートします。すべての実験は、8 つの NVIDIA Tesla V100 GPU を備えた PyTorch で実行されます。NVIDIA 2080 Ti GPU でトレーニングできるメモリ最適化バージョンも提供します。

  高速収束のために、Deformable-DETR [45] と ResNet50 [10] の上に MOTR を構築します。バッチ サイズは 1 に設定され、各バッチには 5 フレームのビデオ クリップが含まれます。AdamW オプティマイザーを使用し、初期学習率2.0 ⋅ 1 0 − 4 2.0 10^{−4}でモデルをトレーニングします。2.0 1 0−4 . _ すべてのデータセットについて、COCO [15] データセットで事前トレーニングされた公式の Deformable-DETR [45] 重みを使用して MOTR を初期化します。MOT17 では、MOTR を 200 エポックにわたってトレーニングしますが、学習率は 100 エポックで 10 分の 1 に低下します。最先端の比較のために、共同データセット (MOT17 トレーニング セットと CrowdHuman [23] 検証セット) でトレーニングします。CrowdHuman 検証セット内の約 5k の静止画像については、[44] のランダム シフトを適用して、疑似軌跡を持つビデオ クリップを生成します。ビデオ クリップの初期の長さは 2 ですが、50 番目、90 番目、および 150 番目のエポックで、それぞれ 3、4、5 に徐々に増加します。ビデオクリップの長さを徐々に長くすると、トレーニングの効率と安定性が向上します。アブレーション研究では、CrowdHuman データセットを使用せずに MOT17 トレーニング セットで MOTR をトレーニングし、2DMOT15 トレーニング セットで検証します。DanceTrack では、トレーニング セットで 20 エポック間トレーニングしますが、学習率は 10 エポックで低下します。5、9、15 エポックの間に、クリップの長さを 2 から 3、4、5 に徐々に増やしました。BDD100k では、トレーニング セットで 20 エポックの間トレーニングし、学習率はエポック 16 で減衰します。6 番目と 12 番目のエポックの間に、クリップの長さを 2 から 3 および 4 に徐々に増やしました。

4.3 MOT17の現状比較

  表 3 は、私たちの手法と MOT17 テスト セットの最先端の手法を比較しています。私たちは主に MOTR を Transformer ベースの同時期の研究である TrackFormer [18] および TransTrack [29] と比較します。私たちの方法は、TransTrack と TrackFormer を 4.5% 上回り、より高い IDF1 スコアを達成しました。MOTR は HOTA 指標で TransTrack を 3.1% 上回っています。MOTA メトリクスに関しては、私たちの方法は TrackFormer よりも優れたパフォーマンスを達成しました (71.9% 対 65.0%)。興味深いことに、MOTA では TransTrack が MOTR を上回っていることがわかりました。TransTrack の検出ブランチと追跡ブランチを分離することで、物体検出パフォーマンスが向上すると仮説を立てています。MOTR では、検出および追跡クエリは共有の Transformer デコーダを通じて学習されます。追跡されたオブジェクトを検出するときに検出クエリが抑制されるため、発生したばかりのオブジェクトの検出パフォーマンスが制限されます。

  そのパフォーマンスを ByteTrack [42] などの他の最先端の手法と比較すると、MOT17 データセットでは MOTR がそれらよりもはるかに劣っていることがわかります。通常、MOT17 データセットの最先端のパフォーマンスは、さまざまな出現分布に対する優れた検出パフォーマンスを持つトラッカーによって支配されます。さらに、トラッカーが異なれば、物体の検出に異なる検出器が使用される傾向があります。さまざまなトラッカーのモーション性能を公平に検証することは困難です。したがって、MOTR の追跡パフォーマンスを適切に評価するには、MOT17 データセットだけでは不十分であると考えられます。以下で説明するように、均一な外観と多様な動きを持つ DanceTrack [28] データセットの追跡パフォーマンスをさらに評価します。

表 3: プライベート検出プロトコルの下での MOTR と MOT17 データセットに対する既存の手法とのパフォーマンスの比較。Transformer ベースのメソッドの中で数値が最高の場合は、太字でマークされます。

ここに画像の説明を挿入

4.4 DanceTrackの現状比較

  最近、均一な外観と多様な動きを備えたデータセットである DanceTrack [28] が導入されました (表 2 を参照)。評価用のビデオがさらに含まれており、追跡パフォーマンスを検証するためのより優れたオプションが提供されます。さらに、DanceTrack データセットで実験を実施し、そのパフォーマンスを表 4 の最先端の方法と比較します。これは、MOTR が DanceTrack データセットでより優れたパフォーマンスを達成していることを示しています。私たちの方法は、ByteTrack を 6.5% 上回り、より高い HOTA スコアを達成しました。AssA メトリックに関しても、私たちの方法は ByteTrack よりも優れたパフォーマンスを達成しました (40.2% 対 32.1%)。一方、DetA メトリクスに関しては、MOTR は一部の最先端の方法よりも劣ります。これは、MOTR が時間的な動きの学習では優れたパフォーマンスを発揮しますが、検出パフォーマンスではそれほど優れていないことを意味します。HOTA の大幅な改善は、主に時間集約ネットワークと集団平均損失によるものです。

4.5 マルチクラスシナリオへの一般化

  FairMOT [43] などの Re-ID ベースの方法は、追跡された各オブジェクト (例: 人) をクラスとして扱い、特徴の類似性によって検出結果を相関させる傾向があります。ただし、追跡するオブジェクトの数が非常に多い場合、関連付けは困難になります。対照的に、MOTR では、各ターゲットは軌跡クエリとして表され、軌跡クエリ セットは動的長になります。MOTR は、分類ブランチ内のクラスの数を変更するだけで、複数クラスの予測問題を簡単に処理できます。マルチクラス シナリオでの MOTR のパフォーマンスを検証するために、BDD100k データセットでさらに実験を実行します (表 5 を参照)。bdd100k 検証セットの結果は、MOTR がマルチクラス シナリオで良好に動作し、少ない ID 切り替えで良好なパフォーマンスを達成することを示しています。

表 4: MOTR と DanceTrack [28] データセット上の既存のメソッド間のパフォーマンスの比較。既存のメソッドの結果は DanceTrack からのものです [28]

ここに画像の説明を挿入

表 5: MOTR と BDD100k [41] 検証セットでの既存のメソッド間のパフォーマンスの比較。

ここに画像の説明を挿入

4.6 アブレーション研究

MOTRコンポーネント表 6a は、さまざまなコンポーネントを統合した場合の影響を示しています。コンポーネントをベースラインに統合すると、全体的なパフォーマンスが段階的に向上します。ほとんどのターゲットは入力ターゲットとみなされるため、ターゲット クエリのみを生のターゲットとして使用すると、多数の ID が生成されます。トレース クエリを導入することにより、ベースラインはトレースの関連付けを処理できるようになり、IDF1 が 1.2 から 49.8 に向上しました。さらに、ベースラインに TAN を追加すると、MOTA が 7.8%、IDF1 が 13.6% 向上します。CAL をトレーニングに使用すると、MOTA と IDF1 がそれ​​ぞれ 8.3% と 7.1% 向上します。結果は、TAN と CAL を組み合わせることで一時的な運動学習を強化できることを示しています。

集団平均損失ここでは、ビデオ シーケンスの長さが CAL のトラッキング パフォーマンスに及ぼす影響を調査します。表 6b に示すように、ビデオ セグメントの長さが 2 から 5 に徐々に増加すると、MOTA メトリックと IDF1 メトリックはそれぞれ 8.3% と 7.1% 向上します。したがって、マルチフレーム CAL は追跡パフォーマンスを大幅に向上させることができます。マルチフレーム CAL は、遮蔽されたシーンなど、ネットワークがいくつかの困難な状況に対処するのに役立つことを説明します。遮蔽されたシーンでは、ボックスの繰り返し、ID の切り替え、オブジェクトの損失が大幅に減少していることがわかります。これを確認するために、図 5 にいくつかの視覚化を示します。

表 6: 私たちが提案した MOTR アブレーション研究。すべての実験では、ResNet50 の単一ステージ C5 機能を使用します。

ここに画像の説明を挿入

トレースクエリを消去して挿入しますMOT データセットには、トレーニング サンプルが少ない 2 つの状況があります。ビデオ シーケンス内の入口オブジェクトと出口オブジェクトです。したがって、確率pdrop p_{drop} をそれぞれ使用するためにトレース クエリの消去と挿入を採用します。pドロップ_ _ピンsert p_{insert}p_ _両方のケースをシミュレートします。表 6c は、トレーニング中に異なる pdrop を使用した p_{drop}を報告しますpドロップ_ _パフォーマンスを重視します。pdrop p_{drop}のときpドロップ_ _MOTR は 0.1 に設定すると最高のパフォーマンスが得られます。入口ターゲットと同様に、以前のフレームから送信され、誤検知であると予測された追跡クエリが現在のフレームに挿入され、ターゲット出口シナリオをシミュレートします。表 6d では、さまざまなpinsert p_{insert}を調べます。p_ _追跡パフォーマンスへの影響。p_{insert} をピン挿入するときp_ _MOTR は、p_{insert} をピン挿入したときに 0.1 から 0.7 まで徐々に増加し、MOTA で最高のスコアを達成します。p_ _IDF1 スコアが低下している間に 0.3 に設定した場合。

ターゲットの開始および終了のしきい値表 6e は、QIM のターゲット エントリしきい値τ en τ_{en}を調べています。tエン_および終了閾値τ ex τ_{ex}tエックス_さまざまな組み合わせによる効果。ターゲットエントリ閾値τ en τ_{en}を変更する場合tエン_、パフォーマンスがτ en τ_{en}に依存していることがわかります。tエン_感度は低く (MOTA では 0.5% 以内)、エントリしきい値 0.8 を使用すると、比較的良好なパフォーマンスが得られます。また、ターゲット終了閾値τ ex τ_{ex}も変更します。tエックス_さらなる実験へ。結果は、しきい値 0.5 を使用すると、しきい値 0.6 よりもわずかにパフォーマンスが向上することを示しています。私たちの実践では、τ en τ_{en}は 0.6 です。tエン_MOT17 テスト セットではより良いパフォーマンスが示されています。

サンプリング間隔表 6f では、トレーニング中の追跡パフォーマンスに対するランダム サンプリング間隔の影響を評価します。サンプリング間隔が 2 から 10 に増加すると、IDS は 209 から 155 に大幅に減少します。トレーニング中にフレームが短い間隔でサンプリングされると、ネットワークは局所的な最適解に陥りやすくなります。サンプリング間隔を適切に増やすと、実際のシーンをシミュレートできます。ランダム サンプリング間隔が 10 より大きい場合、追跡フレームワークはそのような長距離ダイナミクスを捕捉できず、追跡パフォーマンスが比較的低下します。

ここに画像の説明を挿入

図 5: (a) 繰り返されるボックスと (b) ID 切り替えの問題の解決に対する CAL の効果。上の行と下の行は、それぞれ CAL なしと CAL ありのトレース結果です。

5. 制限事項

MOTR は、エンドツーエンドのマルチオブジェクト追跡を可能にするオンライン トラッカーです。DETR アーキテクチャとトラックレット対応のラベル割り当てのおかげで、外観と位置の変化を共同で暗黙的に学習します。ただし、いくつかの欠点もあります。まず、初期のオブジェクトを検出するパフォーマンスは満足のいくものとは程遠いです (MOTA メトリクスの結果は十分ではありません)。前述したように、追跡されたオブジェクトを検出する場合、検出クエリは抑制されます。これは、オブジェクト クエリの性質に違反し、初期のオブジェクトの検出パフォーマンスを制限する可能性があります。2 番目に、MOTR でのクエリの受け渡しはフレームごとに実行されるため、トレーニング中のモデル学習の効率が制限されます。私たちの実践では、VisTR [36] の並列デコードでは MOT の複雑なシーンを処理できません。これら 2 つの問題を解決することは、Transformer ベースの MOT フレームワークの重要な研究課題となります。

謝辞: この研究は、国家重点研究開発プログラム (番号 2017YFA0700800) および北京人工知能アカデミー (BAAI) の支援を受けました。

参考文献

  1. CodaLab コンペティション - CVPR 2020 BDD100K Multiple Object Tracking Challenge (2022 年 7 月)、https://competitions.codalab.org/competitions/24910、[オンライン; 2022年7月19日にアクセス] 12
  2. Bergmann, P.、Meinhardt, T.、Leal-Taixe, L.: 付加機能なしの追跡。掲載: ICCV (2019) 1、3、11
  3. Bewley, A.、Ge, Z.、Ott, L.、Ramos, F.、Upcroft, B.: シンプルなオンラインおよびリアルタイムの追跡。掲載: ICIP (2016) 1、3
  4. Bochinski, E.、Eiselein, V.、Sikora, T.: 画像情報を使用しない検出による高速追跡。で: AVSS (2017) 1
  5. Camgoz, NC、Koller, O.、Hadfield, S.、Bowden, R.: 手話変換器: 共同のエンドツーエンドの手話認識と翻訳。で: CVPR (2020) 3
  6. Carion, N.、Massa, F.、Synnaeve, G.、Usunier, N.、Kirillov, A.、Zagoruyko, S.: トランスを使用したエンドツーエンドの物体検出。掲載: ECCV (2020) 1、3、4
  7. Chang, X.、Zhang, W.、Qian, Y.、Le Roux, J.、Watanabe, S.: トランスを使用したエンドツーエンドのマルチスピーカー音声認識。年: ICASSP (2020) 3
  8. Chu, P.、Wang, J.、You, Q.、Ling, H.、Liu, Z.: Transmot: 複数のオブジェクト追跡用の時空間グラフ トランスフォーマー。arXiv プレプリント arXiv:2104.00194 (2021) 4
  9. Dosovitskiy, A.、Beyer, L.、Kolesnikov, A.、Weissenborn, D.、Zhai, X.、Unterthiner, T.、Dehghani, M.、Minderer, M.、Heigold, G.、Gelly, S.、 Uszkoreit, J.、Houlsby, N.: 画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。In: ICLR (2021) 3
  10. He、K.、Zhang、X.、Ren、S.、Sun、J.: 画像認識のための深層残差学習。掲載: CVPR (2016) 6、10
  11. Kuhn, HW: 割り当て問題に対するハンガリーの方法。海軍研究兵站季報 2(1-2)、83 ~ 97 (1955) 3
  12. Leal-Taix´e, L.、Canton-Ferrer, C.、Schindler, K.: 追跡による学習: 堅牢なターゲット関連付けのためのシャム CNN。で: CVPRW (2016) 3
  13. Li, N.、Liu, S.、Liu, Y.、Zhao, S.、Liu, M.: トランス ネットワークを使用したニューラル音声合成。出演: AAAI (2019) 3
  14. Lin、TY、Goyal、P.、Girshick、R.、He、K.、Doll´ar、P.: 高密度物体検出の焦点損失。掲載: ICCV (2017) 8
  15. Lin、TY、Maire、M.、Belongie、S.、Hays、J.、Perona、P.、Ramanan、D.、Doll´ar、P.、Zitnick、CL: Microsoft coco: コンテキスト内の共通オブジェクト。掲載: ECCV (2014) 10
  16. Liu, Z.、Lin, Y.、Cao, Y.、Hu, H.、Wei, Y.、Zhang, Z.、Lin, S.、Guo, B.: Swin トランスフォーマー: シフト ウィンドウを使用した階層型ビジョン トランスフォーマー。arXiv プレプリント arXiv:2103.14030 (2021) 3
  17. Luiten, J.、Osep, A.、Dendorfer, P.、Torr, P.、Geiger, A.、Leal-Taix´e, L.、Leibe, B.: Hota: 複数オブジェクトを評価するための高次メトリック追跡。IJCV 129(2)、548–578 (2021) 9
  18. Meinhardt, T.、Kirillov, A.、Leal-Taixe, L.、Feichtenhofer, C.: Trackformer: トランスフォーマーを使用したマルチオブジェクト追跡。arXiv プレプリント arXiv:2101.02702 (2021) 1、3、4、8、9、10、11
  19. Milan, A.、Leal-Taix´e, L.、Reid, I.、Roth, S.、Schindler, K.: Mot16: マルチオブジェクト追跡のベンチマーク。arXiv プレプリント arXiv:1603.00831 (2016) 9
  20. Pang, J.、Qiu, L.、Li, X.、Chen, H.、Li, Q.、Darrell, T.、Yu, F.: 複数のオブジェクト追跡のための準高密度類似性学習。掲載: CVPR (2021) 11、12
  21. Rezatofighi, H.、Tsoi, N.、Gwak, J.、Sadeghian, A.、Reid, I.、Savarese, S.: 和集合上の一般化交差: バウンディング ボックス回帰のメトリックと損失。年: CVPR (2019) 8
  22. Schulter, S.、Vernaza, P.、Choi, W.、Chandraker, M.: マルチオブジェクト追跡のためのディープネットワークフロー。で: CVPR (2017) 3
  23. Shao, S.、Zhao, Z.、Li, B.、Xiao, T.、Yu, G.、Zhang, X.、Sun, J.: Crowdhuman: 群衆の中の人間を検出するためのベンチマーク。arXiv プレプリント arXiv:1805.00123 (2018) 10
  24. Sharma, S.、Ansari, JA、Murthy, JK、Krishna, KM: ピクセルを超えて: オンライン マルチオブジェクト トラッキングにジオメトリと形状キューを活用します。で: ICRA (2018) 3
  25. Shi, B.、Bai, X.、Yao, C.: 画像ベースのシーケンス認識のためのエンドツーエンドの訓練可能なニューラル ネットワークと、シーン テキスト認識へのそのアプリケーション。TPAMI 39(11)、2298–2304 (2016) 4
  26. Shuai, B.、Berneshawi, AG、Modolo, D.、Tighe, J.: siamese track-rcnn を使用したマルチオブジェクト追跡。arXiv プレプリント arXiv:2004.07786 (2020) 3
  27. Stadler, D.、Beyerer, J.: 群衆の中での複数人追跡のためのあいまいな割り当てのモデル化。掲載: コンピューター ビジョンのアプリケーションに関する IEEE/CVF 冬季会議の議事録。pp. 133–142 (2022) 11
  28. Sun, P.、Cao, J.、Jiang, Y.、Yuan, Z.、Bai, S.、Kitani, K.、Luo, P.: ダンストラック: 均一な外観と多様な動きでのマルチオブジェクト追跡。arXiv プレプリント arXiv:2111.14690 (2021) 3、9、11、12
  29. Sun, P.、Jiang, Y.、Zhang, R.、Xie, E.、Cao, J.、Hu, X.、Kong, T.、Yuan, Z.、Wang, C.、Luo, P.: Transtrack: トランスフォーマーを使用した複数のオブジェクトの追跡。arXiv プレプリント arXiv: 2012.15460 (2020) 1、3、4、8、9、10、11、12
  30. Sutskever, I.、Vinyals, O.、Le, QV: ニューラル ネットワークによるシーケンスツーシーケンス学習。掲載: NeurlPS (2014) 2、4
  31. Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, AN、Kaiser, L.、Polosukhin, I.: 必要なのは注意力だけです。掲載: NeurlPS (2017) 2、3、4
  32. Wang, Q.、Zheng, Y.、Pan, P.、Xu, Y.: 相関学習による複数のオブジェクトの追跡。参照: コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp. 3876–3886 (2021) 11
  33. Wang, S.、Sheng, H.、Zhang, Y.、Wu, Y.、Xiong, Z.: 実際のデータを使用しない一般的な反復追跡フレームワーク。掲載: コンピューター ビジョンに関する IEEE/CVF 国際会議の議事録。pp. 13219–13228 (2021) 11
  34. Wang, X.、Girshick, R.、Gupta, A.、He, K.: 非ローカル ニューラル ネットワーク。で: CVPR (2018) 3
  35. Wang, Y.、Kitani, K.、Weng, X.: グラフ ニューラル ネットワークを使用した共同オブジェクト検出とマルチオブジェクト追跡。開催日: 2021 IEEE ロボティクスとオートメーションに関する国際会議 (ICRA)。13708–13715ページ。IEEE (2021) 11
  36. Wang, Y.、Xu, Z.、Wang, X.、Shen, C.、Cheng, B.、Shen, H.、Xia, H.: トランスフォーマーを使用したエンドツーエンドのビデオ インスタンスのセグメンテーション。掲載: CVPR (2021) 3、14
  37. Wang, Z.、Zheng, L.、Liu, Y.、Li, Y.、Wang, S.: リアルタイムのマルチオブジェクト追跡に向けて。掲載: ECCV (2020) 1、3
  38. Welch, G.、Bishop, G. 他: カルマン フィルターの概要 (1995) 3
  39. Wojke, N.、Bewley, A.、Paulus, D.: 深い関連性メトリックを使用したシンプルなオンラインおよびリアルタイムの追跡。掲載: ICIP (2017) 1、3
  40. Wu, J.、Cao, J.、Song, L.、Wang, Y.、Yang, M.、Yuan, J.: 検出およびセグメント化する追跡: オンラインのマルチオブジェクト トラッカー。掲載: CVPR (2021) 11、12
  41. Yu, F.、Chen, H.、Wang, X.、Xian, W.、Chen, Y.、Liu, F.、Madhavan, V.、Darrell, T.: Bdd100k: 異種混合マルチタスク学習のための多様な運転データセット。参加: コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF カンファレンス (2020 年 6 月) 9、12
  42. Zhang, Y.、Sun, P.、Jiang, Y.、Yu, D.、Yuan, Z.、Luo, P.、Liu, W.、Wang, X.: バイトトラック: すべての検出を関連付けることによる複数オブジェクトの追跡箱。arXiv プレプリント arXiv:2110.06864 (2021) 1、3、10、11、12
  43. Zhang, Y.、Wang, C.、Wang, X.、Zeng, W.、Liu, W.: Fairmot: 複数のオブジェクト追跡における検出と再識別の公平性について。IJCV pp. 1–19 (2021) 1、3、11、12
  44. Zhou、X.、Koltun、V.、Krâhenbrèuhl、P.: オブジェクトを点として追跡します。掲載: ECCV (2020) 9、10、11、12
  45. Zhu, X.、Su, W.、Lu, L.、Li, B.、Wang, X.、Dai, J.: 変形可能な detr: エンドツーエンドの物体検出用の変形可能なトランス。掲載: ICLR (2020) 1、3、6、10

おすすめ

転載: blog.csdn.net/i6101206007/article/details/131601448