複数オブジェクト追跡 - [2 段階] ByteTrack: すべての検出ボックスを関連付けることによる複数オブジェクト追跡

論文リンク: ByteTrack: Multi-Object Tracking by Associating Every Detection Box
抽出コード: tz60
オープンソース コード: https://github.com/ifzhang/ByteTrack
MOT17 データセット リンク
抽出コード: qqzd

記事の焦点

  1. この記事は、マルチターゲット追跡 (MOT) の検出による追跡パラダイムに従います。つまり、最初にターゲット検出を完了し、次にデータ関連付けを実行してターゲット検出の結果に従って軌道を生成し、マルチターゲット追跡のタスクを完了します。 -ターゲット追跡。
  2. [動機]この記事では、データ関連付け中のモーション ブラー (Motion Blur) に起因する、遮蔽されたオブジェクトまたはオブジェクトの低い検出スコアに焦点を当てます。したがって、下図に示すようにフィルタリングされます (通常、物標検出枠の閾値は 0.6 で、この閾値を下回る物体検出枠は背景の誤検出とみなされます)。 t 1 、 t 2 、t 3 t_1、t_2、t_3t1t2t3フレーム、つまり背景には信頼度 0.1 の誤検知があります。t 1 、t 2 t_1、t_2にも 1 つあります。t1t2フレームの信頼性は高いですが、 t 3 t_3ではt3フレームは 0.1 の信頼度でオクルージョンされます (緑色のボックスで追加マークが付けられます)。
    ここに画像の説明を挿入
  3. [動機]で述べた問題点に対して、本論文の解決策は、マッチング対象の検出フレームを基本単位とする二段階のデータ関連付け手法を提案することである。軌道マッチングのためのコンピュータバイト)。
    • 第 1 段階のデータ関連付け生成軌跡: まず、しきい値を超える検出フレームの軌跡を生成します (検出フレームの信頼度は 0.6)。
    • データ関連付け生成軌跡の第 2 段階: 不一致の軌跡と信頼度が閾値 (0.6) より低い検出枠を照合して軌跡を生成する 照合後、閾値よりも低い信頼度がまだ不一致の場合は検出枠の検出枠(0.6) は背景とみなされ削除されます。対象物が消えて再び視野に戻った場合の長期的な追跡状況を考慮して、一定期間(30 フレーム)の間、不一致の追跡を維持します。

追跡フレームワークの擬似コード

ここに画像の説明を挿入

  1. アルゴリズムへの入力 BYTE : ビデオ シーケンスVVV、オブジェクト検出器D et DetDe t、ターゲット検出フレームを判断するためのしきい値τ \tau

  2. 入力ビデオのフレームごとに次のループ処理を実行します。

    • 決定を適用するDe t はフレーム内のターゲットを検出し、境界ボックスと潜在的なターゲットの信頼度を与えて、検出ターゲット セットD k D_kD潜在的なターゲットの信頼度がしきい値τ \tauより大きいかどうかに応じてτはターゲットセットD k D_kD高信頼ターゲットセットD high D_{high}に細分化されます。Dこんにちは_ _そして、信頼度の低い目標セットD low D_{low}Dああ _
    • カルマン フィルター アルゴリズムを使用して軌道セットΓ \Gammaを分析しますΓの各軌道は、、軌道オブジェクトの新しい境界ボックスの位置を予測します
    • 軌道関連付けの第 1 段階を実行します。信頼性の高い目標セットD high D_{high}の場合Dこんにちは_ _そして軌跡の集合Γ \GammaΓが一致します。ターゲットD high D_{high}Dこんにちは_ _そして軌跡の集合Γ \GammaΓ間の IoU または Re-ID 特徴の類似性ハンガリーのアルゴリズムが照合を完了するために使用されます。検出枠と軌跡セットが一致しない場合は、 D remember D_{remain}として記録されます。DメインですΓ 残る \Gamma_{残り}Cメインです
    • 軌道関連付けの第 1 段階が終了した後、まだ一致していない信頼性の高いターゲット バウンディング ボックスが新しい軌道として初期化されます。
    • 軌道関連付けの第 2 段階を実行します信頼性の低い目標セットD low D_{low}の場合Dああ _一致していない軌跡のセットΓ は \Gamma_{remain} のままですCメインです軌道を合わせる。著者は、この段階では、IoU マッチング方法のみを使用するのが最善であることを発見しました。これは、信頼性の低いターゲット セットは通常、遮蔽されているものであるため、外観の特徴、つまり Re-ID 特徴は考慮されないためです。信頼性のある。
    • この時点でマッチング作業は終了し、マッチングできなかった信頼性の低い物標検出枠は削除され、背景とみなされ除去される。そして長期追跡(long-term)を考慮し、ターゲットが消滅した後に再び出現する可能性があるため、この2回と一致しない軌道Γ re − main \Gamma_{re-remain}を設定するCリリメイン_ _ _失われたターゲットセットΓ loss \Gamma_{lost}を生成しますCだめ_、そして計算のために、Γ は \Gamma_{lost} を失いましたCだめ_30 フレームが保持され、その後破棄されます。
  3. アルゴリズム BYTE の出力: ビデオ内のターゲットの軌道セットΓ \GammaΓ各フレームの各トラックに含まれるオブジェクトの検出ボックスとその ID

実験

ByteTrack で使用される検出器は YOLOX であり、YOLOX のバックボーンは YOLOX-X であり、COCO で事前トレーニングされた重みを初期重みとして使用します。

MOT17

  • トレーニング フェーズ:トレーニング セットは、MOT17、CrowdHuman、Cityperson、ETHZ です。
  • テスト段階:類似性行列の生成には IoU のみが使用されます。Re-IDの機能は使用しません。

BDD100K

  • トレーニング フェーズ:トレーニング セットは BDD100K に付属するトレーニング セットであり、追加のデータはありません。
  • テスト段階: UniTrack の ResNet-50 ImageNet 分類モデルを使用して、Re-ID 特徴を抽出し、外観の類似性を計算しました。このデータセットは自動運転用の車両データセットであるため、車両自体の外観情報が比較的少なく、外観類似性が高いため、Re-ID特徴量が抽出される。

おすすめ

転載: blog.csdn.net/qq_42312574/article/details/129005565