マルチカメラ マルチターゲット追跡 - マルチカメラ マルチターゲット追跡のためのボックスグレイン リランキング マッチング

参考论文:マルチカメラマルチターゲット追跡のためのボックスグレイン再ランキングマッチング

記事の焦点

この論文の追跡フレームワークは、車両検出 (vehicle detect)、再識別 (Re-Identification、ReID)、単一カメラ複数ターゲット追跡 (Single-Camera Multi-Target tracking、SCMT)、クロスターゲット追跡の 4 つのモジュールで構成されます。カメラ協会 (Inter-Camera Association、ICA)。

全体の構造

ここに画像の説明を挿入

車両識別

この論文では、2 段階の検出器であるCascade-RCNNが選択され、バックボーンの後に特徴ピラミッド ネットワーク (FPN) が使用されて特徴の意味情報が増加します。

  • トレーニング段階:
    • COCO の事前トレーニングされた重みがロードされ、Ai22Track1 のトレーニングおよび検証データセットがトレーニングに使用されます。
    • モデルが遮蔽された車両や小さなターゲットをより適切に識別できるように、解像度の向上、反転、トリミングなどのデータ拡張手法を実行します。
  • テスト段階:
    • 入力画像を処理するには 2 つの方法を使用します: 最大解像度を 2666*1666 に増やす; 入力 RGB 画像を 4 つのパッチに分割します (パッチは重複する可能性があります)。
    • 処理された画像を検出モデルに入力して 2 種類の結果を取得し、それらを組み合わせて最終結果とします。

再識別

ReID モジュールでは、HRNet、ResNeXt101、ResNet、Res2Net、および ConvNeXt が、堅牢で差別的な特徴を抽出するためのバックボーンとして一般的に使用されます。さらに、クロスエントロピー損失関数 + トリプレット損失を適用して、同じ車の異なるカメラの特徴距離を近づけます。
5 つのモデルから抽出された ReID 特徴は、最終的な ReID 特徴として直接連結されます。

単一カメラによる複数ターゲットの追跡

  • 入力は、最初のステップで生成された検出フレーム + ReID 特徴です。
  • DeepSORT をベースラインとして使用し、カルマン フィルターがターゲットの動き情報を予測し、ハンガリーのアルゴリズムが相関検出の結果と照合します。
  • 検出された信頼性の低い検出フレーム内の潜在的なターゲットを失わないようにするために、実際のコードには 2 つのしきい値 (高スコアしきい値と低スコアしきい値) が設定されています (ByteTrack を参照)。
    • 高スコアの検出フレームを照合して軌跡を生成します
    • 一致しない低スコア検出ボックスと一致しない軌道に対する IoU マッチングを最小限に抑える
    • 信頼性スコアが高く、軌道に一致しないボックスのみが新しい軌道として初期化されます。

外観特徴のマッチングでは、統合された ReID 特徴を使用して複数のオブジェクトを区別します。トレースの表示状態は、指数移動平均 (EMA) メソッドを使用して更新されます。
カルマン フィルタリングは、モーション情報を取得する 2 つの方法で改善されています。

  • カルマンフィルターの本来の基本的な仮定は等速運動と線形観測モデルですが、実際の状況には適していません。検出ノイズの影響を軽減するために、カルマン フィルターが使用されます。

カメラ間のリンク

マッチング対象のコース上の似たような外観の車両や、異なるカメラでの異なる照明条件など、カメラ間で現れる問題を目的として、本論文ではボックスベースのマッチング手法を提案します。この手法は大きく 4 つのステップに分かれています。

領域ベースの軌跡フィルタリング

交通ルール、道路トポロジー、移動時間に基づいて、不合理な軌道をフィルタリングします。
記事では、最初にいくつかのエリアがプリセットされており、車両がカメラの視野に入るエリアを「イン ゾーン」、車両がカメラの視野から外れるエリアを「アウト ゾーン」と呼びます。軌道は次のように定義されます: 2 つの制約を設定します:
ここに画像の説明を挿入
その中に
ここに画像の説明を挿入
T out T_{out}Tあなた_T in T_{in}Tフレームのしきい値、つまりビデオの最大フレームの ID を示します。

  • 式 6 は、カメラ C042 トラックを終了するときに満たすべき条件は、終了時間が終了エリアの最大フレーム数を超えてはならず、終了エリアがエリア 4 である必要があることを示しています。
  • 式 7 は、カメラ C043 に進入する軌跡の条件として、進入時間が進入エリアの最小フレーム番号より大きく、進入エリアがエリア 1 である必要があることを示しています。

ボックスベースの距離行列の構築と最適化

前のステップを完了すると、 T rajin Traj_{in}が得られます。トラジャ_ _ _T rajout Traj_{out}トラジャ_ _ _あなた_コレクション。これまでの手法では軌跡計算距離行列に基づいてマッチングを行っていましたが、軌跡に関係する一部のノイズ特徴が支配的な特徴となるため、計算効果は限定的でした。この問題を解決するために、本論文ではボックスに基づいて距離行列を計算することを提案する。また、接続された 2 つのカメラ領域、C042 の領域 4 と C043 の領域 1 についても考慮します。

  • まず、2 つの領域内のボックス間の距離を計算します。Z アウト Z_{アウト}Zあなた_出口ゾーンを示します。Z in Z_{in}Z領域に入ったことを示します
    Z out = [ T 1 , . . . , T n ] Z_{out} = [T_1, ..., T_n]Zあなた_=[ T1... T] 其中, T i = [ B i 1 , . . . , B i h i ] T_i=[B_i^1, ..., B_i^{h_i}] T私は=[ B1... Bh私は]B ih B_i^hBi 番目の軌道の h 番目のボックス フィーチャを示します。
    Z in = [ T 1 ^ , . . , T m ] ^ Z_{in} = [\hat{T_1}, ..., \hat{T_m]}Z=[T1^... Tメートル^ここで、T i =[B i 1 ^ ,., B ihi ^ ] T_i=[\hat{B_i^1}, ..., \hat{B_i^{h_i}}]T私は=[B1^... Bh私は^]
    2 つの領域の類似性行列は次のとおりです。
    ここに画像の説明を挿入
  • 2 番目のステップは、距離行列を最適化することです。「k-逆数符号化による人物の再識別」という論文を参照して、距離行列 D を使用して類似度行列 S を再構成し、次に移動時間に応じて距離行列を微調整し (式 9)、最後にオクルージョン率を使用して、強力な距離行列 (式 10) を生成します。
    ここに画像の説明を挿入
    ここに画像の説明を挿入

K 逆最近接に基づく軌道関連付け

前のステップで生成された距離行列DDを使用するD関連トラック。k-逆数最近傍マッチング アルゴリズムを使用します。

  • 最初にB ih B_i^hを使用しますB中心点としてN ( B ih , k ) N(B_i^h, k) を定義します。N ( Bk )ここに画像の説明を挿入
  • 次に、 「ゾーン内」で最も多く発生するB ih B_i^hを定義します。B隣接する軌道が一致する軌道である。
    ここに画像の説明を挿入

術後

  • 「インゾーン」の後に「アウトゾーン」が来るなど、不当な組み合わせがないか確認し、削除させていただきます。
  • 統一ID

実験

データセット

AiCity2022が提供するCityFlowV2のトレーニングセットと検証セットを使用しました。さらに、VehicleX によって生成された合成データが使用されました。
ReID のトレーニング データ セットには、2028 台の車両 (666 台の実車 + 1362 合成車)、229345 枚の写真 (27195 枚の実画像 + 192150 合成画像) が含まれています。

おすすめ

転載: blog.csdn.net/qq_42312574/article/details/128880603