ICCV 2023 | アップ! PVT++: 一般的なエンドツーエンドの予測オブジェクト追跡フレームワーク

下のカードをクリックしてCVer」公式アカウントをフォローしてください

AI/CV 重量物乾物、初めて納品

クリックして入力 —>【ターゲット追跡】WeChat交流グループ

著者: Jaraxxus | 再版許可 (出典: Zhihu) 編集者: CVer

https://zhuanlan.zhihu.com/p/643835478

この論文では、オブジェクト追跡展開の遅延問題を解決することを目的とした、汎用のエンドツーエンド予測追跡フレームワーク PVT++ を提案します。事前トレーニングされたさまざまなトラッカーの「オンライン」追跡効果は、PVT++ フレームワークでのトレーニング後に大幅に向上し、場合によっては「オフライン」設定と同じ効果を達成することさえありました。

7dc1dd67b0ebfcfd066241d1464d75c4.jpeg

PVT++

論文: https://arxiv.org/abs/2211.11629

コード: https://github.com/Jaraxxus-Me/PVT_pp

序章

単一オブジェクト追跡 (SOT) は、コンピューター ビジョンの分野で長年研究されてきた問題です。ビデオの最初のフレームでのターゲットの初期位置とスケールが与えられると、ターゲット追跡アルゴリズムは後続の各フレームでの初期ターゲットの位置とスケールを決定する必要があります。このような視覚手法をロボットに導入すると、監視、追従、自己位置特定、障害物回避などのインテリジェントなアプリケーションを実現できます。ターゲット追跡アルゴリズムの研究と評価のほとんどは「オフライン」の仮定に基づいています。具体的には、アルゴリズムは (オフライン) ビデオのフレーム番号に従ってフレームごとに処理され、その結果が対応するフレームと比較され、精度/成功率を計算します。

ただし、アルゴリズム自体の遅延はロボット ハードウェア上で無視できず、アルゴリズムが現在のフレームを完了した時点で世界はすでに変化しており、その結果、トラッカーが現実世界と異なるため、ターゲットの現在の状態が一致しません。つまり、図 2(a) に示すように、アルゴリズムの遅延は常に存在するため (アルゴリズムがリアルタイム フレーム レートに達しても)、出力結果が「古い」ことは避けられません。

このアイデアは、ECCV2020「ストリーミングの認識に向けて」から生まれました。

オンボードのコンピューティング能力が限られており、プラットフォーム/カメラの動きが厳しいため、この問題は UAV 追跡において特に深刻であることがわかりました。図 1 に示すように、「オフライン」評価と比較して、アルゴリズムの遅延を考慮した「オンライン」評価では、パフォーマンスが大幅に低下します。

e7f8b31dadf76adb295f476fee6ad1eb.jpeg

図 1. 「オフライン」評価と「オンライン」評価における個々のトラッカーのパフォーマンスと、「オンライン」追跡における PVT++ の効果。灰色のアイコンはオフライン評価を表し、青色のアイコンは同じメソッドのオンライン評価を表し、赤色のアイコンは PVT++ を使用して予測トラッカーに変換された同じメソッドを表します。

図 2(b) に示すように、この問題を解決するには、予測トラッカーはアルゴリズムの遅延によって生じる遅れを補償するために、世界の将来の状態を事前に予測する必要があります。

この理論は、ECCV2020「Towards Streaming Perception」と前作「Predictive Visual Tracking (PVT)」で詳しく説明されています。

トラッカーの後にカルマン フィルター処理を使用する以前の方法とは異なり、この論文では、トラッカーが提供できる視覚機能から始まるエンドツーエンドの予測オブジェクト追跡フレームワーク (PVT++) を開発します。当社の PVT++ は、事前トレーニングされたトラッカーによって提供される視覚機能を効果的に利用し、データからターゲットの動きの法則を学習して、より正確な動きの予測を行うことができます。

6ec591f3098cad653a9ddffa9813169d.jpeg

図 2. (a) 従来のトラッカーには遅延があるため、結果は常に遅れます。(b) 予測追跡は、世界の状態を事前に予測し、遅延によって生じる遅れを補償します。(c) カルマン フィルタリングに基づく方法とは異なり、当社の PVT++ はトラッカーの視覚的機能を効果的に利用し、データから運動の法則を学習してより正確な予測を行うことができます。

PVT++ は、さまざまなタイプのトラッカーに適用できる一般的な学習可能なフレームワークです。図 1 に示すように、一部のシナリオでは、PVT++ を使用すると、「オフライン」評価と同等の「オンライン」結果を達成することもできます。

助ける

  1. 私たちは、エンドツーエンドの予測物体追跡フレームワークである PVT++ を開発しています。これは、さまざまなタイプのトラッカーに汎用であり、一般に大幅な改善をもたらします。

  2. 「データからターゲットの運動の法則を発見する」ことを達成するために、PVT++ の一般化問題を効果的に解決する相対運動係数を提案します。

  3. トラッカーの既存の視覚機能を導入して安定した予測を実現するために、トラッカーの視覚的知識を効果的に利用するだけでなく、コンピューティング リソースを節約する補助ブランチと共同トレーニング メカニズムを設計します。

  4. PVT++ アプローチに加えて、トラッカーのパフォーマンスをさらに定量化できる新しい評価指標 e-LAE も提案します。これにより、遅延を考慮した評価が可能になるだけでなく、リアルタイム トラッカーを区別することもできます。

メソッドの紹介

問題全体を厳密な数式で体系的に定義するために、PVT++ のメソッド部分の記述は時間をかけて繰り返しブラッシュアップしましたが、記号が多すぎて構造が比較的複雑になるのは避けられません(レビューワーからの苦情)何度も...), 少し読みにくく、見失いやすいですが、ここでは読者が記事の核となるアイデアをより早く理解できるように、私の直感的なアイデアの一部のみを提供します。

a8556d017838eca4fba7e9880b07e2fd.jpeg

図3. (a) PVT++マクロフレームワークと(b) e-LAE評価指標

e-LAE評価指標

「オフライン」設定とは異なり、「オンライン」トラッキング (LAE) は、アルゴリズムの実際の展開に従って設計されており、具体的には次の 2 つの原則に従います。

ad83b3670af049782f25731d8b190ca0.png

同様の評価手法はECCV2020「Towards Streaming Perception」で初めて提案されており、PVTに関する先行研究では追跡アルゴリズムに上記の調整を行った。

ただし、この評価方法には欠点があり、アルゴリズムの速度がワールド フレーム レート (図 3 の下のアルゴリズムのタイムスタンプなど) より速いと仮定すると、アルゴリズムがどんなに速くても、評価中にアルゴリズムのラグが発生します。常に 1 フレームになります。つまり、同じ精度のトラッカー A と B が 2 つあると仮定すると、A>B>ワールド フレーム レートの速度である場合、このような評価指標によって得られる A と B の結果は同じであるため、LAE は追跡できません。リアルタイム トラッカーの速度が評価に含まれるため、リアルタイム トラッカー間で有効な比較を行うことはできません。

9eec0f9aac2497b14fd7813fb3ad3a27.png

e-LAE に基づいて、ロボット プラットフォーム AGX Xavier 上の多くのトラッカーで詳細な実験を実施しました。17 個のトラッカーと 3 つのデータ セットが含まれます。詳細については、原文の図 5 を参照してください。HiFT や SiamAPN++ などのギャップ リアルタイム トラッカー (原文)注2)。私たちはすべての結果をさらに検討しており、最終的に評価の生の結果をオープンソース化する予定です。

PVT++

アルゴリズムがどれほど高速であっても、常に遅延が発生するため、遅延を補償するためにエンドツーエンドの予測追跡フレームワークを設計しました。図 3(a) に示すように、PVT++ の構造は非常に直感的でシンプルです。トラッカー モジュールは、一般的な既存の (深層学習に基づく) 追跡アルゴリズムです。予測子は、トラッカーによって出力された履歴モーション m を受け入れ、トラッカーの歴史的ビジョン 特徴量 x、y およびあらかじめ設定された後方フレーム番号 Δ を入力として使用し、未来フレームの目標位置を出力します。

aff9dc0fefee93d9e0537c5b3aaff312.png

PVT++ の構造はシンプルで直観的であるように見えますが、オンラインのドローン追跡を支援するためにオフライン データ トレーニング フレームワークを使用するのは簡単ではなく、その独自性は次の 3 つの点にあります。

相対運動係数: PVT++ のトレーニングでは、トレーニング セットとテスト セットの間のドメイン ギャップという中核的な問題に遭遇することがわかりました。想像してみてください。PVT++ のトレーニングに使用されるデータが、小さなターゲット モーション スケールと通常の方向速度を持つ VID、LaSOT、GOT10k、およびその他のデータ セットからのものである場合、PVT++ は自然にこれらのモーションの法則に適合しようとするため、ターゲット モーションに一般化するのは困難です。より複雑で大規模なドローン追跡シナリオ。この問題を解決するために、特別に設計された相対運動係数、つまり元の式 (4) を学習/適合するように PVT++ のトレーニング目標を変更しました。

ここで、pfj は単純に過去数フレームの平均速度として理解できます。左の式では、まずターゲットが一定の速度で移動している、つまり将来のフレームの相対位置変化が比例すると仮定できます。将来のフレームの時間間隔と平均速度を決定した後、ニューラル ネットワークは、将来の実際の動きに対してこの仮定に基づいて調整を行うだけで済みます。この設計により、予測器が学習する必要があるのは、絶対的な動きの値ではなく、「等速運動の仮定に対する相対的な偏差値」、つまり相対的な動き係数になります。ほとんどの場合、予測されたターゲットはターゲットの絶対運動とは無関係であることがわかりました。そのため、トレーニングされたネットワークをトレーニング セット内の絶対運動に適合させるのは容易ではなく、一般化がより優れています。この設計が、PVT++ が機能する中心的な理由です。予測器によって出力された相対運動は、後続の設計とトレーニング損失関数としてのグラウンドトゥルース L1 損失に使用されます。

軽量のプレディクター構造:もう 1 つの問題は、システム全体の障害を引き起こす可能性がある、予測モジュールによって導入される余分な遅延を回避するために、プレディクター自体が十分に軽量である必要があることです。この目的を達成するために、図 4 に示すように、エンコーダ、インタラクション、デコーダの 3 つの部分を含む軽量で効果的なネットワーク アーキテクチャを設計しました。図 4 に示すように、ほとんどのネットワーク層は、非常に少数のネットワーク層を持つことができます。チャネル 極めて低いレイテンシを達成するため (詳細については原文の表 3 を参照)。さらに、予測器の設計では、トラッカーによって提供される視覚的特徴も最大限に再利用するため、視覚的特徴の抽出に必要な計算リソースが節約されます。

b89dbdb256758b30522db4780f9f5a51.jpeg

図 4. PVT++ の予測子の軽量ネットワーク アーキテクチャ。

トラッカーの既存の視覚機能を効果的に使用する方法:最後に、軽量の予測子に堅牢な予測を行わせるために、少数のパラメーターを持つ予測子が (より大きな) 事前トレーニング済みのデータを効果的に使用できるようにする一連のトレーニング戦略を設計します。追跡 デバイスによって提供できる堅牢な視覚表現。具体的には、次の 2 つの設計ポイントが特に重要であることがわかりました。

  1. 補助ブランチ: 予測器のビジョン ブランチ (図 4(b)) は、将来の動きを予測するための監視信号 (図 4 の破線ボックス) として現在の相対動き情報を必要とします。詳細については、原文のセクション 5.3 を参照してください。

  2. 共同トレーニング: PVT++ をトレーニングする場合、視覚的特徴が位置決め用のトラッカーと予測用のプレディクターの両方に適しているように、トレーニングの初期段階でトラッカー モジュールをプレディクターと一緒に低い学習率でトレーニングする必要があります。詳細については、付録 B のトレーニング設定とオープン ソース コードを参照してください。

この方法の詳細については、原文を参照してください (追記、付録 B には、読みやすくするための記号表が記載されています...)

実験部分

全文の実験計画は、e-LAEの評価(原文図5)とPVT++の効果と解析の2つの部分で構成されており、ここではPVT++に関連する実験に焦点を当てます。

設定

ベースライン トラッカーを公平に比較​​するために、PVT++ はトレーニング セットとして同じ LaSOT+GOT10k+VID を使用します (両方ともビデオ) (実際には、VID のみでもより良い結果が得られます。詳細については、付録 L を参照してください)。具体的には、トラッカーの元の作成者がトラッカー モジュールとして提供したモデル パラメーターを直接ロードし、オフライン データを使用して PVT++ をトレーニングしました。

評価では、4 つの権威あるドローン追跡データセット DTB70、UAVDT、UAV20L、UAV123 を使用して、PVT++ の一般化を広範囲に検証しました。

全体的な効果

4612009c78938751d10e1b9d8ef876dd.jpeg

表 1

PVT++ の全体的な効果を表 1 に示します。4 つのトラッカーを予測トラッカーに変換しました。4 つの UAV 追跡データ セットにおいて、PVT++ は広範囲かつ重要な役割を果たします。一部のシナリオでは、PVT++ が 60% 以上の改善を達成でき、トラッカーのオフライン効果と同等であることがわかります。さらに、すべての視覚情報が効果的で信頼できるわけではないこともわかり、たとえば、DTB70 では、PVT++ のモーション ブランチのみが特定のエフェクトを再生できます。

アブレーション実験

d8dd3fe067309c7a4b1d64cb93ab8eab.jpeg

ここでは、アブレーション実験の表 4 に焦点を当てます。相対運動係数が予測されず、絶対運動値が予測ターゲット (および損失関数設計) として直接使用される場合、予測子はまったく機能せず、さらには機能しない可能性があります。マイナスの影響をもたらします。視覚機能を導入する場合、監督と補助部門の共同トレーニングの両方が必要であり、共同トレーニングの方が重要です。

他の方法と比較して

216321a2bd5c4bab0a87e6abfd92452b.jpeg

表5

表 5 に示すように、トラッカーの直後にカルマン フィルタリング (つまり、ECCV2020 の「ストリーミング」の考え方に従って) と以前のデュアル フィルタリング (PVT) スキームを追加して、学習可能なベースライン手法を設計しました (具体的には、学習可能なパラメータとしてカルマン フィルタリングのノイズ項を使用します)。これらの方法はいずれもトラッカーの既存の視覚機能を利用していないため、全体的な効果はモーションと視覚機能を組み合わせた PVT++ よりも悪くなります。

視覚化

2297ee4139c093e0055a92ea79bcc163.jpeg

図 5. PVT++ とカルマン フィルタリングの視覚的な比較

図 5 の 3 つのシーケンスでは、カルマン フィルター予測器がターゲットの面内回転と UAV の視野角の変化を処理するのが難しいことがわかります。これらの課題では、ターゲットの視覚情報を導入することが特に効果的です。スケール予測。

さらに、この記事では、属性分析、他の動き予測手法 (NEXT など) との比較、最新のトランスフォーマーベースのトラッカーに適用された PVT++ など、より詳細な実験も実施しました。付録へようこそ。

制限と議論

PVT++ の制限は次の 2 点にあります。

  1. 予測器で使用される視覚的特徴は、必ずしも堅牢であるとは限りません。DTB70 では、ターゲットの移動速度が非常に速いため、画像がぼやけたりターゲットが見えなくなったりしますが、ターゲットの動き自体は非常に規則的であることがわかりました。データ セット実際には、モーション ブランチだけでも効果的な役割を果たすことができます。

  2. トレーニング戦略は、特に共同トレーニング中の初期のエポックで小さな学習率でトラッカー モジュールを微調整する場合に、やや複雑になるため、それがわかるまでに多くの実験を試みました。

e-LAE の制限は、再現性とプラットフォームへの依存です。

このオンライン評価システムはアルゴリズムの実際の遅延と密接に関係しており、遅延はハードウェア プラットフォームの状態に関係しているため、同じタイプのハードウェアで同じ実験結果であってもわずかに異なることがわかりました。 、同じAGXを長時間配置しても少し遅くなるような気がします...)。私たちは、ハードウェアの不安定性の影響を最小限に抑えるために同じハードウェア上で複数の実行を集中させ、誰もが結果を再現できるように元の結果をオープンソース化することを試みました。さらに、AGX ハードウェアを「シミュレート」するスクリプトも提供しています。これは、ハードウェアでカウントされた遅延時間を (毎回ロボット ハードウェアで実行する代わりに) 直接使用できます。詳細については、オープン ソース コードを参照してください。

予測的な「オンライン」ターゲット追跡は依然として非常に難しい研究課題であり、データ/モデルパラメータの量を増やしても簡単に解決できない可能性があり、改善の余地はまだ多くあります。現在、「眼鏡」のバッチが視覚分野で急速に出現しており、オンラインの遅延には、研究する価値のある他の解決策がある可能性もあります。たとえば、オムニモーションと呼ばれる比較的円から外れた最近の研究がありますが、点の対応関係に依存して、ターゲット上の各点の運動法則を考慮し、ローカルからローカルまでのオブジェクトの将来の運動について推論できるでしょうか。グローバル?これにより、PVT++ よりも優れた効果が得られる可能性があります。

さらに、今日人気のあるいくつかの基礎モデル研究にアルゴリズム遅延の問題を導入することも興味深い方向性です。たとえば、SAM と DINOv2 の視覚機能は、ImageNet の事前トレーニング ResNet よりも視覚的な動き予測に適していますか? もしそうなら、これらの超大規模な事前トレーニング済みの視覚特徴にどのように対処すればよいでしょうか? TrackAnything から調査を開始できるかもしれません。

ありがとう

PVT++は学部時代の最後の作品ともいえる作品で、あまり派手なcvコンセプトもないようで作業量も膨大ですが、個人的にはとても気に入っています。この3年間でやったかも知れませんが、実験の中で一番しっかりした作業で、相対運動要素と共同訓練によって大幅な改善が見られたときは、言葉では言い表せない喜びと驚きでした。最初の議論 (2022 年初頭) からこの作業の現在の草案に至るまで、丸 1 年半が経過しました。この期間中、私は多くの鋭いコメント、困難、浮き沈みに遭遇しました (ほとんど arvix に永遠にしがみつくつもりでした) quqqq)、付録は複数回のレビューで付録 M まで修正されました (テキストとしてはほぼ十分です、つまり ><)。この期間に協力してくれたZiyuan先生、Jie兄弟、Yiming兄弟、そしてこの期間に協力してくれた3人の先生たち、そして毎回私を励ましてサポートしてくれた辛抱強く議論と修正をしてくれたCMUの友人たちにとても感謝しています。

この記事の初稿は 2022 年の夏に完成しました。これは、Ziyuan と私が上海未来知能研究所の Zhao Xing 氏と協力して、その年の前半に行ったプロジェクトでした。マーズラボは雰囲気の良い研究室で、皆、確かな力を持ちながらも優しく謙虚で、志を同じくする人ばかりだと言えます。私はつい最近中国に帰国し、雲津路西岸の先生やクラスメートに大変お世話になり、ディスカッションの中でたくさんのアイデアが出てきて、今後の協力や交流がとても楽しみです。22年春、上海の感染状況が厳しかったとき、当時の研究所の先生方や学生の方々には大変お世話になりました。私たちは主に ECCV2020「Towards Streaming Perception」からインスピレーションを受けています。私たちのコードは、オブジェクト追跡用の有名なオープン ソース ライブラリ pysot に基づいています。関連する著者と開発者の方々に心からの感謝を表したいと思います。

皆さんもぜひ注目し、交換し、議論してください。

ボーウェン・リー著

2023.07.17 ピッツバーグ

 
  

クリックして入力 —>【ターゲット追跡】WeChat交流グループ

ICCV/CVPR 2023 ペーパーとコードのダウンロード

 
  

バックグラウンド返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标跟踪交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标跟踪 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标跟踪+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理するのは簡単ではありません、いいねして見てください8f96afaeb2fa440be25960a3a0db180e.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/131799378