ビデオオブジェクト検出と画像オブジェクト検出の違い

I.はじめに

この記事では、ビデオ ターゲット検出と画像ターゲット検出の違いを理解している数人の大御所の回答を紹介します。主な内容には、ビデオオブジェクト検出とイメージオブジェクト検出の違い、研究の進捗状況、ビデオオブジェクト検出の研究アイデアと方法が含まれます。

著者: Naiyan Wang、Zha Zha、Yi Chen
https://www.zhihu.com/question/52185576/answer/155679253

編集: CV テクニカルガイド

免責事項: 学術的な共有のみ、侵入および削除を目的としています。

この記事は CV テクニカル ガイドからの転載です

オリジナル

著者: Naiyan Wang https://www.zhihu.com/question/52185576/answer/155679253

時間をかけてこの質問に簡単に答えますが、私たちがより懸念している方向性です。

簡単に言うと、ビデオ検出には単一画像検出よりも多くのTemporal Context (時間的コンテキスト) 情報が含まれます。さまざまなメソッドが、さまざまな問題を解決するためにこれらのコンテキストを使用したいと考えています1 つのタイプの方法は、情報のこの部分を使用してビデオ検出を高速化する方法に焦点を当てることです隣接するフレーム間には多くの冗長性があるため、パフォーマンスを損なうことなく高速化するためにいくつかの安価な方法を使用できれば、実際のアプリケーションでは意味があります。もう 1 つの方法は、情報のこの部分に注意を払うことです。これにより、単一フレーム画像検出における動きブラーや小さなオブジェクト領域によって引き起こされる困難を効果的に軽減して、パフォーマンスを向上させることができます。もちろん、速くて上手であることが理想です。

もちろん、追跡関連付けを直接使用するなど、非常に単純なベースライン方法がいくつかあります。実際、この種の方法はモデル自体には深く踏み込まず、一般に後処理ステップに限定されており、一定の結果の改善も達成できますが、個人的にはあまり洗練されていないと感じています。次の 2 つのグループの研究にさらに注目が集まっています。

  1. CUHK: Xiaogong Wangには、私が学んだ 3 つの記事があります。最初に** (TPAMI Sshort) は、動き情報とマルチクラス相関を通じて単一フレーム画像検出器の出力を後処理します。の小さな改善ですベースライン。これに基づいて、後続の記事(CVPR16)では、Tubeletを再スコアリングするためのTemporal CNN**が導入されましたこのようにして、各提案の信頼性は時間情報を通じて再評価されます。最近の研究 (CVPR17) では、提案のこのステップを生成し、それを実行するためのタイミングを静的画像から取得します。また、各Tubeletの分類には、定評のあるLSTMも採用されています。

  2. MSRA: 比較的言えば、jifeng Daiのここでの仕事はよりクリーンで、彼の思考はより明確です。個人的にはこちらの方が好みです。実際、この分野の 2 つの作品は同様のアイデアを持っていますが、前述の高速化とパフォーマンス向上という 2 つの目的に対応しているだけです。その核心は、オプティカル フローを迅速に計算してビデオ内のモーション情報をキャプチャし、そのフロー情報を使用してバイリニア サンプリングを使用して前の特徴マップワープすることです (つまり、オプティカル フローを通じて現在のフレームの特徴マップを予測します) )。このような情報があれば、高速化したい場合は、予測された特徴マップを直接使用して結果を出力できます。より良い結果を得たい場合は、予測された特徴マップと現在のフレームで計算された特徴マップを組み合わせて出力できます。結果も一緒に現在、後者が唯一のエンドツーエンドビデオ検出方法であることは言及する価値があります。

さらに、 Seq-NMSなど、基本的にはリスコア検出の問題に対処するための後処理プロセスに含まれるいくつかの断片的なタスクがあります

最後に、議論を始めるためにレンガを投げて、ビデオ検出で観察された問題を提案したいと思います。また、この問題について説明する論文も書きました ([1611.06467] ビデオ検出と追跡の安定性について)。ビデオ検出安定性) の問題。下のビデオを参照してください。実際、2 つの検出器は精度の点で大きな違いはありませんが、人間の目にはどちらが優れているかは明らかです。ビデオリンク:
ビデオ
このような安定性の問題は、実際のアプリケーションでは実際に多くの問題を引き起こします。たとえば、自動運転では、車両の距離と速度を推定するために安定した 2D 検出フレームが必要です。検出が不安定になると、その後のタスクの精度に大きな影響を与えます。そこで、この記事では、まずこの安定性を測定するための定量的な指標を提案し、次にいくつかの単純なベースラインを評価しました。また、この安定性指標と一般的に使用される精度指標の間の相関関係も計算しました。その結果、これら 2 つの指標は実際にはあまり相関していないこと、つまり、ビデオ検出の 2 つの側面の品質をそれぞれ捉えていることがわかりました。精度の向上とは別に、同様に重要な安定性を向上させる方法も考慮する必要があります。

要約すると、ビデオ検出の問題は、実用性の観点からも学術研究の観点からも非常に良いトピックです。RBG と Kaiming の継続的な取り組みにより、静止画像検出には改善の余地がますます少なくなっています。Still Imageで 0.x ポイントの mAP を達成しようと必死に努力するよりも、一歩下がって新しい設定を掘り出す方が良いでしょう。それが明るい未来につながります。

著者: フリード https://www.zhihu.com/question/52185576/answer/298921652

Naiyan Wangの答えは素晴らしく、核心的な違いを指摘しています。ビデオベースの物体検出では、フレーム レートが高い場合に時間コンテキストを使用して情報の冗長性を排除し、時間コンテキストを使用して単一フレーム画像の不十分な情報を補うことができます。追跡がより良く、より速くなります。また、対応する 2 つの最もファッショナブルで美しいビデオ検出アルゴリズムも付属しており、非常にメリットがあると感じています。
ここでは両者の仕組みや違いについて、私なりの観点からお答えしたいと思います。私は過去 2 年間ビデオベースのターゲット検出と追跡を行っていたため、使用した手法は現在の長短期記憶(LSTM) と比較すると比較的古めかしいかもしれませんが、対象は初心者であるべきだと思います。過去の古典について学ぶ、またはそれは有意義であり、初期の補足として使用できます。

研究課題

映像に基づくものであっても、画像に基づくものであっても、私たちの研究の中心は、画像(または映像の画像)内でターゲットを識別し、測位を実現するというターゲット検出の問題です。

単一フレーム画像に基づくターゲット検出

静止画像上でのターゲット検出の実現自体は、スライディング ウィンドウ + 分類のプロセスです。前者は、ターゲットが存在する可能性のあるローカル領域をロックするのに役立ち、後者は、ロックされた領域に (は) 私たちが探しているもの 目標。研究の中核は主に後者、つまりロックされた領域を記述するためにどのような種類の特徴表現 ( HOG、C-SIFT、Haar、LBP、変形可能部品モデル (DPM) など) を選択するか、これらの入力の種類に焦点を当てています。探しているターゲットであるかどうかをスコアリングして判断するための分類子 ( SVM、Adaboost など) を備えています。

検出したい対象物はさまざまな形状 (種類、変形、照明、角度などにより) を持つ可能性がありますが、大量のデータを使用してCNN をトレーニングすることで得られる特徴表現は、認識と判断のプロセスに役立ちます。結構。ただし、ターゲットが非常に小さい場合、ターゲットが背景に近すぎる場合、またはこの画像フレーム内のブレやその他の理由でターゲットが実際に歪んでいる場合など、極端な場合には、CNN も無力に感じられ、実行できなくなります。それを私たちが探しているターゲットとして認識します。また、撮影現場に対象物に似たもの(飛行機や翼のある大きな鳥など)が混在している場合もあり、この際にも判断ミスが生じる可能性があります。

つまり、このような場合、単一フレームの出現情報だけでは、ターゲットのロバストな検出を完了できない可能性があります。

ビデオベースの物体検出

単一のフレームでは十分ではなく、複数のフレームが必要です。映像においては、ターゲットが動きの特徴を持っていることが多く、その特徴の発生源としては、ターゲット自体の変形、ターゲット自体の動き、カメラの動きなどが挙げられる。複数のフレームを導入すると、多くのフレームでターゲットの外観情報を取得できるだけでなく、フレーム間のターゲットの動き情報も取得できます。だからいくつかの方法があります

タイプ 1: 目的に焦点を当てたスポーツ情報

まず、動きセグメンテーション背景抽出(オプティカルフロー法やガウス分布など)による前景と背景の分離、つまり動き情報を利用して対象となりそうな領域を抽出し、次に、連続フレーム内のターゲット 永続性 (サイズ、色、軌道の一貫性) は、不適格な候補ターゲット領域を削除するのに役立ちます。その後、スコアリングによって選択された領域を判断するか、外観情報 (単一フレーム内で言及される) を使用します。

2 番目のタイプ: 動的と静的の組み合わせ、つまり、最初のタイプに基づいて、ターゲットの外観変形を追加します。

ビデオ内の歩行者や鳥などの一部のオブジェクトには、大規模かつ規則的な変形が見られます。このとき、変形則を学習することでターゲットの特殊な運動特性や行動パラダイムを要約し、検出されたターゲットがそのような行動変化を満たすかどうかを確認できます。一般的な動作特徴には、3D 記述子、マルコフベースの形状ダイナミクス、ポーズ/プリミティブ アクションベースのヒストグラムなどが含まれます。ターゲットの静的情報と動的情報を組み合わせて特定のターゲットであるかどうかを判断するこの方法は、行動の分類にやや偏っています。

3 番目: 周波数領域機能の使用

ビデオベースのターゲット検出では、ターゲットの空間と時間の情報の分析に加えて、ターゲットの周波数領域情報も検出プロセスで大きな役割を果たす可能性があります。たとえば、鳥の種類の検出では、羽ばたきの頻度を分析することで鳥の種類を識別できます。

ここでのビデオベースの検出には 2 つの状況があることに注意してください。1 つは、このシーンにそのようなターゲットが存在するかどうか、存在する場合は対応するシーンの位置がどこにあるかを知りたいだけであるということです。もう 1 つは、2 つ目です。このシーンにそのようなオブジェクトが存在するかどうか、および各フレーム内のそのオブジェクトの位置がわかります。ここで紹介するアプローチは、後者のより複雑なアプローチに焦点を当てています。

ディープラーニングは有望であり、普及しています。視覚特徴モデリングが発展し続け、コンピューター ビジョンの分野全体が機械学習によって疎外されるのではなく、より多様化することが期待されています。

著者:イーチェン https://www.zhihu.com/question/52185576/answer/413306776

上記の非常に多くの偉人の回答を見て、私自身の理解をいくつか追加します。
まず概念的に言うと、ビデオターゲット検出で解決すべき問題は、ビデオの各フレーム内のターゲットを正確に識別し、位置を特定することです。では、画像ターゲット検出やターゲット追跡などの他の分野との違いは何でしょうか?

1. 画像物標検出との違い

ここに画像の説明を挿入
(画像は、ビデオ オブジェクト検出のためのフローガイド機能集約からのものです)

2. ターゲットトラッキングとの違い

ターゲット追跡は、通常、単一ターゲット追跡とマルチターゲット追跡の 2 つのタイプに分類できます。解決すべきタスクは、画像の各フレーム内のターゲットの正確な位置決めが必要であるという点でビデオ ターゲット検出と同じです。違いは次のとおりです。ターゲット追跡では、ターゲット認識の問題は考慮されません。

3. ビデオオブジェクト検出の進歩

  1. オプティカルフローと組み合わせた手法
    私はMSRAのjifeng Dai氏の活動をフォローしてきました。

上司の仕事の出発点は非常にシンプルです。DFF (Deep Feature Flow) では、まず検出タスクを特徴抽出タスク Nfeat (ResNet101) と検出タスク Ntask (R-FCN) に分割し、Nfeat でキーフレームと非キーフレームを区別して抽出します。キー フレームの特徴 特徴マップを取得し、FlowNet ネットワークを使用して非キー フレームのオプティカル フローを推定し、キー フレームから抽出された特徴を通じてバイリニア ワープの形式で非キー フレームの特徴マップを取得します。 。検出ネットワークは、2 つの方法で特徴マップが取得された後にタスクを実装するために使用されます。
ここに画像の説明を挿入
この研究の利点は、連続フレームの冗長情報を使用して大量の計算を削減し、検出速度が非常に速いことです。

FGFA (Flow Guided Feature Aggregation)
の出発点は、特徴の品質を向上させ、ビデオ内のモーション ブラーやビデオの焦点のぼけの問題を改善することであり、その手法は前後の情報をより良く融合させることを特徴としています。フレーム。アテンションモデルの考え方の助けを借りて、現在のフレームと前後のフレームの間の各空間位置のコサイン類似度が適応重みとして計算され、ワー​​プの特徴マップが現在のフレームに近づくほど、フレームの分だけ重量が重くなります。

ここに画像の説明を挿入
この作業はフレームごとに特徴抽出を行うため、計算コストが高く、検出速度が遅くなります。利点は検出精度が向上することであり、ImageNet VID タスクチャンピオン方式では上記 2 つの方法が使用されます。

  1. オブジェクト追跡と組み合わせたアプローチ
    リンク

  2. RNNと組み合わせた手法
    链接: [1712.06317] 整列された時空間メモリによるビデオオブジェクト検出 (arxiv.org)

链接: [1607.04648] コンテキストは重要: リカレント ニューラル ネットワークを使用したビデオ内のオブジェクト検出の洗練 (arxiv.org)

  1. 他の融合方法
    链接: [1712.05896] ビデオオブジェクト検出のためのインプレッションネットワーク (arxiv.org)

  2. 非エンドツーエンドのアプローチ
    リンク: [1604.02532v4] T-CNN: ビデオからの物体検出のための畳み込みニューラル ネットワークを備えたチューブレット (arxiv.org)

リンク: [1602.08465v3] ビデオオブジェクト検出用の Seq-NMS (arxiv.org)

要約すると、現在のビデオターゲット検出の研究は、画像分野に比べて十分に活発ではありません。研究のアイデアのほとんどは、冗長情報を使用して検出速度を向上させるか、連続するフレーム間のコンテキスト情報を融合して検出品質を向上させることに焦点を当てています。冗長性を減らして速度を向上させるために行うべき作業はそれほど多くありません。(記事が十分に読まれていない可能性もあります。修正を歓迎します) とコンテキスト情報の融合では、3D コンボリューション、RNN、注意モデル、および行動認識で一般的に使用されるその他の手法の使用を検討できます。

おすすめ

転載: blog.csdn.net/qq_53250079/article/details/127426768