「ビデオ異常検出の再考 - 継続的な学習アプローチ」異常検出 WACV-2022

ビデオ異常検出の再考 - 継続的な学習アプローチ WACV-2022

論文の出典アドレス: Rethinking Video Anomaly Detection - A Continual Learning Approach WACV-2022

1.主なアイデアを簡単に要約する

簡単な概要:現在の異常なビデオ検出は、主に 3 つの一般的なデータセットで設定された異常なフレームの検出を目的としています. 現在の関連する研究には、データセットで与えられた正常なサンプル特性を認識するようにモデルをトレーニングするだけの欠点があります. . 次に、テスト セットに表示されないまだ正常なイベントであるフレームについては、異常と見なされる場合があります。
しかし、このような検出方法は、現実に実際に発生した異常活動イベントとはやや相反するものであるため、著者チームはビデオ異常検出を再検討し、新しいデータセットと異常検出評価指標を与え、新しい検出アルゴリズムを提案しました。つまり、継続的な学習によって異常な活動イベントの検出が実現されます。

イノベーションの研究:
1. 継続的な学習のためのフレームワークを設計し、検出遅延とアラーム精度に基づいて新しいパフォーマンス メトリックを提案する; 継続的な学習のためのフレームワークを設計し、検出遅延とアラーム精度に基づいて新しいパフォーマンス メトリックを提案する
;

2、VAD での継続的な学習のための新しい包括的なデータセットの導入;
VAD に基づく継続的な学習のための新しい包括的なデータセットの導入;


3.オンライン アクティビティの検出と継続的な学習において最先端の方法を大幅に上回る新しいアルゴリズムを提案し、将来のアルゴリズム設計のためのガイダンスを提供する.

2.(関連作品)関連作品

異常検出の現在のステータス:

最近のアルゴリズムは、敵対的生成ネットワークを使用して再構成エラーに基づいてフレームを分類しようとすることによって異常検出を行う再構成ベースの方法と、実際のグラウンドトゥルースと組み合わせたときに将来のフレームを予測しようとする予測ベースの方法に大別できます。検出。主に異常フレームの位置検出を目的としており、映像の異常検出における時間連続性の考慮が欠けており、実生活で発生する異常事象とはかけ離れています。

3、(Continual Video Anomaly Detection)継続的なビデオ異常検出

このサブセクションでは、著者は新しい連続ビデオ異常検出の概念を提案します。

理想的には、ビデオ異常検出システムが新しい検出情報に直面した場合、誤報を回避するために、ノミナル パターン/動作の認識を更新できる必要があります。

ただし、これは既存のアルゴリズムにとって簡単ではありません。現在のアルゴリズムは、エンドツーエンドでトレーニングされたディープ ニューラル ネットワークに広く依存しており、比較的大量のデータでトレーニングすると壊滅的な忘却を起こしやすいためです以前に学んだ情報を忘れる傾向があります。

したがって、このコンテキストでは、作成者チームはまず、ビデオ異常検出のコンテキストで継続的な学習のフレームワークを慎重に定義します。次に、著者は、オンライン アクティビティの検出を評価するための新しいメトリックと、継続的な VAD のための効果的なアルゴリズムを提案します。

新しいデータセット: NOLA

著者は、110 のトレーニング ビデオ クリップと 50 のテスト クリップで構成される新しいデータセットを紹介します。11 のクリップは、米国ルイジアナ州ニューオーリンズの有名な通りでモバイル カメラからキャプチャされたものです。
データセット リンク アドレス: https://www.earthcam.com/usa/louisiana/neworleans/bourbonstreet/cam=catsmeow2
ここに画像の説明を挿入

9000 フレームでクリップされ、毎秒 30 フレームで抽出されます。

データセットには異常の定義や事例が詳しく紹介されており、原文をそのまま読むことができます。
ここに画像の説明を挿入

全体として、データセットは 990,000 のトレーニング フレームと 450,000 のテスト フレームで構成されており、表 1 に示すように、他の利用可能なデータセットよりも大幅に大きくなっています。このデータセットは、作成者によって手動で収集、クリーニング、および注釈が付けられました。トレーニング セットは、継続的な学習の観点からパフォーマンスを評価するために、11 の小さなバッチに分割されます。分割の 1 つは初期トレーニングに使用され、残りの 10 分割は継続的な学習パフォーマンスを評価するために使用されます (図 1)。
時系列図

3.1. 問題の定式化

ビデオ フレームのストリーム F = {f1, f2, . . . } は、一般的なビデオ処理の標準的なデータ構造です。異常検出の場合、ビデオ フレームは、時間的な連続性の欠如と解釈可能性の 2 つの主な理由により、自然なデータ単位ではありません。

異常検出の場合、ビデオ フレームは、時間的な連続性の欠如と解釈可能性の 2 つの主な理由から、自然なデータ ユニットではありません。

人が走ったり、物体が落下したりするなど、ビデオで起こっているアクティビティは時間的連続性の原因であり
、イベントの発生は一連の時間的連続性である必要があります。

したがって、ストリーミング ビデオ活動のデータ構造 X = {x1, x2, . . }. そこで、著者
チームはデータ セットを再定義し、ストリーミング ビデオ活動のデータ構造 x = {x1, x2, ...} を検討します。 .

具体的な定義を下の図に示します。
ここに画像の説明を挿入
1 つの注意点: 異常検出タスクでは、ビデオ内のアクティビティを明示的に識別する必要がないため、アクティビティ認識タスクから分離する必要があります。

有意義でやりがいのあるビデオ異常検出を提案します。

データセットに基づいて、ビデオ異常検出の課題(有意義でやりがいのあるもの) が提案されています。
競合する 2 つの目的により、VAD は意味のある困難な問題になっています: 異常なアクティビティが発生したときにできるだけ早くアラームを発し、関連する場合にのみアラームを発します. アラート
.

新しい異常検出メトリクスについて:

検出遅延:検出遅延を割り当てるパラメータ δi=Ti-τi です。
![検出遅延式](https://img-blog.csdnimg.cn/f8254da537234ec7951e51e07c02748d.png遅延式

アラーム精度:必要な場合にのみアラームを鳴らすことです。これは、2 値分類のよく知られた精度測定と同等です。アラーム精度を最大化するということは、真のアラームと合計アラームの比率を最大化することを意味します。

図に示すように、アラーム j が異常なアクティビティの関連する期間内に発行された場合、それは真のアラーム、つまり Tj+1 ∈ ∪[τi , τi + δmax] であり、残りは誤報と見なされます
。 .
警報精度

これは、アラーム精度の式です。
警報精度

平均精度遅延: VAD アルゴリズムを便利に比較するための単一のメトリックを取得するために、平均検出遅延とアラーム精度を組み合わせた平均精度遅延 (APD) と呼ばれる新しいメトリックを提案します。
平均検出遅延は、検出遅延とアラーム精度を組み合わせたものです。
ここに画像の説明を挿入

一般的な AUC メトリックが TPR と FPR を要約する方法と同様に、APD は、Precision vs. Normalized ADD (NADD) 曲線の下の領域を測定します。
一般的な AUC メトリックが TPR と FPR を要約する方法と同様に、APD は正規化 ADD (NADD) に対する精度の曲線下の領域を測定します。

したがって、より高い検出精度が満たす必要があると結論付けることができます:
アラームの精度が高く、遅延が少ない
APD 値が 1 に近いアルゴリズムは、精度が高く、遅延が少ない必要があります。

継続的な学習設定の目標は、各トレーニング分割 k で APD パフォーマンスを一貫して改善することです。
ここに画像の説明を挿入
成功した連続 VAD アルゴリズムは、より多くのトレーニング分割で APD パフォーマンスを継続的に改善します。

3.2. 継続的な VAD アルゴリズム

連続学習は 2 段階のアプローチで対処されます。最初にエンドツーエンドの深層学習モデルを使用して各フレームの低次元特徴埋め込みを抽出し、次に k 最近傍 (kNN) ベースの RNN モデルを使用して壊滅的な忘却を防ぎます。

具体的な対策は次のとおりです。

  1. まず、著者は事前にトレーニングされたオブジェクト検出器を使用して、YOLO-v4 [29] などの各フレーム内のオブジェクトを検出します。次に、著者は抽出された境界ボックスを使用して、フレーム内で観測された時空間アクティビティを表す機能埋め込みを構築します
    具体的には、このアルゴリズムは、オブジェクト クラスごとに検出されたオブジェクトの数、観測されたオブジェクト クラスの数、曜日、およびビデオ フレームが属する時刻を監視します。同時に、時間型を土日と平日、昼と夜全体に分け、これに基づいて異常属性型の行動を計画する。
  2. 次に、検出された各オブジェクトからより複雑な特徴を抽出することに加えて、著者らは、検出された各オブジェクトの再識別および追跡アルゴリズムを実行する DeepSORT と呼ばれる再識別および追跡アルゴリズムも使用して、リアルタイムのパス追跡を行います。抽出されたオブジェクト パスは RNN に供給され、将来のパスが予測されます。次に、すべてのオブジェクト パスの予測エラーが、時空間特徴とともに単一の特徴ベクトルに重ね合わされます。
  3. 次に、メモリモジュールに格納されたノミナル特徴ベクトルのセット(ノミナル特徴ベクトル)から、特徴ベクトルのkNN距離が計算される。
    k-DNN を継続的に更新するために、経験リプレイを使用します。つまり、最新の特徴ベクトルとその kNN 値に加えて、以前の特徴ベクトルと kNN 値も k-DNN の更新に使用されます。

4、実装の詳細:

  1. kNN 回帰ネットワーク (k-DNN) の場合、著者は、それぞれ 20 ニューロンの 3 つの隠れ層を持つ完全に接続されたディープ ニューラル ネットワークを使用します。著者は経験的に、予測誤差が大幅に低い最も単純なネットワークを選択しました。
    決定 RNN には、2 つの入力タイム ステップを持つ単一の隠れ層 LSTMが使用されます。
  2. YOLO オブジェクト検出器は 80 クラスを含む MS-COCO データセットでトレーニングされ、DeepSORT オブジェクト トラッカーは MOT16 データセットでトレーニングされます。パス予測には、20 の入力タイム ステップを持つ 3 つの隠れ層を持つ LSTM が使用されます。
  3. 著者らは、持続時間が 50 フレーム未満の軌跡を削除しました。すべての特徴は、トレーニングされた最大値と最小値を使用して [0,1] に正規化されます。
  4. パイプライン全体は、RTX 2070 GPU で約 18 fps で実行できます。これは、より優れた GPU またはより軽量なモデルを使用することで大幅に改善できます。

アルゴリズム モデル フレームワークの表示

5. 実験結果:

ここに画像の説明を挿入
持続可能な学習のアルゴリズム フレームワークに従って、著者は公開コードを使用して 2 つのアルゴリズムを変更およびテストし、新しいデータ セットでそれらをテストし、比較結果を得ました。継続的な学習の枠組みの下で、その APD 精度はトレーニング バッチと共に徐々に増加することがわかります。これは、その持続可能性が果たす役割を示しています。

6,まとめ

著者は、ビデオの異常検出における継続的な学習のための新しいフレームワークと新しい包括的なデータセットを提案しています。また、データセットと異常検出の新しい定義。著者らはまた、継続的な学習と経験の再生が可能な新しいビデオ異常検出器を提案しています。

著者らは、提案された NOLA データセットと利用可能なベンチマーク データセットに対する広範なテストを通じて、提案されたアルゴリズムが、標準的なフレーム レベルの AUC メトリクスと同様に、継続的な学習に関して 2 つの最先端の方法よりも優れていることを示しています。

将来の作業では、著者はマルチモーダル設定でオーディオとビデオを活用して、検出パフォーマンスを向上させることを計画しています。

おすすめ

転載: blog.csdn.net/qq_45496282/article/details/124936264