ICCV 2023 | MoCoDAD: 効率的なビデオ異常検出を実現する人間の骨格に基づく動作条件付き拡散モデル

論文リンク: https://arxiv.org/abs/2307.07205

ビデオ異常検出 (VAD) は、従来の異常検出タスクから拡張されています。異常なサンプルは非常にまれであるため、従来の異常検出は通常、1 クラス分類 (OCC) 問題として定義されますVAD の場合、異常な状況に属するサンプルは非常にまれであるため、一般的な手法では、トレーニングに多数の正常なサンプルのみを使用し、通常のビデオの隠れた特徴を限られた空間に限定し、距離や確率などのメトリクスを使用します。分布の違い、再構成、予測誤差により、空間外のサンプルが異常として検出されます。

この記事では、ICCV 2023 で発表された、動き条件付き拡散モデル MoCoDAD と呼ばれる新しいビデオ異常検出方法を提案した研究を紹介しますこのモデルは主に映像内における人体の骨格表現をモデル化し、映像内に現れる正常現象と異常現象がマルチモーダルであると仮定し、拡散モデルを用いて人体の将来の姿勢を予測することを提案しています映像内の過去の歩行者の動きを条件として、拡散処理における反復更新機構を用いて人の動きに適合させて未来のフレームを生成する 生成されたモーションスケルトン情報が実際の未来のモーションスケルトン情報と大きく異なる場合、「例外が検出されました」として識別できます著者は、4 つの標準的な人間の骨格ビデオ異常検出ベンチマーク (UBnormal、HR-UBnormal、HR-STC、HR-Avenue) で多数の実験を実施し、MoCoDAD が SOTA の結果を達成していることを証明しました。

01. はじめに

コンピュータ ビジョンは近年急速に発展していますが、ビデオの異常検出は次の 2 つの主な理由により依然として困難な作業です。

(1)異常の定義は非常に主観的であり、状況やアプリケーションのシナリオに基づいて変更されることが多いため、普遍的に定義することが困難です。

(2) 異常事象は本質的にまれであり、正常事象のデータ量は膨大であるのに対し、異常事象のデータは非常に希薄であるため、深刻なデータの不均衡の問題が発生します。

データ不足の問題を解決するために、既存のモデルは通常、通常のサンプルからのみ学習します (1 クラス分類とも呼ばれます)。この方法を半教師あり学習と呼ぶ学者もいますこの背景に基づいて、この論文では、正常と異常の両方がマルチモーダルであると仮定する、運動条件付き拡散異常検出 (MoCoDAD) モデルを提案します。モーション シーケンスが与えられると、正常か異常かに関係なく、シーケンスは最初にセグメント化され、その後将来のフレームがランダム ノイズに劣化します。最初の (履歴フレーム) クリアな入力フレームを条件として、MoCoDAD はそれに対してマルチモーダル再構成を実行します次に、多峰性分布を比較して正常と異常を区別します。通常の状況では、MoCoDAD によって生成されるモーションは多様であり、実際の状況に関連しています。異常事態においては、モデルが生成する動きもある程度の多様性はあるものの、妥当性が欠けてしまいます

上の図は、正常な例と異常な例の将来のフレームの生成に対する MoCoDAD の効果の比較を示しています。赤 (右) と緑 (左) がそれぞれ異常な例と正常な例を表します。50 の将来のフレームの特徴ベクトルも図の下部に視覚化されています. 点線の輪郭は現在の入力シーケンスの分布範囲を表します. 赤い点は現在の予測フレームに対応する実際のフレームの特徴ベクトルを表します.状況により、実際のフレームは分布の中央領域にあり、予測結果は実際のフレームに関連付けられます。異常がある場合、真のフレームは分布の末尾にあるため、予測が不十分になり、異常が強調表示される可能性があります。

02. この論文の手法

MoCoDAD はノイズ除去拡散確率モデル (DDPM) に基づいており、これに基づいて人体の運動学的特性をモデル化し、人体の骨格軌道点情報を基本単位として使用して、各フレームの体の関節をランダムに更新します。座標が予測されます

2.1 モデルのアーキテクチャ

以下の図は、MoCoDAD モデルの全体的なアーキテクチャを示しています。これは、(1) 前方軌道拡散モデルと (2) 運動条件ガイド型オートエンコーダの 2 つの主要モジュールに分かれています拡散モデルはオレンジ色のブロックで表され、そのタスクは、入力シーケンス フレーム内の劣化したノイズを推定して、実際の将来のフレームを再構築することです。著者は前作 AnoDDPM[1] を踏襲し、この部分を U-Net ベースのアーキテクチャに設定しました。次に、順拡散ネットワークは、生成されたポーズ シーケンスを入力シーケンスと同じ空間サイズまで徐々に縮小および拡張します。さらに、入力シーケンスの時間次元を考慮して、著者らは時空間分離可能 GCN (STS-GCN) [2] を使用して U-Net 拡散層を構築します

2.2 前方軌道拡散モデル

2.3 運動条件ガイド付きオートエンコーダ

03. 実験効果

このペーパーでは、4 つの標準的なビデオ異常検出データ セット、つまり UBnormal、HR-UBnormal、HR ShanghaiTech Campus (HR-STC)、および HRAvenue で実験を実施します。UBnormal データ セットは、コンピューターで合成されたデータ セットです。残りの 3 つのデータセットは、実際の監視シナリオでキャプチャされたビデオです。モデルの評価指標は ROC-AUC です著者は、MPED-RNN、GEPC、SSMTL++、COSKAD を含む 8 つの一般的なビデオ異常検出アルゴリズムを実験比較のために選択し、実験結果を以下の表に示します。

上の表の最初の 4 つの方法は、トレーニングに異常なフラグメントのラベルを使用するため (多くの文書ではこのタイプの方法を弱い教師あり方法と呼んでいます)、OCC 方法の範囲内ではなく、それらを直接比較するのは不公平です。この記事の方法でMoCoDAD が依然として最高の結果を達成していることがわかり、同様の手法である COSKAD と比較して、この手法のパフォーマンスは 2 つのデータセットでそれぞれ 3.6% と 2.9% 向上しています。弱い教師ありメソッドと比較しても、MoCoDAD には明らかな利点があります。たとえば、TimeSFormer と比較すると、このメソッドのパフォーマンスは基本的に同じですが、パラメータが 288K しかないのに対し、TimeSFormer のパラメータは 121M にもなります

ビデオの異常検出パフォーマンスに対する拡散プロセスの影響をさらに分析するために、著者は、上図に示すように、拡散モデル生成代数mと異常スコアSの集約戦略に関する アブレーション分析を実行しました。図の右側は、モデル検出 AUC スコアと生成代数の間の相関関係を示すエラー ヒストグラムで、各曲線は異なる集約統計に対応しています。   

04. 概要

本稿では,拡散モデルに基づく新しい映像異常検出手法MoCoDADを提案する.著者は,拡散モデル技術をこの分野に初めて導入したことを強調する.MoCoDADは人間の骨格シーケンスの動きを解析することで,人間の状態を効率的に理解することができる.動きの傾向通常の状況では、モデルは観察された過去のシーケンスに基づいて将来のシーケンスを予測できます。異常な状況下では、異常動作情報に基づいてモデルが現実の将来シーケンスから乖離を示し、この乖離を通じて異常動作を正確に検出することができます。さらに、MoCoDAD はピクセルの外観情報を必要とせず、人間の骨格情報のみを計算するため、軽量なネットワーク設計と優れた計算効率を実現できます

参考

[1] ジュリアン・ワイアット、アダム・リーチ、セバスチャン・M・シュモン、クリス・G・ウィルク。Anoddpm: シンプレックス ノイズを使用したノイズ除去拡散確率モデルによる異常検出。コンピューター ビジョンおよびパターン認識 (CVPR) ワークショップに関する IEEE/CVF 会議議事録、650 ~ 656 ページ、2022 年 6 月。

[2] テオドロス・ソフィアノス、アレッシオ・サンピエリ、ルカ・フランコ、ファビオ・ガラ。姿勢予測のための時空間分離可能なグラフ畳み込みネットワーク。コンピューター ビジョンに関する IEEE/CVF 国際会議議事録、11209 ~ 11218 ページ、2021 年。


  TechBeat 人工知能コミュニティについて

TechBeat (www.techbeat.net) は江門ベンチャーキャピタルと提携しており、世界的な中国の AI エリートが集まる成長コミュニティです。

私たちは、AI 人材向けによりプロフェッショナルなサービスとエクスペリエンスを作成し、彼らの学習と成長を加速し、それに伴っていきたいと考えています。

これが最先端の AI の知識を学ぶための高台、最新の作品を共有するための肥沃な場所、そして AI の進歩に向かうモンスターとアップグレードして戦うための拠点となることを楽しみにしています。

さらに詳しく紹介 >>中国の世界的な AI エリートが集まる学習と成長のコミュニティ TechBeat

おすすめ

転載: blog.csdn.net/hanseywho/article/details/132714062