[教師なしビデオ異常検出] 2023-CVPR - 事前トレーニングされたディープ スケルトン機能を使用したキューガイド付きゼロショット異常アクション認識

事前トレーニングされたディープスケルトン機能を使用した、キューガイドによるゼロショット異常動作認識

紙のアドレス

まとめ

 この研究では、教師なしの異常行動認識、つまり、従来のスケルトンベースの方法の 3 つの制限を解決しながら、異常なサンプルを使用せずにビデオレベルの異常な人間の行動イベントを識別します。ターゲットドメイン関連の DNN トレーニング、スケルトンエラーに対する堅牢性、そして正常なサンプルが不足している。零样本学习框架私たちは、大規模な行動認識データセットで事前トレーニングされた、ターゲットドメインに依存しないスケルトン特徴抽出器を使用した、統合されたユーザーキューガイド付きフレームワークを提案します。特に、正常サンプルを使用するトレーニング段階では、この方法は DNN の重みを固定しながら正常動作の骨格特徴分布をモデル化し、この分布を使用して推論段階で異常スコアを推定します。さらに、スケルトン エラーに対する堅牢性を向上させるために、関節間で特徴をまばらに伝播する点群深層学習パラダイムに触発された DNN アーキテクチャを導入します。さらに、観察されていない正常な動作が異常な動作と誤認されるのを防ぐために、ユーザーキューの埋め込みと共通空間内の整列されたスケルトン特徴間の類似性スコアを異常スコアに組み込むことで、間接的に正常な動作を補完します。2 つの公的に利用可能なデータセットに対して、上記の制限に関して提案された方法の有効性をテストする実験を実施します。

1 はじめに

異常行動認識 は、ビデオ内の人物が異常な行動をしているかどうかを検出するタスク [7、14、16、20、22、32、39、43] であり、事故回避や犯罪防止にとって重要な技術となっています [7、33]。これまでの研究は、ビデオ内の外観情報を利用する方法 [7、14、39、43] と人間の骨格のみを利用する方法 [16、20、22、32] の 2 つの方法に分けることができます。初期の手法では、ディープ ニューラル ネットワーク (DNN) の助けを借りて、ビデオの外観特徴を分析することで異常な動作を特定しました。一方、後者の方法は、複数人の姿勢推定方法 [3、10、30] (ポーズ検出器と呼ばれる) をビデオに適用することによって抽出された低情報のスケルトン シーケンスのみを使用するため、外観を制御することはできません。およびビデオ キャラクターの背景 [40] は、変更に対して比較的堅牢です。

 さらに、以前の方法では、フレームごと [16、22、39、43] またはビデオ クリップごと [7、14、20、32] で異常なアクションを特定しました。また、注釈が与えられているかどうかに応じて、教師あり [7、14、32] または教師なし [16、20、22、39、43] アプローチに従います。注釈コストが低いため、提案された方法ではスケルトンベースのアプローチを利用して、教師なしの方法でビデオレベルで異常なアクションを特定します

 この研究では、ユーザーが異常な行動のカテゴリ (図 1 の暴力など) を定義できることと、観察されたトレーニング サンプルが正常な行動で構成されているという 2 つの仮定を使用しますさらに、観察されていないトレーニング アクションは、配布外 (OoD) と呼ばれます (図 1 の「ハンドシェイク」や「プッシュ」など)。OoD アクションには、トレーニング段階で正常なサンプルが十分に観察されない場合に、観察されない通常のアクション (たとえば、図 1 の「ハンドシェイク」のみ) が含まれます。

図1

図 1. 各ビデオの骨格特徴分布をモデル化して、暴力行為のサンプルを異常として識別しますが、トレーニング段階では歩行サンプルのみが正常なサンプルと見なされます。正常なサンプルのみから学習された判定境界 (黒い破線) は、提案されたキューによって導かれ、ユーザー入力に埋め込まれたキュー暴力の方向に異常スコアを移動します (赤い線)。トレーニング中に観察されなかったハンドシェイク サンプルは、不均一に分布しているものの正常なケースに属し、正常なサンプルがないため、プロンプトなしで異常として誤って識別されます。しかし、このヒントを追加することで、握手サンプルは正常として認識され、歩行サンプルも正常として認識されるようになります。

 この研究では、以下で説明するように、さまざまなアプリケーションへの拡張やパフォーマンスの向上など、スケーラビリティを向上させるための以前の研究 [20、22] の制限に焦点を当てています。

ターゲット ドメインに関連する DNN トレーニング以前のアプローチでは、アプリケーションの初期化時、またはトレーニング段階と推論段階の間でドメインのシフト (時間の経過による分布の変化など) が発生するときに、シナリオごとに高価な計算リソースを使用して DNN をトレーニングする時間が必要でした。そのため、アプリケーションが制限され、使用制限がございます。

正常なサンプルが不足している実際のシナリオでは、DNN をトレーニングするためにさまざまな通常のアクションを使用できません。この場合、ほとんどのアクションは異常とみなされます。つまり、正常ですが、OoD アクションが異常と誤認されます。したがって、図 1 に示すように、ユーザーは理想的には、特定する対象の異常および/または通常のアクションを定義できるはずです。

スケルトンエラーに対する堅牢性従来のスケルトンベースの手法 [16、20、22、42] のほとんどは、グラフ ニューラル ネットワーク (GNN) などの DNN が関節間で特徴を高密度に伝播することを前提としています。そのため、姿勢検出において共同検出エラー(偽陽性(FP)や偽陰性(FN))が発生したり、環境ノイズ(照明変動など)により複数人の姿勢追跡に失敗したりすると、異常認識の精度が低下します。

これらの制限を同時に克服するために、この論文では、人間の骨格シーケンス入力を備えた事前学習済みの深部特徴抽出器を使用して、異常なアクションを識別するための新しいヒントガイド付きゼロショット フレームワークを提案しますこの方法では、DNN をトレーニングするために異常な動作やその真のラベルを観察する必要はありません。特に、最初のトレーニングの制限に対処するために、Kinetics-400 [4]) などの大きな動作認識データセットで使用されている骨格特徴表現を持つ DNN を事前にトレーニングして、トレーニング段階で正規サンプルの分布をモデル化しますスケルトン特徴抽出器の重みはトレーニング段階では固定されるため、その特徴はターゲット ドメインから比較的独立しています。

2番目の正常サンプル制限を考慮して、ユーザーが提供する異常動作のテキストプロンプトを使用して、間接的に正常動作の情報を補完し、正常動作を異常と誤判断することを軽減しますテキスト エンコーダーから抽出されたスケルトン特徴とテキスト埋め込み間の類似性スコアを異常スコアに統合します。スケルトンの特徴とテキストの埋め込みとの間の対照的な学習スキームを実装することにより、これを、近年活発に研究されている視覚と言語のコンテキストで行うことができます。

点群深層学習パラダイムからインスピレーションを得て、特徴抽出器として関節間で特徴をまばらに伝播する、より単純な DNN を導入し、それによって、上記の 3 番目の制限におけるこのようなスケルトン エラーに対する堅牢性を向上させますこのアーキテクチャでは、入力ジョイントのサイズや順序など、データセット/ドメインに依存する入力スケルトンの制約が削除されます。これにより、微調整やハイパーパラメータ調整を行わずに、別のドメイン/データセット上で凍結された事前トレーニング済みの特徴抽出器を転送し、同時にドメイン/データセット上に通常のサンプルの分布とジョイント スケルトン テキスト埋め込みスペースを構築することができます。

 要約すると、この研究の主な貢献は次のとおりです。 (1) 大規模な動作認識データセットで事前学習されたスケルトン特徴表現を使用することで、通常のサンプルを使用した DNN 学習を排除できることを実験的に示します。(2) 共通空間内の骨格特徴とテキスト埋め込みを処理するゼロショット学習パラダイムが、正常な動作と異常な動作の分布を効果的にモデル化できることを示します。これは、異常スコアの計算にユーザーガイド付きのテキスト埋め込みを組み込んだ、新しい統合フレームワークによって強化されています。(3) ジョイント間で特徴をまばらに伝播する順列不変アーキテクチャを、通常のサンプルおよびドメイン上のジョイント スケルトン テキスト埋め込み空間をモデル化し、スケルトン エラーの検出を強化するためのスケルトン特徴抽出器として使用できることを実験的に示します。堅牢性。

2.関連作品

2.1. ビデオの異常検出

 ビデオ異常検出タスクは、2.2 節で紹介した異常動作認識タスクと比較して、比較的短い時間 (フレーム単位) で異常動作を特定できます。初期の外観ベースの手法では、ピクセル変化のヒストグラム [2] やオプティカル フロー [1] など、手作りのモーション特徴を入力として使用していました。DNN の最近の進歩により、3D 畳み込みニューラル ネットワーク (CNN) は現在、データ駆動型の方法で時空間特徴を抽出するために使用されています [7、37、43]。一方、スケルトンベースの方法 [16、21、22] は、リカレント ニューラル ネットワーク [21、22] や GNN [16] などの DNN アーキテクチャに焦点を当て、入力人間のスケルトン シーケンスの動作特徴をモデル化します。私たちの方法は、トレーニングによる人の外見や背景の変化に対してより耐性があるスケルトンベースの方法の利点を活用しています[40]。

 スケルトンベースのビデオ異常検出は、教師あり学習方法 [21] と教師なし学習方法 [16、22] に分類できます。後者のアプローチ [16、22] は、正常な動作が定期的に観察され、そのようなデータが簡単に収集できるという仮定の下で、異常な動作を特定します。これらの方法では、トレーニング データ セットに手動でラベルを付ける必要はありません。推論段階で観察された人間の骨格シーケンスと再構築された人間の骨格シーケンスを比較することで、異常な行動を特定することができました。

2.2. 異常行動の認識

 ビデオ異常検出タスクと比較して、異常動作認識タスクは、比較的長い時間間隔にわたる断続的な動作からなるビデオレベルの異常動作を識別できます。この論文では、対象となる異常な動作に対する制限が少ないという利点があるため、このタスクを実行します。異常行動の認識も、セクション 2.1 と同様に、教師あり学習環境と教師なし学習環境に分類できます。教師あり設定では、外観ベースの手法により 3D CNN が RGB およびオプティカル フロー画像に適用されるか [7]、長期短期記憶ネットワークが背景/フレーム減算アルゴリズムの結果に適用されます [14]。一方、教師なしの場合、スケルトンベースの方法 [20] は、ビデオの異常検出タスクと同様に、観察から再構築された人間のスケルトン シーケンスを使用します。教師なしスケルトンベースのメソッドには、セクション 1 にリストされている制限があります。ビデオの異常検出や異常動作の認識などのタスクに使用されます。

2.3. ゼロショットアクション認識

 自然言語処理分野の急速な発展により、視覚と言語の分野では、ターゲットを説明するテキストの手がかりを通じて視覚データ内の目に見えないターゲットを識別するゼロショット視覚認識タスクが積極的に研究されています。たとえば、ゼロショット画像分類タスク [6、25] では、一対の画像とそのテキスト キューを使用して、トレーニング中に見られなかったカテゴリを識別します。さらに、視覚的な質問応答タスク [5, 11] では、一対の画像とそれに対応する質問をテキストで入力します。このようなタスクのパフォーマンスは、画像の特徴とキューから抽出されたテキスト埋め込みとの間に対照学習 [25] を導入することで大幅に向上します。

 最近、対照学習も行動認識 [23, 35] に導入されており、目に見えないターゲット行動のテキストの手がかりを利用します。これらの方法では、アクションはゼロショット方式で認識され、テキストの埋め込みとトレーニング中にビデオから抽出された外観または骨格の特徴が調整されます。この研究では、異常な行動を特定するタスクにゼロサンプル法を導入し、異常な行動の分布のモデリングを強化します。

2.4. スケルトンベースのアクション認識

 教師付き異常アクション認識タスクは、正常および異常なグラウンド トゥルース ラベルを持つデータセットを使用する教師ありアクション認識タスクとみなすことができます。主に GNN を使用したさまざまなスケルトンベースの方法が、時系列ジョイント間の関係を研究するために使用されてきました [8、18、31、42]。対照的に、SPIL [32] は人間の骨格シーケンスを入力 3D 点群として扱い、アーキテクチャ上の概念の点でのみ提案手法と競合する手法です。これは、注意メカニズム [36] を通じて関節間の密な関係をモデル化します。提案されたアーキテクチャは、関節間で特徴をまばらに伝播することにより、FP および FN 関節や姿勢追跡誤差などの入力誤差に対するロバスト性を向上させます。

3. 方法

 このフレームワークのプロセスには、(1) 正規サンプルを含まない行動認識データセットで DNN を訓練する事前訓練、(2) 訓練を行わずに正規サンプルの分布のみを計算 (訓練) する訓練が含まれます。 DNN; (3) 推論 、異常スコアは、目に見えないアクションの分布とテキストの手がかりを使用して計算されます。図 2 は、ターゲット ドメインでのステップ (2) と (3) を示しています。事前トレーニング段階についてはセクション 3.3 で説明します。

図2

図 2. 提案されたフレームワークの概要。DNN の事前トレーニングは含まれません。

 まず、トレーニングと推論の段階で、複数人の姿勢推定が入力ビデオに適用され、人間の関節が抽出されます。次に、各ジョイントは DNN の入力ベクトルv \mathbf{v}に変換されます。v.vv __vは、画像上の 2 次元関節座標、時間インデックス、関節信頼度、関節インデックス、および人体の関節に基づいて計算された 2 次元重心座標から構成される 7 次元ベクトルです。入力ベクトルの各要素は 0 と 1 の間で正規化されます。すべての入力ベクトルV = { v 1 , ⋅ ⋅ ⋅ , v J } \mathcal{V}=\left\{\mathbf{v}_1,\ · · ·,\mathbf{v}_J\right\}V={ v1 ⋅⋅⋅、vJ}は 3D 点群として扱われ、スケルトン特徴を抽出するために DNN に入力されますx ∈ RS \mathbf{x}\in\mathbb{R}^SバツRS._ _ 異常スコアは、表現x \mathbf{x}x が正規標本に属さないp ( O ∣ x ) p\left(O|\mathbf{x}\right)p( O x ) x \mathbf{x}を表しますxにユーザー指定の異常動作が含まれるp ( T ∣ x ) p\left(T|\mathbf{x}\right)p( T x )の同時確率は次のように表されます。

公式 1

 其中 O O OTTTはバイナリ確率変数です。以下のセクションでは、方程式 (1) の右側の各項でトレーニング計画を詳細に説明します。

 通常サンプルのトレーニング段階では、p ( O ∣ x ) p\left(O|x\right)pトレーニング サンプルのx \mathbf{x}の( O x )パラメーターxの分布をモデル化しますp ( T ∣ x ) p\left(T|x\right)p( T | x )のパラメータはx \mathbf{x}xはテキスト埋め込みと比較され、セクション 3.2 で説明されています。セクション 3.4 で説明した特徴抽出器に PointNet [24] に基づくメカニズムを提案します。Kinetics400 などの大規模な行動認識データセットを使用して事前トレーニングします。事前トレーニング段階の一部として、セクション 3.3 で説明されているように、スケルトン特徴とテキスト埋め込みの間に対比学習スキームを導入し、アクション分類と対比損失を使用して DNN をトレーニングします。次のセクションでは、上記と事前トレーニング プロトコルについて詳しく説明します。

3.1. OoD スコア

 式 (1) でp ( O ∣ x ) p\left(O|x\right) を近似します。p( O x )、マハラノビス距離をスコアとして使用し、OoD スコアと呼ばれ、xx次のように、 x は通常のサンプルではありません。

公式 2

 その中( w 1 , w 2 ) \left(w_1,\ w_2\right)( w1 w2)はそれぞれ正規化定数と温度パラメータです。μ \boldsymbol{\mu}μΣ\mathbf{\Sigma}Σは、それぞれトレーニング サンプル分布の平均ベクトルと共分散行列です。

 教師なし画像異常検出のコンテキストでは、Rippel et al. [28] は、トレーニング段階で DNN の重みをフリーズしながら、正常サンプルから抽出された画像特徴の多変量ガウス分布を使用して異常スコアをモデル化しています。画像入力に焦点を当てている Rippel ら [28] とは対照的に、異常動作認識は、関節の FP および FN、姿勢追跡エラー、または人数の変化を含む、人間の骨格シーケンスの順序付けされていない入力データを処理する必要があります。セクション 1 で述べたとおりです。提案された特徴抽出器は PointNet [24] 上に構築されており、入力ベクトル順序の順列不変特性により、広範囲のスケルトン シーケンスを処理できます。実験では、p ( O ∣ x ) p\left(O|\mathbf{x}\right)のみを使用して証明します。p( O x )を異常スコアとして使用することも、トレーニング段階で DNN の重みを更新することなく、教師なしの異常動作の認識を実現できます

画像3

図 3. 事前トレーニング段階でのスケルトン特徴とテキスト埋め込み間の比較学習の概要。

3.2. 即時アクションスコア

 式 (1) でp ( T | x ) p\left(T|\mathbf{x}\right) を近似します。pスコアとしての( T | x )はプロンプトガイド付きアクション スコアと呼ばれ、 xxxにはユーザー指定のアクションが含まれます。推論フェーズでは、PPプライベートセットY = { y 1 , ⋅ ⋅ , y P } \mathcal{Y}=\left\{\mathbf{y}_1,\\cdot\cdot\cdot,\\mathbf{y}_P\ right\}Y={ y1  yP}p ( T ∣ x ) p\left(T|\mathbf{x}\right)p( T | x )はおよそ次のとおりです。

公式 3

プロンプト S コア ( ⋅ ∣ ⋅ ) \rm{PromptScore}\left(\cdot|\cdot\right)プロンプトスコア( )の式は次のとおりです。

公式 4

 そこ中C os ( ⋅ , ⋅ ) \rm{Cos}\left(\cdot,\ \cdot\right)コス( , ) は2 つのベクトル間のコサイン類似度を表します。fff はx \mathbf{x} の位置合わせに使用されることを意味しますxy \mathbf{y}y次元の事前トレーニング済み多層パーセプトロン (MLP)

3.3. 事前トレーニング

 このセクションでは、大規模な行動認識データセットを使用した、提案された事前トレーニング スキームについて説明します。事前トレーニング段階でスケルトン特徴とアクションクラス名から抽出されたテキスト埋め込みの間の対比学習を使用するだけでなく、ビデオレベルのアクションラベルを使用したアクション分類タスクのマルチタスク学習も使用しますNNをバッチで入れますN個のビデオのL clsLクラス_ _およびコントラスト損失L cont \mathcal{L}_{cont}L続き_ _合計損失はL \mathcal{L}で構成されますLは次のように定義されます。

公式 5

 ここで、α \アルファαは損失関数の混合比です。分類損失L cls \mathcal{L}_{cls}Lクラス_ _はクロスエントロピー損失として次のように定式化されます。

公式 5

 ここでCCCはアクション カテゴリの数です( h 1 , ⋅ ⋅ ⋅ , h C ) \left(h_1,\ · · · ,h_C\right)( h1 ⋅⋅⋅、hC)は、実数のワンホット アクション カテゴリ ベクトル( l 1 , ⋅ ⋅ ⋅ , l C ) \left(l_1, · · · ,l_C\right)( l1、⋅⋅⋅、C)はx \mathbf{x}からの完全な関数ですx計算されたログ接続層。

 CLIP [25] によって提案された損失関数に基づいて、対称コントラスト損失を使用してコントラスト損失L cont \mathcal{L}_{cont} を定式化します。L続き_ _、次のように:

公式 7

 ここで、L s 2 t \mathcal{L}_{\rm{s2t}}Ls2tバッチ内のスケルトン フィーチャとテキスト埋め込みの間の対照的な損失L t 2 s \mathcal{L}_{\rm{t2s}}Lt2sL s 2 t \mathcal{L}_{\rm{s2t}}と同じですLs2t[19] 逆負け。図 3 に示すように、L s 2 t \mathcal{L}_{\rm{s2t}}Ls2tL t 2 s \mathcal{L}_{\rm{t2s}}Lt2sを最小化すると、スケルトン フィーチャとそのアクションのようなテキスト埋め込みのポジティブ ペアのコサイン類似性が最大になります。さらに、負のペアの類似性が最小限に抑えられます。L s 2 t \mathcal{L}_{\rm{s2t}}Ls2tL t 2 s \mathcal{L}_{\rm{t2s}}Lt2s式は次のとおりです。

公式 8

公式 9

 その中で、各ビデオからiiiの正のペアxi \mathbf{x}_iバツ私はyi \mathbf{y}_iを埋め込むアクション テキストとそのアクションy私はt tτ は学習可能な温度パラメータです。

3.4. 骨特徴抽出器

 この研究では、セクション 1 で説明したロバスト性を強化するために、関節間で特徴をまばらに伝播する MaxPooling 演算を利用して、配置不変 DNN アーキテクチャとしてスケルトン特徴抽出器を設計します。PointNet [24] からインスピレーションを受けました。このタイプのスパース フィーチャの伝播では、入力ジョイントのサイズや順序に関する制約が緩和され、ジョイントの FP および FN、ポーズ追跡エラー、または任意の数の人物を含む順序のないスケルトン シーケンスを処理できます

図4

図 4. スケルトン特徴抽出器の DNN アーキテクチャ。

 アーキテクチャを図 4 に示します。これは ResNet [13] からインスピレーションを受けており、各関節に対して MLP を繰り返す、点ごとの残差モジュールで構成されるシンプルな設計を備えています。与えられた入力ベクトルV = { v 1 , ⋅ ⋅ ⋅ , v J } \mathcal{V}=\left\{\mathbf{v}_1,\ · · ·,\mathbf{v}_J\right\}V={ v1 ⋅⋅⋅、vJ}、スケルトン特徴量x \mathbf{x}x は次のとおりです。

公式 10

 ここで、MaxPool (⋅) \rm{MaxPool}(·)マックスプール( )は、入力ベクトルから各チャネルの最大値を取得する対称演算です。GGG は、各入力ジョイントの高次表現を抽出する DNN です。

 具体的には、GGG はブロックrrで残差 MLP を繰り返し実行します。MLP 演算は、まずr回前に入力ベクトルに適用されます。残差 MLP ブロックは、\mathbf{u}_{in}\in\mathbb{R}^{D_{in}} の入力ベクトル uin ∈ RD から始まります。あなたRD出力ベクトルuout ∈ RD out \mathbf{u}_{out}\in\mathbb{R}^{D_{out}} を抽出します。あなたあなた_RDあなた_、その式は次のとおりです。

公式 11

 その中W 1 ∈ RD out × D in \mathbf{W}_1\in\mathbb{R}^{D_{out}\times D_{in}}W1RDあなた_× Dは学習可能な重み行列です。ここで、ボトルネック アーキテクチャをこの残差ブロックに提示するために、次のようにします。ϕ は、次のように 3 層 MLP として定義されます。

公式 12

 その中、W 2 ∈ R β D out × D in 、W 3 ∈ R β D out × β D in \mathbf{W}_2\in\mathbb{R}^{\beta D_{out}\times D_{in} },\ \mathbf{W}_3\in\mathbb{R}^{\beta D_{out}\times\beta D_{in}}W2RβD _あなた_× D W3RβD _あなた_× βD _W 4 ∈ RD out × β D in \mathbf{W}_4\in\mathbb{R}^{D_{out}\times\beta D_{in}}W4RDあなた_× βD _は学習可能な重み行列β \betaβは MLP ボトルネック比率です。ノルム ( ⋅ ) \rm{ノルム}(・)ノルム( )は正規化層σ \sigmaσは非線形活性化関数です。

4. 実験

 両方の場合の精度を従来の方法と比較することにより、セクション 1 で説明した制限に対する提案されたフレームワークの有効性を評価します。まず、異常なアクションをユーザーが指定できるようになります。もう 1 つは、定義が不十分であるため、ユーザーはトレーニング段階で見られる限られた数の通常のアクションのみを説明することになります。これらのケースは、それぞれ RWF-2000 [7] と Kinetics-250 [20] という 2 つの動作認識データセットを使用して評価されます。さらに、アブレーション研究により、骨格検出エラー、テキストキューの変更、ドメインシフトに対する堅牢性など、提案された方法の正確なパフォーマンスが検証されます。UT-Interaction データセット [29] を使用した定性的結果を図 2 に示します。実装の詳細については、補足資料を参照してください。

4.1. データセット

 セクション 2 で説明した 2 つの評価設定には、2 つの動作認識データセット RWF-2000 [7] と Kinetics-250 [20] が使用されます。4.3. 各データセットは、それぞれ教師あり学習 (SL) ベースの方法と教師なし学習 (USL) ベースの方法を使用して検査されました。このような方法とは異なり、私たちの方法では通常のサンプルを使用した DNN トレーニングが必要ないことに注意してください。さらに、提案する DNN を事前トレーニングするために、2 つの大規模な行動認識データセット Kinetics-400 [4] と NTU RGB+D 120 [17] を使用します。ビデオ ソースと対応する評価データセット間の差異またはドメイン ギャップを考慮して、各事前トレーニング データセット [17] が個別に選択され、多数のアクションが観察されました。ラベル。図 1 は、評価 (トレーニングとテスト) 段階とトレーニング前の段階で使用されるデータセットの組み合わせを示しています。

キネティクス-400Kinetics-400 [4] は、YouTube4 動画から収集された大規模なアクション認識データセットであり、400 のアクション カテゴリが含まれています。これには、30 fps で 250K のトレーニングと 19K の検証 10 秒ビデオ クリップが含まれています。

RWF-2000RWF-2000 [7] は、YouTube ビデオから収集された暴力認識データセットです。ビデオには、監視カメラで撮影された暴力行為と非暴力行為の両方が含まれており、さまざまな人物や背景が登場します。30 fps の 5 秒ビデオ クリップには、1.6K のトレーニングと 0.4K のテストがあります。各ビデオには 2 種類のタグが付けられます。

NTU RGB+D 120NTU RGB+D 120 [17] は、実験室環境で撮影されたビデオを含む大規模な行動認識データセットです。114k のビデオと 120 のアクション カテゴリが含まれています。データ セグメンテーションにはクロスセット (X セット) 設定を使用します。この設定では、トレーニング段階とテスト段階でカメラ設定が異なります [20]。

キネティクス-250Kinetics-250 [20] は、Kinetics400 データセットのサブセットで、250 のアクション カテゴリを持つビデオで構成されています。Kinetics-400 データセットには人間の頭と腕に焦点を当てたビデオが含まれているため、スケルトンベースの手法の精度はこれらのビデオに大きく影響されます。したがって、Markovitz et al. [20] は、アクション分類精度の点で最も優れ、骨を正確に検出できる 250 のアクション カテゴリを持つビデオを評価用に選択しました。この研究では、セクション 4.3 で説明したように、Markovitz らによって提案された評価設定を採用します。

4.2. 姿勢検出器

PPN表に示すとおりです。1. RWF-2000 データセットの実験では、公開されているスケルトンがないため、いくつかのベースライン (PointNet++ および DGCNN) と同様の例外的な動作認識精度を持つ、低パフォーマンスのポーズ提案ネットワーク (PPN) 検出器 [30] を使用します。データ。PPN [30] は RGB 画像からボトムアップで高速に人骨を検出する.これらは Pelee バックボーン [38] で構成され、MS-COCO データセット [15] でトレーニングされます。人間の骨格の定義は OpenPose [3] と同じです。PPN への入力として、画像のサイズを 320×224 px2 に変更します。

HRネットHRNet [34] はトップダウンの姿勢検出器です。優れた精度を実現しますが、人間検出器 (Faster R-CNN [27]) を含めて計算コストが高くなります。Kinetics-250 データセットの実験では、Haodong らによって提供された公的に利用可能な HRNet スケルトンを採用しました [9]。

4.3. 評価設定

RWF-2000以前の研究では、RWF-2000 データセットを使用して、教師付き方法でトレーニングされたモデルの暴力認識精度を評価しました。この記事では、非暴力と暴力行為をそれぞれ正常と異常と定義します。このメソッドは、このメソッドのトレーニング フェーズで非暴力アクション サンプルが使用され、DNN 重みがフェーズ全体を通じて固定されるという点で、教師ありメソッドとは異なります。したがって、提案された方法はゼロショット方式で暴力的行動を識別し、トレーニング中に異常な(暴力的)行動や実際のラベルを観察する必要はありません。私たちは、暴力的行為を表現するために 5 つの異なる手作りのテキスト プロンプトを使用して、提案された方法の精度をテストし、最も精度の高いものを使用しました (表 6 を参照)。評価指標としては、暴力か非暴力かの分類精度が用いられる。MS-COCO 検証セットにおける PPN の平均姿勢検出精度は 36.4% です。実験のベースラインでは、平均姿勢検出精度 72.3% の高精度姿勢検出器 RMPE [10] が使用されていることに注意してください。

キネティクス-250Kinetics-250 データセットの評価設定は、以前の研究 [20] に従っています。特に、「少ない」設定と「多い」設定を使用して、3 ~ 5 つの操作クラスを通常として定義し、残りの操作クラスを例外として定義します。この設定は、少数のカテゴリのみが異常として定義される他の設定と比較して、提案された方法に大きな課題をもたらします。評価は 2 つのデータ分割 (ランダム分割と意味のある分割) を使用して実行されます。ランダムセグメンテーションにおける少数派クラスは、Kinetics-250 で定義されたアクション クラスからランダムに選択された 3 ~ 5 つのアクション クラスで構成されます。意味のあるセグメンテーションは、Markovitz et al.のクラスターで構成されます。アクションの物理的または環境的特性に関するいくつかの制約されたロジックに基づく主観的なグループ化。各セグメンテーションの平均 ROC-AUC を評価指標として採用します。

 前述したように、提案された方法は、いくつかのカテゴリのラベル テキストのみをテキスト キューとして使用します。そこで、このような手がかりを用いた手がかり誘導行動スコアを決定するために、異常行動の条件としてセクション 4.4 で説明した定義を更新しました。修正された式 (4) は次のとおりです。

公式 13

4.4. SoTA方式との比較

 表 2 と表 3 は、それぞれ RWF-2000 と Kinetics-250 データセットにおける提案手法と最先端 (SoTA) 手法の異常動作認識精度をまとめたものです。表 2 に示すように、提案されたキューガイド付きフレームワーク (私たちのもの) は、精度の点で、PointNet++ [32]、DGCNN [32]、ST-GCN [42] などのいくつかの以前の教師あり手法を上回っています。私たちの方法では不正確な姿勢検出器 (PPN) が使用されていますが、その精度は SPIL [32] よりも 7 パーセント ポイント低いだけです。あとタブも。図 3 は、提案手法(私たち) の精度が SoTA 教師なし手法よりも優れていることを示しています。以前の方法では DNN のトレーニングに時間がかかりましたが、提案された方法のこれらの結果は、ターゲット ドメインでの DNN トレーニングなしで達成されます

表1

表 1. 私たちの手法を評価するために使用したデータセットの組み合わせ。

表2

表 2. RWF-2000 データセットにおけるスケルトンベースの異常動作認識手法の性能比較。以前のメソッドは教師ありの方法でトレーニングされました。*: HRNet スケルトンが入力として使用されます。†: ネットワークアーキテクチャとして StructPool [12] を採用します。

表3

表 3. Kinetics-250 データセットにおけるスケルトンベースの異常動作認識手法のパフォーマンス比較。以前のメソッドは教師なしの方法でトレーニングされました。†: ネットワークアーキテクチャとして StructPool [12] を採用します。

 さらに、提案されている完全に実装された異常スコア (私たちのもの) は、セクション 3.1 および 3.2 で説明した部分異常スコア、OoD スコア (OoD のみ) およびキューガイド付きアクション スコア (ヒントのみ) を上回っています。表 3 に示すように、提案された手法 (OoD のみ) は、完全に実装された手法 (Ours) と同様に、異常スコアとして OoD スコアのみを使用し、以前の教師なし手法を上回っています。したがって、提案された方法はトレーニング中に DNN 重みを凍結し、テキストによる手がかりが提供されない場合でも、教師なしの方法で異常なアクションを識別できます。上記の結果を考慮すると、提案手法は、セクション 1 で説明したように、正常サンプルのターゲット ドメイン関連の DNN トレーニングを排除し、ゼロショットの異常動作認識を実現します

 さらに、提案された方法の精度は、テキストのヒントを使用することによって向上します(ヒントのみではなく、私たちのものです)この結果は、提案手法が異常または正常な動作に関する情報を補足するテキストヒントを使用することによって、正常な動作を異常として誤検出することを減少させることを示しています(セクション 1 の 2 番目の正常なサンプル制限)。図 5 は、RWF-2000 データセット上の異常サンプルと正常サンプルの間を移動する決定境界を示しています。さらに、提案された方法(ヒントのみ)の精度をタブ間で比較する場合、この方法ではキューガイド付きアクションスコアのみが使用されます。表 2 および 3 からわかるように、Kinetics-250 で完全に実装された方法 (私たちの方法) と比較すると、精度は大幅に低下しており、RWF-2000 よりも顕著です。これは、提案された手法が異常アクションとしてテキスト プロンプトを直接使用せず、Kinetics-250 データセット上で一部の正常アクションのみを定義しているためです。したがって,提案手法ではユーザが通常の動作を定義するだけでも異常動作を検知できる.

図5

図 5. t-SNE を使用して圧縮された 2D スケルトン特徴空間における RWF-2000 サンプルの分布。OoD スコアの決定境界 (左) は、プロンプトガイド付きアクション スコア (右) によって移動します。

4.5. アブレーション研究

スケルトン検出および追跡エラーに対する堅牢性の比較

 表 4 は、セクション 1 で説明したスケルトン検出エラー (FP、FN、および追跡エラー) に対する、RWF-2000 データセットに対する提案手法のロバスト性を ST-GCN [42] と比較しています。この研究では、FP、FN、追跡エラーという 3 つの異なるタイプのスケルトン検出エラーを組み合わせます。FP エラーは、正規分布からサンプリングされたノイズを 2D 関節座標に追加することによって生成されます。FN エラーは、関節信頼度スコアと関節座標を特定の割合で 0 に置き換えることによって生成されます。例えば、骨格検出誤り率が20%の場合、入力関節の20%について網羅的にFPエラーとFNエラーを生成し、150フレームの映像のうち60フレームの間、それらのトラッキングインデックスをランダムに切り替えてトラッキングエラーを生成します。表内の GNN ベースの教師ありメソッド [42] と比較してください。図 4 に示すように、スケルトンエラー率が増加しても、提案手法の精度は低下しません

表4

表 4. RWF-2000 データセットでのスケルトン検出エラーに対する堅牢性の比較。

ドメイン転送に対する堅牢性の比較RWF-2000 トレーニング データをさまざまなシナリオとして 5 つのサブセットに分割し、各サブセットをメソッドを評価するための個別のモードとして使用します。表 5 は、これら 5 つの評価の 5 つの精度の平均と分散を示しています。私たちの方法の分散は明らかに安定しており、ドメインのシフトに対する堅牢性を表しています

テキスト プロンプトの変更と精度を比較します表 6 は、異なる異常スコアを持つ 5 つの異なるテキスト プロンプトを使用した、提案された方法の精度を示しています。完全に実装された方法 (Full.) では、異常スコアとして OoD スコアのみを使用して精度が向上します (表 2 では 71.8%)。これは、合理的なテキスト キューを使用すると、トレーニング段階では観察されなかった通常のアクションの誤検出を減らすことができることを示唆しています。さらに、5 つのテキスト プロンプトについては、OoD スコア (プロンプトのみと完全) を使用することで、プロンプトに基づくアクション スコアの精度が向上しました。したがって、テキストのプロンプトは異常な動作を識別し、通常のデータから収集された情報を補完します

表5

表 5. RWF-2000 データセットのドメイン シフトの比較。

表6

表 6. RWF-2000 データセット上のさまざまなテキスト キューを使用した提案手法の精度比較。

5. ディスカッション

特徴抽出器の一般化提案された特徴抽出器の一般化は、当然、その事前トレーニング データセットのドメインに依存します。データセット構築の最近の発展により、Web やソーシャル メディア ソースから大量の字幕付きビデオを編集できるようになり、この分野のギャップは埋められると私たちは予想しています。したがって、最近の視覚と言語 [6、25] および画像異常検出 [26、28] パラダイムと同様に、多数のキャプションと自動的に抽出されたスケルトンを使用することで、手動による注釈なしで、より大規模でより一般的な表現学習を実行できます

テキスト プロンプトの品質に依存しますテキスト ヒントに基づくゼロショット学習の精度はテキスト ヒントの品質に依存し、実際には時間のかかるヒント エンジニアリングが必要になります。手がかり学習研究の最近の進歩では、文脈最適化 [44] が提案されています。これは、手作りの手がかりを使用したゼロショット推論と比較して、視覚的および言語的文脈においてより良い結果を生み出します。したがって、異常動作認識の精度は、手作りではなく学習可能であり、自動的に改善できる手がかりから恩恵を受けます

6 結論

この論文では、既存のスケルトンベースの異常動作認識方法の限界に対処するために、ビデオレベルで異常動作を特定できる、新しいユーザーキューガイドのゼロショット学習フレームワークを提案します。私たちの中心となるアイデアは 3 つの部分で構成されます。 (1) スケルトンを入力として使用する、事前にトレーニングされたターゲット ドメイン不変の特徴抽出器を利用する。(2)位置合わせされたスケルトン特徴と共通空間におけるユーザープロンプト埋め込みとの間の類似性スコアを異常スコアに統合する。(3) 順列不変でスケルトンエラーに強い DNN アーキテクチャを作成します。実験では、提案されたフレームワークの制限に対する有効性をテストします。

参考文献

[1] アミット・アダム、エフド・リブリン、イラン・シムショニ、ダビブ・ライニッツ。複数の固定位置モニターを使用した、堅牢なリアルタイム異常イベント検出。PAMI、30(3):555–560、2008. 2
[2] Y. ベネゼス、P.-M. 浄土院、V. サリグラマ、C. ローゼンバーガー。時空間の共起に基づいた異常イベントの検出。CVPR、2009 年。2
[3] Zhe Cao、Gines Hidalgo、Tomas Simon、Shih-En Wei、および Yaser Sheikh。OpenPose: パーツ アフィニティ フィールドを使用したリアルタイムの複数人の 2D ポーズ推定。PAMI、43(1):172–186、2021。1、6
[4] ジョアン・カレイラとアンドリュー・ジサーマン。クオ・ヴァディス、行動認識?新しいモデルと動力学データセット。CVPR にて、2017. 2、6
[5] パオラ・カスカンテ・ボニージャ、ホイ・ウー、レタオ・ワン、ロジェリオ・S・フェリス、ビセンテ・オルドネス。SimVQA: 視覚的な質問応答のためのシミュレートされた環境の探索。CVPR にて、2022 年。3
[6] ソラビット・チャンピニョ、ピユシュ・シャルマ、ナン・ディン、ラドゥ・ソリカット。Conceptual 12M: ロングテールのビジュアルコンセプトを認識するために、Web スケールの画像テキストの事前トレーニングを推進します。CVPR にて、2021 年 3、8
[7] Ming Cheng、Kunjing Cai、Ming Li。RWF-2000: 暴力検出のためのオープンな大規模ビデオ データベース。ICPR にて、2021 年。1、3、5、6
[8] Hyung-gun Chi、Myoung Hoon Ha、Seunggeun Chi、Sang Wan Lee、Qixing Huang、および Karthik Ramani。InfoGCN: 人間の骨格ベースのアクション認識のための表現学習。CVPR にて、2022.3
[9] Haodong Duan、Yue Zhao、Kai Chen、Dahua Lin、および Bo Dai. スケルトンベースのアクション認識の再考. CVPR、2022 年. 6 [10] Hao-Shu Fang、Shuqin Xie、Yu-Wing Tai、および
Cewu Lu. RMPE: Regional Multi-person Pose Estimation. In ICCV, 2017. 1, 6
[11] Vipul Gupta、Zhuowan Li、Adam Kortylewski、Chenyu Zhang、Yingwei Li、および Alan Yuille. SwapMix: 過剰依存の診断と正規化Visual Question Answering における Visual Context について. CVPR にて、2022. 3
[12] 八馬良、佐藤文昭、関井大樹. 構造化キーポイントプーリングによる統合キーポイントベースのアクション認識フレームワーク. CVPR にて、2023. 7 [13] Kaiming
He 、Xiangyu Zhang、Shaoqing Ren、および Jian Sun. 画像認識のための深層残差学習. CVPR にて、2016. 5
[14] ザヒドゥル・イスラム、モハマド・ルコヌザマン、ライヤン・アーメド、ハサヌル・カビール氏、モシュール・ファラジ。分離可能な畳み込み LSTM を使用した暴力検出のための効率的な TwoStream ネットワーク。IJCNN、2021 年。1、3
[15] Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollar、C. Lawrence ´ Zitnick。Microsoft COCO: コンテキスト内の共通オブジェクト。ECCV、2014 年。6
[16] Chengming Liu、Ronghua Fu、Yinghao Li、Yufei Gao、Lei Shi、および Weiwei Li。スケルトンベースのビデオ異常動作検出のためのセルフアテンション拡張グラフ畳み込みクラスタリング ネットワーク。応用科学、12(1)、2022. 1、2、3
[17] Jun Liu、Amir Shahroudy、Mauricio Perez、Gang Wang、Ling-Yu Duan、Alex C Kot. NTU RGB+D 120: 3D 人間の活動理解のための大規模ベンチマーク. PAMI、42(10):2684 –2701、2020. 6
[18] Ziyu Liu、Hongwen Zhang、Zhenhao Chen、Zhiyong Wang、および Wanli Ouyang. スケルトンベースのアクション認識のためのグラフ畳み込みの解きほぐしと統一. CVPR にて、2020. 3 [19] Zongyang Ma,
Guan Luo、Jin Gao、Liang Li、Yuxin Chen、Shaoru Wang、Congxuan Zhang、および Weiming Hu. 階層的視覚言語知識蒸留による OpenVocabulary 1 段階検出. CVPR にて、2022. 5 [20] Amir Markovitz、Gilad Sharir、Itamar Friedman
、 Lihi ZelnikManor、Shai Avidan. 異常検出のためのグラフ埋め込みポーズ クラスタリング. CVPR にて、2020. 1、2、3、6、7
[21] アリーナ=ダニエラ・マテイ、エステファニア・タラベラ、マヤ・アゲイ。監視設定における骨格軌跡分析による犯罪現場の分類。arXiv プレプリント arXiv:2207.01687、2022. 3
[22] Romero Morais、Vuong Le、Truyen Tran、Budhaditya Saha、Moussa Mansour、および Svetha Venkatesh。ビデオの異常検出のためのスケルトン軌跡の規則性の学習。CVPR、2019 年。1、2、3
[23] Sauradip Nag、Xiatian Zhu、Yi-Zhe Song、および Tao Xiang。視覚言語プロンプトによるゼロショットの一時的なアクション検出。ECCV、2022 年。3
[24] Charles R. Qi、Hao Su、Kaichun Mo、および Leonidas J. Guibas。PointNet: 3D 分類およびセグメンテーションのための点セットの深層学習。CVPR にて、2017 年 4、5
[25] アレック・ラドフォード、キム・ジョンウク、クリス・ハラシー、アディティア・ラメシュ、ガブリエル・ゴー、サンディニ・アガルワル、ギリッシュ・サストリー、アマンダ・アスケル、パメラ・ミシュキン、ジャック・クラーク、グレッチェン・クルーガー、イリヤ・サツケヴァー。自然言語監視から転送可能な視覚モデルを学習する。ICML にて、2021 年。3、5、8
[26] タル・リース、ニヴ・コーエン、リロン・バーグマン、イェディド・ホーシェン。PANDA: 事前トレーニングされた機能を異常検出とセグメンテーションに適応させます。CVPR にて、2021 年。8
[27] Shaoqing Ren、Kaiming He、Ross Girshick、および Jian Sun。より高速な R-CNN: 領域提案ネットワークによるリアルタイムの物体検出に向けて。NeurIPS、2015 年。6 [28] Oliver Rippel、Patrick Mertens、Dorit Merhof。異常検出のために事前トレーニングされた深い特徴における正常データの分布をモデル化します。ICPR にて、2021 年 4、8
[29] マイケル・S・リョーとジェイク・K・アガーワル。時空間関係の一致: 複雑な人間の活動を認識するためのビデオ構造の比較。ICCV にて、2009 年。6 [30] 関井大樹。ポーズ提案ネットワーク。ECCV、2018 年。1、6
[31] Lei Shi、Yifan Zhang、Jian Cheng、Hanqing Lu。スケルトンベースのアクション認識のための 2 ストリーム適応グラフ畳み込みネットワーク。CVPR にて、2019 年。3
[32] Yukun Su、Guosheng Lin、Jinhui Zhu、および Qingyao Wu。ビデオ暴力認識のための 3D スケルトン点群でのヒューマン インタラクション学習。ECCV、2020 年。1、3、7
[33] Waqas Sultani、Chen Chen、および Mubarak Shah。監視ビデオにおける現実世界の異常検出。CVPR にて、2018.1
[34] Ke Sun、Bin Xiao、Dong Liu、Jingdong Wang。人間の姿勢推定のための深い高解像度表現学習。CVPR にて、2019 年。6
[35] Guy Tevet、Brian Gordon、Amir Hertz、Amit H Bermano、Daniel Cohen-Or。MotionCLIP: 人間のモーション生成を CLIP 空間に公開します。ECCV、2022 年。3
[36] Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Ł ukasz Kaiser、および Illia Polosukhin。必要なのは注意力だけです。NeurIPS、2017 年。3
[37] Jue Wang と Anoop Cherian。GODS: 異常検出のための一般化された OneClass 識別サブスペース。ICCV、2019 年。3
[38] Robert J. Wang、Xiang Li、Charles X. Ling。Pelee: モバイルデバイス上のリアルタイム物体検出システム。NeurIPS にて、2018.6
[39] X. Wang、Zhengping Che、Ke Yang、Bo Jiang、Jian-Bo Tang、Jieping Ye、Jingyu Wang、Q. Qi。マルチパスフレーム予測による堅牢な教師なしビデオ異常検出。Neural Networks and Learning Systems、33:2301–2312、2022。1
[40] Philippe Weinzaepfel および Gregory Rogez。模倣: 文脈から人間の行動を理解することを目指して。IJCV、129(5):1675–1690、2021。1、3
[41] Yongqin Xian、Christoph Lampert、Bernt Schiele、および Zeynep Akata。ゼロショット学習 - 良い点、悪い点、醜い点の総合的な評価。CVPR、2017 年。2
[42] Sijie Yan、Yuanjun Xiong、Dahua Lin。スケルトンベースのアクション認識のための時空間グラフ畳み込みネットワーク。AAAIにて、2018. 2、3、7、8
[43] M.ザイガム・ザヒール、アリフ・マフムード、M.ハリス・カーン、マッティア・セグ、フィッシャー・ユー、およびスンイク・リー。教師なしビデオ異常検出のための生成協調学習。CVPR にて、2022 年。1、3
[44] Kaiyang Zhou、Jingkang Yang、Chen Change Loy、および Ziwei Liu。視覚言語モデルのプロンプトを学習する。IJCV、130(9):2337–2348、2022. 8

おすすめ

転載: blog.csdn.net/weixin_42475026/article/details/131460112
おすすめ