Action4D:群集やその他の事柄でのオンラインアクション認識:CVPR209のペーパーリーディング

 

Action4D:People and Miscellaneousでのオンラインアクション認識:CVPR209のペーパーリーディング

Action4D:群衆と混乱のオンライン行動認識

紙のリンク:

http://openaccess.thecvf.com/content_CVPR_2019/papers/You_Action4D_Online_Action_Recognition_in_the_Crowd_and_Clutter_CVPR_2019_paper.pdf

まとめ

混雑した乱雑な環境での全員の行動を認識することは、コンピュータビジョンでは困難な作業です。この記事では、人と環境のすべての詳細を含む、乱雑なシーンの4D「スキャン」全体を使用して、この困難な問題を解決することを提案します。これにより、厄介な4D表現で複数の人の行動を認識するという新しい問題が発生します。             

まず、本論文では、リアルタイムで全員を確実に検出および追跡できる新しい4次元追跡方法を提案します。              次に、このペーパーでは、追跡された各人物の行動を識別するための新しいディープニューラルネットワークAction4DNetを確立します。このようなモデルは、実際の環境で信頼できる正確な結果を提供します。             

このモデルでは、モデルのパフォーマンスをさらに向上させるために、適応型3次元畳み込み層と新しい判別時間特徴学習目標も設計されています。この論文の方法は、カメラの画角を変更せず、乱雑に抵抗し、群衆に対処できます。             

実験結果は、この方法が高速で信頼性が高く正確であることを示しています。このホワイトペーパーの方法は、実用的なアプリケーションでの行動認識の道を開き、スマートホーム、スマートファクトリー、スマートストアに展開する準備ができています。

1.       はじめに

このペーパーでは、オンライン4Dモデリングを使用して、乱雑な環境で各被験者の行動を識別する新しいAction4DNetを提案します。              この記事の作業には、以下の貢献があります。             

•この記事では、乱雑な4D大規模データマルチプレーヤーの動作を識別するという新しい問題を解決します。             

•この記事では、4Dステレオデータを使用してリアルタイムで人検出および追跡する新しい方法を提案します。             

•この論文は、アクション認識のための新しいディープニューラルネットワークAction4DNetを提案します。このペーパーでは、複数のカメラセンサーからのノイズを処理するための適応畳み込み層を設計します。この論文はまた、シーケンスアクション認識においてより良い時間的特徴学習を得るための新しい判別損失を提案します。私たちの知る限りでは、この方法は、オンラインフレームベースのモーション認識のために雑然とした「全体」4Dステレオデータにディープニューラルネットワークを適用する最初の試みです。             

•この記事では、実験で新しい4Dデータセットを収集してラベルを付けました現在、複数の人と混乱を含む4Dモーション認識データセットはありませんこの記事では、データセットを公開します。             

•このホワイトペーパーで提案する方法は、混雑や干渉に抵抗でき、複雑な実際のアプリケーションで直接使用できます。

 

 2.       メソッド

この記事のタスクは、雑然とした混雑した環境での個人の行動を識別することです。この論文の方法は、各瞬間におけるシーン全体の三次元ボリューム表現を構築することから始まります。これに基づいて、シーン三次元ボリュームデータシーケンスに基づく人体検出および追跡方法が提案される。このようにして、この記事は、人間中心のすべての3次元ボリュームをいつでも切り取ることができます。このペーパーの4Dトラッカーはこれらの関連する3DステレオシーケンスをAction4DNetを構築するための入力として使用します。次のセクションでは、詳細情報について説明します。

この記事で各人物の行動を特定する前に、シーン内の各オブジェクトを検出する必要があります。行動認識のために、この記事では各オブジェクトを一定期間観察する必要もあります。したがって、この記事は現場の全員を追跡する必要があります。追跡は、偽りの人物の検出を排除し、行方不明者を検索するのにも役立ちます。以前のほとんどの複数人追跡方法では、背景差分を使用して背景差分を除去していました。残念ながら、制約のない動的な環境では、背景の減算やグラフィックと地面の分離は困難です。             

このペーパーの4Dトラッカーは、グラフィックとグラウンドの分離を必要とせず、ノイズの多い4Dデータを直接処理できます。シーン全体の3次元の点群確立するために、キャリブレーション済みのRGBD画像のセット提供されます。これらのボリュームは、3D点群の上に構築されます。ボクセルO(i)にポイントがある場合、このペーパーではその占有率を1に設定します。これらのボクセルは、環境のシーンサーフェスにあります。各オブジェクトの内部ボクセルを入力することもできます。しかし、この論文の実験は、そのような密な表現は行動認識からあまり利益を得ないことを示しています。したがって、この記事ではこの作業で表面ソリッドのみを使用します。

 

 上記のトラッカーは、この記事内のオブジェクトの正確な3次元位置を常に提供し、モーション認識のために3次元オブジェクトを切り取るために使用できます。4は、中央に人物がいるカットアウトステレオ表現を示しています。背景が乱雑になっていても、ボリューム表示は自分の行動をはっきりと示します。実際、背景オブジェクトのコンテキスト情報により、これらはアクション認識に理想的なオブジェクトです。             

この記事では、各瞬間のアクションを推測するための 4Dステレオ(3Dステレオシーケンス)データを扱います。体の姿勢、体の一部の動き、被験者が処理しているオブジェクトなど、人の動きを推測するために使用できる他の多くの手がかりがあります。たとえば、記事に人の下の椅子が表示されている場合、記事はその人が              座っていると推測できます。潜在的には、各人の位置または速度を使用して、特定のアクションを推測することもできます。             

ただし、この記事では、この記事はステレオデータのみに依存して、この記事の4Dモーション認識モデルを構築しますこの論文は、正確な行動認識のための深い畳み込みニューラルネットワークAction4DNetを構築します入力4Dステレオは、一連の3Dたたみ込みレイヤーおよび3Dプールレイヤー組み合わせてモーション機能を生成します。同時に、この記事では、次のサブセクションで詳細に説明する補助アテンションネットの使用も推奨しています。これらの機能は、各時点でリカレントニューラルネットワーク(RNN)に入力され、時間情報を収集して最終アクション分類します。以下では、この記事でネットワーク構造につ​​いて詳しく説明します。

 

 

 

 3.       実験結果

この部分では、このペーパーでは、提案された4D手法のモーション認識を評価し、この手法をさまざまな競合手法と比較します。             

この方法のパフォーマンスを評価するために、4Dモーション認識データセットがこのペーパーで収集されました提供することにより、三つの異なる環境(ENVL、ENV2とEVN3)と異なる数をオンラインショップV2カメラ収集する動的シーン生成、RGBD画像を図4D本体。これら3つの環境は、異なる背景を持つ異なる部屋に配置されています。この記事では、すべてのフレームの動画にタグを付けています。すべての動画フレームにはアクションタグがあります。このペーパーでは、各フレームの精度を使用して、すべての行動認識モデルを評価します。このペーパーのデータセットの統計を表1にまとめます。

 

 

 

 

 

 

 

 

この記事では、提案された方法をさまざまなベースライン方法と比較します。ベースラインには以下が含まれます:             

•形状テキスト256および形状テキスト512:             

3次元形状コンテキストは、形状コンテキスト[3]記述子の3次元バージョンです3次元形状コンテキストには、高さ軸と角度軸の均一なパーティションと、放射軸の対数パーティションがあります。             

この記事では、3Dシェイプコンテキストの2つのバージョンをテストしました。             

ShapeContext256には256個のストレージボックスがあり、ShapeContext512には512個のストレージボックスがあります。このペーパーでは、入力として3次元形状コンテキスト記述子を持つディープネットワークが確立されます。ネットワークはLSTMネットワークを使用して時間情報を集約します。              •モーメント:             

モーメントは、もう1つの一般的な形状の説明です。この記事では、注文の元の瞬間4を使用します。上記の形状コンテキストメソッドと同様に、モーメント記述子はアクション認識のためCNNに入力されます。             

•骨:             

OpenPose [6]は、RGB画像で最も高度なロッド検出器の1つです。この論文では、ネックポイントを使用して各オブジェクトジョイントの位置を正規化し、xy座標を特徴ベクトルに接続します。このペーパーでは、上記の形状コンテキスト法と同様の方法を使用して、ディープネットワークをトレーニングします。             

•色+奥行き:              

この方法では、このペーパーは、このペーパーの追跡結果に基づいて各人のバウンディングボックスを決定します。この記事では、すべてのカメラからのビデオに含まれる全員のカラーと深度の画像をトリミングします。このペーパーでは、切り取られたカラーと深度の画像とそれらのアクションラベルを使用して、ディープニューラルネットワークをトレーニングします。公平を期すために、この記事では、この記事のすべてのメソッドでモーションを使用していません。              •ポイントネットワーク:             

PointNet [20]は、3D点群ターゲット認識とセマンティックセグメンテーションのための最も高度なディープラーニング手法の1つです。このペーパーでは、ドットネットワークモデルを拡張してLSTMレイヤーを含めることで、アクション認識のためのシーケンスデータを処理できるようにします。複数のRGBD画像の点群を使用して、ネットワークをエンドツーエンドでトレーニングできます。             

I3DおよびNL-I3D:             

Embedded 3D ConvNet [7](I3D)は、RGBビデオに最先端のモーション認識実装します。この記事は、非ローカルI3D [27](NL-I3D)とも比較され、非ローカル操作を導入してリモート相関をより適切にモデル化します。             

SparseConvNet             

SparseConvNet [10]は、サブマニホールドのたたみ込みを定義します。これは、「アクティブな」サイトを追跡して計算オーバーヘッドを削減します。この記事では、3DボリュームとLSTMヘッダーを使用してSparseConvNetをトレーニングし、3Dストリームのアクションを識別します。

3、4、および5は、このホワイトペーパーで提案されている方法が、すべての競合する方法よりも常に良い結果をもたらすことを示しています。高精度はこの記事の信頼性の高い4D人員追跡システムからも恩恵を受けています。この追跡ツールは、すべてのテストおよびトレーニングビデオの追跡率100%取得しています。GTX1080 TIを使用すると、このペーパーのメソッドは10人を追跡し50 mm× 50 mm× 50 mmボクセルのステレオスペース15フレーム/秒(FPS)で彼らの行動を推測することができます。25ミリメートル× 25ミリメートル× 25ミリメートルのボクセル、人ができる25 FPSの動作速度を特定します。             

7は、3つの異なるテストにおけるAction4DNet混同マトリックスを示しています興味深いことに、欠けているテストの多くはテスト2とテスト3で見つかりました。特に、折り曲げの場合、テスト2とテスト3の両方で認識40%以上不足しています。これは、この動作の大幅な変更と、異なるグラウンドトゥルースラベルで使用される一貫性のないラベル標準が原因である可能性があります。同時に、この記事のメソッドは7に示すように、一部の操作を混乱させますこれは、主にKinectセンサーからのノイズデータが原因です。より良い深度カメラとより良い時間同期を使用すると、この記事のモーション認識結果をさらに改善できます。さらに、このペーパーでは、色などの他のボクセル属性をさらに含めたり、マルチ解像度ボリュームデータを使用してより堅牢な結果を得ることができます。

 

 4.       まとめ

この論文は、4D環境ステレオを生成し、3次元空間で全員を追跡し、全員の行動を推論することができる新しいオンライン4D行動認識方法、Action4DNetを提案しますこの論文の方法は、複数の人と強い乱雑さを扱うことができます。特に、提案されている適応型畳み込み層と弁別時間特徴の学習目標により、モデルのパフォーマンスがさらに向上します。異なる環境下でのこの論文の実験結果は、この方法が異なる競合方法の下でより良い性能を持っていることを証明しています。提案された方法は、さまざまなアプリケーションが環境との対話方法を強化するために導入できます。

おすすめ

転載: www.cnblogs.com/wujianming-110117/p/12707012.html