【歩行認識】多視点3D畳み込みネットワーク歩行認識アルゴリズム学習「3D CONVOLUTIONAL NEURAL NETWORKSを用いたMULTI-VIEW GAIT RECOGNITION」

1.論文とコードソース

"MULTI-VIEW GAIT RECOGNITION USING 3D CONVOLUTIONAL NEURAL NETWORKS"
論文のアドレス: https://mediatum.ub.tum.de/doc/1304824/document.pdf
コードのダウンロード アドレス:著者は提供しませんでした

2. 論文のハイライト

この論文の著者は、時空間的特徴をキャプチャするためのマルチビュー歩行認識に 3D 畳み込みを使用した深い畳み込みネットワークを提案しています。
モデルの入力データは、色の不変性を高めるためのグレースケール画像とオプティカル フローで構成されています(「色の不変性」という言葉を使用する必要があります。元のテキストは間違っています... )。

3. モデル構造

トポロジー

3.1 テクニカルルート

モデル構造は上の図に示されています。フレームの長さを16 16に設定します。1 6、十分な時間情報の取得と計算の複雑さのバランスを取るため; プーリング層のサイズは2 × 2 × 2 2 \times 2 \times 22×2×2,第 1 1 13 33層は時間情報の早すぎる折り畳みを避けるためにプーリング操作を実行しません; すべての畳み込み層は3 × 3 × 3 × N 3 \times 3 \times 3 \times N3×3×3×N、チャンネル数N = [ 3 , 64 , 128 , 128 , 256 , 256 , 512 ] N=[3, 64, 128, 128, 256, 256, 512]N=[ 3 ,6 4 ,1 2 8 ,1 2 8 ,2 5 6 2 5 6 5 1 2 ]、最後の畳み込み層の出力は、2 つの連続する全結合層の入力であり、各全結合層には4096 40964 0 9 6ニューロン、各ニューロンのドロップアウト値は0.5 0.50.5 ; 最後の層はソフトマックス関数を使用して、分類の確率分布を生成します

3.2 データの前処理

色と衣服の変化は、歩行認識アルゴリズムにおいて非常に重要な要素です.既存のデータセットには, 衣服の変化の種類はほとんどありません. 理想的なデータセットには, 衣服の状態が異なる同じ被験者の複数のシーケンスが含まれている必要があります. これにより, モデルが色を学習する能力が制限されます.この問題解決するために、著者は入力画像に次の変換を行いました。
1チャンネル目: RGB画像をグレースケール画像に変換
2チャンネル目、3チャンネル目:「オプティカルフロー推定の秘密とその原理」の方法でxxを計算xyyy方向のオプティカル フロー

トレーニングとテストのプロセスでは、オーバーラップするフレーム シーケンスが使用されます。これについては、次のように説明されています。
最初のフレームに、(被験者とは) 一致しない似たポーズの被験者が現れる場合があり、ネットワークは最初のポーズが同じであることを学習します。このような状況を避けるために、シーケンスは50 50のように 16 フレームに分割されます。50フレームのビデオを (1 − 16 ) 、(2 − 17 ) 、...、(35 − 50 ) (1-16 )、(2-17)、...、( 35-50( 11 6 ) ,( 21 7 ) ,. . . ( 3 55 0 )これらのフラグメントの。

3.3 トレーニングとテスト

歩行速度や衣服などの変化要因に影響されずにネットワークに「純粋な」歩行機能を学習させるために、著者はトレーニング セットとテスト セットを調整しました。元のデータ セットのトレーニング セットとテスト セットは異なる条件(記録)、2つは元のデータセットの2 3 \frac 23に分割されます321 3 \frac 1331、次に2 3 \frac 2332トレーニング セット データと2 3 \frac 2332テスト セット データが結合されて新しいトレーニング セットが形成され、残りの1 3 \frac 1331同様に、新しいテスト セットを生成します。

ネットワークは確率的勾配降下法を使用してトレーニングされ、USF および CASIA-B データセットの初期学習率は1 0 − 4 10^{-4}です。1 04、CMU は1 0 − 5 10^{-5}1 05、運動量係数は0.9 0.90 . 9、減衰係数は5 ∗ 1 0 − 4 5*10^{-4}51 04、10 エポックごとに、学習率は 10 倍減少します。

4. 実験結果

4.1 CMU

合計 9 回の実験が行われ、そのうち 3 回はトレーニングとテストに同じ条件を使用し、そのうち 6 回はトレーニングとテストに異なる条件データ セットの分割データを使用しました。
CMU

4.2 USF

1 つのトレーニング セットと 12 のテスト セットが定義された合計 12 の実験が行われました. 具体的な条件は [The humanid gait challenge problem: Data sets, performance, and analysis]論文と同じです. すべての実験は、 「トレーニング/テスト」データセット。
USF

4.3 CAISA-B

90°90°を使った訓練実験視野角90 °で 6 つの歩行シーケンス; テスト実験では、各視野角で 6 つの歩行シーケンスを使用します。
カシアB

5. まとめ

著者らは、畳み込みニューラル ネットワーク技術に基づいて、分類用の時空間特徴を抽出するモデルを提案しています。さまざまなデータセットでの実験では、この表現の精度は高く、歩行認識における CNN の大きな可能性を示しています。

また、変動が少なく、データベースのサイズが小さいため、オーバーフィッティングが問題になる可能性があります。より優れたハードウェアと、パフォーマンスを向上できるより大きなネットワーク構造に加えて、著者は、より多くのケースを持つより大きなデータセットの出現を楽しみにしています。歩行行動と外観が大きく異なる何千もの被験者を含むデータセットを使用すると、パフォーマンスがさらに向上し、オーバーフィッティングが減少します。

0. 知識の補足

0.1 オプティカルフロー方式

オプティカル フロー (オプティカル フローまたはオプティック フロー) は、視野内の物体の動きを検出する概念です。観測者に対する動きによって引き起こされる、観測されたオブジェクト、サーフェス、またはエッジの動きを記述するために使用されます。オプティカル フローは、パターン認識、コンピューター ビジョン、およびその他の画像処理分野で非常に役立ちます. 動き検出、オブジェクトの切断、衝突時間とオブジェクトの拡大の計算、動き補償コーディング、またはオブジェクト表面と 3 次元測定に使用できます。エッジなどを待ちます。

オプティカル フロー法とは、実際には、画像のピクセル点の強度の時間変化を検出することによって、オブジェクトの移動速度と方向を推定する方法です。

オプティカル フローは、他に 2 つの興味深い用語を定義しています。

1. オプティカルフローとは、あなたが感じる視覚的な動きです

2. オプティカル フローは、観測結像面上の空間移動物体のピクセル移動の瞬間的な速度です (こちらの方が適切と思われます)。

オプティカル フローの概念は、1950 年にギブソンによって最初に提案されました。

「オプティカル フロー」と呼ばれる理由: 人間の目で動く物体を観察すると、その物体は人間の目の網膜上で連続的に変化する一連の画像を形成し、この一連の連続的に変化する一連の情報が連続的に「流れ」ます。網膜 (つまり像面) は、光の「流れ」のようなものなので、オプティカル フローと呼ばれます。

オプティカル フローは画像の変化を表現し、対象の動きの情報を含んでいるため、観察者は対象の動きを判断するために使用できます。

参考ブログ:

オプティカルフローとは

おすすめ

転載: blog.csdn.net/weixin_45074807/article/details/128148999