スケルトンベースの動作認識のための時空間グラフの畳み込みネットワーク

要約:

動作を特定するための重要な情報と動的ヒト骨格モデル、従来の方法は、典型的には、それによって一般化する表現と難しいする能力を制限し、骨格モデリング機能または手動トラバース規則のために使用しました。

著者は小説の動的スケルトンモデルST-GCNを提案し、それが自動的にモデルが強力なスキルと汎化能力を持っている可能データから、空間と時間のパターンを学ぶことができます。

(mainメソッドに比べて質的向上を得るために、)NTU-RGBD動態および2つのデータセット内の主流の方法を超える実質的な改善を達成します

はじめに:

(はじめは、詳細な拡張版の要約であることは、この新しいアプローチの導入の必要性に加えて、現在の方法の欠点を指摘し、この問題に対する他の解決策を調査す​​るための新しいアプローチに問題があるために、導入から見ることができます)前任者が独自の方法を紹介した後、問題を解決していない、このように指摘しています

モーション認識は、形状、深さ、オプティカルフロー、車体フレームとして、人体からの種々の形態を同定するが、より多くの人々が、光の形状及び流れを研究することができる、研究のためのより少ない動的フレームワークは大量の情報が含まれ、著者らが提案しましたダイナミックなバックボーンをモデル化する種原則に基づいた効率的な方法

今日、人間の骨格のダイナミックの研究:空間情報を無視して初期のアルゴリズムは、動的なフレームワークタイミング情報を使用して、提案したアルゴリズムのほとんどはそのようにのみ、特定のために、骨格の空間パターンを分析するために開発された人工の原理に依存しています一般化するのは難しいの方法。

自動的にモデルに(ネストされた関節空間構造とその動的タイミング)を取得することができる方法が必要で。

GCNは、画像分類、文書の分類、半教師あり学習タスクとして適用されるが、多くのタスクは、入力としてマップに固定されています。大規模なデータセットに動的モデリングを図GCNで行わは、ヒトフレームワーク配列として、研究されていません。

(モーション認識配列バックボーン用)の設計は、一般的な表現であり、図では、図畳み込みネットワークの時空モデルに拡張し、ネットワークが時空畳み込み図と呼ばれています。

各点は人間の骨格構造のそれぞれのノードに対応する図骨格の構成のシーケンスに基づくモデル。人間の骨格の性質上、各フレームの接続ノードを確立側空間(空間エッジ)辺の2種類があり、もう一方の側は、同じノード、それ2つの連続するフレームに接続されたタイミング(時間エッジ)でありますアップ。時間と空間領域での情報を作るも確立彼らの多くの層、に基づいて、ネットワークの時空図の畳み込みがアップ統合されています。

ST-GCNのレベルがより表現し、より良いパフォーマンスを行い、だけでなく、さまざまなシナリオに一般化することは非常に簡単ではないだけで、マニュアル設計・トラバーサルのルールを、避けます。モデルのイメージに触発され、共通の表現、上のGCN、畳み込みカーネルを設計するための新たな戦略を学びます。

要約:

  1. 提案されたST-GCN、動的モデリング人間の骨格に基づいて、図に共通のフレームワーク
  2. ST-GCNのスケルトンモデルで行われたいくつかの設計ルールの畳み込みカーネルは、特別な要件を満たすために
  3. 手動トラバース規則およびアルゴリズムに基づいて、元の部分と比較して、著者らによって提案された方法は、データセットに基づいてスケルトンを識別し、大幅マニュアルデザインを低減するために、両方の大規模な操作で優れた性能を達成しました。

関連作品:

図畳み込み主流のネットワーク二つの主な方法があります。

  1. スペクトル視点図畳み込み(スペクトル視点)の位置情報は、スペクトル分析の形で見られます。
  2. スペースの観点から(空間透視)コンボリューションカーネルは、グラフノードとその近隣に直接適用されます。
  3. 著者らは第二のアプローチを用い、各フィルタを制限する近隣のノードにのみ適用されます

モーション認識系骨格:

  1. 例えばマニュアル機能ベースの方法、運動情報との接続点の手をキャプチャするには、いくつかの設計上の特徴、トラックジョイント共分散行列
  2. 学習、リカレントニューラルネットワーク、認識の深さに基づく方法は、操作端である(これらのアプローチの中で、多くは人体のパーツの中に関節をモデル化することの重要性を強調してきた。しかし、これらの部品は通常、明示的にドメイン知識を使用して割り当てられます。)
  3. モーション認識タスクに基づいて、第1の畳み込み図バックボーンネットワークアプリケーション上。これは、以前の方法とは異なる、暗黙動的位置情報及びタイミング情報ネットワーク畳み込み図を組み合わせることができます。

時空図畳み込みネットワーク

スケルトン識別操作に基づいて、従来の方法で提案されている、身体の部分の情報は、スケルトンに基づいてモーション認識のために非常に有効です。著者らは、改善された性能は、主に全体骨格より局所的な特徴を有する本体部であることを示唆しているので、そこにローカルバックボーン配列によって表される情報の階層があり、したがってST-GCNと

1.パイプライン

スケルトンは、モーションビデオシーケンス情報、バックボーンシーケンス情報の構造を示す第1の構成図を与え、ST-GCN関節座標ベクトル入力は、次に、グラフ上のノード、及び高レベルの特徴を抽出する時空間図畳み込みの系列であります最後に、分類器SofMaxによる分類に対応した動作を得ることができます。研修の目的を達成するために、全体のプロセス。

図2の骨格構造の構成。

呼ばれる\(N \)ノードと\(T \)頭骨ピクチャがフレームのシーケンスを示している\(G =(V、E)\)ノードの集合であり、\(V = \左\ { V_ { }のTi。| T、右、1、... 1、\ ldots、T、I = = N \ \} \) 最初の\(T \)フレームの\(Iは\)固有ベクトルノード\(F. \(V_ {TI} \左 、右)\) 座標ベクトルとノードの構成要素の信頼性を推定します。

図の構造は、2つの部分で構成さ:

  • 車体構造によれば、各フレームの接続ノードは、そのフォームは空間縁エッジと(I、J)\でH \右\ | \(のE_ {S} = \左\ {V_ V_ {たTi} {TJを} } \) Hは、天然のヒトの関節接続のセットであります
  • 同じノード内の2つの連続するフレームを形成する縁部に接続されているが、時間的エッジ\(E_ {}のを= F. \左\ V_ {{{たTi} _ V(T + 1)I} \右\} \)

図3空間畳み込みネットワーク

フレームのみの動作のためにここで説明する図畳み込みモデル

画像の通常の2次元コンボリューションでは、例えば、位置のための\(\ mathbf {X} \ ) コンボリューション出力のように書くことができる
\ [F_ {うち}(\ mathbf {X})= \ sum_ { H = 1} ^ {K} \ sum_ {W = 1} ^ {K} F_ {}内(\ mathbf {P}(\ mathbf {X}、H、W))\ CDOT \ mathbf {} W(H )W \]
入力チャネルの数\(C \)は、図ことを特徴とする\(F_における{} \) コンボリューションカーネルのサイズ\(K * K \) サンプリング機能サンプリング機能\(\ mathbf {P}( \ mathbf {X}、H、W)= \ mathbf {X} + \ mathbf {P} ^ {\プライム}(H、W)\) 重み関数チャネル番号\(C \)重み関数。

(1)標本化関数

画像、標本化関数で\(\ mathbf {P}( W H)\) によって定義される\(X \) 中心画素の近傍、図中、画素ネイバーセットは次のように定義されている(\ Bの\左(V_ {たTi} \右)= \左\ {V_ {TJ} | D \左(V_ {TJ}、V_ {たTi} \右)\のLeq D \右\} \)、\ (D (V_ {TJ}、V_は、{ Tiは})\) を指す)\ \(V_ {TJ}する(V_ {TIを} \ \)の最短距離の、従って標本化関数を書くことができる\(\ mathbf {P} \左(V_ {たTi}、V_ {TJ} \右)= V_ {TJ} \)\(\ mathbf {P} \は (V_ {TI}、V_ {TJを}左\右)= V_ { } TJ \)

(2)重み関数

近傍画素に2次元コンボリューションは、定期的に中心画素の周囲に配置され、その空間順畳み込みルールと畳み込みを行うチェックすることが可能です。2D畳み込み類推は、図中、異なるサブセットに分割サンプリング機能得隣接画素が、各サブセットは番号のラベルを有し、従って\(L_ {TI}:Bの \左(V_ {TI} \ 右)\ RIGHTARROW \ {0、 \ ldots、K-1 \} \) ラベルの対応するサブセットに隣接ノード、重量式マップ(\ mathbf \ {W} \ (V_ {TI}左、V_を{ TJ} \右)= \ mathbf {} W ^ {\プライム} \左(L_ {TI} \左(V_ {TJ} \右)\右)\)

(3)空间图卷积
\ [F_ {うち} \左(V_ {TI} \右){Bの\左にV_ {TJ} \(右V_ {TI} \)} = \ sum_ \ FRAC {1} {で} {Z_ {TI} \左(V_ {TJ} \右)} F_ \左(\ mathbf {P} \左(V_ {TI}右、V_ {TJ} \)\右)\ CDOT \ mathbf左{W} \(V_ {TI}、V_ {TJ} \右)\]
其中归一化项(V_ {TJ}左\(Z_ {TI} \ \右)= \左|は\ \ {V_を残し{TK} | L_ {TI} \左(V_ {TK} \右)= L_ {TI} \左(V_ {TJ} \右)\右\}右\ | \)、等价于对应子集的基将上述公式带入上式得到:
\ [F_ {うち} \左(V_ {TI} \右)= \ sum_ {Bの\左にV_ {TJ} \(V_ {TI} \右)} \ FRAC {1} {Z_ {TI} \左(V_ {TJ} \右)}左{における} F_ \(V_ {TJ} \右)\ CDOT \ mathbf左\ {W}(L_ {TI} \左(V_ {TJ} \右)\右)\]
(4)时空模型

時間ドメイン、得られた標本化関数であるに拡張モデル空間領域(\ Bの\左(V_ {右)= \左\ {V_ {QJ TI} \} \左| D \左(V_ {TJ} {たTi} V_ \右)\ KのLeq、\右| Qtの| \のLeq lfloor rfloor \右\} \)\ガンマ/ 2 \ \ \ \(ガンマ\)時間領域畳み込みカーネルサイズ、重み関数を制御しますされている\(L_ {ST} \左 (V_ {QJ} \右)= L_ {TI} \左(V_ {TJ} \右)+(Q-T + \ lfloor \ガンマ/ 2 \ rfloor)\回K \ 読み

4.モードスプリットサブセット

(1)単独のユニ標識を分割する:1隣接ノードは、の部分集合に分割されています

(2)距離の分割距離区分に基づいて:一つの隣接ノードは2つのサブセット、ノード自体の一部と隣接ノードのサブセットに分割されています

(3)立体配置空間構成のパーティション分割:1つの近隣ノードは第二のサブセットに接続され、3つのサブセット、隣接ノードよりも遠くルートノードから接続されたスケルトン全体空間位置の第1のサブセットに分割されています隣接ノードの中心に近く、第3のサブセットは、ルートそれぞれノード自体、遠心運動、移動及び固定求心運動機能であります

5.注意メカニズム

運動中、異なる胴体の重要性は異なっています。例えば足の動きは、足を通じて私たちも、ランニング、ウォーキングやジャンプを決めることができ、首よりも重要かもしれないが、首のアクションは、多くの有用な情報を含めることはできません。

したがって、ST-GCN異なる加重胴(ST-GCN各セルはトレーニングのために使用される独自の重み付けパラメータを有します)

6. ST-GCNを実現しました

实际项目中使用的图卷积公式是
\[ (x)=D^{-1} A X \]
化简:
\[ \begin{aligned} \text {aggregate}\left(X_{i}\right) &=D^{-1} A X \\ &=\Sigma_{k=1}^{N} D_{i k}^{-1} \Sigma_{j=1}^{N} A_{i j} X_{j} \\ &=\Sigma_{j=1}^{N} D_{i i}^{-1} A_{i j} X_{j} \\ &=\Sigma_{j=1}^{N} \frac{A_{i j}}{D_{i i}} X_{j} \\ &=\Sigma_{j=1}^{N} \frac{A_{i j}}{\Sigma_{k=1}^{N} A_{i k}} X_{j} \end{aligned} \]
论文中的公式(不太懂):
\[ \mathbf{f}_{o u t}=\mathbf{\Lambda}^{-\frac{1}{2}}(\mathbf{A}+\mathbf{I}) \mathbf{\Lambda}^{-\frac{1}{2}} \mathbf{f}_{i n} \mathbf{W} \]
其中,\(\Lambda^{i i}=\sum_{j}\left(A^{i j}+I^{i j}\right)\)

当采用第二种和第三种划分策略时,\(A+I=\sum_{j} A_{j}\)
\[ \mathbf{f}_{o u t}=\sum_{j} \mathbf{\Lambda}_{j}^{-\frac{1}{2}} \mathbf{A}_{j} \mathbf{\Lambda}_{j}^{-\frac{1}{2}} \mathbf{f}_{i n} \mathbf{W}_{j} \]
其中,\(\Lambda_{j}^{i i}=\sum_{k}\left(A_{j}^{i k}\right)+\alpha\)\(\alpha=0.001\)

增加注意力机制后,上式中的\(\mathbf{A}_{j}=\mathbf{A}_{j} \otimes \mathbf{M}\)\(\otimes\)表示点积

网络结构与训练

输入的数据首先进行batch normalization,然后在经过9个ST-GCN单元,接着是一个global pooling得到每个序列的256维特征向量,最后用SoftMax函数进行分类,得到最后的标签。每一个ST-GCN采用Resnet的结构,前三层的输出有64个通道,中间三层有128个通道,最后三层有256个通道,在每次经过ST-CGN结构后,以0.5的概率随机将特征dropout,第4和第7个时域卷积层的strides设置为2。用SGD训练,学习率为0.01,每10个epochs学习率下降0.1。

在训练Kinetcis数据集时,采用两种策略代替dropout层:1. random moving:在所有帧的骨架序列上应用随机仿射变换,fixed angle、translation、scaling factors。2. 在训练中随机抽取原始骨架序列的片段,并在测试中使用所有帧不太懂

实验

实验数据集:

Kinetics human action dataset 和 NTU-RGB+D

实验环境:

8 TITANX GPUs 和 PyTorch

Kinetics:

300,000个视频序列,400类动作,每个视频持续10秒,unconstraint

数据处理流程:resize(340*256)-->30fps-->OpenPose-->18个节点的二维坐标+置信度-->(3,T,18,2)

其中T=300,3表示二维坐标+置信度,18表示节点数目,2表示置信度最高的两个人

测评指标:top-1和top-5

240,000个视频训练,20,000个视频验证

NTU-RGB+D

56,000个视频,60类动作,由40个志愿者完成,constraint

25个节点,每个节点用三维坐标表示,每个clip最多有2个对象

测评指标:cross-subject 40320训练 16560测试 cross-view 37920训练 18960测试 top-1

Ablation Study

Baseline TCN:Interpretable 3d human action analysis with temporal convolutional networks.(等价于没有共享参数的全连接时空图网络,网络图与ST-GCN不一样)

Loacl Convolution:(没有共享参数的ST-GCN,网络图就是ST-GCN)

Distance partitioning*:bind the weights of the two subsets in distance partitioning to be different only by a scaling factor -1, or w0 = -w1.

ST-GCN+Imp:ST-GCN+注意力机制

comparison with state of the art

Kinetic:

NTU-RGB+D:

讨论

table4:去掉了对象和环境进行交互的视频,留下了人体动作相关的视频进行测试

table5:two-stream style action recognition,不同的输入特征测试

TSN:Temporal segment networks: Towards good practices for deep action recognition.

参考博客:
https://blog.csdn.net/qq_36893052/article/details/79860328

https://www.zhihu.com/question/276101856/answer/385251705

图网络的简单实现

看代码需要理解的问题:图数据的组织形式,卷积核,大小,channel,pad,stride,遍历规则,权重值,正反向传递规则

おすすめ

転載: www.cnblogs.com/shyern/p/11262926.html