アクション認識-ACTION-Net:アクション認識のためのマルチパス励起

0.まえがき

  • 関連情報:
  • 論文の基本情報
    • フィールド:行動認識
    • 著者ユニット:トリニティ大学ダブリン(アイルランド...)&バイト
    • 公開時間:CVPR 2021
  • 一文の要約:小さなモジュール(時空、チャネル、およびモーションの特徴を抽出するために使用)が設計され、TSMと同じ形式でTSNに埋め込まれました。

1.解決すべき問題

  • 現在の行動認識モデルの問題:
    • 2Dモデルは、速度が速く、パフォーマンスが低くなります。
    • 3Dモデルは高性能で低速です。
  • 行動認識モデルの主な新しいレポートには、3つの側面が含まれています
    • 時空間
    • チャネルごと
    • モーションパターン
  • 唾を吐く、このACTIONの略語をまとめるのは本当に難しいです...しかし、それが出てきたときは素晴らしいです
    • sp A tio-temporal、C hannel and mo T ion excitation ION(ACTION)

2.どの方法が使用されましたか

  • 3つの部分に分割されたACTION構造が提案され、3つの特徴がそれぞれ抽出されます。

    • 時空間励起(STE)ブランチ
    • チャネル励起(CE)ブランチ
    • モーションエキサイティング(ME)ブランチ
  • あなたは

    • 実際、3D畳み込みの導入は、使用量が少ないため、速度への影響が少なくなります。
    • 全体として、それはまだSE構造です。

画像-20210315143950368

  • CE:実際、私はチャネルレイヤーで1D畳み込みを行いました。全体がSE構造です。

画像-20210315144000552

  • ME
    • フレーム差分法と同様に、前のフレームは次のフレームに関連しています。最初に時間緯度を拡張し、それぞれ2D畳み込みを実行してから、構造を連結します。
    • この構造は、以前のどの論文でも間違いなく似ています。
    • でもこれを見ると頭皮がしびれ、スピードが上がらないかもしれません。しかし、私はそれを試していません、そしてそれは必ずしもそうではありません。

画像-20210315144010421

  • ACTIONをネットワーク構造に組み込む方法(基本的にはtsmでのシフト操作の位置)
    • R50構造の場合、各残差ブロックの非スキップブランチに追加します
    • mobilenetv2とbninceptionは同じです...
      • これは、TSMソースコードの優れた完全な再利用です...

画像-20210315143537773

3.それはどれほど効果的ですか

  • 計算量を増やしすぎず、精度を向上させました

画像-20210315144534542

  • 何か-何か-v2の比較に焦点を当てる

画像-20210315144602060

  • モデルを比較するには多くの計算が必要ですが、そのすべてでFLOPがわずかに増加していますが、それほど多くはありません。

画像-20210315144701456

4.問題とは何ですか?何を学ぶことができますか

  • このモデルはKineticsでトレーニングされておらず、EgoGesture / Something-something-v2 / jesterでのみテストされています。
    • キネティクスへの効果が良くない可能性が高いと推測されますが、結局、効果が良ければボーナスアイテムになるはずです。
    • カードがない可能性はわずかです...
      • PS:私も最近いくつかのことを試みています。8カードV100で2〜3日間キネティクストレーニングを実行しましたが、効果が良くなく、精神が少し爆発したことがわかりました。
  • また、「計算量は増えていないが、性能は少し向上している」とのこと。
    • ここで、推論時間をテストしておらず、パラメーターとFLOPのみを測定したすべての人に疑問符を付ける必要があります。
  • 実装は比較的シンプルでオープンソースである必要がありますが、レイテンシーは自分でテストできます。

おすすめ

転載: blog.csdn.net/irving512/article/details/114833269