0.まえがき
- 関連情報:
- 論文の基本情報
- フィールド:行動認識
- 著者ユニット:トリニティ大学ダブリン(アイルランド...)&バイト
- 公開時間:CVPR 2021
- 一文の要約:小さなモジュール(時空、チャネル、およびモーションの特徴を抽出するために使用)が設計され、TSMと同じ形式でTSNに埋め込まれました。
1.解決すべき問題
- 現在の行動認識モデルの問題:
- 2Dモデルは、速度が速く、パフォーマンスが低くなります。
- 3Dモデルは高性能で低速です。
- 行動認識モデルの主な新しいレポートには、3つの側面が含まれています
- 時空間
- チャネルごと
- モーションパターン
- 唾を吐く、このACTIONの略語をまとめるのは本当に難しいです...しかし、それが出てきたときは素晴らしいです
- sp A tio-temporal、C hannel and mo T ion excitation ION(ACTION)
2.どの方法が使用されましたか
-
3つの部分に分割されたACTION構造が提案され、3つの特徴がそれぞれ抽出されます。
- 時空間励起(STE)ブランチ
- チャネル励起(CE)ブランチ
- モーションエキサイティング(ME)ブランチ
-
あなたは
- 実際、3D畳み込みの導入は、使用量が少ないため、速度への影響が少なくなります。
- 全体として、それはまだSE構造です。
- CE:実際、私はチャネルレイヤーで1D畳み込みを行いました。全体がSE構造です。
- ME
- フレーム差分法と同様に、前のフレームは次のフレームに関連しています。最初に時間緯度を拡張し、それぞれ2D畳み込みを実行してから、構造を連結します。
- この構造は、以前のどの論文でも間違いなく似ています。
- でもこれを見ると頭皮がしびれ、スピードが上がらないかもしれません。しかし、私はそれを試していません、そしてそれは必ずしもそうではありません。
- ACTIONをネットワーク構造に組み込む方法(基本的にはtsmでのシフト操作の位置)
- R50構造の場合、各残差ブロックの非スキップブランチに追加します
- mobilenetv2とbninceptionは同じです...
- 。。。。。。。これは、TSMソースコードの優れた完全な再利用です...
3.それはどれほど効果的ですか
- 計算量を増やしすぎず、精度を向上させました
- 何か-何か-v2の比較に焦点を当てる
- モデルを比較するには多くの計算が必要ですが、そのすべてでFLOPがわずかに増加していますが、それほど多くはありません。
4.問題とは何ですか?何を学ぶことができますか
- このモデルはKineticsでトレーニングされておらず、EgoGesture / Something-something-v2 / jesterでのみテストされています。
- キネティクスへの効果が良くない可能性が高いと推測されますが、結局、効果が良ければボーナスアイテムになるはずです。
- カードがない可能性はわずかです...
- PS:私も最近いくつかのことを試みています。8カードV100で2〜3日間キネティクストレーニングを実行しましたが、効果が良くなく、精神が少し爆発したことがわかりました。
- また、「計算量は増えていないが、性能は少し向上している」とのこと。
- ここで、推論時間をテストしておらず、パラメーターとFLOPのみを測定したすべての人に疑問符を付ける必要があります。
- 実装は比較的シンプルでオープンソースである必要がありますが、レイテンシーは自分でテストできます。