0.まえがき
- 関連情報:
- 論文の基本情報
- フィールド:行動認識
- 著者ユニット:南京大学
- 投稿時間:2020.12
- 一文の要約:新しい特徴抽出構造は、RGBの違いを使用して設計されています。
1.解決すべき問題
- 効率的な時間モデリング手法を探ります。
- 2つの一般的な時間モデリング方法があります
- デュアルフロー方式では、RGBを使用して外観情報を抽出し、オプティカルフローを使用して動き情報を抽出します。
- この方法は、認識精度を効果的に向上させることができますが、オプティカルフローを計算するには多くの計算能力が必要です。
- 3Dモデル、または時間畳み込みは、暗黙的にモーション機能を学習します。
- 時間的次元に関連するコンテンツを個別に考慮する必要はなく、多くの計算能力が必要です。
- デュアルフロー方式では、RGBを使用して外観情報を抽出し、オプティカルフローを使用して動き情報を抽出します。
- 以前は、オプティカルフローの代わりにRGB差分を入力として使用する方法もありました。
- しかし、以前の方法は単にRGBを別の入力として使用し、最終的に結果側でマージしました。
2.どの方法が使用されましたか
-
時間差ネットワーク(TDN)は、マルチスケールの時間情報を抽出するために提案されています。
- TSNの構造、スパースでホリスティックなサンプリング戦略、つまりこの形式の1x1x8を使用します。
- 主なことは、短期および長期を含むTDM構造を導入することです。
- 短期TDMの役割は、よりフレームごとの表現を提供することです。
- 最初のパラメーターは最終結果、2番目のパラメーターは通常の2D CNN結果の特徴マップ、3番目のパラメーターの関数はS-TDMの構造、入力は画像です。
- 長期TDMの役割は、セグメント間の構造のバランスを取り、それによって各フレームの表現力を高めます
- 最後の関数はL-TDM構造であり、Fは上記のS-TDMの結果である必要があります。
- 現在のモデルでは、2つの隣接するフレーム間の関係のみが考慮されます。つまり、L-TDMは2つの隣接するフレーム間にのみ存在します。
-
TDNの鍵は、時分割ベースモジュール(TDM)の導入です。
-
S-TDM
- 著者は考えています:
- 小さなローカル時間ウィンドウ内の隣接するフレームは非常に似ています。この情報を直接重ね合わせて特徴を抽出することは賢明ではありません。
- 一方、セグメントから情報を抽出することで、外観情報を効果的に抽出することはできますが、局所的な動き情報を抽出することはできません。
- したがって、情報を強化するには、S-TDMと隣接フレームの時間差を使用する必要があります。
- 全体の構造は上図のようになり、選択した画像と選択した画像の合計5フレームを使用して差分情報を抽出し、重ね合わせているように感じます。
- 全体として、それはセグメント内の局所的な動きと外観の情報を抽出することです。
- 著者は考えています:
-
L-TDM
- 全体として、セグメント間の情報を抽出することです。
3.それはどれほど効果的ですか
-
提案された構造の有効性を証明するために、詳細な切除実験が行われた。
- 率直に言って、私は多くのS-TDMおよびL-TDM実装方法を試し、最良の出版物を選びました。
-
SomethingSomethingでSOTAに到達します。Kinetcis-400では、ほぼSOTA効果を実現します。
4.問題とは何ですか?何を学ぶことができますか
- オープンソースを待っているので、実行するのがどれほど効率的かわかりません。
- たとえば、x3dは見栄えがしますが、展開したときにどれほど効果的かわかりません。
- とても魅力的に見えます。
- しかし、原則の観点からは、オンラインタスクにはあまり効果がない可能性があります...
- 少なくとも、私の転倒検知については、S-TDMはあまり良い結果をもたらしませんでした。