レビュー:STMC-AAAI2020

連続手話認識のための時空間マルチキューネットワーク

AAAI2020に発表されたUSTCからの記事、。

提案されたエンド・学習スペースを使用するためのフレームワークと時間の組み合わせについてのさまざまな情報、WER RWTH-V2:21.1、RWTH-V3 WER:19.6を、新しい最先端のに達しました。

1.空間モデリング:主な技術革新は、あります。使用姿勢推定を強くなど、パッチの右側の男、顔パッチの手話、複数の情報源、最終出力顔、手などの特徴抽出に関連した情報うち、中央のカットなどの重要なポイントに基づいて、キー、人間の体の7組を予測し、図完全特徴ベクトル、ソース4種類の態度。2.時間のモデリング。時間モデリングが二つの経路である複数の信号間のモデル化された時間が、他方はマルチ信号モデル内の時間であり、完全に各信号の時間情報を利用します。

また、記事が数年前に上げ、その後疑似ラベル反復最適化を生成するための最適化戦略を上演。

輪郭

  1. STMCアーキテクチャ
  2. 空間マルチキューモジュール
  3. 一時的なマルチキューモジュール
  4. 損失関数と推論
  5. 実験の詳細
  6. 結果

1. STMCアーキテクチャ

2020-02-23_18:05:01-DQdCE5-6xiz4V

  • ネットワークの最終的な出力は、2つの部分に分けられる:インターキュー経路とイントラキュー経路、および重み付け演算損失の2つの部分を一緒推定出力の姿勢を出力します。唯一インターキューパスで最終プロセス出力の予測値を推論。(そうしないと、高い計算速度が遅いです?)
  • Nは、フルフレーム、手、顔、ポーズから得られた情報源、それぞれ本明細書中にN = 4、の図番を指します。

2.空間マルチキューモジュール

2020-02-23_18:22:30-64g7ve-2ACJpm

  • ポーズ推定、予測7つのキーポイント、すなわち、鼻、左肩、左肘、左手首の新しい独立した枝の設計に基づいて、SMCモジュール、VGG11バックボーンに基づいて著者、。独立したポーズ推定ブランチを追加ネットワークのフィットを介して緩和、正則化効果を果たしました。
  • 中央キーとしてのキーポイント、1ポイントを取得した後、それぞれに応じて、固定サイズ、顔の左右の画像ブロックを切り出し、さらに、特徴抽出のためのマルチキューを生成します。体の姿勢の特徴ベクトルを取得します。2.。(詳細は:注意を払うには、キーポイントの注釈を生成するためのクロスボーダー、HRNetをカットしません)
  • 空間マルチキュー表現のベクトルを取得します。それぞれ、寸法、フルフレーム、左右の手から、顔、ポーズ畳み込み注右側特徴抽出を共有パラメータを使用して、示されるように。

3.時間的マルチキューモジュール

2020-02-23_21:02:18-xN82u4-VjYwcv

著者は、TMCモジュールではなく、単に情報融合よりも、インターキュー内およびキューの両方の空間的、時間的な側面からの情報を統合することを目的と示唆しています。

内キューパスは、各視覚的な手がかりのユニークな機能をキャプチャします。

インターキュー経路は、異なる時間スケールで異なる手がかりから融合された特徴の組み合わせを学習します。

3.1イントラキューパス(信号)

最初のパスは、異なる時間スケールで異なるキューの一意fea-トゥーレスを提供することです。

2020-02-23_21:10:23-f224VZ-D9ngj5

  • k = 5, N = 4, C = 1024,\(K^\frac{C}{N}_k\)为时间卷积核(即一维卷积核)
  • 该路径分别对4种信号的vector进行kernel_size = 5的 conv_relu 运算,再将4种信号的vector concate为1个vector,变量的维度如公式 (5) (6)中所示。

3.2 Inter-Cue Path(信号间)

The second path is to perform the temporal transformation on the inter-cue feature from the previous block and fuse information from the intra-cue path as follows.

  • \(K^\frac{C}{2}_1\)实现了维度变换(1024 -> 512)
  • 该路径实现了对前一Inter-cue vector的时间变换及对该模块中Intra-cue vector的融合

在每个Block之后,有TP为kernel size = 2, stride = 2的Temporal max-pooling运算。

4. Loss function and Inference

4.1 Loss function

在训练过程中,作者将Inter-cue path作为主要优化目标。为了提供每个单独信息特征的融合,Intra-cue path作起到辅助作用。因此,整个STMC框架的目标函数如下:

2020-02-23_22:42:31-fVR1a4-ZQwzHe

  • \(\alpha\)用于控制辅助loss的比重,\(\beta\)用于使姿态估计回归损失与其他损失处于相同的数量级
  • \(L^\beta_R\)为smooth-L1 loss用于姿态估计的目标函数

2020-02-23_22:48:14 vbtoJn-FIaECZ

4.2 Inference

For inference, we pass video frames through the SMC and TMC modules. Only the inter-cue feature sequence and its BLSTM encoder are used to generate the pos- terior probability distribution of glosses at all time steps. We use the beam search decoder (Hannun et al. 2014) to search the most probable sequence within an acceptable range.(the beam width is set to 20)

5. Details of the experiments

  • 为了获得关键点位置用于训练,作用使用了开源的HRNet工具去估计文中所述上半身7个关键点。

  • Input frames are resized to 224 x 224
  • Random crop at the same location of all frames, random discard of 20% frames, random flip all fr ames
  • Inter-cue features, output channels after TCOVs and BLSTM are all set to 1024
  • Intra-cue features, output channels atfer TCOVs and BLSTM are all set to 256
  • アダム、S = 5 A-5、BATCH_SIZE E = 2、\(\アルファ\) = 0.6、\(\ベータ\) = 30

段階的な最適化戦略:

まず、DNF(キュイ、劉、および張2019)としてVGG11ベースのネットワークを訓練し、各クリップのデコード擬似ラベルするために使用します。その後、我々はTMCモジュールの各出力の後に完全に接続されたレイヤーを追加します。BLSTM無しSTMCネットワークはSGDオプティマイザによってクロスエントロピー及び平滑-L1損失で訓練されます。バッチサイズは24で、クリップのサイズは、私たちの完全なSTMCネットワークは、エンドツーエンドの接続損失の最適化の下で訓練され、前のステージからの微調整されたパラメータを使用して、最後に16です。

6.結果

2020-02-23_23:15:51-HRxsMF-sE41vW

2020-02-23_23:16:10-QSumQr-JL9p5H

2020-02-23_23:17:06-K4cuzH-wsV89Z

2020-02-23_23:17:36-yaIkSA-gQnOPE

おすすめ

転載: www.cnblogs.com/august-en/p/12355146.html