【論文読解】時系列動き検出論文精読(2018年)

1. 進化する時間的提案による正確な時間的アクションの位置特定

論文の目的 - 問題を解決すること

  • 既存のアクション位置特定方法は、アクションの開始と終了を正確に特定する点で満足のいく性能を発揮しません。
  • 連続するビデオ フレームの変化が小さいためです。これにより、特にフレームレベルの粒度において、不安定な、または不正確な境界回帰が発生する可能性があります。
  • アクションの完全性をそのコンテキストから判断することは非常に主観的です。アクションは複雑で多様であることが多いため、背景からアクション クリップを区別することが困難になります

貢献 - イノベーション

  • 3段階の候補フレーム生成ネットワークETP(Evolving Temporal Proposals)を提案し、異なる粒度の特徴(ユニットベースの特徴と非ローカルピラミッド特徴)に基づいて、多段階の候補フレーム回帰を実行し、アクション境界を取得します。より正確です。
  • 単位ベースの時空座標を使用して事前選択ボックスの境界に戻り、アクションを正確に特定します
  • 事前選択ボックスの完全性と不完全性を区別できる非ローカル ピラミッド機能を使用してアクションを効果的にモデル化します

実装プロセス

ここに画像の説明を挿入

  • 1 段階のアクション性ネットワークは、フレームレベルの特徴のスコアを通じて初期候補ボックスを生成します。
  • 2 段階のリファインメント ネットワークは、候補フレーム内のユニットを切り出し、ユニット レベルの特徴で表現します。これらの特徴は GRU ベースのシーケンス エンコーダーに入力され、正確なボックス提案が生成されます。
  • 3 段階のローカリゼーション ネットワークは、2 段階の候補フレームから非局所的な特徴を抽出し、最終的な候補フレームと対応するスコアを出力します。

詳しい方法

  • アクション性ネットワーク:アクション フレーム レベルのクラス固有のアクション性を含む現在のフレームの確率値を取得します。
    まず、ビデオの各フレームを AN ネットワークに入力してフレーム レベルのスコアを計算し、そのスコアを使用して初期候補枠。期間 T のビデオを入力し、k 種類のアクション (合計 T*K) での画像の各フレームのスコアを出力します。
    ここに画像の説明を挿入
    基礎となる仮定は、モーションを含むセグメントは、しきい値よりも高いモーション スコアを持つフレームで構成されている必要があるということです。同時に、アクション クリップの継続時間は通常制限されているため、最小フレーム長と最大フレーム長が使用されます。これらのスコアを考慮して、連結成分スキームは、スコアの高い隣接領域をマージするように設計されています (行 14 ~ 32)。各フレームのスコアを取得した後、離散スコアをクラスタリングによって組み合わせて提案を取得し、非最大抑制 (NMS) を使用して冗長な提案を削除します (行 3 ~ 13)。

  • Refinement Network: RNN 方式 (Bi-GRU) に基づいて、コンテキスト情報 (context) を使用して、AN によって出力された候補フレームを修正します。
    ここに画像の説明を挿入
    各候補フレーム (s, s+d) について、まず (sd/2, s+3*d/2) に拡張し、次に拡張されたフレームの固定ストライドと継続時間に従って多数のビデオを切り出します。 Unit (単位) 「非ローカル ニューラル ネットワーク」のアイデアを利用し、各ユニットの特徴を抽出するときにユニット レベルの非ローカル ピラミッド特徴を取得し、各ユニットの特徴を BiGRU ネットワーク (GRU として) に入力します。RNN バリアント (任意の長さの入力を特定の長さの出力にエンコードできます。GRU の一種として、BiGRU は任意のユニットの特性を受け取ることができ、最後のユニットを処理した後の BiGRU の状態が出力になります)、および次に、全結合層を使用して処理します。BiGRU によって出力された特徴は、候補フレームの中心のオフセットと継続時間を取得します。つまり、AN ネットワークの結果をさらに回帰します。
    Refinement Network で使用される損失関数は次のとおりです。c
    ここに画像の説明を挿入
    は提案の中心座標を表し、s は提案の長さを表します。N には、肯定的かつ不完全な提案が含まれています。

  • ローカリゼーション ネットワーク: LN ネットワークは SSN ネットワークをバックボーンとして使用し、ネットワークの最後の層の前に非ローカル層を追加します。LN ネットワークは RN の候補ボックスを入力し、分類器は最終的な候補ボックスと対応するスコアを出力します。

  • 分類器は 3 つの損失関数で構成されます: (正のサンプル: 0.7 より大きい IoU、負のサンプル: 0.1 未満の IoU、不完全なサンプル: 0.3 ~ 0.7 の IoU)。
    分類損失:正および負のサンプルとクロスエントロピー損失関数を使用してアクションのタイプ (K 個のアクション + 1 個の背景) を決定し、正のサンプルと不完全なサンプルを使用してアクションが前景か背景かを分類します (非局所的な特徴は優れています)この点に関して)、正のサンプルを使用して回帰モデルをトレーニングします。
    完全性の損失:少数の提案のみがグラウンドトゥルース インスタンスと一致します。オンラインのハード サンプル マイニング戦略を使用して、データセットの不均衡を克服し、分類器のパフォーマンスを向上させます。
    位置決めロス:上式と同じ:L_loc
    ここに画像の説明を挿入


2. CTAP: 補完的な時間的アクション提案の生成

論文の目的 - 問題を解決すること

  • スライディング ウィンドウのランキング方法とアクション性スコアのグループ化方法には、それぞれ長所と短所があります。
    ここに画像の説明を挿入
    スライディング ウィンドウの境界 + 提案ランキング + 境界調整方法は十分に正確ではなく、図の SW+R&A に示すように、高い再現率も検出された多数の提案に基づいています。レベルアクション性メソッドは比較的正確ですが、アクション性スコアの精度にはあまり良くありません
    要件は非常に高いです(精度が高くないと、間違った候補フレームが生成され、正しいフレームが無視されます)。図の TAG に示すように、AR 値の上限を制限します。
    融合方法の 1 つは、ユニットレベルのアクション性に基づく方法に従うことです。候補フレームの並べ替えと境界回帰のためのウィンドウレベルの分類器により、間違った候補の生成を効果的に削減できます。ただし、図の TAG+R&A に示すように、正しいフレームを無視する問題は解決できません。
    この論文の主なアイデアは、スライディング ウィンドウによって取得された提案のアクション性メソッドで無視される可能性のある正しいボックスを収集し、それらを追加し直すことです。

貢献 - イノベーション

  • 高品質の候補ボックスを生成するために、新しい相補的融合(アクション性提案+スライディングウィンドウ)手法CTAPを提案します。
  • 時空間畳み込みに基づいて,新しい境界調整および提案ランキングネットワークTARを設計し,このネットワークは時間畳み込み機能を持ち,候補フレーム境界のシーケンス情報を効率的に保存できる。

実装プロセス

ここに画像の説明を挿入

  • 最初の段階では、最初の提案を生成します。この提案は 2 つのソースから得られます。1 つはアクション性スコアと TAG、もう 1 つはスライディング ウィンドウです。
  • 第 2 段階は相補フィルタリングです。アクション スコアの品質が低い場合 (つまり、アクション セグメントのアクション スコアが低い場合)、TAG はいくつかの正しい提案を見逃しますが、スライディング ウィンドウはビデオ内のすべてのセグメントを均一にカバーします。
    したがって、補完フィルタリングは、スライディング ウィンドウから高品質の補足提案を収集し、見逃したアクション提案を埋めます。
  • 3 番目の段階は境界調整と提案のランキングであり、時間畳み込みニューラル ネットワークで構成されます。

詳しい方法

  • 初期提案の生成:
    候補フレームを生成する段階では、まずビデオが同じ長さの無数のスニペットに分割され、2 ストリーム CNN を使用してユニットレベルの特徴が抽出され、クロスエントロピーに基づいてバイナリ分類器がトレーニングされて判断されます。アクションに属するセグメントの確率を計算し、次に TAGを使用して (ウォーターシェッド) アルゴリズム + NMS メソッドを使用して特徴ベースの候補フレーム bj を生成し、さらにスライディング ウィンドウによって取得された候補フレーム ak を加えて、すべての候補フレームのセットを形成します。

  • プロポーザル補完フィルタリング:
    スライディング ウィンドウ法のスライディング検索機能を使用して、アクション性法では無視される可能性がある正しいボックスを追加し直します。
    PATE (提案レベルのアクション性信頼性推定器): 中心となるアイデアは、バイナリ分類器をトレーニングし、提案に対応するユニットレベルの特徴を入力し、候補ボックスの提案がユニットレベルで正しく検出できるかどうかを示す確率を出力することです。アクション性スコアとTAG。
    バイナリ分類器の学習方法: GT に対応する bj ボックスを正のサンプルとして設定し、bj ボックスを負のサンプルとして設定し、クロスエントロピー損失関数を使用して学習します。
    2 分類子テスト方法: ak のすべてのボックスの特徴をネットワークに入力し、出力確率がしきい値より低い場合 (このボックスは TAG ネットワークによって無視される可能性があります)、このボックスを収集し、最後に候補ボックスのサブセットを収集します。 pt(ak)、pt(ak) と bj セットの和集合を取得して、最終候補フレーム セット cm を取得します。

  • 提案のランキングと境界の調整:
    提案を並べ替え、時間の境界を調整します。(TURN も同じことを行いますが、平均プーリングを使用して時間的特徴を集約するため、時間的順序付け情報が失われます) 時間畳み込み調整およびランキング (TAR) ネットワークは、時間畳み込み層を使用してユニットレベルの特徴を集約します。
    cm 以内の候補フレームに対して、1 つの候補フレーム単位 (提案単位) と 2 つの境界単位 (境界単位) が 3 つの独立したサブネットワークにそれぞれ入力され、提案に対応するサブネットワークはアクションの確率を出力し、境界補正サブネットワークは境界を出力し、返されるオフセット
    TAR ネットワークを学習する場合、スライディング ウィンドウで得られた候補フレーム ak について、GT での tIOU が 0.5 より大きいフレーム / ある GT フレームで tIOU が最大のフレームを陽性サンプルと見なします。提案サブネットワークは Softmax クロスエントロピーでトレーニングされ、境界回帰サブネットワークは L1 損失でトレーニングされます。


3. BSN: 時間的アクション提案生成のための境界に敏感なネットワーク

志胡に関する原著者の論文メモ

論文の目的 - 問題を解決すること

  • 現実世界のビデオの長さはさまざまで、ビデオ自体のアクションに関係のない時間がビデオの長さの大部分を占めます。
  • 高品質の事前選択ボックスの要件:プロポーザル生成では、柔軟な時間長と正確な時間境界を持つ事前選択ボックスを生成し、事前選択ボックスにアクション インスタンスが含まれる確率を示す信頼性の高い信頼スコアで事前選択ボックスを取得する必要があります。

貢献 - イノベーション

  • 高品質の時間的アクション提案を生成するために、新しい「ローカルからグローバル」アーキテクチャ (BSN) が提案されています。
  • この方法は既存の検出フレームワークに統合でき、時間的アクションの位置特定のパフォーマンスを大幅に向上させます。

実装プロセス

ここに画像の説明を挿入

  • BSN は、ビデオ内の各時間位置が開始、終了 (赤実線と青破線) である確率、およびローカル情報としてアクション確率系列が含まれているかどうかを評価します。
  • BSN は、時間的位置を高い開始確率と終了確率と直接組み合わせて、それぞれ事前選択ボックスを生成しますBSN はボトムアップ アプローチを利用して、柔軟な期間と正確な境界を持つ事前選択ボックスを生成できます。
  • BSN は、事前選択ボックスの内部および周囲のアクション スコアで構成される特徴を使用して、事前選択ボックスにアクションが含まれるかどうかの信頼度を評価することで事前選択ボックスを取得します。これらの提案レベルの機能は、より適切な評価のためのグローバルな情報を提供します。

詳しい方法

ここに画像の説明を挿入
ビデオ機能のエンコード:
2 ストリーム ネットワークを使用して、ビデオの機能をエンコードします。
ここに画像の説明を挿入

境界に敏感なネットワーク:

  • ネットワーク構造: 時間的評価 (タイミング評価)、提案生成 (候補フレーム生成)、および提案評価 (候補フレーム評価) の 3 つのモジュールが含まれます。

  • 時間評価:時空間評価モジュールは、2 ストリームの特徴シーケンスを入力として受け取り、ビデオ内の各時空間位置の開始および終了アクションの確率を評価する 3 層の時空間畳み込みニューラル ネットワークです。

  • 提案生成 (候補ボックス生成):より確率の高い開始点と終了点を候補ボックスの時空間位置として使用し、各候補提案に対して境界依存型提案 (BSP) 特徴を次の条件に従って構築します。アクション確率シーケンス。
    ここに画像の説明を挿入
    (a) 候補ボックスを生成します。まず、候補境界位置を生成するために、境界確率が高い、または確率のピークとして時空間位置を選択します。次に、開始位置と終了位置の候補が、その期間が条件を満たす場合に提案にマージされます。(b) BSP 機能を構築します。提案とアクションの確率シーケンスが与えられると、提案の開始領域、中心領域、終了領域でアクション シーケンスをサンプリングして BSP 特徴を構築できます。

  • 提案評価: BSP 特徴に基づいて各候補提案の信頼スコアを評価する 1 つの隠れ層を備えた多層パーセプトロン モデル。各提案の信頼スコアと境界確率は、取得用の最終的な信頼スコアに融合されます。

  • ソフト NMS (結果の後処理):最後に、重複する結果を削除するために、結果を最大化せず、抑制する必要があります。Soft-NMS アルゴリズムは、スコアを減らすことで重複する結果を抑制するために使用されます。処理された結果は、BSN アルゴリズムによって最終的に生成されたタイミング アクションの候補になります。


4. 時間的アクションの位置特定のための高速 R-CNN アーキテクチャの再考

論文の目的 - 問題を解決すること

  • さまざまなアクション持続時間に対処する方法
  • 時間的コンテキスト情報の活用方法
  • マルチストリーム機能を最適に融合する方法

貢献 - イノベーション

  • アクションセグメントの多様な継続時間に適応するためにマルチスケールアンカーを適用するために、ホールコンボリューションを使用してアンカーの継続時間を受容野に合わせることが提案されています。
  • 受容野を拡張し、時間的コンテキスト情報を使用してアクションの種類をより適切に判断し、候補ボックスの境界を決定します。
  • オプティカルフローとRGB情報の後期融合の優位性を実証。

実装プロセス

ここに画像の説明を挿入
行動候補ボックスは 1 次元の時間軸上の線分とみなすことができるため、いずれも 1 次元の特徴に対して作用します。

詳しい方法

  • 受容野のアライメント:
    Faster R-CNN では、各位置で生成されたアンカーは同じ受容野を共有します。この仮定は 2D の場合には妥当ですが、時間の長さの変動が非常に大きくなる可能性があるため、3D の場合には妥当ではありません。したがって、高い再現率を確保するには、適用されるアンカー セグメントのスケールが広範囲である必要があります。ただし、受容野の設定が小さすぎる (つまり、時間が短い) 場合、抽出された特徴には、大きな (つまり、時間が長い) アンカーを分類するときに十分な情報が含まれていない可能性があります一方、設定が大きすぎると、小さなアンカーを分類するときに、抽出された特徴が無関係な情報によって支配される可能性があります(詳細については元の論文を参照してください。)
    この論文では、マルチタワー ネットワークと拡張時間畳み込みを使用して、アンカーの受容野をその持続時間に対応させます。同時に、RPN と同様に、2 つの並列 11畳み込み層も、ターゲットを含むアンカーの判断と bbox 回帰を完了するために使用されます。
    ここに画像の説明を挿入制御可能な受容野サイズを持つ時間畳み込みネットを設計するにはどうすればよいですか?
    1) 畳み込み層を積み重ねます。短所: 過学習につながりやすい
    2) プーリング層を増やす、短所: 出力特徴マップの解像度が指数関数的に低下する
    モデルパラメータの増加を避け、解像度を維持するために、拡張時間畳み込みを使用することが提案されています:
    ここに画像の説明を挿入ターゲット受容野サイズ s、2 つの層を定義します。 ダイヤレーション レート: d1=s/6、d2=s/6
    2、入力を平滑化するために、カーネル サイズ = s/6 の最大プーリングが最初の conv 層の前に追加されます。
    目標受容野のサイズsを達成するために、r1=s/6およびr2=(s/6)×2を使用して、第1層に必要な拡張率(すなわち、サブサンプリング率)r_lを明示的に計算する。サブサンプリング前の入力も、最初の畳み込み層の前にカーネル サイズ s/6 の最大プーリング層を追加することによって平滑化されます。

  • コンテキスト特徴抽出:
    プロポーザル ネットワーク:
    ここに画像の説明を挿入コンテキスト特徴がアンカー分類と境界回帰に確実に使用されるようにするには、受容野がコンテキスト領域をカバーする必要がありますサイズ s のアンカーを仮定すると、受容野がアンカーの直前と直後の長さ s/2 の 2 つのセグメントもカバーするように強制します。
    アクション分類:
    ここに画像の説明を挿入
    アクション分類では、SoI プーリング (つまり、1D RoI プーリング) を実行して、取得された各提案の固定サイズの特徴マップを抽出します。サイズ 7 の SoI プールを出力するメカニズムを図 5 (上) に示します。図 5 (下) に示すように、サイズ s のプロポーザルの場合、SoI プールの範囲にはプロポーザル セグメントだけでなく、アンカー分類と同様に、プロポーザルの直前と直後にあるサイズ s/2 の 2 つのセグメントも含まれます。 。

  • 後期特徴融合:
    まず 2 つのネットワークを使用して 1-D RGB および FLOW 特徴を抽出し、提案生成ネットワーク (rpn) を入力して最後の 2 つのスコアの平均を計算して提案を生成し、次に提案をそれぞれのネットワーク特徴と組み合わせて、分類 (fast-rcnn 部分) を実行し、2 つのネットワーク結果を平均します。
    ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_45751396/article/details/127745204