論文の読書: ビデオのアクション検出のためのチューブ畳み込みニューラル ネットワーク (T-CNN)

ビデオ内のアクション検出のためのチューブ畳み込みニューラル ネットワーク (T-CNN)

抄録と寄稿

この論文は、エンドツーエンドの深層畳み込みネットワーク T-CNN を提案します。

まず、ビデオが固定長のセグメント (8 フレーム) に分割されます -------> これらのセグメントがチューブ提案ネットワーク (TPN) に送信され、一連のチューブ提案が生成されます ------- --> 各ビデオクリップ内のチューブ提案の動作スコアと隣接する提案間の重複に従って、それらは接続され (つまり、チューブ提案をリンクし)、ビデオ内で時空間動作を配置するための完全なチューブ提案を形成します ---- -- -> 最後に、関心チューブ (TOI) プーリングを使用してアクション チューブの提案を接続し、アクション ラベル予測用の固定長の特徴ベクトルを形成します。

ここに画像の説明を挿入します

貢献は次のとおりです。

  1. エンドツーエンドの深層学習に基づくビデオ動作検出方法が提案されています。オリジナルのビデオを直接操作し、単一の 3D ネットワークを使用して時空間情報をキャプチャし、3D 畳み込み機能に基づいて動作の位置特定と認識を実行します。私たちの知る限り、これは動作検出に 3D ConvNet を活用した最初の作品です。
  2. 時間領域でのスキップ プーリングを利用して、3 次元ボリュームでのアクションの位置特定のための時間情報を保存するチューブ プロポーザル ネットワーク (TPN) を導入します。
  3. 我々は、T-CNN の新しいプーリング層 Tube-of-Interest (ToI) プーリングを提案します。ToIプーリングは、R-CNN の関心領域 (RoI) プーリング層 の 3D 形式ですこれは、空間的および時間的サイズが異なるチューブ提案ネットワークの問題を効果的に軽減します。ToI プーリングにより認識結果が大幅に向上することを示します。

関連作業

  1. アクション検出における CNN と 3DCNN の関連手法

  2. 動作検知関連手法

  3. 物体検出プロセス

この記事では、アクション検出のための 2D 画像領域から 3D ビデオまでの R-CNN を一般化します。

2D から 3D への R-CNN の一般化

トリミング可能な画像とは異なり、ビデオは時間的次元が大きく異なるため、入力ビデオを固定長 (8 フレーム) のビデオ クリップに分割し、固定サイズの ConvNet アーキテクチャでビデオ クリップを処理できるようにします。さらに、クリップベースの処理により、GPU メモリのコストが削減されます。

2D CNN に対する 3D CNN の利点の 1 つは、時間と空間の畳み込みを適用することでモーション情報をキャプチャできることです。私たちの方法では、空間次元で 3D 畳み込みと 3D 最大プーリングを使用するだけでなく、時間次元でも使用するためです。3D 畳み込みと 3D最大プーリングを使用することで、識別可能な情報を集中させながらビデオ クリップのサイズを削減します。時間プーリングは、ビデオの時空間情報をより適切にモデル化し、背景ノイズを軽減できるため、認識タスクにおいて重要です。ただし、時系列情報は失われます。これは、ビデオ クリップ内のフレームの順序を任意に変更しても、最終的な 3D 最大機能セットは同じになることを意味します。これは、生のフレームの境界ボックスを取得するためにフィーチャ キューブに依存しているため、アクション検出では問題になります。——時間情報は非常に重要であり、フレームの順序を任意に変更することはできません

ビデオはセグメントごとに処理されるため、アクション チューブは、セグメントごとに異なる空間的および時間的サイズのアクション チューブ提案を生成します。これらのフラグメント候補ボックスは、行動ラベルの予測と位置特定に使用されるチューブ提案シーケンスにリンクする必要があります。固定長の特徴ベクトルを生成するために、新しいプーリング層である Tube-of Interest を提案します。ToI プーリング レイヤーは、R-CNN 関心領域 (RoI) プーリング レイヤーを 3 次元で一般化したものです。従来の最大プーリング層は、出力の形状を決定するカーネル サイズ、ストライド、およびパディングを定義します。RoI プーリング層の場合、最初に出力形状が決定され、次にカーネルのサイズとストライドが決定されます。2D 特徴マップと 2D 領域を入力として受け取る RoI プーリングと比較して、ToI プーリングは特徴キューブと 3D チューブを扱いますフィーチャ キューブのサイズが d × h × w であることを示します。ここで、d、h、w はそれぞれフィーチャ キューブの深さ、高さ、幅を表します。特徴キューブ内の ToI は、すべてのフレームに分散された d 個のボックスで構成される d 行 4 列の行列によって定義されます。ボックスは、i 番目の特徴マップの左上隅と右下隅を指定する 4 つのタプル (x 1 i、y 1 i、x 2 i、y 2 i) によって定義されます。 d バウンディング ボックス、アスペクト比、および位置。時空間プーリングを適用するには、空間ドメイン プーリング、および時間ドメイン プーリングが個別に実行されます。まず、h × w 特徴マップ マップは H × W ビンに分割され、各セルはサイズ h/w のセルに対応します。各セルでは、最大プーリングを適用して最大値を選択します。第 2 に、空間プーリング d 特徴最初のステップと同様に、d/D の隣接する特徴マップがグループ化されて、標準の時間的最大プーリングが形成されます。したがって、以下に示すように、TOI プーリング層の固定出力サイズは DxHxW です。

ここに画像の説明を挿入します

フレームワーク

中核的な構造は、TPN がセグメントごとにチューブ提案を生成することです。

チューブプロポーザルネットワーク(TPN)

  • 目標: 8 フレームの画像を入力し、8 つの連続した bbox を出力します。

[外部リンク画像の転送に失敗しました。ソース サイトにはリーチ防止メカニズムが組み込まれている可能性があります。画像を保存して直接アップロードすることをお勧めします (img-3mQKPXSy-1675910590283) (C:%5CUsers%5C%E7%8E%8B%) E4%B8%80% E4%BA%8C%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5Cimage-20230207165308635.png)]

8 フレームのビデオ クリップの場合、3 次元コンボリューションおよび 3 次元プーリング手法を使用して、時空間特徴キューブを抽出します。当社の 3D ConvNet は、7 つの 3 次元コンボリューション レイヤーと 4 つの 3 次元最大プーリング レイヤーで構成されます。d×h×wを使用して3次元畳み込み/プーリングのカーネル形状を表します。ここで、d、h、Wはそれぞれ深さ、高さ、幅です。すべての畳み込み層で、カーネル サイズは 3×3×3 で、パディングとストライドは 1 に維持されます。フィルターの数は、最初の 3 つの畳み込み層では 64、128、256 であり、残りの畳み込み層では 512 です。最初の 3D 最大プーリング層のカーネル サイズは 1 × 2 × 2 に設定され、残りの 3D 最大プーリング層のカーネル サイズは 2 × 2 × 2 に設定されます。ネットワーク アーキテクチャの詳細を表 1 に示します。C3D モデルを事前トレーニング済みモデルとして使用し、実験では各データセットを微調整します。

conv5 の後、時間サイズは 1 フレーム (つまり、深さ D = 1 の特徴立方体) に縮小され、conv5 特徴チューブ内にバウンディング ボックス提案を生成します。

ここに画像の説明を挿入します

アンカー境界ボックスの選択

Faster RCNN では、アンカーの数は手動で定義されます。たとえば、9 つのアンカーには 3 つのスケールと 3 つのアスペクト比が含まれます。この論文では、厳選したアンカー ボックスを選択せず​​、トレーニング セットにK 平均法クラスタリングを適用します。 12 個のアンカー ボックス(つまり、クラスターの重心) を学習するクラス。アンカー ボックスに対するこのデータ駆動型のアプローチは、さまざまなデータ セットに適応できます。

各境界ボックスは、ボックス内のコンテンツが有効なアクションに対応する確率を測定する「アクション性」スコアに関連付けられています。各境界ボックスにバイナリクラス ラベル (アクションであるかどうか) とアクション スコアを割り当てます。がしきい値未満であるため、境界ボックスは破棄されます。トレーニング フェーズ中、グラウンド トゥルース ボックスとの IoU オーバーラップが 0.7 より大きいか、またはグラウンド トゥルース ボックスとの交差オーバーユニオン最大境界ボックス (IoU) が大きい場合 (後者のケースは、前者のケースが当てはまらない場合に考慮されます)正のサンプルが見つかる) オーバーラップは、正の境界ボックスの提案と見なされます。

一時スキッププーリング

  • 問題点: 3D CNN は実際にはフレームの順序情報 (順番) を失い、テンポラル スキップ プーリングは順序情報を保持することになります。

conv5 フィーチャー キューブによって生成されたバウンディング ボックスは、バウンディング ボックス回帰によるフレーム レベルのアクション検出に使用できますが、時間的最大プーリングの時間的集中 (8 フレームから 1 フレーム) により、元の 8 フレームの時間的順序は変わります。失うだろう。したがって、時間的スキップ プーリングを使用して、フレーム レベルの検出に時間的順序を導入します。

  • 実装:
    • conv5 に 8 フレームが入力されると、時間的寛容度は 1 になり、通常の検出方法で bbox 提案が得られます。
    • 上記の提案から特徴を抽出する場合は、conv2 抽出に進みます。conv2 は時間的緯度に基づいて動作しないため、conv2 は順序情報を保持していると考えることができます。
    • conv5 の提案 + conv2 の特徴を入力し、RoI Pooling と同様の操作を行うことで、後続の操作のために固定長の特徴を抽出できます。
    • 後続の bbox reg の入力は、proposal + (conv2 & conv5) を通じて抽出されます。
    • bbox reg の入力は 8 回一致します。

したがって、conv5 特徴キューブ内の 5 つの境界ボックスを例にとると、5 つのスケーリングされた境界ボックスが各 conv2 特徴パッチ内の対応する位置にマッピングされます。これにより、図 3 に示すように 5 つのチューブ提案が作成されます。

[外部リンク画像の転送に失敗しました。ソース サイトにはリーチ防止メカニズムが組み込まれている可能性があります。画像を保存して直接アップロードすることをお勧めします (img-3mQKPXSy-1675910590283) (C:%5CUsers%5C%E7%8E%8B%) E4%B8%80% E4%BA%8C%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5Cimage-20230207165308635.png)]

連結チューブのご提案

  • 目標: 異なるクリップからチューブを接続します。

  • リンクには主に 2 つの条件があります。アクション性(つまり、各クリップ内のチューブのアクション スコア。スコアが高いほど、アクションの可能性が高くなります) とオーバーラップ (つまり、異なるクリップ間のチューブのIoU、前のチューブの最後のフレームと次のチューブ) チューブの最初のフレームの IoU)。

  • 前後のフレームチューブ間の点数を計算式で計算し、その点数に従って接続します。

    [外部リンク画像の転送に失敗しました。ソース サイトにはリーチ防止メカニズムが存在する可能性があります。画像を保存して直接アップロードすることをお勧めします (img-Xn8qhgaM-1675910590284) (C:%5CUsers%5C%E7%8E%8B%) E4%B8%80% E4%BA%8C%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5Cimage-20230207112043252.png)]
    ここに画像の説明を挿入します

動作検知

  • 目標: 前のパートで取得したリンクされたチューブを入力し、チューブの動作を分類します。

  • チューブの長さが異なるため、すべてのチューブから固定長の特徴を抽出するには、この記事で提案されている ToI プーリングを使用する必要があります。
    ここに画像の説明を挿入します

結果と考察

ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します

  • オンライン版では使用できません。
  • TOI プーリングは 2 ストリーム CNN と組み合わせることができます

リージョン提案ネットワーク(RPN)vs チューブレット提案ネットワーク(TPN)理解

まず、オブジェクト検出の主流の方法を確認しましょう。通常、次の手順が含まれます。

  • 一連の候補ボックスを生成します。これらの候補ボックスは提案と呼ばれます。

  • 候補フレームに基づいて、候補フレーム内の内容が前景であるか背景であるか、つまり検出オブジェクトが含まれているかどうかを判断します

  • 回帰を使用して候補ボックスを微調整し、オブジェクトをより正確にフレーム化できるようにします。このプロセスはバウンディング ボックス回帰と呼ばれます。

ここに画像の説明を挿入します

  • 領域提案:候補ボックス領域、選択領域。

  • アンカーボックス:手動設計やクラスタリングにより得られる位置決め中心点ボックス(提案との違いは、これらのボックスが特定の点に基づいていることです)

  • バウンディングボックス (bbox):これらのアンカー bbox を回帰した後の結果はバウンディングボックスと呼ばれ、これは答えに近いさらなる候補ボックスであり、ある程度は提案 (候補ボックス) でもあります。

RPN には主に次の手順が含まれます。

  • アンカーボックスを生成します。

  • アンカー ボックスに前景が含まれるか背景が含まれるかを決定します。

  • 回帰では、アンカー ボックスとグラウンド トゥルースの間の位置の違いを学習し、オブジェクトの位置を正確に特定します。

    画像

    各アンカーが k 個のボックスを生成し、各アンカー ボックスが 2 つの畳み込みネットワーク、つまり cls 層と reg 層に入力されると仮定します。RPN の学習データは、アンカー ボックスと GT ボックスを比較することによって生成され、画像内のいくつかのアンカー ボックスをサンプリングし、アンカー ボックスと GT ボックスの IOU を計算して、そのボックスが前景であるか背景であるかを決定します。前景ボックスと GT ボックス間の各座標オフセットの計算も必要です。

    画像

チューブレット提案ネットワーク(TPN)

静的ターゲット検出のバウンディング ボックス提案と同様に、ビデオ ターゲット検出のバウンディング ボックスはチューブと呼ばれます。チューブは候補バウンディング ボックスのコレクションです。ビデオ ターゲット検出アルゴリズムはチューブを使用して時間情報を取得します。したがって、Tubelet Proposal Network (TPN) では、ベース 3D ネットワークの特徴マップが前のステップから取得され、チューブ アンカーは手動設計またはクラスタリング手法を使用して設計されます。各チューブ アンカーには 2 つのラベルがあり、1 つは CLS—この空間位置から前景チューブと提案チューブの間に重なりが大きいかどうかを示します。1 つは REG - 変位をエンコードする 4T 次元ベクトルを出力します。これは、チューブ アンカー内の各ボックスの座標に基づいてチューブ境界ボックスから導出されます。


領域プロポーザル = チューブ プロポーザルと同等
フィー​​チャ マップ = フィーチャ キューブ d ボックスで構成される 4 次元行列 (時間が追加されるため)
アンカー = チューブ アンカー 手動設計またはクラスタリング手法を使用してチューブ アンカーを設計します (例: で使用される 12 個のアンカー クラスタ)この記事のクラス)
バウンディング ボックス = チューブ バウンディング ボックスです。チューブ アンカーからのアクションの有無をスコアリングし、IOU を計算します。座標は (x1, y1, x2, y2) で、左上と下は conv5 で得られた特徴立方体
です右隅。

関連している

ペーパービュー (38) 動画内のアクション検出のためのチューブ畳み込みニューラル ネットワーク (T-CNN) - Likecs.com (likecs.com)

地域提案ネットワーク - Zhihu (zhihu.com) の詳細説明

[ターゲット検出] 概念の理解: 領域提案、バウンディング ボックス、アンカー ボックス、グラウンド トゥルース、IoU、NMS、RoI Pooling_kentocho のブログ - CSDN blog_ground true iou

おすすめ

転載: blog.csdn.net/qq_42740834/article/details/128948892
おすすめ