CVPR2020紙解像度:ビデオのカテゴリビデオ分類

CVPR2020紙解像度:動画カテゴリービデオの分類

再考ゼロショットビデオ分類:現実的なアプリケーションのためのエンドツーエンドのトレーニング

 

 

 

論文リンク:https://arxiv.org/pdf/2003.01455.pdf

概要

ディープ学習(ディープラーニングDLは)異なるクラスのビデオ正確に数百に分割することができ、大規模なデータセット、上で訓練を受けています。しかし、ビデオデータのコメントは高価です。ゼロショット学習(ZSLは)解決策を提案しました。ZSLは唯一のモデル一度訓練、そして彼らの新しいタスククラスを促進するためには、トレーニングデータセットではありません。ビデオの最初の提案分類ZSLの末端アルゴリズム。洞察に基づいて、最新のビデオトレーニングプログラムは、文書を分類し、そして使用するように訓練することができる3D CNNを視覚的特徴を学習します。この前のビデオZSL 前訓練を受けた特徴抽出を使用する別の方法、。これは、現在のベンチマークパラダイムを拡張:以前の技術は、トレーニング中にテストタスクの不明を作るために設計されていますが、この目標に到達しませんでした。この記事では、クロスドメインの転送トレーニングとテストデータを奨励し、許可していませんZSLの特定のテスト・データ・セットのモデル作物を。この最先端の技術の性能よりはるかに。

1.      はじめに

本論文の貢献は関係ZSL 映像分類のさまざまな側面を:             

新しいモデリング手法は:私たちは、のために最初に提案されているゼロショットの認識E2E のトレーニングモデル。近代的なトレーニングプログラムからのインスピレーションは、ビデオの分類慣行を監督しました。1は、この方法が簡単であることを示しているが、前作よりも良いです。新しい事前トレーニング技術の他に、シンプルなデザインZSLのビデオのための標的を同定するシーン。            

評価プロトコル:私たちは、新しい提案ZSLの訓練と評価プロトコル、現実的なの実装ZSLの設定を。拡張Roitberg [40] ワーク。トレーニングおよび試験セットが互いに素なクラスであることを特徴とする請求トレーニングモデル試験データセットは、複数のに単一の試験。また、当社は、トレーニングとテスト領域が同じであってはならないと信じています。             

詳細な分析:本論文では、E2Eのモデルとさらなる分析のための事前研修のベースライン。ガイドの一連の実験では、良い探索するZSL データセット特性を。

 

 

 

2.       関連作品

この記事では、テストデータを完全未知のまとめZSLの訓練に焦点を当てています。そこトレーニング中にテスト画像やビデオが利用可能である、〔1,33,54,55,59,58,60]のZSLの相互コンダクタンス、およそ文学の多くがありますが、テストは、ラベルではありません。この作品ではミサイル防衛の方法を議論しません。

ビデオclassi Fiのカチオン:

本研究では、トレーニング時間ZSL設定に最も先進的な映像分類サンプリング原則となります。これは、私たちは視覚的な埋め込まれたE2Eを訓練することができます。したがって、以前の研究と比較して、全体的なアーキテクチャと推論プロセスは、それが非常に簡単であり、その結果は最も高度である - 図1に示します。

ゼロショット映像classi Fiのカチオン:

ゼロショット映像分類共通の練習にある第1の予備訓練ネットワークを使用して(例えば、C3D [51]またはResNet [21])を埋め込む埋め込み意味空間にマッピングされた視覚的なビデオフレームから抽出された特徴、および視覚トレーニング時間モデル[4,13- 、14,15,16,18,35,61,64]。クラス名は、モデルがビデオ出力トレーニングデータの可能性のある新たなクラスが存在しない場合に適用することができること、セマンティック良い一般化手段を埋め込まれました。ネイバーモデル最寄りのテストクラスの出力に埋め込まれて見つけることが推論減らします。Word2Vec [32]通常ワード埋め込みグランドトゥルースを生成するために使用されます。別の方法は、クラスを手動で構築[23]属性を使用することです。本明細書では、手動の方法を使用しないことを決定し、アプリケーションが一般的な場合に難しいからです。

最近、2種類の有効な方法、ハーンら[18]とBishayら[4]は、C3D 52の特徴は、各ビデオ・セグメント16から抽出されます。次いで再帰ニューラルネットワークのトレーニング[10,22]、結果はベクトルとして符号化されます。最後に、層は完全に内部に埋め込まれたマッピングされた符号化ビデオWord2Vecに接続されています。図1は、この方法を示しています。同じ訓練および試験データセットを使用して、2つのクラスに利用可能なデータセット、[4] [18]後と。事前に視覚的な特徴抽出も同様にビデオフレームの数が多いため、GPUのメモリに見つけることは非常に容易であるので、事前に訓練されたネットワークを使用して深さが、非常に便利です。セマンティックとビジュアルプロファイルとの間の隙間[33,62]を補償するための別の方法を使用してモデルを生成します。残念ながら、パフォーマンスを正確に視覚的に埋め込まれた制限を調整されていません。この記事ショーあなたの正確な調整データセットが重要である一般化します。Zhuらとワーキングペーパー。[64]同様。両方の方法は、すべての操作の一般的な表現を学ぶには、データセット間で一般化することができます。しかし、彼らは提案されたモデルは、3D CNNの可能性を最大限に活用しませんでした。その代わりに、それらは非常に深いResNet200 [21]を使用し、ImageNetの[9、43]に予め訓練され、後者の缶は、時刻情報を利用しません。Roitbergら[40]先に述べその学習モデルの作業とZSLの仮定に違反して重複操作のターゲット・データ・セット、など。例えば、Zhuら[64]アクティブネットワーク設定フルデータでトレーニング[11]に。これは非常に難しいこの記事への彼らの結果を比較することができます。この記事の定義に従ってZSL。トレーニングデータセットとテストデータセットでは23個のオーバーラップするカテゴリがあります。様々な程度に類似のすべての例他の方法。

 

 

 

3.       ゼロショットアクションclassi Fiのカチオン

ZSLは、最初に慎重映像分類のコンテキストで定義されました。これは、私たちだけではなく、新しいアルゴリズムのZSLを提案することを可能にするだけでなく、実用的なソリューションのZSLに向けて、今後の研究のために期待して、契約の明確な評価をしただろう。

3.1。Problemsetting

正式に、ビデオXが与えられると、我々は対応する意味埋め込みZ = G(x)を導出し、そして隣接最寄りのX Zとして分類試験クラスのセットに埋め込まれました。その後、訓練された分類モデルM(・)出力

 

 

 

3.2。エンドツーエンドのトレーニング

FVとFSを最適化しながら、この記事をお勧めします。このようなE2Eのトレーニングは、いくつかの利点があります。FVは、複雑な計算エンジンを提供するので1)、FSは、単純な線形層(図1参照)であってもよいです。2)あなたは、完全なモデルを実現するために、標準的な3D CNNsを使用することができます。             

3)分類タスク組み込みビジョンに事前に訓練を受け不要です。             

GPUのメモリ制限するので、ビデオの最適化を終了するには、完全なエンドを使用することは現実的ではありません。標準ベースのビデオの分類は、本明細書の第2節で詳細に説明するように、また、有効であるトレーニングプロセスのたとえわずかな断片を記載しています。             

正式に、ランダムな時間で抽出された16のフレームXT所与のトレーニングビデオ/クラス対(X、C)∈Ds我々t≤(LEN(X)-16)フラグメントの場合です。損失を最小化することにより、ネットワークの最適化

 

 

 

3.3。現実的なZSLに向けて

当社ZSLセットが現実的であることを確認するために、我々は法[40]、慎重に独立したトレーニングとテストデータを拡張しました。これは実際に達成することは困難であり、以前の仕事のほとんどは試していません。私たちは、より簡単に、実際のZSLシーンでそのモデルのパフォーマンスを理解するために、将来の研究者を可能にする私達の訓練と評価契約の明確な声明をしたいです。

 

 

 

トレーニングと非オーバーラップカテゴリーテスト:

本論文の第一の目的はDs∪DpとDtがあることを確認することである「非重複分類。」簡単な解決策 - 図に示すように、2つの僅かに異なる名前クラスが容易に、同じ概念を参照することができるので、先クラスのクラス名または反対からソースクラス名が仕事をしないソースを除去します。これは、クラス名の間の距離が必要です。この規格では、我々はそのトレーニングクラスを確保することができますし、テストクラスはあまり似ています。正式には、Dを聞かせて:C→CはCと提供τ∈Rは、同様のしきい値を示し、すべての可能なクラス名の空間における距離メトリックを表します。次の場合には、ゼロショット制約に完全に準拠したビデオの分類タスク:

 

 

 

簡単な方法は、定義されたセマンティクスが埋め込まれたクラス名を使用することです。我々は2つのクラス間の距離のための定義します

 

 

 

前記COSはコサイン距離を示します。これは、我々はコサイン距離で式1で使用しZSLの設定と一致しています。図2はトレーニング様およびオーバーラップのテストデータからの除去時クラスのダイナミクスを使用してテストクラスに埋め込まれました。図3は、クラスデータ及びクラス分布をトレーニング被験物質濃度との間の距離。0〜0.1より大きい崖の非常に近い距離があります。我々の実験では、我々は自然、公平な閾値としてτ= 0.05を使用していました。             

異なるトレーニングとテストのビデオフィールド:             

本論文では、Ds∪DpとDtのビデオドメインが異なるべきであると主張しています。以前の研究では、標準的なプロトコルは、訓練および試験、10のランダムなセグメントを使用するためのデータセットを使用して評価されます。これが原因データの圧縮に本当のシーンを説明していない、ビデオカメラや他のアーティファクトは、ドメイン転送を発生しました。従って、理想的には、ビデオソースを有するZSLトレーニングおよびテストデータセットが互いに素であることが。             

テスト・データ・セットの複数:             

ZSLモデルは、複数のテスト・データ・セットにも実行する必要があります。上述したように、各利用可能なデータセット(通常UCFとHMDB)再訓練および試験のために以前の研究。本明細書の実験では、運動トレーニングデータは一度だけ設定され[25]、試験[11]すべてのUCF [50]、HMDB [28]とActivityNet。

3.4。ビデオZSLのための簡単な事前訓練

実際のシナリオでは、モデルは一度だけ訓練を受け、その後、試験データの見えないセットの様々な展開します。トレーニングデータの大規模かつ多様なセットは、良好な性能を得るために重要です。理想的には、トレーニングデータセットは、未知の位置は、モニタと動き識別に大きなデータセットを必要とするモデルを監視する複数の展開強いZSLとして、推論の一般的な分野に合わせて調整されるであろう。しかし、ドメイン固有のマーカーおよびビデオ・データ・セットへのアクセスは非常に高価になることができます。一方、画像注釈の速度が非常に速いです。

したがって、ビデオトレーニングから静止合成画像を生成するデータ拡張方式の簡単なセットの設計。秒5データセットへのこのモデルの使用は、特に利用できる小さなトレーニングデータの場合には、パフォーマンスを向上させるために、事前に訓練することができます。

作物のシミュレーションと同様のモーションビデオの周りの画像の動きのシリーズ:ビデオ画像へのケン・バーンズエフェクトを使用しました。秒4.1は、より多くの詳細を提供します。実験は、動作認識を集中します。モーション認識(および他の多くの分類タスク)で、場所や風景のビデオは、アクションカテゴリの強力な予測を持っています。このように、選択基準シーン認識データセット日[57]。図2が示すように、シーンデータの完全なセットは、組み込みクラスのクラス名です。

 

 

 

 

 

 

 

 

 

4.       テスト結果

図4を得るためには、カテゴリ664によって我々の動態は、サブサンプリングされました。私たちは、最初の無作為に2つの664クラスのダイナミクスを選択し、のみこれらのクラスにアルゴリズムを訓練します。私たちは、4,10,25,50,100,200,400を使用し、すべての664クラスは、このプロセスを繰り返します。もちろん、以下のクラス、データポイントの少ないトレーニングセットが含まれています。結果を比較上記の手順を用いて、図4に示されているが、我々は関係なく、それらのカテゴリの、ランダム運動データポイントを除去しました。

図5では、我々は我々の焦点の全体のダイナミクスから664件のデータがランダムに推論テストセットに50クラス、これらのクラスでの学習アルゴリズム、および実行を選択)の4つの方法50個のトレーニングクラス:(左上隅を選択してください。私たちは、推論の平均誤差と、このプロセスを10回繰り返します。(トップ右)我々は664インサートは、カテゴリスペースWord2Vec内の2つのカテゴリに分類し、その中にランダムクラス50クラスのトレーニングと推論を選択しています。その後、我々は、プロセス10回平均の結果を繰り返します。

 

 

 

 

 

 

5。結論

本論文では、最初のトレーニングビデオ認識ZSLのE2Eシステムのために、最近の練習映像分類文献に従います。このプログラムの評価は、既存の作業、ゼロオフセット分類精度のより現実的な測定よりも厳しいです。この方法は、以前の研究よりも優れている本明細書に記載されても、このより厳密なプロトコルでは、後者の性能を測定するためのトレーニングおよびテストセットと共有ドメインが重なっています。対象一連の実験を通じて、我々は良いZSLデータセットは、多くの異なるクラスを持つ必要がありました。このビューの指導の下、我々はZSLのパフォーマンスを向上させるために、簡単な事前トレーニング技術を開発しました。モデルは、理解し、拡張が容易です。トレーニングと評価プログラムは、他の方法と組み合わせて使用​​するように簡単です。

おすすめ

転載: www.cnblogs.com/wujianming-110117/p/12537527.html