データセットを理解するビデオ

動画理解に関する共通データセットと研究状況

データセット

1. KTH (2004)

リンク: http://pan.baidu.com/s/1hsuQktAパスワード:rfr7

サイズ:1GB

クラス: クラス9

簡単な説明: KTH データセットは 2004 年にリリースされました。これはコンピュータ ビジョンの分野における画期的な出来事です。それ以来、多くの新しいデータベースがリリースされました。このデータベースには、25 人による 6 つのカテゴリーの動作 (ウォーキング、ジョギング、ランニング、ボクシング、手を振る、手拍子) の 4 つの異なるシーンの合計 2391 件のビデオ サンプルが収録されており、当時としては最大規模の人間の動作データベースでした。これにより、同じデータを使用できるようになり、入力データにより、さまざまなアルゴリズムのパフォーマンスを系統的に評価できるようになります。データベース内のビデオサンプルには、スケールの変更、服装の変更、照明の変更が含まれていますが、背景は比較的シンプルで、カメラは固定されています。(静的)

宗太

2. ワイツマン (2005)

リンクhttps://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html

サイズ:340MB

クラス: クラス9

簡単な説明: 2005 年、イスラエルのワイツマン研究所はワイツマン データベースをリリースしました。データベースには 10 のアクション (ベンド、ジャック、ジャンプ、ジャンプ、ラン、サイド、スキップ、ウォーク、ウェーブ 1、ウェーブ 2) が含まれており、各アクションには 9 つの異なるサンプルがあります。ビデオの視点は固定されており、背景は比較的シンプルで、各フレームでアクションを実行する人物は 1 人だけです。カテゴリ ラベルに加えて、データベース内のキャリブレーション データには、前景の俳優のシルエットと、背景抽出に使用される背景シーケンスも含まれます。(静的)

宗太

3. ハリウッド V1/V2 (2008、2009)

リンクhttp://www.di.ens.fr/~laptev/actions/hollywood2/

サイズ: アクション認識用 15G、シーン認識用 25G

クラス: クラス 12

簡単な説明: Hollywood (2008 年にリリース) および Hollywood-2 データベースは、フランスの IRISA Research Institute によってリリースされています。以前にリリースされたデータベースは基本的に管理された環境で撮影され、ビデオ サンプルは限ら​​れていました。2009 年にリリースされた Hollywood-2 は、ハリウッド データベースの拡張バージョンで、12 のアクション カテゴリと 10 のシーンの合計 3,669 のサンプルが含まれており、すべてのサンプルは 69 のハリウッド映画から抽出されています。ビデオサンプル内の俳優の表情、姿勢、服装、カメラの動き、照明の変化、オクルージョン、背景などが大きく異なり、実際のシーンの状況に近いため、動作の分析と特定は非常に困難です。古いデータセットの場合、データは簡単に取得できます。サンプルとカテゴリーが少なく、研究への関心が低い。将来的には同様のHollywood Extendedデータセットも登場する予定なので、映画に興味のある友人は注目してみてください。

宗太

4. HMDB51 (2011)

リンクhttp://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#dataset

サイズ:2G

クラス: クラス51

簡単な説明: ブラウン大学が公開した HMDB51 は 2011 年にリリースされました。ほとんどのビデオは映画からのものですが、一部は公共のデータベースや YouTube などのオンライン ビデオ ライブラリからのものです。データベースには 6849 個のサンプルが含まれており、51 のカテゴリに分かれており、各カテゴリには少なくとも 101 個のサンプルが含まれています。UCF101 と同様に、エントリーレベルのデータです。データの入手が容易で量も少なく、効果の再現や検証が容易なため、現在研究が盛んに行われています。

宗太

5. UCF101(2007-2012)

リンクhttp://crcv.ucf.edu/data/

サイズ:6.46G

クラス: クラス101

簡単な説明: 2007 年以降、米国のセントラル フロリダ大学 (UCF) によってリリースされた一連のデータベース、UCF スポーツ アクション データセット (2008 年)、UCF Youtube (2008 年)、UCF50、UCF101 (2012 年) は、広く注目を集めています。これらのデータベース サンプルは、BBC/ESPN のラジオおよびテレビ チャンネルから収集されたさまざまなスポーツ サンプルや、インターネット、特にビデオ ウェブサイト YouTube からダウンロードされたサンプルから取得されています。その中でも、UCF101 はアクション カテゴリとサンプル数が最も多いデータベースの 1 つで、サンプル数は 13320 動画、カテゴリ数は 101 です。エントリーレベルのデータ。データは簡単に入手でき、研究も盛んですが、その精度はすでに非常に高く、これ以上改善することはできません。

宗太

6. トゥーモス(2014)

リンクhttps://www.crcv.ucf.edu/THUMOS14/download.html

サイズ:不明

クラス: クラス101

簡単な説明: 行動認識タスク: そのトレーニング セットは、101 種類のアクションを含む UCF101 データ セットで、合計 13320 個のセグメント化されたビデオ クリップが含まれます; その検証セットとテスト セットには、それぞれ 1010 個と 1574 個のセグメント化されていないビデオが含まれます。時間的動作検出タスク: 20 種類のアクションのセグメント化されていないビデオのみに、連続する動作クリップで注釈が付けられます。これには、200 個の検証セット ビデオ (3007 個の動作クリップを含む) と 213 個のテスト セット ビデオ (3358 個の動作クリップを含む) が含まれます。これらは、注釈付きのセグメント化されていないビデオです。時間的動作検出モデルのトレーニングとテストに使用されます。

宗太

7. スポーツ-1M(2014)

リンクhttps://cs.stanford.edu/people/karpathy/deepvideo/

サイズ:不明

クラス: クラス487

簡単な説明: Sports-1M は、YouTube によって収集されたスポーツ ビデオ データ セットからのものです。2014 年に作成され、合計 1,133,158 のサンプルが含まれています。カテゴリはすべてスポーツ関連です。YouTube のビデオ ID は、ダウンロード用に Github で提供されます。スポーツが好きな友達、またはスポーツ関連のプロジェクトに参加している友達は知ることができますが、残念ながら、提供されるビデオ ID は YouTube のビデオ ID であり、国内の友達が取得するのはさらに困難です。

宗太

8. アクティビティネット(2015)

リンクhttp://activity-net.org/index.html

サイズ:不明

クラス:200クラス

簡単な説明: ActivityNet は大規模な行動認識コンテストです。CVPR 2016 から始まり、ユーザーが作成したビデオから日常生活、目標指向の活動を特定することに焦点を当てています。ビデオはインターネット ビデオ ポータル Youtube から取得され、カテゴリーには食事が含まれます、食事、スポーツなど。※ActivityNetは競技会のため、近年CVPR上で課題が更新されていますが(近年ではKinetics-400など)、ここで紹介するのは2016年の課題です。正式版は毎年更新されます。以前に登場し、その後のバージョンに徐々に置き換えられました。公式 Web サイトにはデータを入手するための Youtube URL が記載されていますが、ダウンロードするのは簡単ではありません (国内の友人には購入する余裕がありません)。サンプル サイズが少なすぎて、研究の熱意は平均的です。 。

宗太

9. Youtube-8M(2016)

リンクhttps://research.google.com/youtube8m/download.html

サイズ:約1.5T

クラス:4800クラス

簡単な説明: Youtube-8M は 2016 年に登場し、当初は 800 万サンプルでしたが、年々更新され、サンプル数は減っていきました (おそらくリンク障害のため) 2018 年バージョンのトレーニング サンプルは約560 万本。2019 年にはビデオ クリップのタグ付けも提供されます。公式のダウンロード ファイル形式は tfrecord です。このデータセットは大きすぎ、実験の実施コストが高すぎ、最近学術コミュニティでは関連する進歩がほとんどありません。Kaggle上ではコンテストも開催されており、Tencentもランキングで優勝しました(上記第2案)。tfrecord のダウンロード形式が提供されていますが、ダウンロードプロセスはまだ国内の友人にとってフレンドリーではないため、興味のある友人は試してみてください。

宗太

10.シャレード(2016)

リンクhttps://allenai.org/plato/charades/

サイズ: 13G~76Gまでの各種サイ​​ズ

クラス: クラス157

簡単な説明: Charade は、2016 年に Amazon Mechanical Turk を通じて収集されたデータです。合計データ セットは 9848 個のビデオ クリップで、主に屋内アクションです。このデータセットには、ビデオレベルの分類とフレームレベルの分類の両方が含まれており、最近の研究で注目を集めており、比較的入手しやすいデータです。

宗太

12. キネティクス(2017)

リンクhttps://deepmind.com/research/open-source/kinetics

  • Kinetics 400:https://opendatalab.org.cn/Kinetics-400/download
  • Kinetics 600:https://opendatalab.org.cn/Kinetics600/download
  • Kinetics 700:https://opendatalab.org.cn/Kinetics_700/download
  • Kinetics-700-2020:https://opendatalab.org.cn/Kinetics_700-2020/download

サイズ:約135G(Kinetics 400)

クラス: クラス400、600、700

簡単な説明: Kinetics ビデオは YouTube から提供されており、現在 400 カテゴリ、600 カテゴリ、700 カテゴリの 3 つのバージョンがあり、それぞれ 200,000、500,000、650,000 のビデオが含まれています。データセットのカテゴリは主に、楽器の演奏などの人と物とのインタラクション、握手やハグなどの人と人とのインタラクション、スポーツなどの3つのカテゴリに分類されます。
このデータセットは、2017 年のアクティビティ チャレンジで DeepMind によってリリースされました。リリースされたときは大きなニュースになり、「行動認識分野における ImageNet」と呼ばれ、大多数の CV 研究者にとって突然新しい方向性が開かれたように感じられました。さらに、同時に登場した I3D メソッドも 3D コンボリューションへの研究への関心を高めています。Kinetics データの事前トレーニングは、確かにさまざまなテスト セットに多くの機能を追加できます。KaiMing は最近いくつかの関連著作も出版しており、その影響力を示しています。 . .
ただし、これから始めようとしている国内の学生向けにちょっとした注意点がありますが、このデータセットは入手が非常に難しく (科学的にインターネットにアクセスする必要があります)、無効な YouTube URL がまだ多くあり、その数は膨大です。トレーニングを想像するのがさらに難しくなります。Hansong 氏と彼のチームは最近、Kinetics を 15 分でトレーニングできるという記事を発表しましたが、その論文の推論を見ると 1,500 以上の GPU が必要であることがわかりました。しかし、ある魚のデータの取得に成功した人がいるとZhihuで見たのですが、まだ完全ではないようです。

自分でデモトレーニングを行いたい場合は、わずか 600MB の[Tiny-Kinetics-400] Kinetics-400 ミニデータセットをお勧めします。

宗太

13.AVA(2017)

リンクhttps://research.google.com/ava/

サイズ:不明

クラス: 80 のアトミック アクション カテゴリ、158 万以上のアクション カテゴリ

概要: AVA データセットには 80 個のアトミックな視覚アクションが含まれており、空間と時間のアクションに応じて 158 万個のアクション タグが生成され、約 430 個の 15 分のビデオ クリップがクリップに分割されます。ラベルセットは大規模で、マルチラベルの行動認識タスクに使用され、データは YouTube ID を提供することで取得されるため、研究の関心は高いです。

宗太

14. 瞬間(2018)

リンクhttp://moments.csail.mit.edu/

サイズ:不明

クラス: クラス339

簡単な説明: Moments は、2017 年に MIT-IBM Watson AI Lab によって開発された研究プロジェクトです。このプロジェクトは、AI システムがビデオ内のアクションやイベントを認識して理解できるようにするための、非常に大規模なデータセットの構築に焦点を当てています。合計 100 万のビデオ クリップがあり、各クリップの長さは 3 秒です。人、動物、物体、自然現象が含まれます。開く、口を開ける、ドアを開けるなどの動作自体に集中します。研究はより困難であり、研究熱意は低く、取得方法は個人や研究機関からの情報が必要であり、データの規模は不明です。

宗太

15. サムシングサムシング v1/v2(2019)

リンクhttps://20bn.com/datasets/something-something

サイズ:20G

クラス: クラス174

簡単な説明: Something Something データセットは、人間が日常の物体 (はさみ、コップなど) に対して事前に定義された基本的なアクションを実行する様子を示す、高密度にラベル付けされた多数のビデオ クリップのコレクションです。ビデオの総数は 220,000 以上です。無料学術研究。データ量はそこそこあり、研究の関心は高いが、動画コンテンツのためか精度が出しにくい。いくつかのビデオを見てみると、コップに水を注ぐなど、非常に奇妙な動作がたくさんあることがわかりました。

宗太

16. HowTo100M(2019)

リンクhttps://www.di.ens.fr/willow/research/howto100m/

サイズ:不明

クラス: 23k アクティビティ

簡単な説明: Miech は、2019 年に HowTo100M データ セットをリリースしました。これは主に、自動字幕付きのナレーション テキストを含むビデオからマルチモーダル表現を学習するモデルを支援するための教育ビデオで構成されています。研究者らは WikiHow を使用して、物理世界と対話する 23,611 の視覚タスクを取得し、これらのタスクに基づいて YouTube で対応するビデオを検索しました。最終的に、ナレーション付きの 122 万本の教育ビデオから 1 億 3,600 万個のクリップを切り出し、ビデオとテキストのペアを形成しました。HowTo100M は、データ量の点で以前のビデオ事前トレーニング データ セットをはるかに上回っており、データ セットの合計期間は 15 年、平均期間は 6.5 分、ビデオごとに平均 110 のビデオとテキストのペアがあります。以前の手動注釈データ セットとは異なり、HowTo100M の注釈は自動ナレーション字幕から派生しています。一部のビデオ テキスト ペアが整列していない可能性があり、特定のテキストが完全な文コンテンツを構成していない可能性があり、その結果、比較的ノイズの多いデータ セットが生成されます。ただし、データ セットの規模が大きいため、現在の主流の作業では、依然として事前トレーニングやその他のタスクに HowTo100M データ セットが使用されています。

宗太

17. ハイイブ(2021)

リンク: http://humaninevents.orgまたはhttps://gas.graviti.cn/dataset/hello-dataset/HiEve

サイズ:不明

クラス: クラス14

簡単な説明: 現実世界のさまざまなイベント、特に群衆や複雑なイベントにおける人間の行動、姿勢、動きを理解するための新しい大規模データセット。いくつかの異常な場面(刑務所など)と異常な出来事(喧嘩、地震など)の合計 32 個のビデオ シーケンスが YouTube で収集されました。そのほとんどは 900 フレームを超え、合計の長さは 33 分 18 秒で、次の 2 つに分割されています。 19 および 13 のトレーニングおよびテスト セット。ビデオは慎重に制作されています。データセットには 9 つの異なるシナリオが含まれています。

宗太

18. ダイビング-48(2018)

リンクhttp://www.svcl.ucsd.edu/projects/resound/dataset.html

サイズ:9.6GB

クラス: クラス48

簡単な説明: Diving48 のビデオ映像は、主要なダイビング競技会のオンライン ビデオを分割して取得したものです。真実のラベルは、各ダイビングの開始前に情報ボードから転写されました。データセットは、約 16,000 個のビデオのトレーニング セットと、約 2,000 個のビデオのテスト セットにランダムに分割されます。目的は、長期的な動的情報をキャプチャするモデルの能力を評価できるように、静的または短期的な動作表現に大きな偏りのないアクション認識データセットを作成することです。

宗太

19.ファインアクション(2021)

リンクhttps://deeperaction.github.io/datasets/fineaction.html

サイズ:不明

クラス: クラス103

簡単な説明: 時間的アクションの位置特定を次のレベルに引き上げるために、既存のビデオ データセットと Web ビデオから収集された新しい大規模なファイン ビデオ データセットである FineAction を開発します。合計すると、このデータセットには、106 のモーション カテゴリにわたる約 17,000 のノーカット ビデオに密に注釈が付けられた 139,000 のファイン モーション インスタンスが含まれています。

宗太

20. マルチスポーツ(2021)

リンクhttps://huggingface.co/datasets/MCG-NJU/MultiSports

サイズ:不明

クラス: クラス66

簡単な説明: 複数人: 同じシーンで、さまざまな人々がさまざまな細かいアクションを実行するため、背景によって提供される情報が減少します。分類: 正確に定義されたきめの細かいアクション カテゴリ。キャラクター自身のアクション、長期的な情報モデリング、人、物体、環境の間の関係のモデリング、および推論を記述する必要があります。タイミング: 行動の境界は明確に定義されています。トラッキング: 高速な動き、大きな変形、およびオクルージョン。上記の特徴を踏まえ、データセットの背景として集団スポーツを使用し、サッカー、バスケットボール、バレーボール、エアロビクスの 4 つのスポーツから合計 66 の動作を選択しました。

宗太

タスク

1. ビデオアクションの分類

内容: 出力class_label
ここに画像の説明を挿入します

作物

ビデオ クリップが手動でトリミングされているかどうか: トリミングされていない方法では、無関係な干渉クリップを除外する必要があります。
ここに画像の説明を挿入します

人々の数

複数人ビデオでは、1 人ビデオよりも人々間のインタラクションが多くなります
ここに画像の説明を挿入します

2. 時間的行動の検出

何を+いつ: 出力[class_label, start_end_timesteps]
ここに画像の説明を挿入します

ラベリングの難しさ

注釈付きの長いビデオデータを収集するのは困難であり、人々が弱教師あり学習を行うきっかけとなる
ここに画像の説明を挿入します

3. 時空間動作の検出

何を+いつ+どこで: 出力 [class_label, bbox, start_end_time]
S

4. 継続的な学習

オンライン モデルは、これまでに見た例から学ぶことができます
ここに画像の説明を挿入します

5. 行動予測

視聴したビデオ クリップの一部に基づいて次の内容を予測します
ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/weixin_54338498/article/details/132734082