この記事はリンクを知っています: https://zhuanlan.zhihu.com/p/573405333
記事ディレクトリ
1 はじめに
ビデオ理解は、近年急速に発展しているコンピュータ ビジョンの分野で重要なタスクであり、ビデオ理解の研究には高品質のデータ セットが不可欠です。この論文では、行動認識、行動セグメンテーション、タイミングポジショニング、視聴覚理解などの複数のタスクをカバーする、ビデオ理解における一般的なデータセットを要約し、対応するリンクを添付して、読者が対応する Web サイトに直接アクセスできるようにします。各データセットの情報を照会します。詳細。さらに、一部のデータセットは複数のタスクに適用でき、特定のクロスオーバーがあります。
この論文に含まれるデータセットとそのタスク マッチングは次のとおりです。
メインミッション | 共通データセット |
---|---|
行動認識・分類 | HMDB51、UCF101、ActivityNet1.3、Kinetics400、Kinetics-Sounds、VGGSound、EPIC-KITCHENS-100、THUMOS'14など |
タイミングポジショニング | ActivityNet1.3、THUMOS'14、Charades、AVE、LLP、EPIC-KITCHENS-100等 |
視聴覚理解 | AVE、LLP、AVSBench、MUSIC-AVQA、Kinetics-Sounds、EPIC-KITCHENS-100、VGGSound等 |
行動セグメンテーション | GTEA、朝食、50サラダ等 |
最初の視点 | EPIC-KITCHENS-100, EGTEA Gaze++, Ego4D等 |
データセットの基本情報は次のとおりです。
シリアルナンバー | データセット名 | 基本的なタスク | カテゴリ数 | 全体の大きさ | 平均継続時間 (秒) | 合計所要時間 (時間) |
---|---|---|---|---|---|---|
1 | HMDB51 [1] | 行動認識 | 51 | 6,714 | 3-10 | —— |
2 | UCF101 [2] | 行動認識 | 101 | 13,320 | 7.21 | 26.67 |
3 | ActivityNet1.3 [3] | 行動認識など | 200 | 20,000 | 180 | 700 |
4 | シャレード[4] | 行動認識 | 157 | 9,848 | —— | —— |
5 | Kinetics400 [5] | 行動認識 | 400 | 236,532 | 10 | 657 |
6 | キネティクス - サウンド[6] | 行動認識 | 31 | 18,716 | 10 | 51 |
7 | EPIC-KITCHENS-100 [7] | 行動認識 | v.97、n.300 | 89,977 | 3.1 | 100 |
8 | THUMOS'14 [8] | タイミングポジショニング | 20 | 413 | 68.86 | 7.56 |
9 | アベニュー[9] | ビデオの配置 | 28 | 4,143 | 10 | 11 |
10 | LLP [10] | ビデオの配置 | 25 | 11,849 | 10 | 33 |
11 | AVSベンチ[11] | ビデオのセグメンテーション | 23 | 4,932 | 5 | 6.85 |
12 | VGGサウンド[12] | 行動認識 | 309 | 185,229 | 10 | 514 |
13 | MUSIC-AVQA [13] | 視聴覚質疑応答 | 22 | 9,288 | 60 | 150 |
14 | 朝食[14] | 行動セグメンテーション | 1712年 | 1989年 | 139.37 | 77 |
15 | 50サラダ[15] | 行動セグメンテーション | 17 | 50 | 384 | 5.33 |
16 | GTEA [16] | 行動セグメンテーション | 7 | 28 | 74.34 | 0.58 |
17 | エグティアゲイズ++ [17] | タイミングポジショニングなど | 106 | 86 | 1214 | 29 |
18 | Ego4D [18] | タイミングポジショニングなど | —— | —— | —— | 3670 |
注: この記事では、ビデオ理解における一般的なデータ セットを示します. この記事では、ビデオ理解における一般的なデータ セットを示します. 大学やその他の科学研究機関のほとんどの研究者にとって、比較的使いやすいデータ セットです.
2. データセットの紹介
2.1. HMDB51
- 公式サイトリンク:https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
- 関連論文: HMDB: A Large Video Database for Human Motion Recognition.リンク
- リリース年: 2011年、ICCV
- 主なタスク: 行動認識
- 主な著者: ヒルデガルト・キューネ、フエイハン・ジャン、エスティバリズ・ガローテ、トマソ・ポッジオ、トーマス・セール
- チーム: SERRE LAB、ブラウン大学研究グループ、米国
- データ規模: 51 種類のアクション、合計 6849 本のビデオ、各アクションには少なくとも 51 本のビデオが含まれ、解像度 320*240、完全なデータ セットのサイズは約 2GB です。
- 簡単な紹介:
- 少量のデータ、簡単にダウンロードして使用できます。
- ほとんどのビデオは映画からのものであり、一部は公開データベースや YouTube などのオンライン ビデオ ライブラリからのものです。
- 動作は主に 5 つのカテゴリに分類されます: 1) 一般的な顔の動作 (笑顔、笑いなど)、2) 顔の操作とオブジェクトの操作 (喫煙、飲食など)、階段など)、4) との相互作用オブジェクト(髪をとかす、ゴルフ、乗馬など); 5)人体の動作(フェンシング、ハグ、キスなど)。
2.2. UCF101
- 公式ウェブサイトのリンク: https://www.crcv.ucf.edu/data/UCF101.php
- 関連論文: UCF101: A Dataset of 101 Human Action Classes From Videos in The Wild.リンク
- 発売年:2012年
- 主なタスク: 行動認識
- 主な執筆者:クラム・スームロ、アミール・ローシャン・ザミール、ムバラク・シャー
- チーム: Center for Research in Computer Vision , University of Central Florida, USA
- データ規模: 101 種類のアクション、合計 13320 のビデオ、完全なデータ セットのサイズは約 7 GB です。
- 簡単な紹介:
- 少量のデータ、簡単にダウンロードして使用できます。
- 長さの間隔は [1.06, 71.04] 秒、平均の長さは 7.21 秒、合計の長さは 1600 分です。
- オーディオ情報、avi フォーマットを含む解像度 320*240。
- YouTube から集めた 101 のアクション カテゴリのリアル アクション ビデオ。
- アクションは主に、1) 人とオブジェクトのインタラクション、2) 体の動きのみ、3) 人と人とのインタラクション、4) 楽器の演奏、5) スポーツ、5) の 5 つのカテゴリに分類されます。
- 101 のアクション カテゴリのビデオは 25 のグループに分けられ、各グループには 4 ~ 7 個のアクションのビデオを含めることができます。同じグループのビデオは、類似した背景、類似した視点など、いくつかの共通の特徴を共有している場合があります。
2.3. ActivityNet1.3
- 公式サイトリンク: http: //activity-net.org/
- 関連論文: Activitynet: 人間の活動を理解するための大規模なビデオ ベンチマーク.リンク
- 発売年:2015年、CVPR
- 主なタスク: アクティビティの認識、一時的なアクションのローカリゼーション、イベントの高密度キャプション
- 主な作者:Caba Heilbron Fabian, Escorcia Victor, Ghanem ernard, Carlos Niebles Juan
- 所属チーム: Visual Computing Center (VCC)、KAUST
- 簡単な紹介:
- 日常生活における人間の最も関連性の高い活動をカバーする大規模なデータ セットを提供します。より長いビデオ、より豊富なカテゴリ、より多くのカテゴリ、およびより高いラベル精度を備えています。
- 現在主流の ActivityNet データセット バージョンは v1.3 で、20,000 の YouTube ビデオが含まれています。
- トレーニング セットには約 10,000 本のビデオが含まれ、検証セットとテスト セットにはそれぞれ約 5,000 本のビデオが含まれます。
- 合計約 700 時間のビデオ、ビデオあたり平均 1.5 アクション インスタンス。
- ほとんどのビデオの長さは 5 ~ 10 分で、ビデオの 50% は 1280 x 720 の解像度で、ほとんどのビデオは 30 FPS です。
- カテゴリは主に、身の回りの世話、食事、家族の活動、介護と支援、仕事、娯楽、運動の7つのカテゴリに分かれています。
2.4. シャレード
- 公式ウェブサイトのリンク: https://prior.allenai.org/projects/charades
- 関連論文: ハリウッド・イン・ホームズ: 活動理解のためのクラウドソーシング・データ収集.リンク
- リリース年: 2016、ECCV
- 主なタスク: 行動認識、時間位置推定
- 主な著者: Gunnar A. Sigurdsson、Gül Varol、Xiaolong Wang、Ali Farhadi、Ivan Laptev、Abhinav Gupta
- チーム:アレン人工知能研究所、カーネギーメロン大学
- 簡単な紹介:
- 157 のアクション カテゴリ、9,848 のビデオ クリップ、27,847 の説明。
- 家庭の室内シーンに設定された最初の日常行動認識データで、ユーザーが最初にスクリプトを作成 (キーワードに基づいて文章を作成) し、次に自分でビデオを撮影し、最後に他の人がそれをマークします。
- 他のバージョン:
- CharadesEgo (CVPR' 2018, PDF ) は、最初のペアの行動認識データセットです。つまり、同じ一連の行動に対して、一人称ビデオと三人称ビデオの両方があります。
- Action Genome (CVPR' 2020, PDF ) は、Charades の 2 次アノテーションであり、人とオブジェクトの関係を含みます. 新しいアノテーションには、人とオブジェクトの bbox と、人とオブジェクトの関係が含まれます.
2.5。Kinetics400
- 公式ウェブサイトのリンク: https://www.deepmind.com/open-source/kinetics
- 関連論文: The kinetics human action video dataset. リンク
- 発売年:2017年
- メインタスク:行動認識
- 筆頭著者: ウィル・ケイ、ジョアン・カレイラ、ポール・ナツェフ、ムスタファ・スレイマン、アンドリュー・ジッサーマンなど
- チーム:ディープマインド
- 簡単な紹介:
- 大規模かつ高品質な YouTube 動画 URL データセット。全体のサイズは約 140 GB です。
- 400 のヒューマン アクション クラスが含まれ、各アクションには少なくとも 400 のビデオ クリップがあり、各クリップの長さは約 10 秒で、さまざまな YouTube ビデオから取得されます。
- これらのアクションは人間中心であり、楽器の演奏などの人間とオブジェクトの相互作用や、握手などの人間と人間の相互作用など、幅広いカテゴリをカバーしています。
- その他のバージョン (Kinetics400 に基づく拡張バージョン)
- Kinetics600 ( PDF )、600 の人間の行動カテゴリ。
- Kinetics700 ( PDF )、700 の人間の行動カテゴリ。
- AVA Kinetics ( PDF ) は、Kinetics700 からデータセットの一部を選択して、空間位置マーキング、つまり人間の行動の空間位置情報を記録します。
- Kinetics700-2020 ( PDF )、カテゴリごとに少なくとも 700 本のビデオを保証する Kinetics700 の拡張機能。
2.6. キネティクス - サウンド
- 公式ウェブサイトのリンク: https://www.deepmind.com/open-source/kinetics
- 関連論文: 見て、聞いて、学ぶ リンク
- 発売年:2017年、CVPR
- 主なタスク: 視聴覚アクションの認識
- 筆頭著者: Arandjelovic Relja、Andrew Zisserman
- チーム:ディープマインド
- 簡単な紹介:
- オーディオビジュアル関連のシーン理解タスクに非常に適しています。
- Kinetics400 から、視覚目標音を含む31 のカテゴリが選択されました。
- 合計 18176 個のビデオ (14799 個のトレーニング セット、1320 個の検証セット、2597 個のテスト セット)。
2.7. EPIC-KITCHENS-100
- 公式ウェブサイトのリンク: https://epic-kitchens.github.io/2022
- 関連論文: 自己中心的なビジョンの再スケーリング: epic-kitchens-100 のコレクション、パイプライン、および課題.リンク
- 発売年:2022年、IJCV
- 筆頭著者: Dima Damen、Giovanni Maria Farinella
- 所属チーム:ブリストル大学、カターニア大学
- 簡単な紹介:
- ビデオおよびオーディオ情報を含む大規模な一人称視点のデータセット。
- 収集されたデータには、4 つの都市と 45 のキッチンが含まれます。
- 動画の合計時間が100時間を超え(フルHD、60fps)、合計フレーム数が20Mフレームを超える
- 90,000 以上のアクション フラグメント、97 の動詞カテゴリ、300 の名詞カテゴリが含まれています。
- 他のバージョン
- 以前のバージョンであるEPIC-KITCHENS-55 (TPAMI'21、PDF ) には、55 時間のコンテンツが含まれています。
2.8。THUMOS'14
- 公式ウェブサイトのリンク: https://www.crcv.ucf.edu/THUMOS14/home.html
- 関連論文: The THUMOS Challenge on Action Recognition for Videos “in the Wild”.リンク
- 発売年:2014年、CVIU'2017
- 主なタスク: 時間位置推定、行動認識
- ダウンロード作者:Haroon Idreesa, Amir R. Zamirb, Yu-Gang Jiangc, Alex Gorbane, Ivan Laptevd, Rahul Sukthankare, Mubarak Shaha
- チーム: Center for Research in Computer Vision , University of Central Florida, USA
- 簡単な紹介:
- 20 種類のアクションを持つセグメント化されていないビデオには、200 の検証セット ビデオ (3007 の動作フラグメントを含む) と 213 のテスト セット ビデオ (3358 の動作フラグメントを含む) を含む、時系列の動作フラグメントで注釈が付けられます。時間的行動検出モデルのトレーニングとテスト。
- トレーニング セット: 各カテゴリには平均 150 のアクション時系列注釈があり、各アクションの平均継続時間は 4.04 秒、合計 12159.8 秒、合計 3007 個のアクション時系列注釈があります。
- テスト セット: 各カテゴリには平均 167.9 のアクション タイミング アノテーションがあり、各アクションの平均継続時間は 4.47 秒、合計 15040.3 秒、合計 3358 のアクション タイミング アノテーションがあります。
- 他のバージョン
- THUMOS'15 (リンク) では、より多くのアクション カテゴリとビデオの数が含まれていますが、現在見られる一時的なポジショニング タスクに関する記事は、基本的に THUMOS'14 で行われた実験です。
2.9。アベニュー
- 公式ウェブサイトのリンク: https://sites.google.com/view/audiovisualresearch
- 関連論文: Unconstrained Videos における Audio-Visual Event Localization.リンク
- リリース年: 2018、ECCV
- 主なタスク: AV イベントのローカリゼーション
- 筆頭著者: Yapeng Tian、Jing Shi、Bochen Li、Zhiyao Duan、Chenliang Xu
- チーム: ロチェスター大学
- 簡単な紹介:
- 視聴覚イベントのローカリゼーションの問題。視聴覚イベントを、ビデオ クリップで表示され、聞こえるイベントとして定義するデータセット。
- 3 つのタスクが含まれています: 監視されたビデオおよびオーディオ イベントのローカリゼーション、弱く監視されたビデオおよびオーディオ イベントのローカリゼーション、およびクロスモーダル ビデオおよびオーディオ イベントのローカリゼーション。
- データセットは、AudioSet から 28 のカテゴリを含む合計 4143 のビデオをスクリーニングしました。
- 各カテゴリには少なくとも 60 本のビデオがあり、各ビデオの長さは 10 秒で、少なくとも 2 秒の視聴覚イベントが含まれています。
2.10. LLP
- 公式ウェブサイトのリンク: https://github.com/YapengTian/AVVP-ECCV20
- 関連論文: Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing.リンク
- リリース年: 2020、ECCV
- 主なタスク: ビデオ、オーディオ、ビデオ分析
- 主執筆者: Yapeng Tian、Dingzeyu Li、Chenliang Xu
- チーム: ロチェスター大学
- 簡単な紹介:
- LLPの正式名称: Look, Listen, and Parse
- 視聴覚ビデオ分析、つまり、ビデオ内の視覚イベント、音声イベント、および視聴覚イベントを分析します。
- AudioSet から 11,849 本のビデオ、合計 25 のカテゴリ、合計 32.9 時間を超えるビデオを上映しました。
- 各動画には、動画カテゴリ ラベルである動画レベルのラベルがあります。
- 各動画の長さは 10 秒で、少なくとも 1 秒のオーディオまたはビジュアル イベントが含まれている必要があります。
- 検証セットとテスト セットには 1849 のビデオが含まれ、4131 の音声イベント、2495 の視覚イベント、および 2488 の視聴覚イベントを含む、合計 6626 のイベント注釈が含まれています。
- タスクのトレーニング セットは 10,000 個のビデオ レベルのラベル付きビデオを使用し、残りの細かいラベルは検証/テスト セットに使用されます。
2.11. AVSベンチ
- 公式サイトリンク: https://opennlplab.github.io/AVSBench/
- 関連論文:Audio-Visual Segmentation、Link
- リリース年: 2022年、ECCV
- 主なタスク: 視聴覚セグメンテーション
- 筆頭著者: Jinxing Zhou、Jianyuan Wang、Meng Wang、Yiran Zhong
- チーム:合肥理工大学視覚理解チーム
- 簡単な紹介:
- オーディオビジュアル セグメンテーション タスク: ビデオ フレーム内のサウンド オブジェクトの全体像を正確にセグメント化します。つまり、オーディオをガイド信号として使用して、セグメント化するオブジェクトを決定し、完全なピクセル レベルのマスクを取得します。
- AVSBench は、シングルソース (シングルソース) とマルチソース (マルチソース) セットの 2 つのサブセットに分けることができます。これは、それぞれシングルソースとマルチソースの 2 つのオーディオビジュアル セグメンテーション タスクに対応します。
- 単一ソースのサブセット: 23 のカテゴリに分類された 4932 のビデオが含まれており、人間、動物、乗り物、楽器などの日常生活における典型的な音響オブジェクトをカバーしています。
- マルチソース サブセット: 単一ソース サブセット カテゴリから 2 ~ 3 個の効果的なキーワードの組み合わせを選択し、YouTube Web サイトからマルチソース ビデオとして 424 を選択します。
- 各ビデオは、等間隔で 5 フレームでサンプリングされます.単一ソース サブセットの場合、最初にサンプリングされたビデオ フレームのみがマークされます.複数ソース サブセットの場合、5 つのサンプリングされたフレームすべてがマークされます.
2.12. VGGSound
- 公式ウェブサイトのリンク: https://www.robots.ox.ac.uk/~vgg/data/vggsound/
- 関連論文: VGGSound: A Large-scale Audio-Visual Dataset, Link
- リリース年: 2020年、ICASSP
- 主なタスク: Honglie Chen、Weidi Xie、Andrea Vedaldi、Andrew Zisserman
- 筆頭著者: 音声認識
- チーム: Visual Geometry Group (VGG)、オックスフォード大学、英国
- 簡単な紹介:
- 311 のカテゴリ、合計 550 時間の 200,000 以上のビデオ。
- 各オーディオ ラベルは 1 つのラベルであり、ラベル間に階層関係はありません。
- このデータセットは視聴覚の一貫性があり、視聴覚シーンの理解タスクの調査に適しています。
2.13. MUSIC-AVQA
- 公式サイトリンク: https: //gewu-lab.github.io/MUSIC-AVQA/
- 関連論文: ダイナミックな視聴覚シナリオでの質問への回答の学習、リンク
- リリース年:2022年、CVPR
- 主なタスク: 視聴覚による質疑応答
- 筆頭著者: Guangyao Li、Yake Wei、Yapeng Tian、Chenliang Xu、Ji-Rong WenおよびDi Hu
- 所属チーム: GeWu-Lab、ヒルハウス人工知能研究所、中国人民大学
- 簡単な紹介:
- ビデオ内のさまざまな視覚オブジェクト、音、およびそれらの関連性に関する質問に回答することを目的とした、視聴覚質問応答タスク。
- このデータセットは、質問と回答のデータセットと比較して、ActivityNet-QA、TVQAなどよりも包括的で豊富な、音声の質問、視覚的な質問、および視聴覚的な質問の多数の質問と回答のペアをカバーしています。
- データセットは、豊富な視聴覚コンポーネントを備えた楽器演奏シーンで構成されています。これは、視聴覚相互作用シーンの理解と推論をよりよく研究するのに役立ち、シーンのノイズ問題をある程度回避できます。
- このデータセットには 9,288 本のビデオと 22 種類の楽器が含まれており、総再生時間は 150 時間以上です。
- クラウドソーシングの形で、45,867 の質問と回答のペアが形成され、ビデオごとに平均約 5 の質問と回答のペア. これらの質問と回答のペアは、さまざまなモダリティの 9 種類の質問と 33 の異なる質問テンプレートをカバーしていました.
2.14. 朝食
- 公式ウェブサイトのリンク: https://serre-lab.clps.brown.edu/resource/breakfast-actions-dataset/
- 相关论文:行動の言語: 目標指向の人間活動の構文と意味論の回復、リンク
- 発売年:2014年、CVPR
- 主なタスク: アクション セグメンテーション
- 主執筆者: Hilde Kuehne、Ali Arslan、Thomas Serre
- チーム: SERRE LAB、ブラウン大学研究グループ、米国
- 簡単な紹介:
- 複数のキッチンの場所で 52 人の異なる俳優によって行われる 10 の料理イベントで構成されます。料理イベントには、コーヒー、オレンジ ジュース、チョコレート ミルクなどの準備が含まれます。
- ビデオの数は 1989 で、合計の長さは 77 時間以上です。
2.15. 50サラダ
- 公式ウェブサイトのリンク: https://cvip.computing.dundee.ac.uk/datasets/foodpreparation/50salads/
- 相关论文:組み込み加速度計とコンピューター ビジョンを組み合わせて食品の準備作業を認識する、リンク
- リリース年:2013年、UbiComp
- 主なタスク: アクション セグメンテーション
- 主執筆者: Sebastian Stein と Stephen J. McKenna
- チーム: CVIP , School of Computing, University of Dundee, UK
- 簡単な紹介:
- 50 本の動画、17 のカテゴリが含まれ、各動画の長さは平均 6.4 分、20 回です。
- メインシーンは25人でそれぞれサラダ2品。
2.16. GTEA
- 公式サイトリンク: https: //cbs.ic.gatech.edu/fpv/
- 関連論文:自己中心的な活動におけるオブジェクトの認識を学ぶ、リンク
- 発売年:2011年、CVPR
- 主なタスク: アクション セグメンテーション
- 筆頭著者: Alireza Fathi 、Xiaofeng Ren 、James M. Rehg
- 所属チーム: College of Computing , ジョージア工科大学
- 簡単な紹介:
- GTEA の正式名称:Georgia Tech Egocentric Activity
- ビデオはほとんどが一人称視点のデータセットです。
- 主に 7 種類の毎日の活動 (サンドイッチ、お茶やコーヒーを作るなど) が含まれており、各活動は 4 人の異なる人によって実行されます。
- 全部で 28 本のビデオがあり、各ビデオには約 20 個のきめ細かなアクション インスタンスがあります。
- 公式データ セットのサンプリング レートは 15 fps で、合計 31222 フレームです。
2.17. EGTEAゲイズ++
- 公式サイトリンク: https: //cbs.ic.gatech.edu/fpv/
- 相关论文:見る人の目: 一人称ビデオにおける視線と動作の共同学習,リンク
- リリース年: 2018、ECCV
- 主なタスク: 行動認識、視線推定
- 主要作者:Yin Li, Miao Liu, James M. Rehg
- 所属チーム: College of Computing , ジョージア工科大学
- 簡単な紹介:
- 一人称ビデオ理解データセット。このデータセットの素材は、自然なキッチンシーンから来ています。
- フレーム レベルの注釈、元のデータ セットのビデオ サイズは約 26G です。
- データ セットの総ビデオ時間は 29 時間で、約 15176 のアクション インスタンスが含まれ、これらのアクションのカテゴリの総数は 200 です。
- ビデオの各フレームには、対応する視線 (視線情報) の注釈が付けられます。これは、目の動きが人間の思考プロセスを反映し、人間の注意を表しているためです。
2.18. Ego4D
- 公式サイトリンク: https: //ego4d-data.org/
- 関連論文: Ego4d: 3,000 時間の自己中心的なビデオで世界一周、Link
- リリース年:2022年、CVPR
- 主なタスク: 一人称視点のシーンの理解 (16 のベンチマーク)
- 筆頭著者: Kristen Grauman、Andrew Westbury、Antonio Torralba など
- チーム: メタ AI、MIT、CMU、UC バークレーなど
- 簡単な紹介:
- 非常に大規模な一人称視点のビデオ理解データセット。その素材は自然のシーンから来ています。
- ビデオの合計の長さは 3670 時間を超え、元のビデオのサイズは約 7T です。
- タスクの 5 つのカテゴリ: エピソード記憶 (エピソード記憶)、手と物 (手と物)、視聴覚ダイアライゼーション (視聴覚ログ)、社会的相互作用 (社会活動)、予測 (予測)
3. まとめ
コンピューティング能力やその他のハードウェア機器のアップグレードに伴い、データ駆動型 (超) 大規模データセットが徐々に出現しています. (超) 大規模データセットに基づくこれらのモデルは、以前の中小のパフォーマンスのボトルネックを簡単に突破できます. -サイズのデータ セット。ただし、著者は大学に在籍しているため、計算能力やその他のハードウェア設備は会社の計算能力と比較することはできません。そのため、いくつかの古典的なデータ セットに基づく探索は、大学やその他の科学研究機関の研究者にとって非常に重要です。映像理解の分野には多くのデータセットがあり、常に新しいデータセットが提案されていますが、いくつかのベンチマークデータセットはまだ誰もが認めるものです. この記事は、私自身の探求の方向性 (行動認識/分類/セグメンテーション) に基づいています。 、時系列ポジショニング、視聴覚理解など)、およびこれらのデータセットの作成者とチームを添付. それらは、多くの場合、この分野で長年にわたって深く培われており、注目に値する. 時間の都合上、記事に不備や誤字脱字がありましたらご指摘いただければ幸いです。今後も随時更新していきます。
参考文献
[1] H. Kuehne、H. Jhuang、E. Garrote、T. Poggio、T. Serre、「Hmdb: 人間の動きを認識するための大規模なビデオ データベース」、2011 年コンピューター ビジョンに関する国際会議。IEEE、2011 年、2556 ~ 2563 ページ。
[2] K. Soomro, AR Zamir, and M. Shah, “Ucf101: A dataset of 101 human actions classes from videos in the wild,” arXiv preprint arXiv:1212.0402 , 2012.
[3] F. カバ ハイルブロン、V. エスコシア、B. ガネム、J. カルロス ニーブルズ、「Activitynet: 人間の行動を理解するための大規模なビデオ ベンチマーク」、コンピューター ビジョンとパターン認識に関する ieee 会議の議事録、 2015年、961~970ページ。
[4] GA Sigurdsson、G. Varol、X. Wang、A. Farhadi、I. Laptev、A. Gupta、「Hollywood in homes: Crowdsourcing data collection for activity Understanding」、European Conference on Computer Visionで。スプリンガー、2016 年、510 ~ 526 ページ。
[5] W. Kay、J. Carreira、K. Simonyan、B. Zhang、C. Hillier、S. Vijayanarasimhan、F. Viola、T. Green、T. Back、P. Natsev 他、「人間の運動学アクション ビデオ データセット」、arXiv プレプリント arXiv:1705.06950、2017。
[6] R. Arandjelovic と A. Zisserman 共著、「見て、聞いて、学ぶ」、コンピュータ ビジョンに関する IEEE 国際会議の議事録、2017 年、pp. 609–617。
[7] D. Damen、H. Doughty、GM Farinella、A. Furnari、J. Ma、E. Kazakos、D. Moltisanti、J. Munro、T. Perrett、W. Price、M. Wray、「再スケーリングエゴセントリック ビジョン: コレクション、パイプライン、epic-kitchens-100 の課題」、International Journal of Computer Vision、vol. 130、p。33–55、2022。
[8] H. Idrees、AR Zamir、Y. Jiang、A. Gorban、I. Laptev、R. Sukthankar、および M. Shah、「「野生の」ビデオのアクション認識に関する thumos チャレンジ」、Computer Visionおよび画像理解、巻。155, pp. 1–23, 2017.
[9] Y. Tian、J. Shi、B. Li、Z. Duan、および C. Xu、「制約のないビデオにおけるオーディオビジュアル イベントのローカリゼーション」、コンピュータ ビジョンに関する欧州会議の議事録、2018 年、pp. 247 –263.
[10] Y. Tian、D. Li、および C. Xu、「統合された多感覚知覚: 弱い教師付きオーディオビジュアル ビデオ解析」、コンピューター ビジョンに関するヨーロッパ会議。スプリンガー、2020 年、436 ~ 454 ページ。
[11] J. Zhou、J. Wang、J. Zhang、W. Sun、J. Zhang、S. Birchfield、D. Guo、L. Kong、M. Wang、Y. Zhong、「視聴覚セグメンテーション、 」 2022 年コンピューター ビジョンに関する欧州会議。
[12] H. Chen、W. Xie、A. Vedaldi、A. Zisserman、「Vggsound: A large-scale audio-visual dataset」、ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing . IEEE、2020 年、pp.721–725。
[13] G. Li、Y. Wei、Y. Tian、C. Xu、J.-R. Wen と D. Hu の共著「Learning to answer question in dynamic audio-visual scenario」、Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition、2022 年、pp.19108-19118。
[14] H. Kuehne、A. Arslan、および T. Serre、「アクションの言語: 目標指向の人間活動の構文とセマンティクスの回復」、コンピューター ビジョンとパターン認識に関する IEEE 会議の議事録、2014年、 pp.780–787。
[15] S. Stein と SJ McKenna 共著、"Combining embedded accelerometers with computer vision forrecognizing food prepare activities," 2013 ACM 国際合同会議の議事録、パーベイシブおよびユビキタス コンピューティング、2013、pp. 729–738。
[16] A. Fathi、X. Ren、および JM Rehg による「利己的な活動におけるオブジェクトの認識方法の学習」、IEEE/CVF Conference on Computer Vision and Pattern Recognition の議事録。IEEE、2011 年、3281 ~ 3288 ページ。
[17] Y. Li、M. Liu、JM Rehg、「見る人の目: 一人称ビデオでの視線と行動の共同学習」、コンピューター ビジョンに関する欧州会議 (ECCV) の議事録、2018 年、pp . 619–635。
[18] K. Grauman、A. Westbury、E. Byrne、Z. Chavis、A. Furnari、R. Girdhar、J. Hamburger、H. Jiang、M. Liu、X. Liu ら、「Ego4d: Around自己中心的なビデオの 3,000 時間で世界」、コンピューター ビジョンおよびパターン
認識に関するIEEE/CVF 会議の議事録、2022 年、pp. 18 995–19 012。(ECCV)、2018 年、619 ~ 635 ページ。
[18] K. Grauman、A. Westbury、E. Byrne、Z. Chavis、A. Furnari、R. Girdhar、J. Hamburger、H. Jiang、M. Liu、X. Liu ら、「Ego4d: Around 3,000 時間の自己中心的なビデオの世界」、コンピュータ ビジョンおよびパターン認識に関する IEEE/CVF 会議の議事録、2022 年、pp. 18 995–19 012。