VidSitu データセット

その後の科学的研究のニーズを促進するために、現在、関連する研究が VidSitu データセットで実施されています。

このデータセットは、「ビデオ理解のための視覚的セマンティック役割ラベル付け」という論文に由来しています。

2104.00990.pdf (arxiv.org) icon-default.png?t=N3I4https://arxiv.org/pdf/2104.00990.pdfこのデータセットは以下から入手できます。

VidSitu データセット: 動画における状況認識icon-default.png?t=N3I4https://vidsitu.org/以下はこのデータセットの簡単な紹介です. 詳細については、この論文を参照するか、データセットの公式 Web サイトにアクセスしてください。

まとめ

この論文では、視覚的な意味役割アノテーションを使用して、ビデオ内の関連する顕著なイベントを理解して表現するための新しいフレームワークを提案します。著者らはビデオを一連の関連イベントとして表しており、各イベントは動詞と、イベントに関連するさまざまな役割を果たす複数のエンティティで構成されています。ビデオまたは VidSRL における意味的役割の注釈という困難なタスクを研究するために、この論文では、VidSitu ベンチマークを提案します。これは、動詞で豊富に注釈が付けられた 29,000 個の 10 秒のムービー クリップと、意味的役割の注釈用の 2 秒を含む大規模なビデオ理解データ ソースです エンティティはムービー クリップ内のイベントで相互参照され、イベントはイベント関係を通じて相互に接続されます。VidSitu クリップは、大規模な映画コレクション (3K) から抽出され、複雑なもの (ビデオ内に 4.2 の固有の動詞) と多様性のあるもの (それぞれ 100 以上の注釈が付いた 200 の動詞) が選択されました。このデータセットは、他の公的に利用可能なビデオ理解ベンチマーク、いくつかの例示的なベースラインと比較して包括的に分析され、一連の標準的なビデオ認識モデルが評価されます。

導入

VidSitu は、さまざまな 3K 映画のセットから抽出された 2900 以上のビデオを含む大規模なビデオ理解データセットです。VidStum のビデオの長さはちょうど 10 秒で、ビデオ内の 5 つの 2 秒間隔内に発生する最も重要なイベントに対応する5つの動詞の注釈が付けられます各動詞の注釈には、自由形式のテキストを使用して値に注釈が付けられる一連の役割が伴います。固定語彙から派生した動詞の注釈とは異なり、自由形式の文字の注釈では、ビデオ内のエンティティを明確にするために指示表現 (例: ローブを着た少年) を使用できます。ビデオ内の 5 つのクリップのいずれかに登場するエンティティは、一貫して同じ表現を使用して参照されます。最後に、データセットには、因果関係 (イベント Y はイベント X によって引き起こされる/イベント X に対する反応) と偶然性 (イベント X はイベント Y の前提条件) をキャプチャするイベント関係の注釈も含まれていますVidStum の主なハイライトは次のとおりです。

        多様な状況: VidStuon には、動詞 (1,500 の一意の動詞、少なくとも 100 のイベントで注釈が付けられた 200 の動詞で構成される) とエンティティ (5,600 の一意の名詞、少なくとも 100 のビデオに出現する 350 の名詞) の膨大な語彙があります。

        複雑さ: 各ビデオには、平均 4.2 個の一意の動詞、6.5 個の一意のエンティティを含む、相互に関連する 5 つのイベントの注釈が付けられます。

        豊富な注釈: VidSitu は、エンティティの相互参照とイベント関係タグを備えた構造化されたイベント表現 (イベントごとに 3.8 の役割) を提供します。

プレゼンテーションの理由: VidSRL のさらなる研究を促進し、VidSRL に対処するために必要なさまざまな機能の部分的な評価 (評価の質問に対する) をサポートする包括的なベンチマークを提供するため

主な貢献

  • ビデオ内の複雑な状況を理解するための VidSRL タスク フォーム
  • VidSRL を研究するために、多様で複雑なケースで構成される豊富な注釈付き VidStum データセットをキュレーションします。
  • VidSRL に必要な主要な機能を評価するための評価方法を確立し、最先端のコンポーネントを使用して各コンポーネントのベースラインを確立します。データセットとコードは vidsitu.org で公開されています。

データセットのアノテーションの例

重要なイベントの時間スケール。ビデオでは、何が顕著なイベントを構成するのかが曖昧で主観的なことがよくあります。たとえば、図 1 の 10 秒のクリップを考えると、「ターン (イベント 2 の 3 番目のフレーム)」などのアトミックなアクションを中心にきめの細かいイベントを定義したり、「戦闘」を含むものとしてシーケンスをより全体的に見ることができます。イベントの時間スケールに関する制約の理解が不足しているため, この曖昧さにより注釈と評価が困難になります. 重要なイベントの選択を固定時間間隔ごとに 1 つのイベントに制限することでこの曖昧さを解決します. 以前に特定されたアトミック アクション [21] 1 秒間隔。イベントに注釈を付けるための時間間隔の適切な選択は、偶発的なアトミック アクションを回避しながら、複雑なビデオの豊富な説明を可能にするものです。説明的な情報を得るには、2 秒の時間間隔の方が優れていることが定性的に観察されています。イベントとシステム評価に必要な客観性. したがって、10 秒のセグメントごとに 5 つのイベントに注釈が付けられます. 論文の 4 番目の部分\左 \{ E_i \右 \}_{i=1}^{5}では、あまり前置きせずに、データセットの管理、分析、統計について説明します。

評価指標

1. 動詞の予測

2. 意味的役割予測と共同引用

3. イベント関係の予測精度。

実験結果

 

 

おすすめ

転載: blog.csdn.net/Mr___WQ/article/details/130493542