目次
ビデオ オブジェクト セグメンテーションのタスク概要を参照する
参照ビデオ オブジェクト セグメンテーション (R-VOS) は、マルチモーダル セグメンテーション タスクです。自然言語記述 (クエリ) が与えられると、R-VOS は、次の図に示すように、ビデオ内の対応する記述オブジェクトをセグメント化することを期待します。
R-VOS タスクで一般的に使用されるデータ セットには、A2D-Sentences、JHMDB-Sentences、Ref-Youtube-VOS、および Ref-DAVIS が含まれます。この記事では、上記のデータ セットの基本情報を記録します。
Ref-Youtube-VOS データセット
基本情報
Ref-Youtube-VOS は大規模な RVOS タスク ベンチマーク セットで、3978 本のビデオと 1.5 ワットの言語説明が含まれています。
- リンク:https://competitions.codalab.org/competitions/29139#participate-get_data
- 論文: URVOS: 大規模ベンチマークを使用した統合参照ビデオ オブジェクト セグメンテーション ネットワーク
データセットのパーティション
スプリット | サンプル | ラベル |
---|---|---|
訓練 | 3471 | もつ |
有効 | 202 | なし |
テスト | 305 | なし |
トレーニング セットのみが対応するマスク ラベルを提供し、モデルの効果を評価したい場合は、結果をサーバーに送信するだけです。
ファイル形式
Ref-Youtube-VOS データセットのファイル構成は次のとおりです。
ref-youtube-vos
├── meta_expressions
├── train
│ ├── JPEGImages
│ ├── Annotations
├── valid
│ ├── JPEGImages
├── test
│ ├── JPEGImages
サンプルフォーマット
各サンプルのビデオは、train/JPEGImages フォルダーにある一連の画像の形式で提供されます。対応するマスクも、train/Annotations フォルダーにあるフレーム画像の形式です。オブジェクト言語の説明は次のとおりです。 3つのmeta_expressions.jsonで与えられる
jsonファイル内の項目の記述形式は以下のとおりです。
{
"videos": {
"003234408d": {
"expressions": {
"0": {
"exp": "a penguin is on the left in the front with many others on the hill",
"obj_id": "1"},
"2": {
"exp": "a black and white penguin in the front looking down",
"obj_id": "2"},
"4": {
"exp": "a penguin is on the left in the middle sitting down on the rocks",
"obj_id": "3"},
"6": {
"exp": "a black and white penguin is sitting in the middle of other looking right",
"obj_id": "4"},
"9": {
"exp": "a penguin seating down on top of the rock by the top middle side of the screen facing left",
"obj_id": "5" }
...
},
"frames": [
"00000",
"00005",
"00010",
"00015",
...]
},
...}
}
各ビデオには複数の参照オブジェクトがあり、各参照オブジェクトは通常 3 つ以上の言語記述に対応します。
Ref-DAVIS データセット
基本情報
Ref-DAVIS17 データセットは、各ビデオ内の特定のオブジェクトに対応する言語説明を提供する DAVIS17 データセットに基づいて構築されており、合計 90 個のビデオが含まれています。
データセットのパーティション
スプリット | サンプル | ラベル |
---|---|---|
訓練 | 60 | もつ |
有効 | 30 | もつ |
サンプルフォーマット
Ref-DAVIS17のサンプルフォーマットをRef-Youtube-VOSフォーマットに調整してご使用ください。
ファイル形式
Ref-DAVIS データセットを使用する場合、そのファイル形式は Ref-Youtube-VOS の形式と同様になるように調整する必要があります。そのファイル構成は次のとおりです。
ref-davis
├── meta_expressions
├── train
│ ├── JPEGImages
│ ├── Annotations
├── valid
│ ├── JPEGImages
A2D センテンス データセット
基本情報
A2D-Sentences データセットには 3782 のビデオ サンプルが含まれており、各ビデオはマスク ラベル付き画像の 3 ~ 5 フレームに対応します。A2D-Sentences データセットには、約 6656 の言語説明と対応する例が含まれています。
データセットのパーティション
A2D-Sentences データセットはトレーニングとテストの 2 つの部分に分割されており、各ビデオにはマークされたマスク ファイルがあるため、ローカルで検証できます。トレーニング データセットとテスト データセットの具体的な比率はわかりませんが、おそらく 4:1 の比率です。
ファイル形式
A2D-Sentences データセットのファイル構成は次のとおりです。
a2d_sentences
├── Release
│ ├── clips320H
│ ├── Annotations
├── text_annotations
│ ├── a2d_annotation_with_instances
│ ├── a2d_annotation.txt
│ ├── a2d_missed_videos.txt
├── a2d_sentences_single_frame_test_annotations.json
├── a2d_sentences_single_frame_train_annotations.json
├── a2d_sentences_test_annotations_in_coco_format.json
サンプルフォーマット
A2D-Sentences のビデオ サンプルは、Release/clips320H フォルダーにある mp4 形式のファイルであり、対応する注釈マスクは、Release/Annotations フォルダーにある png 画像または mat ファイルの形式で提供されます。
a2d_sentences_single_frame_test_annotations.json および a2d_sentences_single_frame_train_annotations.json は、各ビデオの各フレーム内の参照オブジェクトの言語説明を提供します。json ファイルは以下に示されています。
[
["the pigeon is limping", "--h5fAKYurM", 30, 0],
["the pigeon is limping", "--h5fAKYurM", 60, 0],
["the pigeon is limping", "--h5fAKYurM", 90, 0],
["player in blue shirt passing a basketball on left", "-0cOo0cRVZU", 40, 0],
["player in blue shirt passing a basketball on left", "-0cOo0cRVZU", 80, 0],
["player in blue shirt passing a basketball on left", "-0cOo0cRVZU", 120, 0],
...
]
さらに、text_annotations/a2d_annotation_with_instances は、各オブジェクトの境界ボックス ラベルとマスク ラベルも提供します。
JHMDB-Sentences データセット
基本情報
JHMDB-Sentences データセットには、合計 928 個のビデオと、対応する 928 個の言語説明が含まれています。
データセットのパーティション
公式は分割方法を指定していないようで、すべてのビデオには自由に分割できるマスク ラベルが付けられています。最近の研究では、A2D-Sentences データセットでトレーニングされたモデルを直接使用して、JHMDB Fine ではなく JHMDB-Sentences で検証しています。 - オンにします。
サンプルフォーマット
JHMDB-Sentences ビデオは、Rename_Images/ フォルダーにある画像の形式で提供され、対応するマスクの注釈は、puppet_mask/ フォルダーにあるマットの形式で提供されます。
jhmdb_annotation.txt ファイルは、次に示すように、video_id と対応する言語クエリを提供します。
video_id,query
100_pullups_pullup_f_nm_np1_fr_med_1,man in black pulling up
100_pullups_pullup_f_nm_np1_fr_med_2,a man in black is pulling up
100_pullups_pullup_u_nm_np1_fr_med_0,man in black pulling up
...
ファイル形式
JHMDB-Sentences データセットのファイル構成は次のとおりです。
jhmdb_sentences
├── Rename_Images
├── puppet_mask
├── jhmdb_annotation.txt
├── jhmdb_sentences_samples_metadata.json
├── jhmdb_sentences_gt_annotations_in_coco_format.json