ビデオオブジェクトセグメンテーションのタスク概要を参照する

参照ビデオオブジェクトセグメンテーション (R-VOS) は、マルチモーダルセグメンテーションタスクです。自然言語記述 (クエリ) が与えられると、R-VOS は、次の図に示すように、ビデオ内の対応する記述オブジェクトをセグメント化することを期待します。
RVOS タスクの例
R-VOS タスクで一般的に使用されるデータセットには、A2D-Sentences、JHMDB-Sentences、Ref-Youtube-VOS、および Ref-DAVIS が含まれます。この記事では、上記のデータセットの基本情報を記録します。

Ref-Youtube-VOS データセット

基本情報

Ref-Youtube-VOS は大規模な RVOS タスクベンチマークセットで、3978 本のビデオと 1.5 ワットの言語説明が含まれています。

データセットのパーティション

スプリット	サンプル	ラベル
訓練	3471	もつ
有効	202	なし
テスト	305	なし

トレーニングセットのみが対応するマスクラベルを提供し、モデルの効果を評価したい場合は、結果をサーバーに送信するだけです。

ファイル形式

Ref-Youtube-VOS データセットのファイル構成は次のとおりです。

ref-youtube-vos
├── meta_expressions
├── train
│   ├── JPEGImages
│   ├── Annotations
├── valid
│   ├── JPEGImages
├── test
│   ├── JPEGImages

サンプルフォーマット

各サンプルのビデオは、train/JPEGImages フォルダーにある一連の画像の形式で提供されます。対応するマスクも、train/Annotations フォルダーにあるフレーム画像の形式です。オブジェクト言語の説明は次のとおりです。 3つのmeta_expressions.jsonで与えられる
jsonファイル内の項目の記述形式は以下のとおりです。

{
    
    
    "videos": {
    
    
        "003234408d": {
    
    
            "expressions": {
    
    
                "0": {
    
    
                    "exp": "a penguin is on the left in the front with many others on the hill",
                    "obj_id": "1"},
                "2": {
    
    
                    "exp": "a black and white penguin in the front looking down",
                    "obj_id": "2"},
                "4": {
    
    
                    "exp": "a penguin is on the left in the middle sitting down on the rocks",
                    "obj_id": "3"},
                "6": {
    
    
                    "exp": "a black and white penguin is sitting in the middle of other looking right",
                    "obj_id": "4"},
                "9": {
    
    
                    "exp": "a penguin seating down on top of the rock by the top middle side of the screen facing left",
                    "obj_id": "5" }
                ...
            },
            "frames": [
                "00000",
                "00005",
                "00010",
                "00015",
                ...]
        },
        ...}
}

各ビデオには複数の参照オブジェクトがあり、各参照オブジェクトは通常 3 つ以上の言語記述に対応します。

Ref-DAVIS データセット

基本情報

Ref-DAVIS17 データセットは、各ビデオ内の特定のオブジェクトに対応する言語説明を提供する DAVIS17 データセットに基づいて構築されており、合計 90 個のビデオが含まれています。

データセットのパーティション

スプリット	サンプル	ラベル
訓練	60	もつ
有効	30	もつ

サンプルフォーマット

Ref-DAVIS17のサンプルフォーマットをRef-Youtube-VOSフォーマットに調整してご使用ください。

ファイル形式

Ref-DAVIS データセットを使用する場合、そのファイル形式は Ref-Youtube-VOS の形式と同様になるように調整する必要があります。そのファイル構成は次のとおりです。

ref-davis
├── meta_expressions
├── train
│   ├── JPEGImages
│   ├── Annotations
├── valid
│   ├── JPEGImages

A2D センテンスデータセット

基本情報

A2D-Sentences データセットには 3782 のビデオサンプルが含まれており、各ビデオはマスクラベル付き画像の 3 ～ 5 フレームに対応します。A2D-Sentences データセットには、約 6656 の言語説明と対応する例が含まれています。

データセットのパーティション

A2D-Sentences データセットはトレーニングとテストの 2 つの部分に分割されており、各ビデオにはマークされたマスクファイルがあるため、ローカルで検証できます。トレーニングデータセットとテストデータセットの具体的な比率はわかりませんが、おそらく 4:1 の比率です。

ファイル形式

A2D-Sentences データセットのファイル構成は次のとおりです。

a2d_sentences
├── Release
│   ├── clips320H
│   ├── Annotations
├── text_annotations
│   ├── a2d_annotation_with_instances
│   ├── a2d_annotation.txt
│   ├── a2d_missed_videos.txt 
├── a2d_sentences_single_frame_test_annotations.json
├── a2d_sentences_single_frame_train_annotations.json
├── a2d_sentences_test_annotations_in_coco_format.json

サンプルフォーマット

A2D-Sentences のビデオサンプルは、Release/clips320H フォルダーにある mp4 形式のファイルであり、対応する注釈マスクは、Release/Annotations フォルダーにある png 画像または mat ファイルの形式で提供されます。
a2d_sentences_single_frame_test_annotations.json および a2d_sentences_single_frame_train_annotations.json は、各ビデオの各フレーム内の参照オブジェクトの言語説明を提供します。json ファイルは以下に示されています。

[
	["the pigeon is limping", "--h5fAKYurM", 30, 0], 
	["the pigeon is limping", "--h5fAKYurM", 60, 0], 
	["the pigeon is limping", "--h5fAKYurM", 90, 0], 
	["player in blue shirt passing a basketball on left", "-0cOo0cRVZU", 40, 0], 
	["player in blue shirt passing a basketball on left", "-0cOo0cRVZU", 80, 0], 
	["player in blue shirt passing a basketball on left", "-0cOo0cRVZU", 120, 0],
	...
]

さらに、text_annotations/a2d_annotation_with_instances は、各オブジェクトの境界ボックスラベルとマスクラベルも提供します。

JHMDB-Sentences データセット

基本情報

JHMDB-Sentences データセットには、合計 928 個のビデオと、対応する 928 個の言語説明が含まれています。

データセットのパーティション

公式は分割方法を指定していないようで、すべてのビデオには自由に分割できるマスクラベルが付けられています。最近の研究では、A2D-Sentences データセットでトレーニングされたモデルを直接使用して、JHMDB Fine ではなく JHMDB-Sentences で検証しています。 - オンにします。

サンプルフォーマット

JHMDB-Sentences ビデオは、Rename_Images/ フォルダーにある画像の形式で提供され、対応するマスクの注釈は、puppet_mask/ フォルダーにあるマットの形式で提供されます。
jhmdb_annotation.txt ファイルは、次に示すように、video_id と対応する言語クエリを提供します。

video_id,query
100_pullups_pullup_f_nm_np1_fr_med_1,man in black pulling up
100_pullups_pullup_f_nm_np1_fr_med_2,a man in black is pulling up
100_pullups_pullup_u_nm_np1_fr_med_0,man in black pulling up
...

ファイル形式

JHMDB-Sentences データセットのファイル構成は次のとおりです。

jhmdb_sentences
├── Rename_Images
├── puppet_mask
├── jhmdb_annotation.txt
├── jhmdb_sentences_samples_metadata.json
├── jhmdb_sentences_gt_annotations_in_coco_format.json

Video Object Segmentation の参照ビデオ参照セグメンテーション共通データセットの紹介 A2D、JHMDB、Ref-Youtube-VOS、Ref-DAVIS17

目次

ビデオオブジェクトセグメンテーションのタスク概要を参照する

Ref-Youtube-VOS データセット

基本情報

データセットのパーティション

ファイル形式

サンプルフォーマット

Ref-DAVIS データセット

基本情報

データセットのパーティション

サンプルフォーマット

ファイル形式

A2D センテンスデータセット

基本情報

データセットのパーティション

ファイル形式

サンプルフォーマット

JHMDB-Sentences データセット

基本情報

データセットのパーティション

サンプルフォーマット

ファイル形式

おすすめ

Video Object Segmentation の参照ビデオ参照セグメンテーション共通データセットの紹介 A2D、JHMDB、Ref-Youtube-VOS、Ref-DAVIS17

目次

ビデオ オブジェクト セグメンテーションのタスク概要を参照する

Ref-Youtube-VOS データセット

基本情報

データセットのパーティション

ファイル形式

サンプルフォーマット

Ref-DAVIS データセット

基本情報

データセットのパーティション

サンプルフォーマット

ファイル形式

A2D センテンス データセット

基本情報

データセットのパーティション

ファイル形式

サンプルフォーマット

JHMDB-Sentences データセット

基本情報

データセットのパーティション

サンプルフォーマット

ファイル形式

おすすめ

ビデオオブジェクトセグメンテーションのタスク概要を参照する

A2D センテンスデータセット