まず、データソース
COCOの画像リソースはフォトサイトのFlickrから参照されています
第二に、データセットはに作成されました
主に次の三つの方向のための画像認識トレーニング、:
(1)オブジェクト・インスタンス
(2)オブジェクトのキーポイント
(3)画像のキャプション
トレーニングと検証セットの各方向には2つの注釈ファイルが含まれています
第三に、ラベル構造
方向は情報、画像、ライセンス三つのフィールドを含む情報の3つの基本タイプを、共有し、注釈フィールドが変更されます。
3.1一般的な説明フィールド
- 一般-Infoフィールド
例:
- 一般-imageフィールド
例:
- 一般-licenceフィールド
例:
3.2はじめにバリアントフィールド
- 注釈オブジェクトインスタンス
iscrowd = 0:これは、輪郭ポリゴン(多角形の点)、すなわちで表される別のオブジェクトであることを示し、セグメンテーションフィールドポリゴンで表されます
iscrowd = 1:どの2つ以上の別々のオブジェクトがないことを示し、輪郭がRLE符号化により表され、即ちsegmentionフィールドがRLE符号化形式を表します
- 注釈オブジェクトのキーポイント
キーポイントとnum_keypoints:インスタンスマーク、二つのフィールドの増加をオブジェクトと比較します
キーポイントは、kは、キーポイントの総数である3×K、の配列の長さです。
キーポイント[i]が[0]とキーポイント[I] [1]、キーポイントは、[I] [2](x、y)とされるフラグV
V = 0-キー標識されていない、V = 2-キーポイント標識と不可視されている、V = 3-重要な点は、標識された可視されています
カテゴリフィールド:
キーポイントフィールドは、キー配列名を記録し、骨格がキーポイント(例えば、手首と肘)との間の接続を定義します。スーパーカテゴリのみマークされた人物のキーポイント。
ラベルのキャプションタイプは上記に関して、非常に単純で、ここではテーブルをスキップしません