MS COCOデータセットの研究ノート(文脈における共通のオブジェクト)

まず、データソース

COCOの画像リソースはフォトサイトのFlickrから参照されています

第二に、データセットはに作成されました

主に次の三つの方向のための画像認識トレーニング、:

(1)オブジェクト・インスタンス

(2)オブジェクトのキーポイント

(3)画像のキャプション

トレーニングと検証セットの各方向には2つの注釈ファイルが含まれています

第三に、ラベル構造

方向は情報、画像、ライセンス三つのフィールドを含む情報の3つの基本タイプを、共有し、注釈フィールドが変更されます。

3.1一般的な説明フィールド

  • 一般-Infoフィールド

 

例:

 

 

  • 一般-imageフィールド

 

例:

 

  • 一般-licenceフィールド

例:

 

3.2はじめにバリアントフィールド

  • 注釈オブジェクトインスタンス

iscrowd = 0:これは、輪郭ポリゴン(多角形の点)、すなわちで表される別のオブジェクトであることを示し、セグメンテーションフィールドポリゴンで表されます
iscrowd = 1:どの2つ以上の別々のオブジェクトがないことを示し、輪郭がRLE符号化により表され、即ちsegmentionフィールドがRLE符号化形式を表します
 
  • 注釈オブジェクトのキーポイント
キーポイントとnum_keypoints:インスタンスマーク、二つのフィールドの増加をオブジェクトと比較します
キーポイントは、kは、キーポイントの総数である3×K、の配列の長さです。
キーポイント[i]が[0]とキーポイント[I] [1]、キーポイントは、[I] [2](x、y)とされるフラグV
V = 0-キー標識されていない、V = 2-キーポイント標識と不可視されている、V = 3-重要な点は、標識された可視されています
 

 

カテゴリフィールド:

 キーポイントフィールドは、キー配列名を記録し、骨格がキーポイント(例えば、手首と肘)との間の接続を定義します。スーパーカテゴリのみマークされた人物のキーポイント。

 

 ラベルのキャプションタイプは上記に関して、非常に単純で、ここではテーブルをスキップしません

おすすめ

転載: www.cnblogs.com/punkcure/p/11614332.html