公式ダウンロードアドレス:https://pjreddie.com/projects/pascal-voc-dataset-mirror/
PASCALVOCのチャレンジミッション
- 分類/検出コンペティション
分類:分類ごとに、テスト写真に分類が存在するかどうかを判断します(合計20のカテゴリ)。
検出:テスト画像内のターゲットオブジェクトの位置を検出し、境界ボックスの座標(境界ボックス)を指定します。 - セグメンテーションコンペティション
分割:オブジェクトセグメンテーション - 行動分類競争
人間行動認識(行動分類) - 大規模視覚認識コンペティション
ImageNetImageNet大規模視覚アイデンティティコンテスト - 人物レイアウトテイスターコンペティション
ヒューマンレイアウト
VOC2007の基本情報
トレーニングセット(5011枚)、テストセット(4952枚)、20のカテゴリを含む合計9,963枚の写真:
aeroplane
bicycle
bird
boat
bottle
bus
car
cat
chair
cow
diningtable
dog
horse
motorbike
person
pottedplant
sheep
sofa
train
tvmonitor
ダウンロード
トレーニングおよび検証セット、テストセット、ツールキットをダウンロードします。
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCdevkit_08-Jun-2007.tar
すべてのtarをVOCdevkitというディレクトリに解凍します
tar xvf VOCtrainval_06-Nov-2007.tar
tar xvf VOCtest_06-Nov-2007.tar
tar xvf VOCdevkit_08-Jun-2007.tar
基本構成は以下のとおりです。
└── VOCdevkit #根目录
└── VOC2007 #不同年份的数据集,这里只下载了2007
├── Annotations #存放xml文件,与JPEGImages中的图片一一对应,解释图片的内容等等
├── ImageSets #该目录下存放的都是txt文件,这些txt将数据集的图片分成了各种集合。如Main下的train.txt中记录的是用于训练的图片集合
│ ├── Layout
│ ├── Main
│ └── Segmentation
├── JPEGImages #存放源图片
├── SegmentationClass #存放的是图片,语义分割相关
└── SegmentationObject #存放的是图片,实例分割相关
注釈フォルダ
このフォルダには、各画像の注釈が含まれています。XMLファイルの形式が注釈に使用されます。XMLは、HTMLのような形をしたマークアップ言語です。各XMLファイルは画像のラベル付け結果に対応し、000005.jpgに対応するXMLファイル(000005.xml)のラベル付け結果は次のとおりです。
<annotation>
<folder>VOC2007</folder>
<!--文件名-->
<filename>000005.jpg</filename>.
<!--数据来源-->
<source>
<!--数据来源-->
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<!--来源是flickr,一个雅虎的图像分享网站,下面是id,对于我们没有用-->
<image>flickr</image>
<flickrid>325991873</flickrid>
</source>
<!--图片的所有者,也没有用-->
<owner>
<flickrid>archintent louisville</flickrid>
<name>?</name>
</owner>
<!--图像尺寸,宽、高、长-->
<size>
<width>500</width>
<height>375</height>
<depth>3</depth>
</size>
<!--是否用于分割,0表示用于,1表示不用于-->
<segmented>0</segmented>
<!--下面是图像中标注的物体,每一个object包含一个标准的物体-->
<object>
<!--物体名称,拍摄角度-->
<name>chair</name>
<pose>Rear</pose>
<!--是否被裁减,0表示完整,1表示不完整-->
<truncated>0</truncated>
<!--是否容易识别,0表示容易,1表示困难-->
<difficult>0</difficult>
<!--bounding box的四个坐标-->
<bndbox>
<xmin>263</xmin>
<ymin>211</ymin>
<xmax>324</xmax>
<ymax>339</ymax>
</bndbox>
</object>
<object>
<name>chair</name>
<pose>Unspecified</pose>
<truncated>0</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>165</xmin>
<ymin>264</ymin>
<xmax>253</xmax>
<ymax>372</ymax>
</bndbox>
</object>
<object>
<name>chair</name>
<pose>Unspecified</pose>
<truncated>1</truncated>
<difficult>1</difficult>
<bndbox>
<xmin>5</xmin>
<ymin>244</ymin>
<xmax>67</xmax>
<ymax>374</ymax>
</bndbox>
</object>
<object>
<name>chair</name>
<pose>Unspecified</pose>
<truncated>0</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>241</xmin>
<ymin>194</ymin>
<xmax>295</xmax>
<ymax>299</ymax>
</bndbox>
</object>
<object>
<name>chair</name>
<pose>Unspecified</pose>
<truncated>1</truncated>
<difficult>1</difficult>
<bndbox>
<xmin>277</xmin>
<ymin>186</ymin>
<xmax>312</xmax>
<ymax>220</ymax>
</bndbox>
</object>
</annotation>
ImageSetsフォルダーに
は、各タイプのチャレンジに対応する画像データが格納されます。たとえば、メインフォルダにaeroplane_train.txtという名前のファイルがあります。名前が示すように、このファイルは航空機カテゴリのトレーニングデータに使用されます。ここで、±1は正と負のサンプルの意味を示します。
VOC2012の基本情報
VOC2012データセットは、VOC2007データセットのアップグレードバージョンであり、合計11530枚の画像が含まれています。
- 検出タスクの場合、VOC2012のtrainval / testには、2008年から11年までの対応するすべての画像が含まれています。Trainvalには11,540の画像と合計27,450のオブジェクトがあります。
- セグメンテーションタスクの場合、VOC2012のtrainvalには07-11の対応するすべての画像が含まれ、テストには08-11のみが含まれます。Trainvalには2913の画像と6929のオブジェクトがあります。
VOC2012データセットは、次のように、背景の21のカテゴリを含む20のカテゴリに分類されます。
Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
ダウンロードして解凍します
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar
VOCdevkit / VOC2012の下には5つのフォルダーがあり、内容は07とほぼ同じです。
注釈
注釈フォルダには、ラベルファイルがxml形式で保存されます。各xmlファイルは、合計17,125ファイルのJPEGImagesフォルダ内の画像に対応します。例えば:
<annotation>
<folder>VOC2012</folder> #表明图片来源
<filename>2007_000027.jpg</filename> #图片名称
<source> #图片来源相关信息
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
</source>
<size> #图像尺寸
<width>486</width>
<height>500</height>
<depth>3</depth>
</size>
<segmented>0</segmented> #是否用于分割
<object> #包含的物体
<name>person</name> #物体类别
<pose>Unspecified</pose>
<truncated>0</truncated>
<difficult>0</difficult>
<bndbox> #物体的bbox
<xmin>174</xmin>
<ymin>101</ymin>
<xmax>349</xmax>
<ymax>351</ymax>
</bndbox>
<part> #物体的头
<name>head</name>
<bndbox>
<xmin>169</xmin>
<ymin>104</ymin>
<xmax>209</xmax>
<ymax>146</ymax>
</bndbox>
</part>
<part> #物体的手
<name>hand</name>
<bndbox>
<xmin>278</xmin>
<ymin>210</ymin>
<xmax>297</xmax>
<ymax>233</ymax>
</bndbox>
</part>
<part>
<name>foot</name>
<bndbox>
<xmin>273</xmin>
<ymin>333</ymin>
<xmax>297</xmax>
<ymax>354</ymax>
</bndbox>
</part>
<part>
<name>foot</name>
<bndbox>
<xmin>319</xmin>
<ymin>307</ymin>
<xmax>340</xmax>
<ymax>326</ymax>
</bndbox>
</part>
</object>
</annotation>
ImageSets ImageSets
には、
アクションの下に人間のアクション(VOCチャレンジの一部でもある実行、ジャンプなど)を格納する4つのフォルダーがあります。
レイアウトの下に保存されているのは、人体の部分(VOCチャレンジの一部でもある人間の頭、手、足など)のデータです。
Mainの下に保存されているのは、20のカテゴリに分類された画像オブジェクト認識データです。
セグメンテーションの下に保存されているのは、セグメンテーションに使用できるデータです