VOC2007 / 2012データセットの分析

公式ダウンロードアドレス:https://pjreddie.com/projects/pascal-voc-dataset-mirror/

PASCALVOCのチャレンジミッション

  • 分類/検出コンペティション
    分類:分類ごとに、テスト写真に分類が存在するかどうかを判断します(合計20のカテゴリ)。
    検出:テスト画像内のターゲットオブジェクトの位置を検出し、境界ボックスの座標(境界ボックス)を指定します。
  • セグメンテーションコンペティション
    分割:オブジェクトセグメンテーション
  • 行動分類競争
    人間行動認識(行動分類)
  • 大規模視覚認識コンペティション
    ImageNetImageNet大規模視覚アイデンティティコンテスト
  • 人物レイアウトテイスターコンペティション
    ヒューマンレイアウト

VOC2007の基本情報

トレーニングセット(5011枚)、テストセット(4952枚)、20のカテゴリを含む合計9,963枚の写真:

aeroplane
bicycle
bird
boat
bottle
bus
car
cat
chair
cow
diningtable
dog
horse
motorbike
person
pottedplant
sheep
sofa
train
tvmonitor 

ダウンロード

トレーニングおよび検証セット、テストセット、ツールキットをダウンロードします。

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCdevkit_08-Jun-2007.tar

すべてのtarをVOCdevkitというディレクトリに解凍します

tar xvf VOCtrainval_06-Nov-2007.tar
tar xvf VOCtest_06-Nov-2007.tar
tar xvf VOCdevkit_08-Jun-2007.tar

基本構成は以下のとおりです。

└── VOCdevkit     #根目录
    └── VOC2007   #不同年份的数据集,这里只下载了2007
        ├── Annotations  #存放xml文件,与JPEGImages中的图片一一对应,解释图片的内容等等
        ├── ImageSets    #该目录下存放的都是txt文件,这些txt将数据集的图片分成了各种集合。如Main下的train.txt中记录的是用于训练的图片集合
        │   ├── Layout
        │   ├── Main
        │   └── Segmentation
        ├── JPEGImages         #存放源图片
        ├── SegmentationClass  #存放的是图片,语义分割相关
        └── SegmentationObject #存放的是图片,实例分割相关

注釈フォルダ
ここに画像の説明を挿入このフォルダには、各画像の注釈が含まれています。XMLファイルの形式が注釈に使用されます。XMLは、HTMLのような形をしたマークアップ言語です。各XMLファイルは画像のラベル付け結果に対応し、000005.jpgに対応するXMLファイル(000005.xml)のラベル付け結果は次のとおりです。

<annotation>
    <folder>VOC2007</folder>
    <!--文件名-->
    <filename>000005.jpg</filename>.   
    <!--数据来源-->
    <source>
        <!--数据来源-->
        <database>The VOC2007 Database</database>
        <annotation>PASCAL VOC2007</annotation>
    <!--来源是flickr,一个雅虎的图像分享网站,下面是id,对于我们没有用-->
        <image>flickr</image>
        <flickrid>325991873</flickrid>
    </source>
    <!--图片的所有者,也没有用-->
    <owner>
        <flickrid>archintent louisville</flickrid>
        <name>?</name>
    </owner>
    <!--图像尺寸,宽、高、长-->
    <size>
        <width>500</width>
        <height>375</height>
        <depth>3</depth>
    </size>
    <!--是否用于分割,0表示用于,1表示不用于-->
    <segmented>0</segmented>
    <!--下面是图像中标注的物体,每一个object包含一个标准的物体-->
    <object>
        <!--物体名称,拍摄角度-->
        <name>chair</name>
        <pose>Rear</pose>
        <!--是否被裁减,0表示完整,1表示不完整-->
        <truncated>0</truncated>
        <!--是否容易识别,0表示容易,1表示困难-->
        <difficult>0</difficult>
        <!--bounding box的四个坐标-->
        <bndbox>
            <xmin>263</xmin>
            <ymin>211</ymin>
            <xmax>324</xmax>
            <ymax>339</ymax>
        </bndbox>
    </object>
    <object>
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>165</xmin>
            <ymin>264</ymin>
            <xmax>253</xmax>
            <ymax>372</ymax>
        </bndbox>
    </object>
    <object>
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>1</truncated>
        <difficult>1</difficult>
        <bndbox>
            <xmin>5</xmin>
            <ymin>244</ymin>
            <xmax>67</xmax>
            <ymax>374</ymax>
        </bndbox>
    </object>
    <object>
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>241</xmin>
            <ymin>194</ymin>
            <xmax>295</xmax>
            <ymax>299</ymax>
        </bndbox>
    </object>
    <object>
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>1</truncated>
        <difficult>1</difficult>
        <bndbox>
            <xmin>277</xmin>
            <ymin>186</ymin>
            <xmax>312</xmax>
            <ymax>220</ymax>
        </bndbox>
    </object>
</annotation>

ImageSetsフォルダーに
は、各タイプのチャレンジに対応する画像データが格納されますたとえば、メインフォルダにaeroplane_train.txtという名前のファイルがあります。名前が示すように、このファイルは航空機カテゴリのトレーニングデータに使用されます。ここで、±1は正と負のサンプルの意味を示します。

VOC2012の基本情報

VOC2012データセットは、VOC2007データセットのアップグレードバージョンであり、合計11530枚の画像が含まれています。

  • 検出タスクの場合、VOC2012のtrainval / testには、2008年から11年までの対応するすべての画像が含まれています。Trainvalには11,540の画像と合計27,450のオブジェクトがあります。
  • セグメンテーションタスクの場合、VOC2012のtrainvalには07-11の対応するすべての画像が含まれ、テストには08-11のみが含まれます。Trainvalには2913の画像と6929のオブジェクトがあります。

VOC2012データセットは、次のように、背景の21のカテゴリを含む20のカテゴリに分類されます。

Person: person 
Animal: bird, cat, cow, dog, horse, sheep 
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train 
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

ダウンロードして解凍します

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar

VOCdevkit / VOC2012の下には5つのフォルダーがあり、内容は07とほぼ同じです。
ここに画像の説明を挿入
注釈
注釈フォルダには、ラベルファイルがxml形式で保存されます。各xmlファイルは、合計17,125ファイルのJPEGImagesフォルダ内の画像に対応します。例えば:

<annotation>
	<folder>VOC2012</folder>  #表明图片来源
	<filename>2007_000027.jpg</filename> #图片名称
	<source>                  #图片来源相关信息
		<database>The VOC2007 Database</database>
		<annotation>PASCAL VOC2007</annotation>
		<image>flickr</image>
	</source>
	<size>     #图像尺寸
		<width>486</width>
		<height>500</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented> #是否用于分割
	<object>  #包含的物体
		<name>person</name> #物体类别
		<pose>Unspecified</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>  #物体的bbox
			<xmin>174</xmin>
			<ymin>101</ymin>
			<xmax>349</xmax>
			<ymax>351</ymax>
		</bndbox>
		<part> #物体的头
			<name>head</name>
			<bndbox>
				<xmin>169</xmin>
				<ymin>104</ymin>
				<xmax>209</xmax>
				<ymax>146</ymax>
			</bndbox>
		</part>
		<part>   #物体的手
			<name>hand</name>
			<bndbox>
				<xmin>278</xmin>
				<ymin>210</ymin>
				<xmax>297</xmax>
				<ymax>233</ymax>
			</bndbox>
		</part>
		<part>
			<name>foot</name>
			<bndbox>
				<xmin>273</xmin>
				<ymin>333</ymin>
				<xmax>297</xmax>
				<ymax>354</ymax>
			</bndbox>
		</part>
		<part>
			<name>foot</name>
			<bndbox>
				<xmin>319</xmin>
				<ymin>307</ymin>
				<xmax>340</xmax>
				<ymax>326</ymax>
			</bndbox>
		</part>
	</object>
</annotation>

ImageSets ImageSets
には、
ここに画像の説明を挿入
アクションの下に人間のアクション(VOCチャレンジの一部でもある実行、ジャンプなど)格納する4つのフォルダーがあります

レイアウトの下に保存されているのは、人体の部分(VOCチャレンジの一部でもある人間の頭、手、足など)のデータです。

Mainの下に保存されているのは、20のカテゴリに分類された画像オブジェクト認識データです。

セグメンテーションの下に保存されているのは、セグメンテーションに使用できるデータです

おすすめ

転載: blog.csdn.net/W1995S/article/details/112805724