Análisis del conjunto de datos VOC2007 / 2012

Dirección de descarga oficial: https://pjreddie.com/projects/pascal-voc-dataset-mirror/

Misión desafío de PASCAL VOC

Clasificación / Detección
Clasificación de competencias : para cada clasificación, determine si la clasificación existe en la foto de prueba (un total de 20 categorías);
Detección: detecta la posición del objeto objetivo en la imagen de prueba y proporciona las coordenadas del cuadro delimitador (cuadro delimitador)
Competencia de segmentación
分割： Segmentación de objetos
Competencia de clasificación de
acciones Reconocimiento de acciones humanas (Clasificación de acciones)
Concurso de reconocimiento visual a gran escala ImageNet Concurso de
identidad visual grande de ImageNet
Diseño de persona Concurso de catador
Diseño humano

Información básica de VOC2007

El conjunto de entrenamiento (5011 imágenes), el conjunto de prueba (4952 imágenes), un total de 9963 imágenes, incluidas 20 categorías:

aeroplane
bicycle
bird
boat
bottle
bus
car
cat
chair
cow
diningtable
dog
horse
motorbike
person
pottedplant
sheep
sofa
train
tvmonitor

descargar

Descargue conjuntos de capacitación y validación, conjuntos de pruebas y kits de herramientas:

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCdevkit_08-Jun-2007.tar

Descomprime todo el tar en un directorio llamado VOCdevkit

tar xvf VOCtrainval_06-Nov-2007.tar
tar xvf VOCtest_06-Nov-2007.tar
tar xvf VOCdevkit_08-Jun-2007.tar

La estructura básica es la siguiente

└── VOCdevkit     #根目录
    └── VOC2007   #不同年份的数据集，这里只下载了2007
        ├── Annotations  #存放xml文件，与JPEGImages中的图片一一对应，解释图片的内容等等
        ├── ImageSets    #该目录下存放的都是txt文件，这些txt将数据集的图片分成了各种集合。如Main下的train.txt中记录的是用于训练的图片集合
        │   ├── Layout
        │   ├── Main
        │   └── Segmentation
        ├── JPEGImages         #存放源图片
        ├── SegmentationClass  #存放的是图片，语义分割相关
        └── SegmentationObject #存放的是图片，实例分割相关

Carpeta de anotaciones
Inserte la descripción de la imagen aquí Esta carpeta contiene una anotación para cada imagen. El formato de un archivo XML se utiliza para la anotación. XML es un lenguaje de marcado con forma de HTML. Cada archivo XML corresponde al resultado de etiquetado de una imagen, y el resultado de etiquetado del archivo XML (000005.xml) correspondiente a 000005.jpg es el siguiente:

<annotation>
    <folder>VOC2007</folder>
    <!--文件名-->
    <filename>000005.jpg</filename>.   
    <!--数据来源-->
    <source>
        <!--数据来源-->
        <database>The VOC2007 Database</database>
        <annotation>PASCAL VOC2007</annotation>
    <!--来源是flickr，一个雅虎的图像分享网站，下面是id，对于我们没有用-->
        <image>flickr</image>
        <flickrid>325991873</flickrid>
    </source>
    <!--图片的所有者，也没有用-->
    <owner>
        <flickrid>archintent louisville</flickrid>
        <name>?</name>
    </owner>
    <!--图像尺寸,宽、高、长-->
    <size>
        <width>500</width>
        <height>375</height>
        <depth>3</depth>
    </size>
    <!--是否用于分割，0表示用于，1表示不用于-->
    <segmented>0</segmented>
    <!--下面是图像中标注的物体,每一个object包含一个标准的物体-->
    <object>
        <!--物体名称，拍摄角度-->
        <name>chair</name>
        <pose>Rear</pose>
        <!--是否被裁减，0表示完整，1表示不完整-->
        <truncated>0</truncated>
        <!--是否容易识别，0表示容易，1表示困难-->
        <difficult>0</difficult>
        <!--bounding box的四个坐标-->
        <bndbox>
            <xmin>263</xmin>
            <ymin>211</ymin>
            <xmax>324</xmax>
            <ymax>339</ymax>
        </bndbox>
    </object>
    <object>
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>165</xmin>
            <ymin>264</ymin>
            <xmax>253</xmax>
            <ymax>372</ymax>
        </bndbox>
    </object>
    <object>
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>1</truncated>
        <difficult>1</difficult>
        <bndbox>
            <xmin>5</xmin>
            <ymin>244</ymin>
            <xmax>67</xmax>
            <ymax>374</ymax>
        </bndbox>
    </object>
    <object>
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>241</xmin>
            <ymin>194</ymin>
            <xmax>295</xmax>
            <ymax>299</ymax>
        </bndbox>
    </object>
    <object>
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>1</truncated>
        <difficult>1</difficult>
        <bndbox>
            <xmin>277</xmin>
            <ymin>186</ymin>
            <xmax>312</xmax>
            <ymax>220</ymax>
        </bndbox>
    </object>
</annotation>

La carpeta ImageSets
almacena los datos de la imagen correspondientes a cada tipo de desafío. Por ejemplo, hay un archivo llamado aeroplane_train.txt en la carpeta principal. Como sugiere el nombre, se usa para los datos de entrenamiento para la categoría de aeronave, donde ± 1 debe indicar el significado de muestras positivas y negativas.

Información básica de VOC2012

El conjunto de datos VOC2012 es una versión mejorada del conjunto de datos VOC2007, con un total de 11530 imágenes.

Para la tarea de detección, el trainval / test de VOC2012 contiene todas las imágenes correspondientes de 2008 a 11 años. Trainval tiene 11,540 imágenes y un total de 27,450 objetos.
Para la tarea de segmentación, el trainval de VOC2012 contiene todas las imágenes correspondientes del 07-11, y la prueba solo contiene 08-11. Trainval tiene 2913 imágenes y 6929 objetos.

El conjunto de datos de VOC2012 se divide en 20 categorías, incluidas 21 categorías de antecedentes, de la siguiente manera:

Person: person 
Animal: bird, cat, cow, dog, horse, sheep 
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train 
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

Descarga y descomprime

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar

Hay 5 carpetas en VOCdevkit / VOC2012, el contenido es aproximadamente el mismo que 07.
Inserte la descripción de la imagen aquí
Anotaciones La
carpeta Annotations almacena archivos de etiquetas en formato xml.Cada archivo xml corresponde a una imagen en la carpeta JPEGImages, con un total de 17.125 archivos. Por ejemplo:

<annotation>
	<folder>VOC2012</folder>  #表明图片来源
	<filename>2007_000027.jpg</filename> #图片名称
	<source>                  #图片来源相关信息
		<database>The VOC2007 Database</database>
		<annotation>PASCAL VOC2007</annotation>
		<image>flickr</image>
	</source>
	<size>     #图像尺寸
		<width>486</width>
		<height>500</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented> #是否用于分割
	<object>  #包含的物体
		<name>person</name> #物体类别
		<pose>Unspecified</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>  #物体的bbox
			<xmin>174</xmin>
			<ymin>101</ymin>
			<xmax>349</xmax>
			<ymax>351</ymax>
		</bndbox>
		<part> #物体的头
			<name>head</name>
			<bndbox>
				<xmin>169</xmin>
				<ymin>104</ymin>
				<xmax>209</xmax>
				<ymax>146</ymax>
			</bndbox>
		</part>
		<part>   #物体的手
			<name>hand</name>
			<bndbox>
				<xmin>278</xmin>
				<ymin>210</ymin>
				<xmax>297</xmax>
				<ymax>233</ymax>
			</bndbox>
		</part>
		<part>
			<name>foot</name>
			<bndbox>
				<xmin>273</xmin>
				<ymin>333</ymin>
				<xmax>297</xmax>
				<ymax>354</ymax>
			</bndbox>
		</part>
		<part>
			<name>foot</name>
			<bndbox>
				<xmin>319</xmin>
				<ymin>307</ymin>
				<xmax>340</xmax>
				<ymax>326</ymax>
			</bndbox>
		</part>
	</object>
</annotation>

ImageSets
Hay cuatro carpetas en ImageSets que
Inserte la descripción de la imagen aquí
almacenan acciones humanas (como correr, saltar, etc., que también forman parte del desafío VOC) en Acción

Bajo el diseño se almacenan datos con partes del cuerpo humano (cabeza, mano, pies, etc., que también forman parte del desafío VOC).

En Principal se almacenan los datos de reconocimiento de objetos de imagen, que se dividen en 20 categorías.

Se almacenan en Segmentación los datos que se pueden utilizar para la segmentación.