Formato de anotación para el conjunto de datos PASCAL VOC

Formato de anotación del conjunto de datos PASCAL VOC

PASCAL VOC Challenge (** The PASCAL Visual Object Classes ) es un desafío de visión por computadora de clase mundial. El nombre completo de PASCAL es Pattern Analysis, Statistical Modeling and Computational Learning.Muchos excelentes modelos de visión por computadora, como la clasificación, el posicionamiento, la detección, la segmentación y el reconocimiento de acciones, se basan en el desafío PASCAL VOC y sus conjuntos de datos .

El nombre completo de VOC es Visual Object Classes

El primer PASCAL VOC se realizó en 2005 y luego se realizó todos los años hasta 2012.

Al realizar la detección de objetos de aprendizaje profundo y la segmentación semántica, entrará en contacto con el conjunto de datos PASCAL VOC. Quizás el conjunto de datos completo rara vez se usa, pero los códigos públicos se escriben básicamente en función del formato de datos VOC o COCO, y generalmente siguen su formato. Prepare su propio conjunto de datos. Por lo tanto, se explicará en detalle el formato de PASCAL VOC, incluida la estructura de directorios y el formato de contenido de cada carpeta. Es conveniente usar el formato estándar de VOC para crear su propio conjunto de datos en el futuro para acelerar el progreso del proyecto.

1. Visión general del documento

Nombre total de la carpeta VOCdevkit (usado en 2012, 2007 es demasiado antiguo)

.

└── VOCdevkit #directorio raíz

└── VOC2012 #Datasets de diferentes años, aquí solo se descarga 2012, y hay otros años como 2007

├── Anotaciones #Almacenamiento de archivos xml, correspondencia uno a uno con imágenes en JPEGImages, explicación del contenido de las imágenes, etc.

├── ImageSets #Todos los archivos txt se almacenan en este directorio. Cada línea en el archivo txt contiene el nombre de una imagen, y se agregará ±1 al final para indicar muestras positivas y negativas.

│ ├── Acción #Acción Reconocimiento de la acción, sin implicación

│ ├── Diseño La carpeta #Layout se usa para tareas de diseño de personas, no involucradas

│ ├── Principal

└── tren.txt #conjunto de entrenamiento

├── trainval.txt #conjunto de entrenamiento y conjunto de verificación

├── val.txt #conjunto de validación

├── prueba.txt #conjunto de prueba

│ └── Segmentación #segmentación semántica

├── JPEGImages #Almacenar imágenes fuente

├── SegmentationClass #Store imágenes, relacionadas con la segmentación semántica

└── SegmentationObject #Almacenar imágenes, relacionadas con la segmentación de instancias

2. El contenido concreto del expediente

※ La carpeta Anotación almacena el archivo xml, que es la explicación de la imagen, y cada imagen corresponde a un archivo xml con el mismo nombre.

※ La carpeta ImageSets almacena archivos txt, que dividen las imágenes del conjunto de datos en varios conjuntos. Tal como está registrado en el archivo train.txt, debajo de Principal, se encuentra la colección de imágenes utilizadas para el entrenamiento.

※ La carpeta JPEGImages almacena las imágenes originales del conjunto de datos.

※ Las carpetas SegmentationClass y SegmentationObject almacenan imágenes y todas son resultados de segmentación de imágenes.

2.1, Carpeta de anotaciones

El contenido de la carpeta Anotación es el siguiente:

inserte la descripción de la imagen aquí

Entre ellos, xml presenta principalmente la información básica de la imagen correspondiente, como qué carpeta, nombre de archivo, fuente, tamaño de imagen y qué objetivos e información de destino contiene la imagen, etc. El contenido es el siguiente:

  • nombre de archivo: nombre de archivo

  • fuente, propietario: fuente de la imagen y propietario

  • tamaño: tamaño de la imagen

  • segmentado: Ya sea para segmentar

  • objeto: Indica que se trata de un objetivo, y el contenido dentro es la información relevante del objetivo

    • nombre: nombre del objeto, 20 categorías
    • pose: ángulo de disparo: delantero, trasero, izquierdo, derecho, sin especificar
    • truncado: si el objetivo está truncado (por ejemplo, fuera de la imagen) u ocluido (más del 15 %)
    • Difícil: la dificultad de detección, que se juzga principalmente según el tamaño del objetivo, el cambio de iluminación y la calidad de la imagen.
  • bndbox: Los 4 valores de coordenadas de la esquina superior izquierda y la esquina inferior derecha del cuadro delimitador.


<anotación>

<folder>VOC2012</folder> #Indique la fuente de la imagen

<filename>2007_000027.jpg</filename> #nombre de la imagen

<fuente> #Información relacionada con la fuente de la imagen

<base de datos>La base de datos VOC2007</base de datos>

<anotación>PASCAL VOC2007</anotación>

<imagen>flickr</imagen>

</fuente>

<tamaño> #tamaño de la imagen

<ancho>486</ancho>

<altura>500</altura>

<profundidad>3</profundidad>

</tamaño>

<segmentado>0</segmentado> #Si se usa para segmentación

<objeto> #contiene el objeto

<nombre>persona</nombre> #categoría de objeto

<pose>Sin especificar</pose>

<truncado>0</truncado>

<difícil>0</difícil>

<bndbox> #El bbox del objeto

<xmin>174</xmin>

<ymin>101</ymin>

<xmáx>349</xmáx>

<ymax>351</ymax>

</bndbox>

<parte> #La cabeza del objeto

<nombre>cabeza</nombre>

<bndbox>

<xmin>169</xmin>

<ymin>104</ymin>

<xmáx>209</xmáx>

<ymax>146</ymax>

</bndbox>

</parte>

<parte> #mano del objeto

<nombre>mano</nombre>

<bndbox>

<xmin>278</xmin>

<ymin>210</ymin>

<xmáx>297</xmáx>

<ymax>233</ymax>

</bndbox>

</parte>

<parte>

<nombre>pie</nombre>

<bndbox>

<xmin>273</xmin>

<ymin>333</ymin>

<xmáx>297</xmáx>

<ymax>354</ymax>

</bndbox>

</parte>

<parte>

<nombre>pie</nombre>

<bndbox>

<xmin>319</xmin>

<ymin>307</ymin>

<xmáx>340</xmáx>

<ymax>326</ymax>

</bndbox>

</parte>

</objeto>

</anotación>


2.2, carpeta Conjuntos de imágenes

ImageSets contiene las siguientes cuatro subcarpetas:

inserte la descripción de la imagen aquí

Los archivos TXT para varios propósitos se almacenan en cada carpeta. Por ejemplo, hay un archivo llamado aeroplane_train.txt en la carpeta principal que, como su nombre lo indica, son los datos de entrenamiento para la categoría de aeronave. El contenido específico del txt es el siguiente.


2008_000008

2008_000015

2008_000019

2008_000023

2008_000028


El contenido de los archivos train.txt y trainval.txt que contiene es similar al anterior,

El contenido de train.txt y trainval.txt solo tiene el nombre de la imagen, pero no contiene los atributos de la imagen ni la información de la ruta.

2.3, carpeta Imágenes JPEG

Esta carpeta almacena todas las imágenes de origen del conjunto de datos, el contenido es el siguiente:

inserte la descripción de la imagen aquí

2.4 **, carpeta Clase de segmentación **

Segmentación semántica relacionada:

Esta carpeta almacena los mapas de etiquetas correspondientes a todas las imágenes de origen del conjunto de datos. Tenga en cuenta que las etiquetas son 0, 1, 2, 3...

inserte la descripción de la imagen aquí

2.5, carpeta Objeto de segmentación

Relacionado con la segmentación de instancias, tenga en cuenta que las etiquetas son 0, 1, 2, 3... :

inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/weixin_38353277/article/details/128716519
Recomendado
Clasificación