Explicación detallada de la estructura organizativa del conjunto de datos de COV

PASCAL VOC proporciona un conjunto completo de conjuntos de datos estandarizados y excelentes para el reconocimiento y la clasificación de imágenes De 2005 a 2012, se llevará a cabo un desafío de reconocimiento de imágenes todos los años. Podemos descargar el conjunto de datos de VOC desde la dirección de descarga del conjunto de datos de VOC aquí , que se divide principalmente en dos años: 2007 y 2012.

Una vez finalizada la descarga, descomprímala y verá que el contenido de la carpeta es el siguiente:
Inserte la descripción de la imagen aquí
Para la detección de objetivos, solo debemos prestar atención a las tres primeras carpetas: Annotations、ImageSets和JPEGImagesOK. Hablemos del contenido específico de estas tres carpetas.

VOCdevkit 
——VOC2007        #文件夹的年份可以自己取,但是要与你其他文件年份一致,看下一步就明白了
————Annotations  #放入所有的xml文件
————ImageSets    
——————Main       #放入train.txt,val.txt文件
————JPEGImages   #放入所有的图片文件

①Anotaciones

La siguiente figura muestra el contenido de la carpeta Anotaciones:
Inserte la descripción de la imagen aquí

La carpeta Annotations almacena archivos de etiquetas en formato xml y cada archivo xml corresponde a una imagen en la carpeta JPEGImages. A continuación se muestra el contenido específico del primer xml:

<?xml version="1.0"?>

-<annotation>

	<folder>VOC2007</folder>
	
	<filename>000005.jpg</filename> //图片名称


	-<source>

		<database>The VOC2007 Database</database>
		
		<annotation>PASCAL VOC2007</annotation>
		
		<image>flickr</image>
		
		<flickrid>325991873</flickrid>

	</source>


	-<owner>

		<flickrid>archintent louisville</flickrid>
		
		<name>?</name>

	</owner>


	-<size> //图片尺寸

		<width>500</width>
		
		<height>375</height>
		
		<depth>3</depth>

	</size>

	<segmented>0</segmented>


	-<object> //图片中包含的在类别中的物体

		<name>chair</name> //物体名称
		
		<pose>Rear</pose> 
		
		<truncated>0</truncated>
		
		<difficult>0</difficult>
		
		
		-<bndbox> //该物体的bounding-box,左上角和右下角的坐标

			<xmin>263</xmin>
			
			<ymin>211</ymin>
			
			<xmax>324</xmax>
			
			<ymax>339</ymax>

		</bndbox>

	</object>


	-<object>//其他物体

		<name>chair</name>
		
		<pose>Unspecified</pose>
		
		<truncated>0</truncated>
		
		<difficult>0</difficult>
		
		
		-<bndbox>

			<xmin>165</xmin>
			
			<ymin>264</ymin>
			
			<xmax>253</xmax>
			
			<ymax>372</ymax>
			
		</bndbox>

	</object>


	-<object>//其他物体

		<name>chair</name>
		
		<pose>Unspecified</pose>
		
		<truncated>1</truncated>
		
		<difficult>1</difficult>
		
		
		-<bndbox>

			<xmin>5</xmin>
			
			<ymin>244</ymin>
			
			<xmax>67</xmax>
			
			<ymax>374</ymax>

		</bndbox>

	</object>


	-<object>//其他物体

		<name>chair</name>
		
		<pose>Unspecified</pose>
		
		<truncated>0</truncated>
		
		<difficult>0</difficult>
		
		
		-<bndbox>

			<xmin>241</xmin>
			
			<ymin>194</ymin>
			
			<xmax>295</xmax>
			
			<ymax>299</ymax>

		</bndbox>

	</object>


	-<object>//其他物体

		<name>chair</name>
		
		<pose>Unspecified</pose>
		
		<truncated>1</truncated>
		
		<difficult>1</difficult>
		
		
		-<bndbox>

			<xmin>277</xmin>
			
			<ymin>186</ymin>
			
			<xmax>312</xmax>
			
			<ymax>220</ymax>
			
		</bndbox>

	</object>

</annotation>

El correspondiente es el siguiente 000005.jpg. El archivo XML almacena las coordenadas y la información de categoría de los objetos detectados contenidos en las fotos correspondientes.
Inserte la descripción de la imagen aquí
②ImageSets
Inserte la descripción de la imagen aquí

  • En Layout se almacenan datos con partes del cuerpo humano (cabeza, mano, pies, etc., que también forman parte del desafío VOC).
  • En Principal se almacenan los datos de detección de objetivos, que se dividen en 20 categorías en total.
  • Se almacenan en Segmentación los datos que se pueden utilizar para la segmentación.

De hecho, solo debemos prestar atención a los datos de la carpeta principal, como se muestra a continuación:
Inserte la descripción de la imagen aquí

La carpeta principal contiene 20 categorías ***_train.txt、***_val.txt和***_trainval.txt.

El contenido de abrir uno de los archivos es el siguiente:
Inserte la descripción de la imagen aquí

  • El número en el frente representa el nombre de la imagen, el 1 en la parte posterior representa una muestra positiva y -1 representa una muestra negativa.
  • _train.txt almacena los datos utilizados para el entrenamiento, _val.txt almacena los datos utilizados para los resultados de la verificación y _trainval.txt combina los dos anteriores.
  • También hay tres train.txt、val.txt、trainval.txtarchivos que se utilizan para guardar todas las imágenes, qué imágenes se usan para el entrenamiento y qué imágenes se usan para la verificación.El contenido guardado es solo el nombre de estas imágenes, y no hay más información.

③JPEGImágenes

La carpeta JPEGImages contiene toda la información de imágenes proporcionada por PASCAL VOC, incluidas imágenes de entrenamiento e imágenes de prueba. Como puede ver, el orden aquí y el nombre de la imagen corresponden al archivo XML.

Inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_39507748/article/details/110816926
Recomendado
Clasificación