Detaillierte Erläuterung der Organisationsstruktur des VOC-Datensatzes

PASCAL VOC bietet einen vollständigen Satz standardisierter und hervorragender Datensätze für die Bilderkennung und -klassifizierung. Von 2005 bis 2012 findet jedes Jahr eine Bilderkennungsherausforderung statt. Wir können den VOC-Datensatz hier von der Download-Adresse des VOC-Datensatzes herunterladen , die hauptsächlich in zwei Jahre unterteilt ist: 2007 und 2012.

Wenn der Download abgeschlossen ist, entpacken Sie ihn und Sie werden feststellen, dass der Inhalt des Ordners wie folgt lautet:
Fügen Sie hier eine Bildbeschreibung ein
Für die Zielerkennung müssen wir nur auf die ersten drei Ordner achten: Annotations、ImageSets和JPEGImagesOK. Lassen Sie uns über den spezifischen Inhalt dieser drei Ordner sprechen.

VOCdevkit 
——VOC2007        #文件夹的年份可以自己取,但是要与你其他文件年份一致,看下一步就明白了
————Annotations  #放入所有的xml文件
————ImageSets    
——————Main       #放入train.txt,val.txt文件
————JPEGImages   #放入所有的图片文件

①Anmerkungen

Die folgende Abbildung zeigt den Inhalt des Ordners "Anmerkungen":
Fügen Sie hier eine Bildbeschreibung ein

Der Ordner "Anmerkungen" speichert Beschriftungsdateien im XML-Format, und jede XML-Datei entspricht einem Bild im Ordner "JPEGImages". Unten sehen Sie den spezifischen Inhalt der ersten XML:

<?xml version="1.0"?>

-<annotation>

	<folder>VOC2007</folder>
	
	<filename>000005.jpg</filename> //图片名称


	-<source>

		<database>The VOC2007 Database</database>
		
		<annotation>PASCAL VOC2007</annotation>
		
		<image>flickr</image>
		
		<flickrid>325991873</flickrid>

	</source>


	-<owner>

		<flickrid>archintent louisville</flickrid>
		
		<name>?</name>

	</owner>


	-<size> //图片尺寸

		<width>500</width>
		
		<height>375</height>
		
		<depth>3</depth>

	</size>

	<segmented>0</segmented>


	-<object> //图片中包含的在类别中的物体

		<name>chair</name> //物体名称
		
		<pose>Rear</pose> 
		
		<truncated>0</truncated>
		
		<difficult>0</difficult>
		
		
		-<bndbox> //该物体的bounding-box,左上角和右下角的坐标

			<xmin>263</xmin>
			
			<ymin>211</ymin>
			
			<xmax>324</xmax>
			
			<ymax>339</ymax>

		</bndbox>

	</object>


	-<object>//其他物体

		<name>chair</name>
		
		<pose>Unspecified</pose>
		
		<truncated>0</truncated>
		
		<difficult>0</difficult>
		
		
		-<bndbox>

			<xmin>165</xmin>
			
			<ymin>264</ymin>
			
			<xmax>253</xmax>
			
			<ymax>372</ymax>
			
		</bndbox>

	</object>


	-<object>//其他物体

		<name>chair</name>
		
		<pose>Unspecified</pose>
		
		<truncated>1</truncated>
		
		<difficult>1</difficult>
		
		
		-<bndbox>

			<xmin>5</xmin>
			
			<ymin>244</ymin>
			
			<xmax>67</xmax>
			
			<ymax>374</ymax>

		</bndbox>

	</object>


	-<object>//其他物体

		<name>chair</name>
		
		<pose>Unspecified</pose>
		
		<truncated>0</truncated>
		
		<difficult>0</difficult>
		
		
		-<bndbox>

			<xmin>241</xmin>
			
			<ymin>194</ymin>
			
			<xmax>295</xmax>
			
			<ymax>299</ymax>

		</bndbox>

	</object>


	-<object>//其他物体

		<name>chair</name>
		
		<pose>Unspecified</pose>
		
		<truncated>1</truncated>
		
		<difficult>1</difficult>
		
		
		-<bndbox>

			<xmin>277</xmin>
			
			<ymin>186</ymin>
			
			<xmax>312</xmax>
			
			<ymax>220</ymax>
			
		</bndbox>

	</object>

</annotation>

Das entsprechende ist das folgende 000005.jpg. In der XML-Datei werden die Koordinaten und Kategoriedaten der erkannten Objekte gespeichert, die in den entsprechenden Fotos enthalten sind.
Fügen Sie hier eine Bildbeschreibung ein
②ImageSets
Fügen Sie hier eine Bildbeschreibung ein

  • Unter Layout werden Daten mit menschlichen Körperteilen (menschlicher Kopf, Hand, Füße usw., die ebenfalls Teil der VOC-Herausforderung sind) gespeichert.
  • Unter Main werden die Zielerkennungsdaten gespeichert, die insgesamt in 20 Kategorien unterteilt sind.
  • Unter Segmentierung werden die Daten gespeichert, die für die Segmentierung verwendet werden können.

Tatsächlich müssen wir nur auf die Daten im Hauptordner achten, wie unten gezeigt:
Fügen Sie hier eine Bildbeschreibung ein

Der Hauptordner enthält 20 Kategorien ***_train.txt、***_val.txt和***_trainval.txt.

Der Inhalt des Öffnens einer der Dateien lautet wie folgt:
Fügen Sie hier eine Bildbeschreibung ein

  • Die Zahl auf der Vorderseite steht für den Namen des Bildes, die Zahl auf der Rückseite für eine positive Stichprobe und -1 für eine negative Stichprobe.
  • _train.txt speichert die für das Training verwendeten Daten, _val.txt speichert die für die Überprüfungsergebnisse verwendeten Daten und _trainval.txt kombiniert die beiden oben genannten.
  • Es gibt auch drei train.txt、val.txt、trainval.txtDateien, in denen alle Bilder gespeichert werden, welche Bilder für das Training und welche Bilder zur Überprüfung verwendet werden. Der gespeicherte Inhalt ist nur der Name dieser Bilder, und es gibt keine weiteren Informationen.

③JPEGImages

Der Ordner JPEGImages enthält alle von PASCAL VOC bereitgestellten Bildinformationen, einschließlich Trainingsbildern und Testbildern. Wie Sie sehen können, entsprechen die Reihenfolge hier und der Name des Bildes der XML-Datei.

Fügen Sie hier eine Bildbeschreibung ein

Ich denke du magst

Origin blog.csdn.net/qq_39507748/article/details/110816926
Empfohlen
Rangfolge