Einführung in Datensätze zur Videoklassifizierung

Inhaltsverzeichnis

Vorwort

1. Einführung in gängige Datensätze

Verweise

Vorwort

In diesem Artikel wird ein Datensatz zur Videoklassifizierung zur Aktionserkennung vorgestellt. Datensätze werden typischerweise durch den folgenden Prozess erstellt: 1. Definieren Sie eine neue Liste von Sportarten, indem Sie Beschriftungen aus vorherigen Datensätzen kombinieren und neue Kategorien basierend auf der Nutzung hinzufügen. 2. Holen Sie sich Videos aus verschiedenen Quellen wie YouTube und Filmen und ordnen Sie Videotitel/Untertitel Aktionslisten zu. 3. Geben Sie manuell Zeitanmerkungen ein, um anzugeben, wo die Aktion beginnt und endet. 4. Bereinigen Sie den Datensatz, indem Sie doppelte Daten entfernen und filtern.


1. Einführung in gängige Datensätze

Datensatz

Erscheinungsjahr

Menge

Größe

Videolänge

Anzahl der Kategorien

HMDB51

2011

7K

2G

5s

51

UCF101

2012

13,3K

6,5G

6s

101

Sport1M

2014

1,1 Mio

5,5 m

487

ActivityNet

2015

28K

5-10m

200

YouTube8M

2016

8m

229,6s

3862

Scharaden

2016

9,8K

30,1s

157

Sth-SthV1

2017

108,5K

2-6s

174

Sth-SthV2

2017

220,8K

2-6s

174

Kinetik400

2017

306K

152,3G

10s

400

Kinetik600

2018

482K

10s

600

Kinetik700

2019

650K

10s

700

AVA

2017

385K

15m

80

AVA-Kinetik

2020

624K

15m, 10s

80

MIT

2018

1M

3s

339

HACS-Clips

2019

1,55 Mio

2s

200

HVU

2020

572K

500G+

10s

739

AViD

2020

450.000

3-15s

887

HMDB-Datensatz: HMDB51 enthält 51 Arten von Aktionen, insgesamt 6849 Videos, jede Aktion enthält mindestens 51 Videos und die Auflösung beträgt 320 * 240.

UCF101-Datensatz: Er wurde 2012 eingeführt und ist eine Erweiterung des vorherigen UCF50-Datensatzes. Dieser Datensatz enthält 13.320 Videos, die 101 menschliche Verhaltenskategorien abdecken, mit einer Auflösung von 320 x 240.

Es umfasst hauptsächlich 5 Aktionskategorien: 101 Kategorien sind in 5 Kategorien unterteilt: Mensch-Objekt-Interaktion, einfache Körperbewegungen, Mensch-Mensch-Interaktion, Spielen von Musikinstrumenten und Sport.

Jede Kategorie (Ordner) ist in 25 Gruppen unterteilt, jede Gruppe enthält 4–7 Videos, normalerweise 25 Bilder oder 29 Bilder.

Das Videobenennungsformat ist v_(Kategorie)_g(Gruppe)_c(Nummer).avi

Einführender Link: CRCV | Center for Research in Computer Vision an der University of Central Florida (ucf.edu)

Kinetik-Datensatz: Es handelt sich um einen umfangreichen, hochwertigen YouTube-Video-URL-Datensatz. Diese Aktionen sind auf den Menschen ausgerichtet und decken ein breites Spektrum an Kategorien ab, darunter Mensch-Objekt-Interaktionen wie das Spielen eines Musikinstruments und Mensch-Mensch-Interaktionen wie Händeschütteln.

Sports1M wurde 2014 eingeführt und ist der erste groß angelegte Video-Action-Datensatz, der aus über 1 Million YouTube-Videos besteht. Der Datensatz besteht aus mehr als 1 Million YouTube-Videos, die mit 487 Sportkategorien versehen sind. Diese Kategorien sind feinkörnig, sodass die Unterschiede zwischen den Kategorien gering sind.

ActivityNet wurde ursprünglich im Jahr 2015 eingeführt und seit seiner Einführung gab es mehrere Versionen der ActivityNet-Familie. Das neueste ActivityNet 200 (V1.3) enthält 200 Aktionen des menschlichen Alltags. Es umfasst 10.024 Schulungsvideos, 4.926 Validierungsvideos und 5.044 Testvideos. Es gibt durchschnittlich 137 unbearbeitete Videos pro Kategorie mit 1,41 aktiven Instanzen pro Video.

YouTube8M wurde 2016 eingeführt und ist der bislang größte Videodatensatz. Der größte Videodatensatz, der 8 Millionen YouTube-Videos (insgesamt 500.000 Stunden) enthält und mit 3.862 Aktionskategorien versehen ist. Jedes Video hat ein oder mehrere Tags. Der Datensatz ist in drei Teile gegliedert: Training, Validierung und Test im Verhältnis 70:20:10. Der Validierungssatz dieses Datensatzes wird außerdem um vom Menschen validierte Segmentanmerkungen erweitert, um Informationen zur zeitlichen Lokalisierung bereitzustellen.

Charades wurde 2016 eingeführt und ist ein Datensatz für das Verständnis gleichzeitiger Aktionen im realen Leben. Verständnis gleichzeitiger Aktionen im wirklichen Leben. Es enthält 9.848 Videos mit einer durchschnittlichen Länge von 30 Sekunden. Der Datensatz umfasst 157 tägliche Indoor-Aktivitäten mit mehreren Labels, die von 267 verschiedenen Personen durchgeführt werden. Es gibt eine formelle Aufteilung zwischen Training und Validierung, wobei 7.985 Videos für das Training und die restlichen 1.863 für die Validierung verwendet werden.

20BN-Something-Something V1 wurde 2017 und V2 2018 eingeführt. Diese Serie ist ein weiterer beliebter Maßstab, der aus 174 Aktionsklassen besteht, die Menschen beschreiben, die grundlegende Aktionen mit Alltagsgegenständen ausführen. Es gibt 108.499 Videos in V1 und 220.847 Videos in V2. Es ist wichtig zu beachten, dass der Datensatz eine starke zeitliche Modellierung erfordert, da die meisten Aktivitäten nicht allein anhand räumlicher Merkmale abgeleitet werden können (z. B. etwas öffnen, etwas mit etwas bedecken).

AVA [70] ist der erste groß angelegte Datensatz zur raumzeitlichen Aktionserkennung, der 2017 veröffentlicht wurde. Es enthält 430 15-minütige Videoclips mit 80 Atomic-Action-Labels (nur 60 Labels wurden für die Auswertung verwendet). Zu jedem Keyframe werden Anmerkungen bereitgestellt, was zu 214.622 Trainingsbeispielen, 57.472 Validierungsbeispielen und 120.322 Testbeispielen führt. AVA-Datensatz Der
AVA-Datensatz wurde kürzlich um AVA-Kinetics erweitert und umfasst insgesamt 352.091 Trainingsproben, 89.882 Validierungsproben und 182.457 Testproben.

Moments in Time wurde 2018 eingeführt und ist ein umfangreicher Datensatz zum Verständnis von Ereignissen. Es enthält eine Million 3-Sekunden-Videoclips, die mit einem Wörterbuch aus 339 Kategorien versehen sind. Im Gegensatz zu anderen Datensätzen, die zum Verständnis menschlichen Verhaltens entwickelt wurden, umfasst der Moments-in-Time-Datensatz Menschen, Tiere, Objekte und Naturphänomene. Dieser Datensatz wurde um Multi-Moments in Time (M-MiT) erweitert.

HACS [267] wurde 2019 als neuer groß angelegter Datensatz zur Identifizierung und Lokalisierung menschlichen Verhaltens vorgeschlagen, der aus Online-Videos gesammelt wurde. Es besteht aus zwei Arten manueller Anmerkungen. HACS Clips enthält 1,55 Mio. 2-Sekunden-Clip-Anmerkungen zu 504K-Videos und HACS Clips enthält 140.000 vollständige Action-Clips (vom Anfang bis zum Ende der Aktion) zu 50K-Videos. Die Videos werden mit denselben 200 menschlichen Aktionsklassen kommentiert, die in ActivityNet (V1.3) verwendet werden.

Der HVU-Datensatz wurde 2020 für das Verständnis von Multi-Label-Multi-Task-Videos veröffentlicht. Dieser Datensatz enthält 572.000 Videos und 3142 Labels. Die offiziellen segmentierten Videos sind jeweils 481K, 31K und 65K groß und werden für Schulungen, Verifizierungen und Tests verwendet. Der Datensatz verfügt über sechs Aufgabenkategorien: Szenen, Objekte, Aktionen, Ereignisse, Eigenschaften und Konzepte. Im Durchschnitt gibt es etwa 2.112 Proben pro Etikett. Die Länge des Videos variiert, das längste beträgt jedoch nicht mehr als 10 Sekunden.

AVID wurde 2020 als Datensatz zur anonymen Aktionserkennung vorgeschlagen. Es enthält 410.000 Schulungsvideos und 40.000 Testvideos. Jeder Videoclip dauert zwischen 3 und 15 Sekunden und es gibt insgesamt 887 Action-Klassen. Während des Datenerhebungsprozesses versuchten die Autoren, Daten aus verschiedenen Ländern zu sammeln, um Datenverzerrungen entgegenzuwirken. Sie haben auch Gesichtsidentitäten entfernt, um die Privatsphäre des Videoerstellers zu schützen. Daher ist der AViD-Datensatz möglicherweise keine geeignete Wahl für die Erkennung gesichtsbezogener Aktionen.


Verweise

[2012.06567] Eine umfassende Studie zur Deep Video Action Recognition (arxiv.org)

Acho que você gosta

Origin blog.csdn.net/qq_51511878/article/details/132409548
Recomendado
Clasificación