Hier kommt der Quellcode | Nvidia Open-Source-Code zur Fußgängergenerierung/Neuidentifizierung

Vor ein paar Tagen hat NVIDIA den Quellcode von DG-Net als Open Source bereitgestellt. Sehen wir uns diesen mündlichen CVPR19-Aufsatz noch einmal an.

Bei dem Artikel handelt es sich um den Artikel „Joint Discriminative and Generative Learning for Person Re-identification“, der auf der CVPR19 von Forschern von NVIDIA, der University of Technology Sydney (UTS) und der Australian National University (ANU) mündlich vorgestellt wurde. Das Training von Deep-Learning-Modellen erfordert oft eine große Menge beschrifteter Daten, es ist jedoch oft schwierig, große Datenmengen zu sammeln und zu beschriften. Der Autor untersucht die Methode zur Verwendung generierter Daten zur Unterstützung des Trainings zur Aufgabe der Neuidentifizierung von Fußgängern. Durch die Generierung hochwertiger Fußgängerbilder und deren Fusion mit dem Fußgänger-Re-Identifikationsmodell werden gleichzeitig die Qualität der Fußgänger-Generierung und die Genauigkeit der Fußgänger-Re-Identifikation verbessert.

Papierlink: https://arxiv.org/abs/1904.07223
Station B-Video: https://www.bilibili.com/video/av51439240/Tencent-Video
: https://v.qq.com/x/page/t0867x53ady .html

Codeadresse: https://github.com/NVlabs/DG-Net

Code-Ausführungseffekt: (100.000 Iterationen trainieren)

Entwicklungsumgebung:

Python 3.6
GPU-Speicher >= 15G bei Verwendung von fp32-Präzision
GPU-Speicher >= 10G Wenn Sie die fp16-Präzision verwenden, können Sie etwas Videospeicher sparen
NumPy
PyTorch 1.0+
[Optional] APEX (verwenden Sie fp16 zur Installation)

Download-Adresse des Datensatzes:

Der Datensatz Market-1501 wird verwendet http://www.liangzheng.com.cn/Project/project_reid.html

Laden Sie das trainierte Modell herunter:

Baidu Netdisk: https://pan.baidu.com/s/1503831XfW0y4g3PHir91yw Passwort: rqvf
GoogleDrive: https://drive.google.com/open?id=1lL18FZX1uZMWKzaZOuPe3IuAdfUYyJKH

Die Testergebnisse sind wie folgt:

Genauigkeit der Fußgänger-Neuidentifizierung:

Erzeugtes Fußgängerbild:

Der Befehl zum Training ist einfach:

Die Optionen wurden in die Yaml-Datei integriert, und wenn sie in fp32 mit voller Präzision ausgeführt wird, belegt sie etwa 15 GB Videospeicher.

python train.py --config configs/latest.yaml

Wenn ein Training mit halber Präzision verwendet wird, werden nur etwa 10 GB Videospeicher verwendet.

python train.py --config configs/latest-fp16.yaml

Das Trainingsprotokoll kann mit Tensorboard angezeigt werden

 tensorboard --logdir logs/latest

Über den Autor
Zheng Zhedong, der Erstautor dieses Artikels, ist Doktorand an der Fakultät für Informatik der UTS und wird voraussichtlich im Juni 2021 seinen Abschluss machen. Die Abschlussarbeit ist das Ergebnis seines Praktikums bei NVIDIA.

Zheng Zhedong hat bisher 8 Artikel veröffentlicht. Eines davon ist ICCV17 Spotlight, das mehr als 300 Mal zitiert wurde. Zum ersten Mal wird Feature-Learning zur unterstützten Personen-Reidentifizierung mithilfe von GAN-generierten Bildern vorgeschlagen. Ein TOMM-Zeitschriftenartikel wurde von Web of Science mit mehr als 200 Zitaten als „Highly Cited Paper 2018“ ausgewählt. Gleichzeitig steuerte er der Community auch den Benchmark-Code für das Problem der erneuten Identifizierung von Fußgängern bei, der auf Github mehr als 1.000 Sterne hat und weithin angenommen wurde.

Zu den weiteren Autoren des Papiers gehören außerdem Yang Xiaodong, ein Experte im Videobereich des Nvidia Research Institute, Yu Zhiding, ein Experte im Gesichtsbereich (Sphere Face, Autor von LargeMargin), Dr. CVPR mündlich in der Mitte des Entwurfs), und Jan Kautz, Vizepräsident von NVIDIA Research.