ACM MM 2023 | Methode zur Schätzung der menschlichen Pose basierend auf dezentraler Darstellung

01. Vorwort

Die Universität für Post und Telekommunikation Peking und das EVOL-Innovationsteam haben gemeinsam die Methode DecenterNet zur Schätzung der menschlichen Körperhaltung vorgeschlagen, um die Genauigkeit der Schätzung der menschlichen Körperhaltung in überfüllten Szenen zu verbessern. Diese Methode führt eine dezentrale Haltungsdarstellungsmethode ein, sodass das Netzwerk die menschliche Haltung in verwickelten/überfüllten Bereichen robuster ausdrückt. Die Methode schlägt außerdem einen entkoppelten Posenbewertungsmechanismus vor, um die beste Pose aus mehreren Posendarstellungen adaptiv auszuwählen. Der Artikel DecenterNet: Bottom-Up Human Pose Estimation Via Decentralized Pose Representation wurde von ACM MM 2023 angenommen.

02. Hintergrund und Motivation

Die Einschätzung der Pose mehrerer Personen in überfüllten Szenen bleibt eine äußerst anspruchsvolle Aufgabe. Wir stellen fest, dass die meisten Fehler aktueller Methoden zur Schätzung der menschlichen Pose in überfüllten Szenen auf die Unfähigkeit zurückzuführen sind, sichtbare Schlüsselpunkte zu lokalisieren oder zu gruppieren, und nicht auf Überlegungen zu unsichtbaren Schlüsselpunkten, wie in Tabelle 1 gezeigt.

Daher unterteilt dieser Artikel überfüllte Szenen in zwei Fälle: Verschränkung und Okklusion und stellt fest, dass Verschränkung ein wichtiges Thema in überfüllten Szenen ist. Basierend auf dieser Beobachtung schlagen wir DecenterNet vor, eine End-to-End-Methode zur menschlichen Posenschätzung, die eine robuste und effiziente Posenschätzung in überfüllten Szenen ermöglicht.

In DecenterNet führen wir eine dezentrale Posendarstellungsmethode ein, die alle sichtbaren Schlüsselpunkte als Darstellungspunkte zur Darstellung menschlicher Posen verwendet, sodass das Netzwerk menschliche Posen in verwickelten/überfüllten Bereichen robuster ausdrücken kann. Um das oben genannte Problem der Einführung zu vieler falsch positiver Ergebnisse in Posendarstellungen zu lösen, schlagen wir außerdem einen entkoppelten Posenbewertungsmechanismus vor, der eine Standortkarte einführt, um adaptiv die beste Pose aus mehreren Posendarstellungen auszuwählen. Darüber hinaus haben wir einen neuen Datensatz namens SkatingPose erstellt, der weitere Eiskunstlaufszenen mit Verstrickungen enthält.

03. Methode

3.1 Dezentrale Posendarstellung

Traditionelle Arbeiten verwenden den Mittelpunkt der Körperhaltung, den Beckenpunkt der Körperhaltung oder den Mittelpunkt des menschlichen Körperteils, um die Körperhaltung darzustellen, fassen dann die Ausgabe dieser Darstellungspunkte zusammen und verwenden dann den NMS-Algorithmus, um die zu erhalten menschliche Körperhaltung. Wenn jedoch menschliche Posen in einer überfüllten Szene verwickelt sind, können sich ihre Darstellungspunkte gegenseitig verdecken, was dazu führt, dass die durch diesen Punkt dargestellte Pose falsch ist. Daher schlagen wir eine dezentrale Posendarstellung vor, um das Verschränkungsproblem in überfüllten Szenen zu lindern. Insbesondere verwendet diese Darstellung alle sichtbaren Schlüsselpunkte der Pose als Darstellungspunkte und schränkt den Bereich der Darstellungspunkte ein, um die Möglichkeit einer gegenseitigen Verdeckung zu verringern. Einerseits ist es schwierig, den sichtbaren Punkt der Pose vollständig zu verdecken, und er ist aussagekräftiger als der Mittelpunkt. Andererseits führt die Fusion von Vorhersagen von Repräsentationspunkten von mehr verschiedenen Standorten zu umfassenderen und robusteren Vorhersagen.

3.2 Bewertung der entkoppelten Pose

Es ist vorhersehbar, dass die obige Haltungsdarstellung aufgrund der Verwendung zu vieler Darstellungspunkte zu einer großen Anzahl falsch positiver Probleme führen wird. Daher schlagen wir einen entkoppelten Haltungsbewertungsmechanismus vor, der die traditionelle Heatmap-Auswahl von Darstellungspunkten und die Bewertung kombiniert der Körperhaltung. Diese Funktion ist von der Heatmap und der Standortkarte entkoppelt, wie in der Abbildung unten dargestellt.

Bei diesem Einstellungsbewertungsmechanismus spielt die Standortkarte eine besonders wichtige Rolle. Einerseits dient es der Auswahl von Darstellungspunkten aus der Offset-Karte, andererseits kann es die Bewertungsfunktion der Heatmap weiter verbessern. Insbesondere wird die Standortkarte durch einen 4x4 All-1-Quadratbereich überwacht und mit dem Verlust der Offset-Karte multipliziert, um die Konfidenz der Pose auf der Offset-Karte dynamisch darzustellen. Der Maximalwertpunkt der herkömmlichen Darstellungspunkt-Heatmap stellt nicht die beste Lagequalität dieses Darstellungspunkts dar, während die Standortkarte Lagedarstellungspunkte mit hoher Sicherheit adaptiv auswählen kann, um eine bessere Lösung zu erhalten.

04. Experimentelle Ergebnisse

Wir haben Experimente in drei Datensätzen durchgeführt: COCO, CrowdPose und SkatingPose. Im Vergleich zu anderen Methoden zur Schätzung der menschlichen Pose von unten nach oben erzielt DecenterNet SOTA-Ergebnisse mit einer geringeren Anzahl von Parametern und Berechnungen. Unter diesen unterscheidet der CrowdPose-Datensatz nicht zwischen sichtbaren und unsichtbaren Punkten. Zur Unterscheidung verwenden wir die Instanzmethode des menschlichen Körpers Mask2Former.

05. Zusammenfassung

DecenterNet ist eine End-to-End-Methode zur Schätzung der menschlichen Pose in überfüllten Szenen. Diese Methode nutzt die dezentrale Darstellung der menschlichen Körperhaltung und nutzt alle sichtbaren Schlüsselpunkte als Darstellungspunkte zur Charakterisierung der menschlichen Körperhaltung, wodurch bessere Ergebnisse im verwickelten Bereich erzielt werden. Darüber hinaus verwendet DecenterNet auch einen entkoppelten Haltungsbewertungsmechanismus, um die optimale Haltung anhand der Standortkarte adaptiv auszuwählen. Wir haben außerdem einen neuen Datensatz namens SkatingPose erstellt, der weitere Eiskunstlaufszenen mit Verstrickungen enthält.

Mitglieder des EVOL-Innovationsteams Einführung
Gemeinsamer Leiter des EVOL-Innovationsteams:
Zhao Jian (Akademie der Militärwissenschaften), Ph.D., Direktor der Beijing Image and Graphics Society, ausgewählt in das „Young Talent Promotion Project“ der Beijing Association for Science and Technologie/China Association for Science and Technology, und erhielt den ersten Preis des Wu Wenjun Natural Science Award. Die Forschungsrichtung ist uneingeschränktes visuelles Wahrnehmungsverständnis.
Persönliche Homepage:
https://zhaoj9014.github.io/
Jin Lei (Universität für Post und Telekommunikation Peking), Ph.D., Distinguished Associate Researcher der Universität für Post und Telekommunikation Peking, Forschungsinteressen umfassen die Einschätzung der menschlichen Körperhaltung und die Analyse des menschlichen Körpers , Erkennung menschlichen Verhaltens usw.
Persönliche Homepage:
ACM MM 2023 | Methode zur Schätzung der menschlichen Pose basierend auf dezentraler Darstellung

  Über die TechBeat Artificial Intelligence Community

TechBeat (www.techbeat.net) ist mit Jiangmen Venture Capital verbunden und eine Wachstumsgemeinschaft, die globale chinesische KI-Eliten versammelt.

Wir hoffen, mehr professionelle Dienstleistungen und Erfahrungen für KI-Talente zu schaffen, ihr Lernen und Wachstum zu beschleunigen und zu begleiten.

Wir freuen uns darauf, dass dies für Sie ein guter Ausgangspunkt zum Erlernen modernster KI-Kenntnisse, ein fruchtbarer Boden zum Teilen Ihrer neuesten Arbeiten und eine Basis für die Verbesserung und den Kampf gegen Monster auf dem Weg zum KI-Fortschritt ist!

Ausführlichere Einführung >> TechBeat, eine Lern- und Wachstumsgemeinschaft, die globale chinesische KI-Eliten versammelt

Ich denke du magst

Origin blog.csdn.net/hanseywho/article/details/133385181
Empfohlen
Rangfolge