NASA: Neural Articulated Shape Approximation
Autoren:
Timothy Jeruzalski, Boyang Deng, Mohammad Norouzi, JP Lewis, Geoffrey Hinton, Andrea Tagliasacchi (Google Research)
Klicken Sie hier, um "Thesis Address" einzugeben.
Vorwort
Dieser Artikel ist eine Interpretation von "NASA: Neural Articulated Shape Approximation". In diesem Artikel wird eine Methode zur Verwendung neuronaler Netze zur Schätzung gemeinsamer und deformierbarer 3D-Modelle vorgeschlagen. Im Vergleich zu herkömmlichen Methoden weist die NASA eine geringe Komplexität und Wasserdichtigkeit des Modells auf. hohe Auflösung, guter Modellschätzungseffekt und andere Vorteile .
Einführung
Da Deep Learning in den Bereichen Computer Vision und Grafik eine immer wichtigere Rolle spielt, haben immer mehr Methoden den Ausdruck dreidimensionaler geometrischer Modelle etabliert, die auf neuronalen Netzwerkmodellen basieren. Diese Arbeiten basieren jedoch hauptsächlich auf gewöhnlichen nicht verformbaren dreidimensionalen Modellen, und es gibt noch wenige Untersuchungen zu verformbaren dreidimensionalen Modellen mit Gelenkstrukturen. Da dreidimensionale Modelle mit gemeinsamen Strukturen menschliche Modelle umfassen und in Spielen, Filmen, virtueller Realität und erweiterter Realität weit verbreitet sind, ist die Erforschung solcher Modelle sehr wichtig.
In diesem Artikel schlägt der Autor eine neue Methode zum Trainieren des Decoders D vor, um ein gemeinsames 3D-Modell zu schätzen . Das vom Decoder erzeugte 3D-Modell wird durch eine Indikatorfunktion dargestellt. Diese Indikatorfunktion wird durch das 3D-Modell dargestellt Die Eingabe ist ein Punkt x im dreidimensionalen Raum. Wenn sich der Punkt im dreidimensionalen Modell befindet, ist die Ausgabe 1, wenn er sich außerhalb des dreidimensionalen Modells befindet, ist die Ausgabe 0. Im Gegensatz zu anderen Methoden konzentriert sich die NASA auf die Schätzung der Indikatorfunktion des 3D-Modells anhand von Lageparametern, die beschreiben, wie sich das 3D-Modell verformt.
Die Beiträge dieses Papiers sind :
1. Schlagen Sie eine Methode zur Schätzung eines dreidimensionalen Modells mit verformbaren Gelenken durch ein neuronales Netzwerk vor.
2. Durch explizite Darstellung der deformierten Struktur des Modells im Netzwerk unter Verwendung weniger Modellparameter, um eine ähnliche Leistung und eine bessere Generalisierungsfähigkeit im Vergleich zur vorherigen Methode zu erzielen;
3. Die Anzeigefunktion ist eine Darstellungsmethode, die Schnitt- und Kollisionsabfragen unterstützt, und es ist nicht erforderlich, sie in andere 3D-Modelldarstellungen zu konvertieren.
4. Im Vergleich zur vorherigen Methode kann das Modellergebnis die Aktionen des dreidimensionalen menschlichen Körpermodells besser lernen.
Abbildung 1: Effekt der NASA-Modellgenerierung (Quelle [7])
Verwandte Arbeiten
Für die Verformung des verbundenen 3D-Modells werden traditionell Skinning-Algorithmen verwendet, um die Änderungen der Eckpunkte auf der dreieckigen Netzoberfläche mit den Änderungen des 3D-Modellskeletts zu kombinieren. Darunter der LBS-Algorithmus (Linear Blend Skinning) [1] Der transformierte Scheitelpunkt wird als Gewichtssumme des Einflusses des mit dem Scheitelpunkt verbundenen Skeletts auf den Punkt ausgedrückt, aber der LBS-Algorithmus hat auch die Probleme des "kollabierenden Ellbogens" und der "Bonbonverpackung" [2]. Für die Darstellung des 3D-Modells haben Forscher eine Reihe von Deep-Learning-basierten Methoden vorgeschlagen, um das 3D-Modell in Blöcken darzustellen [3] [4]. Für die Indikatorfunktion, eine dreidimensionale Modelldarstellung basierend auf dem impliziten Feld, gibt es auch viele verwandte Arbeiten [5], aber diese Arbeiten berücksichtigen nicht den Verformungsfaktor.
Einführung in das NASA-Modell
1. Unstrukturiertes Modell (unstrukturiertes Modell - "U")
2. Stückweise starres Modell (Stückweise starres Modell - "R")
3. Stückweise verformbares Modell (Stückweise verformbares Modell - "D")
4. Implementierungsdetails
Versuchsergebnis
Die Wirkung des Modells wurde an 2D- und 3D-Datensätzen getestet. Die Leistung des Modells wurde anhand des Schnittverhältnisses zwischen dem Vorhersageergebnis und der Grundwahrheit bewertet.
1. Zweidimensionale Daten
Der zweidimensionale Datensatz enthält 100 Aktionssätze. In diesem Datensatz werden die geometrischen Formen auf zwei Arten generiert: ①Für den starren Datensatz enthält er einen Satz von Formen, und jede Form entspricht jedem Skelett des Modells. Beim Ändern der Haltung des gesamten Modells ändert sich nicht jede einzelne Form. ②Für den gemischten Datensatz wird die deformierte Form durch den LBS-Algorithmus erhalten. Die experimentellen Ergebnisse des zweidimensionalen Datensatzes sind in der folgenden Abbildung dargestellt:
Abbildung 3: Zweidimensionaler Datenschätzungseffekt (Quelle: [7])
Abbildung 4: R-Schätzungseffekt des fragmentierten Starrkörpermodells (Quelle: [7])
Abbildung 5: Schätzungseffekt des segmentierten deformierbaren Modells D (Quelle: [7])
Es ist ersichtlich, dass für den Trainingssatz die drei Methoden relativ gute Ergebnisse erzielt haben. Für die zwei strukturierten Methoden wird "D" mit "R" verglichen, da a nicht jedes Teil daran hindert, die Form zu ändern Bessere Wirkung auf den LBS-Datensatz. Sowohl "U" als auch "D" weisen jedoch ein Überanpassungsphänomen auf, und nur "R" zeigt noch gute Ergebnisse auf dem Testsatz.
Abbildung 6: Die Auswirkung auf das Testset (Quelle: [7])
2. Dreidimensionale Daten
Der Test des dreidimensionalen Modells wird im AMASS-Datensatz implementiert [6]. Die experimentellen Ergebnisse sind wie folgt, die den Ergebnissen der zweidimensionalen Daten ähnlich sind:
Abbildung 7: Die Auswirkung auf den 3D-Datensatz (Quelle: [7])
um zusammenzufassen
In diesem Artikel wird eine neue Idee vorgeschlagen, bei der mithilfe von Deep-Learning-Methoden das dreidimensionale Gelenkdeformationsmodell anhand der Haltungsparameter des Modells geschätzt und das strukturierte Modell (R, D) mit dem unstrukturierten Modell (U) verglichen wird. Hat eine höhere Effizienz und ist besser Generalisierungsfähigkeit. Der Vorschlag dieser Methode ist von großer Bedeutung für die Darstellung komplexer Gelenkmodelle wie des menschlichen Körpers.
Zukünftige Ausrichtung:
1. Im Vergleich zu "D" zeigt "R" in Experimenten eine bessere Verallgemeinerungsfähigkeit, aber "D" hat in einigen Szenarien immer noch einen höheren Nutzungswert. Ist es möglich, diese beiden Modelle zu kombinieren?
2. Können für ein deformierbares Modell die Posenparameter des Modells gelernt werden {B_b};
3. Kann die symbolische Distanzfunktion verwendet werden, um die aktuelle Anzeigefunktion zu ersetzen?
4. Ob die NASA für differenzierbares Rendern verwendet werden kann;
5. Ob die Darstellung der Bewegung des verformbaren dreidimensionalen Modells nur durch zweidimensionale Information erhalten werden kann.
Verweise:
C 1】 Alec Jacobson, Zhigang Deng, Ladislav Kavan und JPLewis. Häuten: Formverformung in Echtzeit. In ACMSIGGRAPH-Kursen, 2014.
【2】 JP Lewis, Matt Cordner und Nickson Fong. Pose Spacedeformation: Ein einheitlicher Ansatz zur Forminterpolation und skelettbedingten Verformung. In Proceedings of the 27. Jahreskonferenz über Computergrafik und interaktive Techniken, SIGGRAPH '00, Seiten 165–172, New York, NY, USA, 2000. ACM Press / Addison-Wesley PublishingCo.
【3】 Dominik Lorenz, Leonard Bereska, Timo Milbich und BjÃ˝urn Ommer. Unbeaufsichtigtes teilbasiertes Entwirren von Objektform und -erscheinung. arXiv: 1903.06946, 2019.
【4】 Lin Gao, Jie Yang, Tong Wu, Yu-Jie Yuan, Hongbo Fu, YuKun Lai und Hao Zhang. Sdm-net: tiefes generatives Netzwerk für strukturiertes verformbares Netz. ACM TOG, 2019.
【5】 Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe und Steven Lovegrove. DeepSDF: Lernen von kontinuierlichen vorzeichenbehafteten Abstandsfunktionen zur Formdarstellung. CVPR, 2019.
Ure 6】 Naureen Mahmood, Nima Ghorbani, Nikolaus F. Troje, Gerard Pons-Moll und Michael J. Black. Anhäufung: Archiv der Bewegungserfassung als Oberflächenformen. ICCV, 2019.
【7】 Jeruzalski, T., Deng, B., Norouzi, M., Lewis, JP, Hinton, G. & Tagliasacchi, A. (2019). NASA: Neural Articulated Shape Approximation. arXiv-Vorabdruck arXiv: 1912.03207.
Autor | Xiao Yunpeng
Typografie | Akademischer Spinat
Korrekturlesen | Akademischer Jugendverband
Verantwortlicher Herausgeber | Akademische Jugend Ausgezeichnete akademische
Frühere Bewertung: