Die neueste Forschung des Turing-Preisträgers Geoffrey Hinton: Eine Methode zur Schätzung gemeinsamer dreidimensionaler Modelle unter Verwendung neuronaler Netze der NASA

NASA: Neural Articulated Shape Approximation

Autoren:

Timothy Jeruzalski, Boyang Deng, Mohammad Norouzi, JP Lewis, Geoffrey Hinton, Andrea Tagliasacchi (Google Research)

Klicken Sie hier, um "Thesis Address" einzugeben.

12191.png

Vorwort

Dieser Artikel ist eine Interpretation von "NASA: Neural Articulated Shape Approximation". In diesem Artikel wird eine Methode zur Verwendung neuronaler Netze zur Schätzung gemeinsamer und deformierbarer 3D-Modelle vorgeschlagen. Im Vergleich zu herkömmlichen Methoden weist die NASA eine geringe Komplexität und Wasserdichtigkeit des Modells auf. hohe Auflösung, guter Modellschätzungseffekt und andere Vorteile .

 

Einführung

Da Deep Learning in den Bereichen Computer Vision und Grafik eine immer wichtigere Rolle spielt, haben immer mehr Methoden den Ausdruck dreidimensionaler geometrischer Modelle etabliert, die auf neuronalen Netzwerkmodellen basieren. Diese Arbeiten basieren jedoch hauptsächlich auf gewöhnlichen nicht verformbaren dreidimensionalen Modellen, und es gibt noch wenige Untersuchungen zu verformbaren dreidimensionalen Modellen mit Gelenkstrukturen. Da dreidimensionale Modelle mit gemeinsamen Strukturen menschliche Modelle umfassen und in Spielen, Filmen, virtueller Realität und erweiterter Realität weit verbreitet sind, ist die Erforschung solcher Modelle sehr wichtig.

In diesem Artikel schlägt der Autor eine neue Methode zum Trainieren des Decoders D vor, um ein gemeinsames 3D-Modell zu schätzen . Das vom Decoder erzeugte 3D-Modell wird durch eine Indikatorfunktion dargestellt. Diese Indikatorfunktion wird durch das 3D-Modell dargestellt Die Eingabe ist ein Punkt x im dreidimensionalen Raum. Wenn sich der Punkt im dreidimensionalen Modell befindet, ist die Ausgabe 1, wenn er sich außerhalb des dreidimensionalen Modells befindet, ist die Ausgabe 0. Im Gegensatz zu anderen Methoden konzentriert sich die NASA auf die Schätzung der Indikatorfunktion des 3D-Modells anhand von Lageparametern, die beschreiben, wie sich das 3D-Modell verformt.

Die Beiträge dieses Papiers sind :

1. Schlagen Sie eine Methode zur Schätzung eines dreidimensionalen Modells mit verformbaren Gelenken durch ein neuronales Netzwerk vor.

2. Durch explizite Darstellung der deformierten Struktur des Modells im Netzwerk unter Verwendung weniger Modellparameter, um eine ähnliche Leistung und eine bessere Generalisierungsfähigkeit im Vergleich zur vorherigen Methode zu erzielen;

3. Die Anzeigefunktion ist eine Darstellungsmethode, die Schnitt- und Kollisionsabfragen unterstützt, und es ist nicht erforderlich, sie in andere 3D-Modelldarstellungen zu konvertieren.

4. Im Vergleich zur vorherigen Methode kann das Modellergebnis die Aktionen des dreidimensionalen menschlichen Körpermodells besser lernen.

12192.jpg

Abbildung 1: Effekt der NASA-Modellgenerierung (Quelle [7])

 

Verwandte Arbeiten

Für die Verformung des verbundenen 3D-Modells werden traditionell Skinning-Algorithmen verwendet, um die Änderungen der Eckpunkte auf der dreieckigen Netzoberfläche mit den Änderungen des 3D-Modellskeletts zu kombinieren. Darunter der LBS-Algorithmus (Linear Blend Skinning) [1] Der transformierte Scheitelpunkt wird als Gewichtssumme des Einflusses des mit dem Scheitelpunkt verbundenen Skeletts auf den Punkt ausgedrückt, aber der LBS-Algorithmus hat auch die Probleme des "kollabierenden Ellbogens" und der "Bonbonverpackung" [2]. Für die Darstellung des 3D-Modells haben Forscher eine Reihe von Deep-Learning-basierten Methoden vorgeschlagen, um das 3D-Modell in Blöcken darzustellen [3] [4]. Für die Indikatorfunktion, eine dreidimensionale Modelldarstellung basierend auf dem impliziten Feld, gibt es auch viele verwandte Arbeiten [5], aber diese Arbeiten berücksichtigen nicht den Verformungsfaktor.

 

Einführung in das NASA-Modell

12193.jpg

1. Unstrukturiertes Modell (unstrukturiertes Modell - "U")

12194.png

2. Stückweise starres Modell (Stückweise starres Modell - "R")

12195.png

3. Stückweise verformbares Modell (Stückweise verformbares Modell - "D")

12196.png

4. Implementierungsdetails

12197.png

 

Versuchsergebnis

Die Wirkung des Modells wurde an 2D- und 3D-Datensätzen getestet. Die Leistung des Modells wurde anhand des Schnittverhältnisses zwischen dem Vorhersageergebnis und der Grundwahrheit bewertet.

1. Zweidimensionale Daten

Der zweidimensionale Datensatz enthält 100 Aktionssätze. In diesem Datensatz werden die geometrischen Formen auf zwei Arten generiert: ①Für den starren Datensatz enthält er einen Satz von Formen, und jede Form entspricht jedem Skelett des Modells. Beim Ändern der Haltung des gesamten Modells ändert sich nicht jede einzelne Form. ②Für den gemischten Datensatz wird die deformierte Form durch den LBS-Algorithmus erhalten. Die experimentellen Ergebnisse des zweidimensionalen Datensatzes sind in der folgenden Abbildung dargestellt:

12198.png

Abbildung 3: Zweidimensionaler Datenschätzungseffekt (Quelle: [7])

12199.png

Abbildung 4: R-Schätzungseffekt des fragmentierten Starrkörpermodells (Quelle: [7])

121910.png

Abbildung 5: Schätzungseffekt des segmentierten deformierbaren Modells D (Quelle: [7])

Es ist ersichtlich, dass für den Trainingssatz die drei Methoden relativ gute Ergebnisse erzielt haben. Für die zwei strukturierten Methoden wird "D" mit "R" verglichen, da a nicht jedes Teil daran hindert, die Form zu ändern Bessere Wirkung auf den LBS-Datensatz. Sowohl "U" als auch "D" weisen jedoch ein Überanpassungsphänomen auf, und nur "R" zeigt noch gute Ergebnisse auf dem Testsatz.

121911.jpg

Abbildung 6: Die Auswirkung auf das Testset (Quelle: [7])

2. Dreidimensionale Daten

Der Test des dreidimensionalen Modells wird im AMASS-Datensatz implementiert [6]. Die experimentellen Ergebnisse sind wie folgt, die den Ergebnissen der zweidimensionalen Daten ähnlich sind:

121912.png

 

121913.png

Abbildung 7: Die Auswirkung auf den 3D-Datensatz (Quelle: [7])

 

um zusammenzufassen

In diesem Artikel wird eine neue Idee vorgeschlagen, bei der mithilfe von Deep-Learning-Methoden das dreidimensionale Gelenkdeformationsmodell anhand der Haltungsparameter des Modells geschätzt und das strukturierte Modell (R, D) mit dem unstrukturierten Modell (U) verglichen wird. Hat eine höhere Effizienz und ist besser Generalisierungsfähigkeit. Der Vorschlag dieser Methode ist von großer Bedeutung für die Darstellung komplexer Gelenkmodelle wie des menschlichen Körpers.

Zukünftige Ausrichtung:

1. Im Vergleich zu "D" zeigt "R" in Experimenten eine bessere Verallgemeinerungsfähigkeit, aber "D" hat in einigen Szenarien immer noch einen höheren Nutzungswert. Ist es möglich, diese beiden Modelle zu kombinieren?

2. Können für ein deformierbares Modell die Posenparameter des Modells gelernt werden {B_b};

3. Kann die symbolische Distanzfunktion verwendet werden, um die aktuelle Anzeigefunktion zu ersetzen?

4. Ob die NASA für differenzierbares Rendern verwendet werden kann;

5. Ob die Darstellung der Bewegung des verformbaren dreidimensionalen Modells nur durch zweidimensionale Information erhalten werden kann.

 

Verweise:

C 1】 Alec Jacobson, Zhigang Deng, Ladislav Kavan und JPLewis. Häuten: Formverformung in Echtzeit. In ACMSIGGRAPH-Kursen, 2014.

【2】 JP Lewis, Matt Cordner und Nickson Fong. Pose Spacedeformation: Ein einheitlicher Ansatz zur Forminterpolation und skelettbedingten Verformung. In Proceedings of the 27. Jahreskonferenz über Computergrafik und interaktive Techniken, SIGGRAPH '00, Seiten 165–172, New York, NY, USA, 2000. ACM Press / Addison-Wesley PublishingCo.

【3】 Dominik Lorenz, Leonard Bereska, Timo Milbich und BjÃ˝urn Ommer. Unbeaufsichtigtes teilbasiertes Entwirren von Objektform und -erscheinung. arXiv: 1903.06946, 2019.

【4】 Lin Gao, Jie Yang, Tong Wu, Yu-Jie Yuan, Hongbo Fu, YuKun Lai und Hao Zhang. Sdm-net: tiefes generatives Netzwerk für strukturiertes verformbares Netz. ACM TOG, 2019.

【5】 Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe und Steven Lovegrove. DeepSDF: Lernen von kontinuierlichen vorzeichenbehafteten Abstandsfunktionen zur Formdarstellung. CVPR, 2019.

Ure 6】 Naureen Mahmood, Nima Ghorbani, Nikolaus F. Troje, Gerard Pons-Moll und Michael J. Black. Anhäufung: Archiv der Bewegungserfassung als Oberflächenformen. ICCV, 2019.

【7】 Jeruzalski, T., Deng, B., Norouzi, M., Lewis, JP, Hinton, G. & Tagliasacchi, A. (2019). NASA: Neural Articulated Shape Approximation. arXiv-Vorabdruck arXiv: 1912.03207.

 

Autor | Xiao Yunpeng

Typografie | Akademischer Spinat

Korrekturlesen | Akademischer Jugendverband

Verantwortlicher Herausgeber | Akademische Jugend Ausgezeichnete akademische

 

Frühere Bewertung:

[NeurIPS100] Sieben preisgekrönte Artikel von NeurIPS2019 werden angekündigt und eine eingehende Analyse ausgewählter Artikel!

[NeurIPS100] Interpretation von zehn neuesten Artikeln zum maschinellen Lernen von Google, Facebook, Stanford usw.

[NeurIPS100] Wer sind die hochproduktiven chinesischen Autoren von NeurIPS2019? Welches Papier hat die meisten Zitate, lesen Sie einfach dieses!

Ich denke du magst

Origin blog.csdn.net/AMiner2006/article/details/103611791
Empfohlen
Rangfolge