Generierung von 3D-Modellen aus monokularen Daten, Enthüllung des Kamerakorrekturalgorithmus der Meta-Smart-Brille

Wie wir alle wissen, ist Metas nächstes Ziel eine AR-Brille, obwohl die Entwicklung von AR mit komplexeren Problemen konfrontiert ist als die von VR, sodass es eine Weile dauern kann, bis Metas AR-Brille zu sehen ist. Derzeit hat das Unternehmen die erste Generation der Ray-Ban Stories-Datenbrille auf den Markt gebracht, die sich durch Doppelkameras auszeichnet, die nicht nur Bilder aufnehmen, sondern, was noch wichtiger ist, 3D-Daten mit binokularer Parallaxe erfassen können, um sie aus der ersten Perspektive zu analysieren und zu nutzen. Dadurch werden alltagsnahe KI-Anwendungen gefördert.

Durch Stories kann Meta die Probleme verstehen, die bei der tatsächlichen Anwendung tragbarer Geräte auftreten können, wie z. B. blockierte Kameras und Sensoren, Leistungseinbußen und unvollständig erfasste 3D-Daten usw.

In der neuesten Arbeit entmystifiziert Meta das von Stories übernommene 3D-Tiefenerkennungsschema weiter, das einen neuartigen Echtzeit-Korrekturalgorithmus, ein monokulares und binokulares Parallaxengitter-Co-Design sowie den Export von 3D-Daten aus monokularen Datensätzen umfasst. Gleichzeitig kombiniert die Lösung die GPU des gekoppelten Mobiltelefons zur Verarbeitung von 3D-Daten, wie etwa Bildvorverarbeitung, Stereokorrektur und Tiefenschätzung.

Es versteht sich, dass der Schwerpunkt dieser Lösung hauptsächlich auf der Optimierung der Leistung der 3D-Tiefenerfassung liegt. Gleichzeitig ermittelt das System zur Gewährleistung der Genauigkeit auch die Zuverlässigkeit der Korrekturdaten und greift auf das Monokular zurück Tiefenvorhersagemodus, wenn dieser unzuverlässig ist. Andererseits hoffen die Meta-Forscher, diese Pipeline zur Generierung von 3D-Ansichten auf eine breitere Palette von Geräten anwendbar zu machen, einschließlich älterer Telefonmodelle.

Meta wies darauf hin, dass selbst bei Verwendung des vor 6 Jahren veröffentlichten Galaxy S8-Mobiltelefons die Zeit für die Berechnung der 3D-Ansicht durch die CPU nur 1 Sekunde betragen kann und die Fähigkeit zur Modellverallgemeinerung relativ gut ist.

technische Herausforderung

Die Forscher wiesen darauf hin, dass die Vorhersage der Stereodisparität eines der Grundprobleme des Computersehens ist und dass diese Technologie ein breites Anwendungsspektrum in verschiedenen Bereichen wie AR/VR, Computerfotografie, Robotik und autonomes Fahren usw. hat.

Die Synthese von Stereobildern in einem End-to-End-Tiefenerkennungssystem steht jedoch vor vielen Herausforderungen, und bei mobilen Geräten ist die Rechenleistung die größte Einschränkung. Daher hat Meta diese relativ praktische 3D-Bildverarbeitungspipeline basierend auf der begrenzten Rechenleistung von Mobiltelefonen entwickelt. Das bedeutet auch, dass die Schritte in der Pipeline zusammenarbeiten müssen, um sich besser anpassen zu können, wenn ein Fehler auftritt oder die Daten nicht ideal sind, und um die Auswirkungen unvorhergesehener Faktoren auf die Leistung (z. B. hohe Temperaturen, im Freien) zu kalibrieren.

Meta sagte: Wir möchten, dass intelligente Brillen allgemein genug sind, dass mehr Telefontypen mit ihnen kompatibel sein müssen, anstatt sich auf bestimmte Hardware- oder Beschleunigungsmodelle für maschinelles Lernen zu verlassen. Das Hauptziel dieser Forschung besteht darin, die beste Benutzererfahrung für die 3D-Computerfotografie zu bieten.

Lösung

Um die Stabilität der 3D-Erfassung zu gewährleisten, hat Meta ein Echtzeit-Korrektursystem entwickelt. Zu seinen Vorteilen gehören:

  • Das End-to-End-3D-Datenverarbeitungssystem kann den Datenverarbeitungsmodus dynamisch anpassen;
  • Enthält einen schnellen und stabilen Online-Korrekturalgorithmus;
  • Die Ausgabeformate des 3D-Tiefensystems und des monokularen Tiefensystems sind ähnlich;
  • Unter der begrenzten Rechenleistung kann immer noch eine ausreichende Genauigkeit erreicht werden.

Im Detail sieht der Berechnungsprozess dieser Lösung wie folgt aus: Die von der Datenbrille ausgegebenen 3D-Daten werden werkseitig kalibriert, entzerrt, heruntergesampelt (um das Zweifache reduziert), mit HDR-Belichtungsreihen belichtet und anschließend online korrigiert . Nachdem die Kalibrierungsqualität den Standard erreicht hat, wird sie in das Stereo-CNN-Netzwerk eingegeben, das dann in die Rendering-Pipeline gelangt, um Überlagerungen, Texturreparaturen, Netze und mehr zu generieren. Wenn die Korrekturqualität nicht dem Standard entspricht, kehren Sie zum monokularen Modus zurück, geben Sie sie zur Verarbeitung in das monokulare CNN-Netzwerk ein und rufen Sie dann die Rendering-Pipeline auf, um eine neue Perspektive zu generieren.

Natürlich garantiert die Online-Kalibrierung nicht unbedingt Zuverlässigkeit. Wenn eine Seite der Kamera blockiert ist oder die von der Kamera erfassten Merkmalsdaten unzureichend sind, kann sie nur auf die nächstbeste Sache zurückgreifen und diese über das monokulare Tiefennetzwerk vorhersagen. Unabhängig davon, ob es sich um eine binokulare Tiefenvorhersage oder eine monokulare Tiefenvorhersage handelt, wird dieselbe Downstream-Verarbeitungspipeline verwendet. Der Vorteil besteht darin, dass eine relative Disparität mit hoher Genauigkeit ausgegeben werden kann, was den Zweck der 3D-Erfassung und -Modellierung gut erfüllen kann.

Darüber hinaus schneidet das System nach der Erstellung der Tiefendisparitätskarte den maximal effektiven Bereich zu und behält das ursprüngliche Seitenverhältnis bei, wodurch die Gesamtqualität der 3D-Modellierung weiter optimiert werden kann. Der letzte Schritt besteht darin, die von der richtigen Kamera vorhergesagte Parallaxe und das entsprechende Farbbild zu kombinieren, um einen dreidimensionalen Effekt zu erzeugen.

Im neuartigen Ansichtssyntheseteil verwendet Meta ein LDI-basiertes Schema (Layered Depth Image), um einen stereoskopischen Trainingsdatensatz zu erstellen und so einen 3D-Syntheseeffekt zu erzeugen. Referenz: Meta

Supongo que te gusta

Origin blog.csdn.net/qingtingwang/article/details/131688566
Recomendado
Clasificación