pixelSplat: 3D-Gaußsche Splats aus Bildpaaren für eine skalierbare verallgemeinerbare 3D-Rekonstruktion


Artikel: Linkcode
: https://github.com/dcharatan/pixelsplat
Autor: MIT, SFU


vorausgesetzte Kenntnisse

1) Mehrere häufige Artefakte

\quadGeisterbildartefakte : Wenn sich die Kamera bewegt oder sich das Objekt bewegt, hinterlässt das Bild ein Geisterbild an der alten Position des Objekts, bei dem es sich tatsächlich um ein Nachbild handelt.
Fügen Sie hier eine Bildbeschreibung ein
\quadUnschärfe : Ähnlich wie bei Geisterbildern verwischen beide den Bildschirm, es gibt jedoch Unterschiede. Unter Unschärfe versteht man den Detailverlust in Hochfrequenzbildern im räumlichen Bereich, meist an scharfen Kanten, wie in der Abbildung unten, wo die Kanten unscharf sind. Die Ursache dieses Artefakts ist tatsächlich der Verlust hochfrequenter Details.
Fügen Sie hier eine Bildbeschreibung ein

\quadRinging-Artefakte / Gibbs-Artefakte / Spectral Leakage-Artefakte / Trunkierungsartefakte (Ringing-Artefakte): Die durch drastische Änderungen in der Graustufe des Bildes verursachten Schwingungen ähneln den Luftschwingungen, die nach dem Anschlagen einer Glocke entstehen.
Fügen Sie hier eine Bildbeschreibung ein

\quadAliasing-Artefakte : Wenn bei der Diskretisierung (Abtastung) kontinuierlicher Signale die Abtastfrequenz zu niedrig ist, können hochfrequente Signale als niederfrequente Signale missverstanden werden, was zu Aliasing führt. Dieses Artefakt wird oft durch den „Aliasing“-Effekt verursacht, der durch eine unzureichende Abtastfrequenz verursacht wird, und erscheint normalerweise als gezackte Kanten (Zacken, linkes Bild) oder periodische Wellen (Moiré-Muster, rechtes Bild) im Bild.
Fügen Sie hier eine Bildbeschreibung ein
Um gezackte scharfe Kanten zu lösen, gibt es eine Methode namens Anti-Aliasing (Anti-Aliasing), die die Kanten glatter macht. Wie unten gezeigt:
Fügen Sie hier eine Bildbeschreibung ein
\quadSchwebende Artefakte : Schweben bezieht sich auf eine illusorische Bewegung in bestimmten Bereichen, während die umliegenden Bereiche stationär bleiben. Optisch scheinen diese Bereiche über dem umgebenden Hintergrund zu schweben. Es gibt zwei Arten von Floats: Textur-Floats und Edge-Floats. Der Schwebeeffekt erscheint im Bild unten. Optisch erzeugen diese Bereiche eine starke Illusion, als ob sie auf dem Blatt schweben würden.
Fügen Sie hier eine Bildbeschreibung ein

\quadBlockgrenzenartefakt (Blockeffekt): Verschiedene Bildblöcke werden unterschiedlich verarbeitet, manchmal mit unterschiedlichen Quantisierungsschritten, manchmal mit unterschiedlichen Hochfrequenzkomponenten, die verworfen werden, was dazu führt, dass die Korrelation zwischen Bildblöcken zerstört wird. Ein bisschen wie ein Mosaik.
Fügen Sie hier eine Bildbeschreibung ein
\quadFlackernde Artefakte : Hochfrequente Farbbereiche in der Szene flackern. Dies ist das Artefakt, das am meisten gelöst werden muss, da es am hässlichsten ist und im statischen Zustand auftritt. Unter Flimmern versteht man im Allgemeinen häufige Änderungen der Helligkeit oder Farbe im Laufe der Zeit (ähnlich der Flamme einer Kerze), die normalerweise in feinkörniges Flackern und grobkörniges Flackern unterteilt werden, wie unten dargestellt.
Fügen Sie hier eine Bildbeschreibung ein
\quadSpeckling-Artefakte : Ein Phänomen, das häufig in den Bereichen medizinische Bildgebung, Radarbilder, Lidar-Bilder usw. auftritt. Es wird hauptsächlich durch Welleninterferenz oder optische Interferenz verursacht und erscheint normalerweise als zufällige helle und dunkle Flecken im Bild. Dieses Artefakt kann durch Filtertechniken, Bildglättungsalgorithmen und die Verwendung mehrerer Ansichten oder mehrerer Sensoren bei der Bildaufnahme behoben werden.
Fügen Sie hier eine Bildbeschreibung ein
\quadRuckler : Ruckler ist ein flimmerähnliches Artefakt, das die Wahrnehmung eines einzelnen Standbilds in einem Video beschreibt.

2)kleine Grundlinie und große Grundlinie

\quadDiese beiden Begriffe werden oft mit Stereosehen oder dreidimensionaler Rekonstruktion in Verbindung gebracht.

  • Kleine Basislinie: Beim stereoskopischen Sehen werden kleine Basislinien normalerweise verwendet, um Nahbereichsszenen wie Innenaufnahmen oder Objekte in der Nähe zu verarbeiten.
  • Große Basislinie: Bei der Stereovision werden große Basislinien normalerweise verwendet, um entfernte oder weite Szenen wie Außenlandschaften oder entfernte Objekte zu verarbeiten.

3) Epipolare Linie

Epipolarlinien sind Linien, die durch in einer Kamera beobachtete Punkte gebildet werden, die möglichen Positionen in einer anderen Kamera entsprechen.
Fügen Sie hier eine Bildbeschreibung ein


Text

1. Einleitung

Fügen Sie hier eine Bildbeschreibung ein
\quadWir untersuchen das Problem der „verallgemeinerbaren Synthese neuartiger Ansichten aus spärlichen Bildbeobachtungen“. Das differenzierbare Rendering hat im NVS-Bereich revolutionäre Fortschritte gebracht, ist aber auch durch den hohen Zeit- und Speicherbedarf begrenzt, da beim differenzierbaren Rendering Dutzende oder Hunderte von Punkten auf jedem Kamerastrahl berechnet werden müssen .

\quadDies inspirierte Lichtfeldtransformatoren (SRT, Light Field Networks, Light Field Neural Networks), die Strahlen rendern, indem sie sie in Abfrage-Tokens einbetten, und Farben durch die Verwendung von Kreuzaufmerksamkeit auf Bild-Tokens erhalten. Obwohl Lichtfeldtransformatoren schneller sind als Voxel-Rendering, sind sie noch weit von Echtzeit entfernt. Darüber hinaus können sie keine bearbeitbaren oder exportierbaren 3D-Szenendarstellungen für nachgelagerte visuelle/grafische Aufgaben rekonstruieren.

\quadJüngste Arbeiten haben gezeigt, dass gerastertes Volumenrendering mithilfe einer Szenenparametrisierung basierend auf dreidimensionalen Gaußschen Grundelementen ein Echtzeit-Rendering erreichen kann.

\quadWir schlagen pixelSplat vor, um die Vorteile von 3DGS auf die Aufgabe der allgemeinen Perspektivengenerierung zu übertragen.

\quadDiese Darstellung von 3D-Gaußschen Grundelementen hat die folgenden zwei Vorteile:

  • Eine davon ist schnelles und speichereffizientes Rendern;
  • Das andere ist die Interpretierbarkeit (das ist sehr wichtig);

\quadDies ist keine einfache Aufgabe.

\quad Erstens kann die Kameraposition nur auf einen beliebigen Skalierungsfaktor rekonstruiert werden . Wir gehen dieses Problem an, indem wir einen Epipolartransformator mit mehreren Ansichten entwerfen, der den Skalierungsfaktor für jede Szene zuverlässig ableitet.

\quad Zweitens führt die direkte Verwendung des Gradientenabstiegs zur Optimierung der Quellparameter leicht zu lokalen Minima . Im Fall einer einzelnen Szene kann dies durch die im ursprünglichen 3DGS-Papier vorgeschlagenen nicht differenzierbaren Beschneidungs- und Segmentierungsheuristiken gelöst werden. Im Gegensatz dazu müssen wir im Fall der Generalisierung den Gradienten durch die Darstellung zurückpropagieren und können uns daher nicht auf nicht differenzierbare Spawn- oder Löschoperationen von Gaußschen Grundelementen verlassen. Daher schlägt der Autor eine Methode vor, um während des Trainings implizit Gaußsche Grundelemente zu generieren oder zu löschen, um lokale Minima zu vermeiden und gleichzeitig den Gradientenfluss aufrechtzuerhalten.

\quadInsbesondere parametrisieren wir implizit die Gaußschen Orte (Mittelwerte) mithilfe der vom Encoder vorhergesagten dichten Wahrscheinlichkeitsverteilungen . Dann werden bei jedem Vorwärtsdurchlauf die Positionen der Gaußschen Grundelemente aus dieser Verteilung abgetastet . Natürlich muss diese Stichprobe differenzierbar sein. Hier machen wir es also mit einem Reparametrisierungstrick, der die Dichte eines abgetasteten Gaußschen Grundelements an die Wahrscheinlichkeit dieses Ortes anpasst. Noch deutlicher ausgedrückt: Wenn wir einen Gradienten empfangen, der die Opazität von Gaußschen Kurven an bestimmten 3D-Standorten erhöht, erhöht unser Modell auch die Wahrscheinlichkeit, dass diese Gaußschen Kurven in Zukunft an diesem Ort erneut abgetastet werden.

2. Verwandte Arbeiten

\quad Synthese einer Einzelszenen-Romanansicht . Fortschritte in den Bereichen neuronales Rendering [50] und neuronale Felder [29, 42, 57] haben die 3D-Rekonstruktion und die Synthese neuer Ansichten aus Sammlungen gestellter Bilder revolutioniert. Neuronale Felder sind zum De-facto-Standard geworden. Ein Haupthindernis für diese Methoden ist jedoch ihr hoher Rechenaufwand, da für das Rendern typischerweise Dutzende Abfragen für das neuronale Feld pro Strahl erforderlich sind. Diskrete Datenstrukturen wie Tensorf, Plenoxels und InstantNGP können das Rendern beschleunigen, aber sie können immer noch kein Echtzeit-Rendering bei hohen Auflösungen erreichen. Das kürzlich vorgeschlagene dreidimensionale Gaußsche Sputtern bietet eine effiziente Alternative zur spärlichen Darstellung von Strahlungsfeldern durch spärliche dreidimensionale Gaußsche Grundelemente. Alle Einzelszenen-Optimierungsmethoden erfordern jedoch Dutzende Bilder pro Szene, um eine hochwertige neue Ansichtssynthese zu erreichen. In dieser Arbeit trainieren wir ein neuronales Netzwerk, um die Parameter einer 3D-Gaußschen Rohszenendarstellung aus nur zwei Bildern in einem einzigen Vorwärtsdurchlauf zu schätzen.

\quad Prior-basierte 3D-Rekonstruktion und Ansichtssynthese . Generalisierbare neuartige Ansichtssynthese Diese Forschungsrichtung versucht, eine 3D-Rekonstruktion und neue Ansichtssynthese durch eine kleine Anzahl von Bildern jeder Szene zu erreichen. Wenn Proxy-Geometrien (in diesem Fall Tiefenkarten) verfügbar sind, können maschinelles Lernen und bildbasiertes Rendering kombiniert werden, um vertrauenswürdige Ergebnisse zu erzielen. Für die Synthese neuartiger Ansichten mit kleinen Grundlinien können neuronale Netze trainiert werden, um mehrebene Bilder direkt zu regressieren. Für die Synthese neuartiger Ansichten mit großer Basislinie ist eine vollständige 3D-Darstellung erforderlich. Während aktuelle Generalisierungsmethoden interpretierbare 3D-Darstellungen in Form von vorzeichenbehafteten Distanzfeldern oder Strahlungsfeldern ableiten, tauschen neuere Lichtfeld-Szenendarstellungen die Interpretierbarkeit zugunsten einer schnelleren Darstellung aus, wie z. B. Lichtfeldnetzwerke, GPNR, Lichtfeld-Neuronale Netze (d. h. die Die auf SDF oder NeRF basierende Interpretierbarkeit ist immer noch vorhanden, aber das Rendering ist zu langsam. Die auf dem Lichtfeldtransformator basierende Rendering-Geschwindigkeit ist schnell, aber die Interpretierbarkeit ist schlecht. Daher kombiniert dieser Artikel das Beste aus beiden Ansätzen: Ableiten einer interpretierbaren 3D-Szenendarstellung mit 3D-Gaußschen Grundelementen und gleichzeitiges Rendern um drei Größenordnungen schneller als ein Lichtfeldtransformator.

\quad Skalenmehrdeutigkeit beim maschinellen Lernen für Geometrie mit mehreren Ansichten . Frühere Arbeiten haben die Bedeutung der Mehrdeutigkeit der Szenenskala beim maschinellen Lernen für Geometrie mit mehreren Ansichten erkannt. Bei der neuen Ansichtssynthese skaliert ein Einzelbild-3D-Diffusionsmodell, das kürzlich auf realen Daten trainiert wurde, die 3D-Szene auf der Grundlage von Heuristiken aus Tiefenstatistiken neu und konditioniert seinen Encoder auf die Szenenskala. In dieser Arbeit bauen wir einen Multi-View-Encoder, der auf den Maßstab einer Szene schließen kann. Dies erreichen wir mithilfe eines Epipolartransformators, mit dem Pixelkorrespondenzen in Queransichten ermittelt und mit positionscodierten Tiefenwerten verknüpft werden.

3)Hintergrund: 3D-Gaußsches Splatting

\quadSowohl NeRF als auch Plenoxel sind dichte Darstellungen, die ein teures Rendering erfordern, da ihre Rendering-Methoden zum stichprobenbasierten Ansatz gehören.

\quad Lokale Minima . Eine zentrale Herausforderung bei der Anpassung von Funktionen mit Grundelementen ist deren Empfindlichkeit gegenüber lokalen Minima. Die Anpassung des 3D-GS-Modells hängt eng mit der Anpassung des Gaußschen Mischungsmodells zusammen , bei dem wir nach einem Satz Gaußscher Parameter suchen, um die Wahrscheinlichkeit eines Satzes von Stichproben zu maximieren. Dieses Problem ist ein bekanntes nichtkonvexes Problem und wird normalerweise mit dem Erwartungsmaximierungsalgorithmus (EM) gelöst. Der EM-Algorithmus hat jedoch immer noch das Problem des lokalen Minimums und ist nicht für inverse Grafiken geeignet, da dieses Problem nur das Bild der dreidimensionalen Szene liefert, nicht die Grundwahrheit der dreidimensionalen Volumendichte. In 3D-GS treten lokale Minima auf, wenn sich ein an einer zufälligen Position initialisiertes Gaußsches Grundelement im Raum bewegen muss, um seine endgültige Position zu erreichen. Es gibt zwei Möglichkeiten, dieses Problem zu verhindern: 1) Gaußsche Grundelemente haben lokale Unterstützung, was bedeutet, dass der Gradient verschwindet, wenn der Abstand zum richtigen Ort einige Standardabweichungen überschreitet. 2) Auch wenn eine Gauß-Verteilung nahe genug an einer „richtigen“ Position (lokales Optimum) liegt, muss es immer noch einen Pfad zu ihrer endgültigen Position geben, entlang dem der Verlust monoton abnimmt, wenn Gradienten empfangen werden. Im Kontext der differenzierbaren Darstellung ist dies normalerweise nicht der Fall, da Gauß-Funktionen oft den leeren Raum durchqueren müssen, wo sie möglicherweise Hintergrundmerkmale verdecken.

\quadDer Originaltext von 3D-GS basiert auf Adaptive Density Control, um dieses Problem zu lösen. Diese Techniken sind jedoch nicht mit Generalisierungseinstellungen kompatibel, bei denen die ursprünglichen Parameter von einem neuronalen Netzwerk vorhergesagt werden, das Gradienten empfangen muss.

4)Bildbedingte 3D-Gaußsche Inferenz

\quadDie vorgeschlagene Methode besteht aus einem Zwei-Ansicht-Bildkodierer und einem pixelausgerichteten Gaußschen Vorhersagemodul

4.1 Skalenmehrdeutigkeit lösen

\quadAktuelle NVS-Datensätze erfordern eine Pose, und die meisten von ihnen berechnen die Pose mithilfe des SfM-Algorithmus. Der SfM-Algorithmus skaliert Szenen jedoch nur entsprechend dem Maßstab, was bedeutet, dass verschiedene Szenen gemäß separaten und willkürlichen Skalierungsfaktoren skaliert werden. Die Wiederherstellung skalarer Si-Werte aus einem einzelnen Bild ist aufgrund des Skalierungsunschärfekriteriums nicht möglich. Das bedeutet, dass es unmöglich ist, eine Tiefe vorherzusagen, die der von SfM rekonstruierten Pose entspricht, wenn ein neuronales Netzwerk die Geometrie einer Szene aus einem einzelnen Bild vorhersagt. Bei der monokularen Tiefenschätzung kann dieses Problem durch skaleninvariante Verluste gelöst werden.

Fügen Sie hier eine Bildbeschreibung ein
\quadIm Bild oben rekonstruiert SfM beispielsweise die Pose nicht im realen (metrischen) Maßstab, sondern mit einem willkürlichen Skalierungsfaktor, der in jeder Szene unterschiedlich ist. Um die richtige Perspektive wiederzugeben, muss die 3D-Rekonstruktion unseres Modells über diesen beliebigen Skalierungsfaktor hinweg konsistent sein.

\quadUm dieses Problem zu lösen, wird in diesem Artikel ein epipolarer Encoder vorgeschlagen. Wie in der Abbildung oben gezeigt, werden die Merkmale, die zu den Pixeln gehören, die den Strahlen auf der linken Seite entsprechen, mit den Merkmalen verglichen, die entlang der Epipolarlinie auf der rechten Seite abgetastet wurden. Epipolare Proben werden um die durch ihre Position entlang des Strahls kodierte Tiefe erweitert, sodass der Encoder Tiefen aufzeichnen kann, die später für die Tiefenvorhersage verwendet werden.

\quadDie spezifische Implementierungsmethode ist wie folgt. Zunächst wird jede Ansicht durch einen Feature-Encoder pro Bild einzeln in ein Feature-Volume F codiert. Für eine Koordinate u in I ist l die Epipolarlinie von u in einem anderen Bild. Auf dieser Epipolarlinie wird eine Reihe von Punkten abgetastet. Für jeden Abtastpunkt berechnen wir den Abstand von jedem Abtastpunkt der Epipolarlinie zur Mitte der Originalbildkamera durch Triangulation von u und dem Abtastpunkt (dieser Abstand ist tatsächlich der Abstand). zwischen jedem Punkt Die Tiefe, da diese Tiefe aus den Posen der beiden Bilder berechnet wird, sodass der Maßstab s der aktuellen Szene darin codiert ist. Dann werden die q, k, v der epipolaren Kreuzaufmerksamkeit wie folgt konstruiert:
Fügen Sie hier eine Bildbeschreibung ein
\quads ist das Merkmal des extremen Abtastpunkts, der mit dem Positionscode der Mittelkoordinaten der Originalbildkamera gespleißt wird. Die Funktionsweise der epipolaren Kreuzaufmerksamkeit ist wie folgt: Sie aktualisiert jedes Pixelmerkmal:

Fügen Sie hier eine Bildbeschreibung ein
\quadNach dem Erleben der epipolaren Kreuzaufmerksamkeit wird jedes Pixelmerkmal mit skalierter Tiefe (dem Abstand zwischen den einzelnen Abtastpunkten der Epipolarlinie) codiert. Danach folgen eine verbleibende Faltungsschicht und eine Unteraufmerksamkeitsschicht. Der Zweck besteht darin, sicherzustellen, dass der Encoder die skalierte Tiefenschätzung auf Teile der Feature-Map überträgt, die möglicherweise nicht den Epipolarlinien im gegenüberliegenden Bild entsprechen.

\quadNach einem solchen Encoder erhalten wir eine maßstabsbewusste Feature-Map.

4.2. Gaußsche Parametervorhersage

\quadDie Methode dieses Artikels besteht darin, die Szene durch pixelausgerichtete Gaußsche Funktionen zu parametrisieren, das heißt: Verwenden Sie für jedes Pixel das entsprechende Merkmal als Eingabe und sagen Sie die entsprechenden M-Gaußschen Grundelemente vorher. Betrachten Sie hier der Einfachheit halber M=1. Daher wird das Problem: Für jedes Pixel muss eine Gaußsche Parametergruppe (µ, Σ, α, S) vorhergesagt werden. Die wichtigste Frage ist, wie die Position μ jeder Gaußschen Funktion parametrisiert werden kann. Die folgende Abbildung zeigt den gesamten Prozess der Vorhersage pixelausgerichteter Gaußscher Werte aus maßstabsbewussten Feature-Maps.

Fügen Sie hier eine Bildbeschreibung ein
\quadWenn Sie zunächst eine Gaußsche Parametergruppe vorhersagen möchten, können Sie diese direkt in das neuronale Netzwerk eingeben, um sie einzeln anhand der Pixelmerkmale vorherzusagen. Insbesondere bei der Vorhersage von μ besteht eine Grundlinie darin, ein neuronales Netzwerk zu verwenden, um den Abstand vom Fernpunkt der Kamera zum Gaußschen Mittelwert wie folgt direkt vorherzusagen:
Fügen Sie hier eine Bildbeschreibung ein
\quadDie Lichtrichtung d wird durch den kameraextrinsischen Parameter T und den kameraintrinsischen Parameter K berechnet. Leider neigt diese Methode dazu, in lokalen Minima stecken zu bleiben. Da wir außerdem eine Rückausbreitung durch Darstellungen benötigen, können wir die in 3D-GS vorgeschlagenen Generierungs- und Beschneidungsheuristiken nicht nutzen, da sie nicht differenzierbar sind.

\quadDaher schlägt dieser Artikel vor: Anstatt die Tiefe d einer Gaußschen Funktion direkt vorherzusagen, schlagen wir stattdessen vor, die Wahrscheinlichkeitsverteilung der Wahrscheinlichkeit vorherzusagen, dass eine Gaußsche Funktion (d. h. eine Oberfläche) in der Tiefe d entlang des Strahls u existiert. Um dies zu erreichen, wird eine Reihe diskreter Wahrscheinlichkeitsdichten über eine Reihe von Tiefenbereichen definiert. Zwischen der Nahebene und der Fernebene ist die Tiefe in Z-Bins unterteilt, die durch einen Vektor b dargestellt werden. Dieses b ist im diskreten Raum definiert, dh jedes Element b_z ist wie folgt definiert:

Fügen Sie hier eine Bildbeschreibung ein
\quadDann kann gemäß dem Index z eine diskrete Wahrscheinlichkeitsverteilung p definiert werden, deren z-tes Element Φ_z die Wahrscheinlichkeit darstellt, dass eine Oberfläche im b_z-ten Tiefenbereich existiert. Jedes Element Φ wird durch ein vollständig verbundenes Netzwerk f durch das Merkmal F[u] vorhergesagt, das dem Startpunkt u des Strahls entspricht. Darüber hinaus wird auch ein Zentrumsversatz pro Bucket δ ∈ [0, 1] vorhergesagt, der die Tiefe der Gaußschen Funktion innerhalb der Bucket-Grenze anpassen kann.

Fügen Sie hier eine Bildbeschreibung ein
\quadIn der obigen Formel ist d_u die Richtung. Daraus ist ersichtlich, dass im Gegensatz zur direkten Vorhersage der Tiefe die Position der Gaußschen Funktion hier aus einer diskreten Verteilung abgetastet wird und das Netzwerk nur die Wahrscheinlichkeit für jeden Bucket vorhersagen muss.

\quadUm unser Modell zu trainieren, müssen wir die Gradienten auf die Wahrscheinlichkeiten der Tiefenbereiche Φ zurückpropagieren. Das bedeutet, dass wir die Ableitung des Gaußschen Positionsmittelwerts μ nach der Wahrscheinlichkeit Φ berechnen müssen. Allerdings ist die Abtastoperation z~p_Φ(z) hier nicht differenzierbar. Daher greift der Autor hier auf die Ideen von VAE zurück und verwendet umfangreiche Parametrisierungstechniken, um dieses Problem zu überwinden. Daher setzen wir die Opazität einer Gauß-Funktion gleich der Wahrscheinlichkeit des von ihr abgetasteten Buckets. Das heißt, der Wert von α ist derselbe wie das z-te Element des Φ-Vektors. Wenn der Verlustgradient an α übergeben wird, kann er an Φ übergeben werden. Im Augenblick:

Fügen Sie hier eine Bildbeschreibung ein
\quadIn diesem Fall erhöht der Gradientenabstieg die Opazität der Gaußschen Verteilung, was dazu führt, dass sie häufiger abgetastet wird. Dadurch wird letztendlich die gesamte Wahrscheinlichkeitsmasse in den richtigen Eimern konzentriert, wodurch eine völlig undurchsichtige Oberfläche entsteht. Betrachten Sie den Fall, dass die Probentiefe falsch ist. In diesem Fall verringert der Gradientenabstieg die Undurchsichtigkeit der Gaußschen Verteilung und verringert so die Wahrscheinlichkeit weiterer falscher Tiefenvorhersagen.

\quadZusätzlich zur Verwendung des neuronalen Netzwerks zur Vorhersage der Wahrscheinlichkeit Φ und der Abweichung δ ist es auch erforderlich, eine Kovarianzmatrix und einen Satz sphärischer harmonischer Koeffizienten für jedes Pixel vorherzusagen.

Fügen Sie hier eine Bildbeschreibung ein
\quadNachdem wir Φ haben, haben wir α, und wir können μ auch zusammen mit δ durch die obige Formel erhalten. Daher wird ein Parametersatz von pixelausgerichteten Gaußschen Grundelementen vorhergesagt.

\quadDer folgende Algorithmus fasst den Prozess der Verwendung der Eigenschaften eines Pixels zur Vorhersage der entsprechenden Parameter eines pixelausgerichteten Gaußschen Grundelements zusammen:
Fügen Sie hier eine Bildbeschreibung ein

5) Experimenteller Teil

5.1. Versuchsaufbau

\quadUnsere Methode wird auf RealEstate10k und ACID trainiert und evaluiert.
\quadBasislinien: pixelNeRF、GPNR、Die unbenannte Methode „Lernen, neuartige Ansichten aus Stereopaaren mit breiter Basislinie zu rendern“.

5.2. Ergebnisse

\quadIn der folgenden Tabelle sind einige Qualitäts- und andere Ergebnisse aufgeführt.
Fügen Sie hier eine Bildbeschreibung ein
\quadDie visualisierten Ergebnisse lauten wie folgt:
Fügen Sie hier eine Bildbeschreibung ein
\quadMan erkennt, dass die Methode in diesem Artikel qualitativ sehr gut funktioniert. Und im Hinblick auf Schulungs- und Inferenzkosten ist unsere Methode weniger ressourcenintensiv als die Basismethode.

\quadUm die Fähigkeit unserer Methode, strukturierte 3D-Darstellungen abzuleiten, qualitativ zu bewerten, visualisieren wir Gaußsche Werte in Ansichten, die weit über die Trainingsverteilung hinausgehen. Im Bild unten visualisiert der Autor die Punktwolke. Es ist wichtig zu beachten, dass die mit unserer Methode erzeugten Gauß-Funktionen zwar eine hochpräzise neue Ansichtssynthese für Kamerapositionen innerhalb der Trainingsverteilung ermöglichen, sie jedoch unter den gleichen Fehlermodi leiden wie 3D-Gauß-Funktionen, die mit der ursprünglichen 3DGS-Methode optimiert wurden. Das heißt, reflektierende Oberflächen sind oft transparent und Gaußsche Flächen sehen aus einer Perspektive außerhalb der Verteilung wie eine Plakatwand aus.

Fügen Sie hier eine Bildbeschreibung ein
5.3. Ablationen und Analyse

\quadBeantworten Sie ein paar Fragen:

  • F1a: Ist unser Epipolar-Encoder für die Fähigkeit unseres Modells verantwortlich, mit Skalenmehrdeutigkeiten umzugehen?
  • F1b: Wenn ja, welchen Mechanismus verwendet unser Modell, um Skalenmehrdeutigkeiten zu bewältigen?
  • F2: Mildert unsere probabilistische primitive Vorhersage lokale Minima in der primitiven Regression?

\quadEinige experimentelle Ergebnisse sind in der folgenden Tabelle und Abbildung dargestellt:

Fügen Sie hier eine Bildbeschreibung ein

Fügen Sie hier eine Bildbeschreibung ein
\quadF1a: Um die Bedeutung des Epipolar-Encoders zu untersuchen, entfernen wir den Epipolar-Encoder und kodieren jedes Referenzbildmerkmal einzeln. Experimentelle Ergebnisse zeigen, dass die Ergebnisse erheblich sinken und Geisterbilder und Bewegungsunschärfeartefakte auftreten, die auf eine falsche Tiefenvorhersage hinweisen. Darüber hinaus visualisieren wir in der Abbildung unten die epipolaren Aufmerksamkeitswerte und beweisen damit, dass unser Epipolar-Encoder tatsächlich eine Cross-View-Korrespondenz findet.
Fügen Sie hier eine Bildbeschreibung ein

\quadF1b: Um dieses Problem zu untersuchen, gibt der Autor nur das Bildmerkmal F in jede epipolare Aufmerksamkeitsschicht ein (normalerweise plus codierte Tiefen im Szenenmaßstab). Wie in Tabelle 2 gezeigt, nimmt die Leistung ab, was beweist, dass zusätzlich zur Verwendung der Korrespondenz Beziehungs- und szenenskalencodierte Tiefen werden auch verwendet, um Skalenmehrdeutigkeiten zu lösen.

\quadF2: Um zu untersuchen, ob die Vorhersage die Tiefe der Gaußschen Verteilung probabilistisch vorhersagen muss, haben wir ein direktes Regressionstiefenexperiment durchgeführt, aber die Ergebnisse sind wie in der Tabelle oben gezeigt und der Effekt hat abgenommen.

Supongo que te gusta

Origin blog.csdn.net/DUDUDUTU/article/details/135323906
Recomendado
Clasificación