【ICCV 2023】3DPPE: 3D-Punktpositionskodierung für 3D-Objekterkennungstransformatoren mit mehreren Kameras

Ursprünglicher Link: https://arxiv.org/abs/2211.14710

1. Einleitung

Frühe 3D-Objekterkennungsmethoden für Mehransichtsbilder erkennen jede Ansicht separat und kombinieren dann die Erkennungsergebnisse jeder Ansicht. Dabei können jedoch die überlappenden Bereiche benachbarter Kameras nicht genutzt werden, und die separate Erkennung führt zu einem großen Rechenaufwand. Spätere Methoden verwenden ähnliche Methoden wie LSS , um Mehransichtsbilder in BEV-Ausdrücke umzuwandeln. Diese falsch positionierte Ansichtstransformation führt jedoch zu einer Fehlerakkumulation und beeinträchtigt die Erkennungsgenauigkeit.
Mittlerweile verwenden Transformer-basierte Methoden wie DETR eine Reihe erlernbarer 3D-Objektabfragen zur Objekterkennung, ohne dass explizite Ansichtstransformationen erforderlich sind. Es gibt zwei Methoden für die Interaktion zwischen 3D-Abfragen und 2D-Bildfunktionen: projektionsbasierte Methoden und auf Positionskodierung basierende Methoden. Ersteres projiziert 3D-Abfragen auf die Bildebene, um Features abzutasten, was zusätzliche Bereitstellungsarbeit erfordert; es extrahiert nur lokale Features und kann keine globale Kohärenz zur Leistungsverbesserung nutzen. Letzteres wurde erstmals in PETR vorgeschlagen und integriert 3D-Abfragen durch Positionskodierung (PE) in 2D-Bildmerkmale.
Es wird erwartet, dass die Verbesserung von 3D PE die Erkennungsgenauigkeit verbessern wird, sein Design wurde jedoch noch nicht vollständig erforscht. Ein typisches 3D-PE ist ein 3D-Kamerastrahl-PE (wie in (a) unten gezeigt), der die Strahlrichtung vom optischen Zentrum der Kamera zum Bildpixel kodiert, aber die Strahlrichtung liefert nur grobe Positionierungsinformationen, da es keine vorherige Tiefe gibt . Darüber hinaus werden Objektabfragen von zufällig generierten 3D-Referenzpunkten in Einbettungsvektoren umgewandelt, und die räumliche Inkonsistenz der Einbettung zwischen Referenzpunkten und Kamerastrahl-PEs kann die Wirksamkeit des Aufmerksamkeitsmechanismus im Transformer-Decoder beeinträchtigen. Daher muss 3D-PE mit Tiefenpriorität neu gestaltet werden, um 2D-Merkmale zu lokalisieren und einen einheitlichen Ausdruck zu ermöglichen.
Fügen Sie hier eine Bildbeschreibung ein
In diesem Artikel wird die 3D-Punktpositionskodierung (3DPPE) vorgestellt, um die Leistung der Transformer-basierten 3D-Zielerkennung mit mehreren Kameras zu verbessern. Durch die Einführung von Position Priors verbessert 3DPPE die 3D-Kamera-Ray-PE. Darüber hinaus kann 3DPPE eine bessere Ausdrucksähnlichkeit bieten. Zunächst wird ein Hybrid-Tiefenmodul entwickelt, das direkte Tiefe und kategoriale Tiefe kombiniert, um die Tiefe jedes Pixels zu verfeinern. Anschließend werden die Pixel mithilfe der Kameraparameter und der vorhergesagten Tiefe in 3D-Punkte umgewandelt und in den Positionsencoder eingespeist, um 3DPPE zu erhalten. Die Positionsgeber der oben genannten 3D-Punkte und Referenzpunkte teilen sich Gewichte, um einen einheitlichen Einbettungsraum zu schaffen.

3. Vorbereitende Kenntnisse zur Positionskodierung

3.1. Strahlenbasierte Positionskodierung

Die PETR-Serie stellt eine Methode zum Kodieren von 3D-Koordinateninformationen in Bildmerkmale mit mehreren Kameras vor, um 3D-Positionsmerkmale zu erzeugen. Die 3D-Koordinateninformationen stammen aus einer Reihe von Punkten entlang des Kamerastrahls, einer Methode namens Kamerastrahl-PE. Gegebener Tiefenbereich $R_D=[D_{\min},D_{\max}]$ Diskretisieren Sie zunächst die Tiefe mithilfe der linearen Wachstumsdiskretisierung (LID) in $N_D.$ Intervalle und nehmen Sie dann einen Punkt in der Mitte jedes Intervalls entlang des Kamerastrahls, um $N_D zu erhalten$ Punkt. Die in jedem Ansichtsbild generierten Punkte befinden sich nach der Koordinatentransformation im selben Koordinatensystem. Die jedem Pixel entsprechenden Punkte werden gespleißt und dann in die Einbettungsschicht eingegeben, um PE zu erhalten.

3.2. 3D-Punktpositionskodierung

Die optimale Positionskodierung muss die wahre 3D-Position des ebenen Punktes erhalten, während die strahlenbasierte Positionskodierung nur die Strahlrichtung kodiert und keine Tiefeninformationen enthält.
Um zu bestätigen, dass der obige Punkt korrekt ist, werden die Pixel unter Verwendung der wahren Tiefe des Bildes in den 3D-Raum projiziert. Die wahre Tiefe ist das Ergebnis der Tiefenvervollständigung nach der Projektion der Punktwolke auf die Bildebene, um eine Karte mit geringer Tiefe zu erhalten. Die Ergebnisse zeigen, dass die Leistung dieser Methode im Vergleich zu Pixel-Ray-PE deutlich verbessert ist, was beweist, dass eine genaue 3D-Position der Schlüssel zur Leistungsverbesserung ist.
Unter normalen Umständen können kamerabasierte Methoden jedoch nicht die wahre Tiefe ermitteln. Daher wird stattdessen ein leichtes Tiefenschätzungsmodul zum Generieren von Tiefenwerten verwendet.

4. Methode

In diesem Artikel wird einheitliches tiefengesteuertes 3DPPE verwendet, um 2D-Merkmale von Bildern mit mehreren Ansichten in den 3D-Raum umzuwandeln.

4.1. Framework-Übersicht

Fügen Sie hier eine Bildbeschreibung ein Wie in der obigen Abbildung gezeigt, ist $N$ 个环视图图像 $\mathbf{I}=\{I_i\in\mathbb{R}^{3\ mal H_{I_i}\times W_{I_i}},i=1,2,\cdots,N\}$ , geben Sie das Backbone ein, um das Bildmerkmal $\mathbf{F}=\{F_i\in\mathbb{R }^{ C\times H_{F_i}\times W_{F_i}},i=1,2,\cdots,N\}$ . Geben Sie außerdem den Tiefenschätzungskopf in den 3D-Punktgenerator ein, um die dichte Tiefenkarte $\mathbf{D}=\{ zu erhalten D_i\ in\mathbb{R}^{1\times H_{F_i}\times W_{F_i}},i=1,2,\cdots,N\}$ und in den 3D-Punkt $\mathbf{P}^\text{3D}= \{P ^\text{3D}_i\in\mathbb{R}^{3\times H_{F_i}\times W_{F_i}},i=1,2,\cdots,N\}$ . Der gemeinsame 3D-Punkt-PE-Generator kodiert diese Punkte als $\text{PE}=\{\text{PE}_i \in \mathbb{R}^{C\times H_{F_i}\times W_{F_i}},i=1,2,\cdots,N\}$ . Der 3D-Punkt-PE-Generator kodiert auch lernbare 3D-Referenzpunkte in Objektabfragen $\mathbf{Q}=\{Q_i\in\mathbb {R} ^{C\times 1},i=1,2,\cdots,K\}$ , so dass $\mathbf{Q}$ gegeben $\text{PE}$ hat einen einheitlichen 3D-Ausdruck. Schließlich können 3D-Abfragen über 3DPPE im Decoder zur 3D-Objekterkennung direkt mit Bildmerkmalen interagieren.

4.2. 3D-Punktgenerator

Hybrides Tiefenmodul : Inspiriert von BEVDepth entwirft dieser Artikel ein hybrides Tiefenmodul, das direkt die Tiefe $WFD^R\in\mathbb{R}^{H_{F}\times W_{F}} zurückgibt.$ Mit Klassifikationstiefe $WFD^P\in\mathbb{R}^{H_{F}\times W_{F}}$ Verwenden Sie lernbare Gewichte $\alpha$ für die Fusion, wie in der Abbildung unten gezeigt.
Fügen Sie hier eine Bildbeschreibung ein
Vereinfacht ausgedrückt ist der Tiefenraum $d_{\min},d_{\max}]$ 离散为 $N_D=\frac{d_{\max}-d_{\min}}{d_\Delta}$ Eine Größe von $d_\Delta$ 的区间 $\mathbf{D}=\{d_1,d_2,\cdots,d_{N_D}\}$ Sagen Sie anschließend die Wahrscheinlichkeitsverteilung $Klassifizierungsmethode\in\mathbb{R}^{N_D\times H_{F}\times W_{F}} voraus.$ , die erwartete Nachfrage danach: $D^P=\sum_{i=1}^{N_D}P_{u,v,i}\times d_i$ Das endgültige Ergebnis der Tiefenschätzung ist $DPD^\text{pred}=\alpha D^R+(1-\alpha)D^P$ $D^\text{gt},$ die aus einer Punktwolke generiert wurde $D^{gt}$ wird als Überwachungssignal verwendet und die Verlustfunktionen sind Smooth L1 Loss bzw. Distributed Focal Loss: $L_\text{Tiefe }=\lambda_\text{sm}L_\text{SmoothL1}(D^\text{pred},D^\text{gr})+\lambda_\text{dfl}L_\text{dfl }(D^\text{pred},D^\text{gr},\mathbf{D})$ wobeiλ $\lambda_\text{sm}$ 和 $\lambda_\text{dfl}$ ist der Hyperparameter, $L_\text{dfl}$ Das Ziel besteht darin, zwei Tiefenintervalle in die Nähe des wahren Tiefenwerts zu bringen ( $d_i<D^\text{gt}<d_{i+1}$ ）概率最大: $L_\text{dfl }(D^\text{pred},D^\text{gr},\mathbf{D})=-\frac{d_{i+1}-D^\text{gt}}{d_\Delta}\ log(P_i)-\frac{D^\text{gt}-d_i}{d_\Delta}\log(P_{i+1})$
Koordinatentransformation von 2D nach 3D: Sei $K_i\in\mathbb{R}^{3\times3}$ ist Teil $Interne Parametermatrix von i$ Kameras, $R_i\in\mathbb{R}^{3\times3}$ 和 $T_i\in\mathbb{R}^{3\times1}$ jeweils aus $Rotationsmatrix und Translationsmatrix vom i-ten$ Kamerakoordinatensystem zum Lidar-Koordinatensystem, $P^\text{3D}_i(u,v)\in\mathbb{R} ^{ 3\times1}$ 2. $i$ Kamerapixel $(du, v)$ 对应的3D点，则 $P^\text{3D}_i(u, v)=R_iK_i^{-1}D_i^\text{pred}(u,v)\begin{bmatrix}u\\v\\1\end{bmatrix}^T+T_i$ Zum Schluss normalisieren Sie entsprechend dem 3D-Erfassungsbereich: $P^\text{3D}_{i,p}(u,v)=(P^\text{3D}_{i,p}(u,v)-p_{\min })/(p_{\max}-p_{\min}), \ \ p\in\{x,y,z\}$

4.3. 3D-Punkt-Encoder

Setze den 3D-Punkt $P^\text{3D}$ Import 3D-Punktübertragung 3DPPE: $\text{PE}_i(u,v)=\text{MLP}(\text{Cat}[\text{Sinus}(P^\text{3D }_ {i,x}(u,v)),\text{Sinus}(P^\text{3D}_{i,y}(u,v)),\text{Sinus}(P^\text {3D }_{i,z}(u,v))])$ , wobei die Sinus- und Cosinus-Positionscodes $\text{Sinus}$ ordnet 1D-Koordinaten $C /2-$ dimensionaler Vektor, MLP mit zwei linearen Schichten und einer ReLU $\text{MLP}$ wird $3 C /2-$ dimensionaler Vektor, abgebildet auf $C-$ dimensionaler Vektor.

4.4. Merkmale der 3D-Punktwahrnehmung

Fügen Sie 3DPPE- und Bildmerkmale Element für Element hinzu, um das 3D-Erfassungsmerkmal $F^\text{3D} zu erhalten$ 。

4.5. Änderungen am Decoder

Die lernbaren 3D-Referenzpunkte werden wie zuvor in denselben Encoder eingespeist, um 3DPPE $EQE^Q zu generieren$ abfragen $F.$ _ Daher $E^F$ undEQE $^Q$ stammt aus demselben Einbettungsraum, wodurch die Abfrage weiter verbessert wird.

5. Experimentieren

5.1. Vergleich mit der SotA-Methode

Im Vergleich zu PETR führt die Einführung von 3DPPE zu einer größeren Leistungsverbesserung, was auf die Vorteile von 3DPPE gegenüber Camera Ray PE hinweist.

5.2. Ablationsstudien

Auswirkungen der Tiefenqualität : Im Vergleich zu ohne Tiefenüberwachung führt die Einführung von $L_\text{SmoothL1}$ 和 $L_\text{dfl}$ Beides kann die Leistung verbessern.
Vergleich der 3D-Positionserkennungsfunktionen : Im Vergleich zu Camera Ray PE weist unser 3DPPE eine bessere Leistung auf.
Die Rolle des gemeinsam genutzten 3D-Punkt-Encoders : Durch experimentellen Vergleich mit dem nicht gemeinsam genutzten Encoder weist die Methode zur gemeinsamen Nutzung des Encoders in diesem Artikel eine bessere Leistung auf.

5.4. Diskussion weiterer Verbesserungen

Nutzung der zeitlichen Konsistenz : Durch die zeitliche Konsistenzmodellierung erzielt 3DPPE eine bessere Leistung.
Verwenden der GT-Tiefe für die Wissensdestillation : Trainieren Sie zunächst ein 3DPPE-Modell mit Deep Supervision, genannt 3DPPE-Oracle, und fügen Sie dann beim Training des Destillationsmodells 3DPPE-destillieren einen zusätzlichen Zweig zum Transformer-Decoder hinzu, wobei Sie die Gewichte mit dem ursprünglichen Zweig teilen, ihn aber abfragen Referenzpunkt Es wird so initialisiert, dass es mit 3DPPE-Oracle identisch ist (es wird während des Trainings nicht feinabgestimmt) und wird sowohl durch den Ground-Truth-Begrenzungsrahmen als auch durch die Vorhersageergebnisse von 3DPPE-Oracle überwacht. Experimente zeigen, dass Destillationsmodelle die Leistung verbessern.

Anhang

C. Analyse der 3D-Positionskodierung

C.1. 3D-Kamerastrahl PE

Experimente, die mit verschiedenen Tiefenbereichen, der Anzahl der Tiefenintervalle und Tiefenraumdiskretisierungsmethoden durchgeführt wurden, ergaben, dass die Ergebnisse nahezu unverändert waren. Daher bleibt die Leistung des Kamerastrahl-PE nahezu unverändert, solange die Richtung des Kamerastrahls dargestellt werden kann. Daher kann PE mit nur zwei Punkten auf dem Kamerastrahl durchgeführt werden.

C.2. Lidar-Ray-PE-Annahme

Wenn die Anzahl der Tiefenintervalle auf 1 festgelegt ist und für Experimente unterschiedliche Tiefenwerte ausgewählt werden, verringert sich die Leistung bei kleinerer Tiefe, bei größerer Tiefe bleibt die Leistung jedoch grundsätzlich unverändert. Dies weist darauf hin, dass es sich zu diesem Zeitpunkt nicht mehr um das Kamera-Ray-PE handelt. Da zur Bestimmung des Strahls zwei Punkte erforderlich sind und der Ursprung des LIDAR feststeht, kann der LIDAR-Strahl von einem Punkt aus bestimmt werden.
Fügen Sie hier eine Bildbeschreibung ein
zwischen Kamerastrahlen und Lidarstrahlen gemäß der Abbildung oben \text{Dis} $Dis$ : $\text{Dis}=1-\cos(\alpha)=1-\cos(\alpha_c-\arctan(\frac{\tan\alpha_c+\frac{\Delta}{d}}{1+\frac{d_ {L_c}}{d}}))\about0.0,\ \ \text{wenn }d\gg d_{L_c}\text{ und } d\gg \Delta$ $\$ alpha_c $A$ ist der horizontale Winkel des Kamerastrahls, $\alpha$ und dem Lidarstrahl. Die obigen Ergebnisse zeigen, dass, wenn $Wenn d$ sehr groß ist, ist der Lidar-Strahl im Wesentlichen derselbe wie der Kamerastrahl und kann mit dem Kamerastrahl PE übereinstimmen, wenn nur ein Punkt vorhanden ist.