Detección de imágenes: PETR: transformación de incrustación de posición para la detección de objetos 3D de múltiples vistas (ECCV 2022)

Descargo de responsabilidad: esta traducción es sólo un registro de estudio personal.

Información del artículo

Resumen

  En este artículo, desarrollamos la Transformación de incrustación de posición (PETR) para la detección de objetos 3D de múltiples vistas. PETR codifica la información de ubicación de las coordenadas 3D en características de la imagen, lo que da como resultado características 3D con reconocimiento de ubicación. La consulta de objetos puede percibir características 3D con reconocimiento de posición y realizar una detección de objetos de un extremo a otro. PETR logra un rendimiento de última generación (50,4 % NDS y 44,1 % mAP) en el conjunto de datos estándar nuScenes y ocupa el primer lugar en el punto de referencia. Puede servir como una base simple pero sólida para futuras investigaciones. El código está en https://github.com/megvii-research/PETR.

Palabras clave : incrustación de posición, transformador, detección de objetos 3D.

1. Introducción

  En los sistemas de conducción autónoma, la detección de objetos en 3D basada en imágenes multivista ha llamado mucho la atención debido a su bajo coste. Trabajos anteriores [6, 33, 49, 34, 48] abordaron principalmente este problema desde la perspectiva de la detección de objetos monoculares. En los últimos años, DETR [4] ha llamado la atención por su contribución en la detección de objetos de un extremo a otro. En DETR [4], cada consulta de objeto representa un objeto e interactúa con características 2D en el decodificador del transformador para producir predicciones (consulte la Figura 1 (a)). DETR3D [51] es simplemente una extensión del marco DETR [4], proporcionando una solución intuitiva para la detección de objetos 3D de un extremo a otro. Los puntos de referencia 3D predichos por la consulta del objeto se proyectan nuevamente en el espacio de la imagen a través de los parámetros de la cámara y se utilizan para muestrear características 2D en todas las vistas de la cámara (consulte la Fig. 1 (b)). El decodificador toma características de muestra y una consulta como entrada y actualiza la representación de la consulta de destino.

  Sin embargo, esta conversión de 2D a 3D en DETR3D [51] puede introducir varios problemas. Primero, las coordenadas predichas del punto de referencia pueden no ser tan precisas, lo que hace que las características muestreadas salgan del área objetivo. En segundo lugar, solo se recopilan las características de la imagen de los puntos proyectados y el aprendizaje de la representación no se puede realizar desde una perspectiva global. Además, el complejo proceso de muestreo de características obstaculizará la aplicación práctica del detector. Por lo tanto, la creación de un marco de detección de objetos 3D de extremo a extremo sin conversión de 2D a 3D en línea ni muestreo de características sigue siendo un problema heredado.

inserte la descripción de la imagen aquí

Figura 1. Comparación de DETR, DETR3D y nuestro PETR propuesto. (a) En DETR, una consulta de objeto interactúa con características 2D para realizar una detección 2D. (b) DETR3D proyecta repetidamente los puntos de referencia 3D generados en el plano de la imagen y toma muestras de características 2D para interactuar con la consulta del objeto en el decodificador. (c) PETR genera características 3D con reconocimiento de posición codificando incrustaciones de posición 3D (3D PE) en características de imagen 2D. Las consultas de objetos interactúan directamente con funciones 3D con reconocimiento de posición y generan resultados de detección 3D.

  En este artículo, nuestro objetivo es desarrollar un marco simple y elegante para la detección de objetos 3D basado en DETR [4]. Nos preguntamos si era posible convertir funciones 2D de vista múltiple a funciones compatibles con 3D. De esta forma, la consulta de destino se puede actualizar directamente en el entorno 3D. Nuestro trabajo se inspira en estos avances en las representaciones neuronales implícitas [17, 8, 32]. En MetaSR [17] y LIFF [8], los valores RGB de alta resolución (HR) se generan a partir de entradas de baja resolución (LR) codificando la información de coordenadas HR en características LR. En este artículo, intentamos convertir características 2D de imágenes de múltiples vistas en representaciones 3D codificando incrustaciones de posiciones 3D (consulte la Figura 1 (c)).

  Para lograr esto, el espacio frustum de la cámara compartido por diferentes vistas se discretiza primero en coordenadas de cuadrícula. Luego, las coordenadas se transforman mediante diferentes parámetros de la cámara para obtener coordenadas en el espacio mundial 3D. Luego, las características de la imagen 2D extraídas de la columna vertebral y las coordenadas 3D se ingresan a un codificador de posición 3D simple para producir características 3D con reconocimiento de posición. Las funciones 3D con reconocimiento de posición interactuarán con la consulta de objetos en el decodificador del transformador, y la consulta de objetos actualizada se utiliza además para predecir clases de objetos y cuadros delimitadores 3D.

  En comparación con DETR3D [51], la arquitectura PETR propuesta aporta muchas ventajas. Mantiene el espíritu de extremo a extremo del DETR original [4] al tiempo que evita la complicada proyección de 2D a 3D y el muestreo de características. Durante el tiempo de inferencia, las coordenadas de ubicación 3D se pueden generar sin conexión y usarse como incrustaciones de ubicación de entrada adicionales. Es relativamente fácil de implementar en la práctica.

  En resumen, nuestras aportaciones son:

  • Proponemos un marco simple pero elegante, llamado PETR, para la detección de objetos 3D de múltiples vistas. Las funciones de vista múltiple se transforman al dominio 3D codificando las coordenadas 3D. Las consultas de destino se pueden actualizar y generar predicciones 3D interactuando con funciones 3D con reconocimiento de ubicación.

  • Se introduce una nueva representación 3D con reconocimiento de posición para la detección de objetos 3D de múltiples vistas. Se introduce una función implícita simple para codificar información de posición 3D en funciones de vista múltiple 2D.

  • Los experimentos muestran que PETR logra un rendimiento de última generación (50,4% NDS y 44,1% mAP) en el conjunto de datos estándar nuScenes y ocupa el primer lugar en la clasificación de detección de objetos 3D.

2. Trabajo relacionado

2.1 Detección de objetivos basada en transformador

  Transformer [47] es un bloque de atención ampliamente utilizado para modelar dependencias a largo plazo. En el transformador, las características generalmente se agregan junto con incrustaciones posicionales, que proporcionan información de posición para imágenes [13, 53, 27], secuencias [15, 47, 11, 10, 54] y videos [1, 24, 52]. Transformer XL [10] utiliza incrustaciones posicionales relativas para codificar la distancia relativa de pares de tokens. ViT [13] agrega incrustaciones posicionales aprendidas a representaciones de bloques que codifican distancias entre diferentes bloques. MViT [24] descompone el cálculo de la distancia para incrustaciones posicionales relativas y modela la estructura espacio-temporal.

  Recientemente, DETR [4] introdujo transformadores en la tarea de detección de objetos 2D para la detección de un extremo a otro. En DETR [4], cada objeto se representa como una consulta de objeto, que interactúa con características de la imagen 2D a través de un decodificador transformador. Sin embargo, la velocidad de convergencia de DETR [4] es más lenta. [44] atribuyen la lenta convergencia al mecanismo de atención cruzada y al diseño DETR solo codificador. Además, muchas obras aceleran la convergencia añadiendo antecedentes de ubicación. SMAC [14] predice un mapa de peso 2D de tipo gaussiano como previo espacial para cada consulta. DETR deformable [58] asocia consultas de destino con puntos de referencia 2D y propone atención cruzada deformable para realizar interacciones escasas. [50, 30, 26] generan consultas de destino a partir de anclajes o anclajes utilizando ubicaciones previas para una convergencia rápida. SOLQ [12] se extiende desde DETR [58] para realizar clasificación, regresión de cuadros y segmentación de instancias simultáneamente utilizando consultas de destino.

2.2 Detección de objetos 3D basada en visión

  La detección de objetos 3D basada en visión consiste en detectar cuadros delimitadores 3D a partir de imágenes de la cámara. Muchos trabajos anteriores [6, 33, 20, 21, 41, 19, 2, 49, 48] realizan la detección de objetos 3D en vistas de imágenes. M3D-RPN [2] introduce convoluciones con reconocimiento de profundidad que aprenden funciones con reconocimiento de posición para la detección de objetos 3D. FCOS3D [49] convierte la verdad del terreno 3D en vistas de imágenes y extiende FCOS [46] para predecir parámetros cuboides 3D. PGD ​​​​[48] sigue FCOS3D [49] y utiliza una representación probabilística para capturar la incertidumbre de profundidad. Alivia en gran medida el problema de la estimación de profundidad al tiempo que introduce más presupuesto computacional y mayor latencia de inferencia. DD3D [34] demostró que el entrenamiento previo profundo en conjuntos de datos de profundidad a gran escala puede mejorar significativamente el rendimiento de la detección de objetos 3D.

  Recientemente, varios trabajos han intentado realizar la detección de objetos 3D en un espacio mundial 3D. OFT [39] y CaDDN [38] mapean características de imágenes monoculares en una vista de pájaro (BEV) y detectan objetos 3D en el espacio BEV. ImVoxelNet [40] construye un volumen 3D en un espacio mundial 3D y muestra características de múltiples vistas para obtener una representación de vóxel. Luego se utilizan convoluciones 3D y cabezales de dominio específico para detectar objetos en escenas tanto interiores como exteriores. Similar a CaDDN [38], BEVDet [18] emplea Lift Splat Shoot [37] para convertir características de múltiples vistas 2D en representaciones BEV. Para la representación BEV, el cabezal CenterPoint [55] se utiliza para detectar objetos 3D de forma intuitiva. Siguiendo a DETR [4], DETR3D [51] representa objetos 3D como consultas de objetos. Los puntos de referencia 3D generados a partir de la consulta de objetos se proyectan repetidamente en todas las vistas de cámara y características 2D de muestra.

  Los métodos basados ​​en BEV tienden a introducir errores en el eje Z, lo que provoca un rendimiento deficiente en otras tareas de percepción 3D (por ejemplo, detección de carriles 3D). Los métodos basados ​​en DETR pueden beneficiarse más del modelado de un extremo a otro con más aumentos de entrenamiento. Nuestro método se basa en DETR para detectar objetos 3D de forma sencilla y eficaz. Codificamos información de ubicación 3D en funciones 2D, lo que da como resultado funciones 3D con reconocimiento de ubicación. Las consultas de objetos pueden interactuar directamente con esta representación 3D con reconocimiento de posición sin errores de proyección.

2.3 Representaciones neuronales implícitas

  Las representaciones neuronales implícitas (INR) generalmente asignan coordenadas a señales visuales a través de perceptrones multicapa (MLP). Este es un método eficiente para modelar objetos 3D [35, 9, 31], escenas 3D [32, 43, 36] e imágenes 2D [17, 8, 45, 42]. NeRF [32] adopta una red completamente conectada para representar una escena específica. Para sintetizar nuevas vistas, las coordenadas 5D a lo largo de los rayos de la cámara se ingresan en la red como consultas y generan densidades volumétricas y radiaciones emitidas dependientes de la vista. En MetaSR [17] y LIFF [8], las coordenadas HR se codifican en características LR y se pueden generar imágenes HR de tamaño arbitrario. Nuestro método puede verse como una extensión de INR para la detección de objetos 3D. Codifique imágenes 2D con coordenadas 3D para obtener funciones 3D con reconocimiento de posición. MLP transforma los anclajes en el espacio 3D en consultas de objetos e interactúan aún más con funciones 3D con reconocimiento de posición para predecir los objetos 3D correspondientes.

3. Método

3.1 Arquitectura general

  La Figura 2 muestra la arquitectura general del PETR propuesto. Dada una imagen I de N vistas I = { I i ∈ R 3 × HI × WI , I = 1 , 2 , … , N } I=\{I_i∈R^{3×H_I×W_I},I=1 , 2,…,N\}I={ yoyoR3 × altoyo× anchoyo,I=1 ,2 ,,N } , ingrese la imagen a la red troncal (por ejemplo, ResNet-50 [16]) para extraer características de vista múltiple 2DF 2 d = { F i 2 d ∈ RC × HF × WF, I = 1, 2,…, N } F^{2d}=\{F_i^{2d}∈R^{C×H_F×W_F},I=1,2,…,N\}F2 días={ Fi2 díasRC × AF× anchoF,I=1 ,2 ,,norte } . En el generador de coordenadas 3D, el espacio frustum de la cámara primero se discretiza en una malla 3D. Luego, los parámetros de la cámara transforman las coordenadas de la cuadrícula para generar coordenadas en el espacio mundial 3D. Las coordenadas 3D se ingresan al codificador de posición 3D junto con las características de vista múltiple 2D, lo que da como resultado características 3D con reconocimiento de posiciónF 3 d = { F i 3 d ∈ RC × HF × WF , I = 1 , 2 , … , N } F^{ 3d}=\{F_i^{3d}∈R^{C×H_F×W_F},I=1,2,…,N\}F3d_ _={ Fi3d _RC × AF× anchoF,I=1 ,2 ,,norte } . Las características 3D se ingresan adicionalmente al decodificador del transformador e interactúan con la consulta de destino generada por el generador de consultas. La consulta de objetos actualizada se utiliza para predecir clases de objetos, así como cuadros delimitadores 3D.

inserte la descripción de la imagen aquí

Figura 2. Arquitectura del paradigma PETR propuesto. Las imágenes de vistas múltiples se ingresan a una red troncal (por ejemplo, ResNet) para extraer características de imágenes 2D de vistas múltiples. En el generador de coordenadas 3D, el espacio frustum de la cámara compartido por todas las vistas se discretiza en una malla 3D. Las coordenadas de la cuadrícula se transforman mediante diferentes parámetros de la cámara para obtener coordenadas en el espacio mundial 3D. Luego, se inyectan características de imagen 2D y coordenadas 3D en el codificador de posición 3D propuesto para generar características 3D con reconocimiento de posición. La consulta de destino generada por el generador de consultas se actualiza mediante la interacción con las funciones 3D con reconocimiento de posición en el decodificador del transformador. La consulta actualizada se utiliza además para predecir cuadros delimitadores 3D y clases de objetos.

3.2 Generador de coordenadas 3D

Para establecer la relación entre la imagen 2D y el espacio 3D, proyectamos los puntos en el espacio frustum de la cámara al espacio 3D, ya que hay una asignación uno a uno de puntos entre los dos espacios. De manera similar a DGSN [7], primero discretizamos el espacio frustum de la cámara para generar( WF,hF,D ) cuadrícula. Cada punto de la cuadrícula se puede expresar comopjm = (uj × dj, vj × dj, dj, 1) T p^m_j=(u_j×d_j,v_j×d_j,d_j,1)^Tpagjm=( j×dj,vj×dj,dj,1 )T , donde( uj , vj ) (u_j,v_j)( j,vj) es la coordenada de píxeles en la imagen,dj d_jdjes el valor de profundidad a lo largo del eje normal al plano de la imagen. Dado que la cuadrícula es compartida por diferentes vistas, las coordenadas 3D correspondientes pi, j 3 d = (xi, j, yi, j, zi, j, 1) T p^ en el espacio mundial 3D se pueden calcular invirtiendo la proyección 3D { 3d}_{i,j}=(x_{i,j},y_{i,j},z_{i,j},1)^Tpagyo , j3d _=( xyo , j,yyo , j,zyo , j,1 )T :

inserte la descripción de la imagen aquí

donde K i ∈ R 4 × 4 K_i∈R^{4×4}kyoR4 x 4 es elsegundoLa matriz de transformación para i vistas, que establece la transformación del espacio mundial 3D al espacio frustum de la cámara. Como se muestra en la Figura 2, las coordenadas 3D de todas las vistas cubren el panorama de la escena transformada. Normalizamos aún más las coordenadas 3D como se muestra en la Ecuación 2.

inserte la descripción de la imagen aquí

其中[ xmin , ymin , zmin , xmax , ymax , zmax ] [x_{min},y_{min},z_{min},x_{max},y_{max},z_{max}][ xmin,ymin,zmin,Xmáx _,ymáx _,zmáx _] es la región de interés (RoI) en el espacio mundial 3D. HF×WF×D H_F×W_F×DhF×W.F×Las coordenadas normalizadas del punto D finalmente se transponen como P 3 d = { P i 3 d ∈ R ( D × 4 ) × HF × WF , i = 1 , 2 , … , N } P^{3d}=\ {P_i ^{3d}∈R^{(D×4)×H_F×W_F},i=1,2,…,N\}PAG3d_ _={ PAGi3d _R( D × 4 ) × AlF× anchoF,i=1 ,2 ,,norte }

inserte la descripción de la imagen aquí

Figura 3. Esquema del codificador de posición 3D propuesto. Las características de imágenes 2D de múltiples vistas se ingresan en una capa convolucional 1 × 1 para reducir la dimensionalidad. Las coordenadas 3D generadas por el generador de coordenadas 3D se convierten en incrustaciones de posiciones 3D mediante percepción multicapa. Las incrustaciones de posición 3D se suman con características de imagen 2D de la misma vista para producir características 3D con reconocimiento de posición. Finalmente, las características 3D con reconocimiento de posición se aplanan y se utilizan como entrada para el decodificador del transformador. F○ es la operación de aplanamiento.

3.3 Codificador de posición 3D

El propósito del codificador de posición 3D es convertir las características de la imagen 2D F 2 d = { F i 2 d ∈ RC × HF × WF , I = 1 , 2 , … , N } F^{2d}=\{F_i^ {2d }∈R^{C×H_F×W_F},I=1,2,…,N\}F2 días={ Fi2 díasRC × AF× anchoF,I=1 ,2 ,,N } se asocia con información de posición 3D para obtener características 3DF 3 d = { F i 3 d ∈ RC × HF × WF , I = 1 , 2 , … , N } F^{3d}=\{F_i^{3d }∈R^{C×H_F×W_F},I=1,2,…,N\}F3d_ _={ Fi3d _RC × AF× anchoF,I=1 ,2 ,,norte } . De manera similar a Meta-SR [17], el codificador de posición 3D se puede formular como:

inserte la descripción de la imagen aquí

donde ψ ( . ) ψ(.)ψ ( . ) es la función de codificación de posición, como se muestra en la Figura 3. A continuación, describimosψ ( . ) ψ(.)Implementación detallada de ψ ( . ) . Dada una característica 2D F2d y una coordenada 3D P3d, P3d se ingresa primero en una red de percepción multicapa (MLP) y se convierte en una incrustación de posición 3D (PE). Luego, la característica 2D F2d se transforma mediante una capa convolucional 1 × 1 y se agrega a 3D PE para formar una característica 3D con reconocimiento de posición. Finalmente, aplanamos las características 3D con reconocimiento de posición como un componente clave del decodificador del transformador.

Análisis de PE 3D : para demostrar el efecto de PE 3D, seleccionamos aleatoriamente tres puntos de PE en la vista frontal y calculamos la similitud de PE entre estos tres puntos y todos los PE de múltiples vistas. Como se muestra en la Figura 4, las regiones cercanas a estos puntos tienden a tener una mayor similitud. Por ejemplo, cuando seleccionamos el punto izquierdo en la vista frontal, la región derecha de la vista frontal izquierda tendrá una respuesta relativamente alta. Se muestra que 3D PE establece implícitamente la correlación de posición de diferentes vistas en el espacio 3D.

inserte la descripción de la imagen aquí

Figura 4. Similitud de incrustación de posición 3D. El punto rojo es la ubicación seleccionada en la vista frontal. Calculamos la similitud entre las incrustaciones posicionales de estas posiciones seleccionadas y todas las vistas de imágenes. Esto muestra que las regiones cercanas a estos puntos de selección tienden a tener una mayor similitud.

3.4 Generador y decodificador de consultas

Generador de consultas: el DETR [4] original utiliza directamente un conjunto de parámetros que se pueden aprender como consulta de destino inicial. Siguiendo el DETR deformable [58], DETR3D [51] predice puntos de referencia basados ​​en una consulta de objeto inicializada. Para aliviar la dificultad de convergencia en escenas 3D, similar a Anchor-DETR [50], primero inicializamos un conjunto de anclajes que se pueden aprender distribuidos uniformemente de 0 a 1 en el espacio mundial 3D. Luego, las coordenadas de los anclajes 3D se introducen en una pequeña red MLP con dos capas lineales y se genera una consulta de objeto inicial Q 0 Q_0.q0. En nuestra práctica, el uso de anclajes en el espacio 3D puede garantizar la convergencia de PETR, mientras que el uso de configuraciones en DETR o la generación de anclajes en el espacio BEV no pueden lograr un rendimiento de detección satisfactorio. Consulte nuestra sección Experimental para obtener más detalles.

Decodificador : para la red de decodificador, seguimos el decodificador de transformador estándar en DETR [4], que incluye L capas de decodificador. Aquí, formulamos el proceso de interacción en la capa decodificadora como:

inserte la descripción de la imagen aquí

donde Ω l Ω_lOhyoes el llésimo del decodificadorl capa. Q l ∈ RM × C Q_l∈R^{M×C}qyoRM × C es elllActualice la consulta de destino para la capa l . M y C son el número de consultas y canales, respectivamente. En cada capa de decodificador, las consultas de objetos interactúan con características 3D que reconocen la posición a través de redes de retroalimentación y atención de múltiples cabezales. Después de interacciones iterativas, la consulta de destino actualizada tiene una representación de alto nivel y puede usarse para predecir el objetivo correspondiente.

3.5 Caras y pérdidas

El cabezal de detección incluye principalmente dos ramas para clasificación y regresión. La consulta de objeto actualizada del decodificador se envía al cabezal de detección y predice la clase de objeto, así como la probabilidad del cuadro delimitador 3D. Tenga en cuenta el desplazamiento relativo de las predicciones de la rama de regresión con respecto a las coordenadas de anclaje. Para una comparación justa con DETR3D, también empleamos pérdida focal [25] para la clasificación y pérdida L1 para la regresión del cuadro delimitador 3D. Sea y = ( c , b ) y=(c,b)y=( c ,b )y ^ = ( c ^ , b ^ ) \hat{y}=(\hat{c},\hat{b})y^=(C^ ,b^ )denotan un conjunto de verdades fundamentales y predicciones, respectivamente. El algoritmo húngaro [22] se utiliza para la asignación de etiquetas entre la verdad fundamental y las predicciones. Suponiendo que σ es la función de asignación óptima, la pérdida por detección de objetos 3D se puede resumir como:

inserte la descripción de la imagen aquí

Aquí, L cls denota la pérdida focal para la clasificación y L reg es la pérdida L1 para la regresión. λ cls es un hiperparámetro que se utiliza para equilibrar diferentes pérdidas.

4. Experimentar

4.1 Conjuntos de datos y métricas

Validamos nuestro método en el punto de referencia nuScenes [3]. NuScenes es un conjunto de datos multimodal a gran escala que consta de datos recopilados por 6 cámaras, 1 lidar y 5 radares. El conjunto de datos tiene 1000 escenas, que se dividen oficialmente en 700/150/150 escenas para entrenamiento/validación/prueba respectivamente. Cada escena tiene 20 cuadros de video completamente anotados con cuadros delimitadores 3D cada 0,5 segundos. De acuerdo con las métricas de evaluación oficiales, informamos la puntuación de detección de nuScenes (NDS) y la precisión promedio promedio (mAP), así como el error de traducción promedio (mATE), el error de escala promedio (mASE), el error de orientación promedio (mAOE), la velocidad promedio. error (mAVE), error medio de atributo (mAAE).

4.2 Detalles de implementación

Para extraer características 2D, se utilizan ResNet [16], Swin Transformer [27] o VoVNetV2 [23] como red troncal. Las características C5 (salida de la etapa 5) se muestrean y se fusionan con las características C4 (salida de la etapa 4) para producir características P4. Las funciones P4 con resolución de entrada de 1/16 se utilizan como funciones 2D. Para la generación de coordenadas 3D, tomamos muestras de 64 puntos a lo largo del eje de profundidad después de una discretización incremental lineal (LID) en CaDDN [38]. Para los ejes X e Y, configuramos el área en [-61,2 m, 61,2 m], y para el eje Z, la configuramos en [-10 m, 10 m]. Las coordenadas 3D en el espacio mundial 3D están normalizadas a [0, 1]. Siguiendo DETR3D [51], establecemos λcls=2,0 para equilibrar la clasificación y la regresión.

  PETR se entrena utilizando el optimizador AdamW [29] con una caída de peso de 0,01. La tasa de aprendizaje es 2,0 × 1 0 − 4 2,0 ​​× 10^{−4}2.0×1 0−4 inicializado y desintegrado con una estrategia de recocido de coseno [28] . Se adopta una estrategia de entrenamiento de múltiples escalas, donde el lado corto se selecciona aleatoriamente dentro de [640,900] y el lado largo es menor o igual a 1600. Según CenterPoint [55], la verdad fundamental de la instancia se rota aleatoriamente en el rango [-22,5°, 22,5°] en el espacio 3D. Todos los experimentos se entrenaron durante 24 épocas (programación 2x) en 8 GPU Tesla V100 con un tamaño de lote de 8. No se utilizó ningún método de aumento del tiempo de prueba durante la inferencia.

Tabla 1. Comparación de trabajos recientes sobre colecciones de nuScenes val. Los resultados de FCOS3D y PGD se ajustan y prueban aumentando el tiempo de prueba. DETR3D, BEVDet y PETR utilizan CBGS para entrenamiento [57]. †Iniciado desde la red troncal FCOS3D.

inserte la descripción de la imagen aquí

4.3 Comparación del estado del arte

Como se muestra en la Tabla 1, primero comparamos el rendimiento del conjunto de valores nuScenes con los métodos más modernos. Los resultados muestran que PETR logra el mejor rendimiento tanto en métricas NDS como en mAP. CenterNet [56], FCOS3D [49] y PGD [48] son ​​métodos típicos de detección de objetos 3D monoculares. En comparación con FCOS3D [49] y PGD [48], PETR con ResNet-101 [16] los supera en términos de NDS en un 2,7% y 1,4%, respectivamente. Sin embargo, el PGD [48] logra un mATE relativamente bajo debido a una supervisión profunda explícita. Además, comparamos PETR con los métodos de detección de objetos 3D multivista DETR3D [51] y BEVDet [18], que detectan objetos 3D en una vista unificada. Dado que DETR3D [51] y BEVDet [18] siguen configuraciones diferentes en términos de tamaño de imagen e inicialización de la red troncal, comparamos PETR con ellos por separado para una comparación justa. Nuestro método los supera en un 0,8% y un 1,4% respectivamente en NDS.

  La Tabla 2 muestra la comparación de rendimiento en el conjunto de pruebas de nuScenes. Nuestro método también logra el mejor rendimiento en NDS y mAP. Para una comparación justa con BEVDet [18], PETR con una red troncal Swin-S también se entrena utilizando un tamaño de imagen de 2112 × 768. Los estudios han demostrado que PETR es un 3,6% y un 1,8% mayor que BEVDet [18] en mAP y NDS, respectivamente. En particular, PETR con Swin-B logra un rendimiento comparable en comparación con los métodos existentes que utilizan datos externos. Cuando se utilizan datos externos, PETR con red troncal VOVNetV2 [23] logra 50,4 % de NDS y 44,1 % de mAP. Hasta donde sabemos, PETR es el primer método basado en la visión que supera el 50,0 % de NDS.

inserte la descripción de la imagen aquí

Figura 5. Análisis de convergencia y velocidad de PETR. (a) Comparación de convergencia de PETR y DETR3D [51]. PETR converge lentamente en la etapa inicial y requiere un programa de entrenamiento relativamente largo para converger completamente. (b) Análisis de rendimiento y velocidad para diferentes tamaños de red troncal y de entrada.

Tabla 2. Comparación de trabajos recientes en el conjunto de pruebas de nuScenes. *El entrenamiento con datos externos supone un aumento del tiempo de prueba.

inserte la descripción de la imagen aquí

  También analizamos la convergencia y velocidad de detección de PETR. Primero comparamos la convergencia de DETR3D [51] y PETR (ver Fig. 5 (a)). Durante las primeras 12 épocas, PETR converge relativamente más lento que DETR3D [51] y finalmente logra un mejor rendimiento de detección. Esto sugiere que PETR requiere un programa de entrenamiento relativamente largo para una fusión completa. Especulamos que la razón es que PETR aprende correlaciones 3D a través de la atención global, mientras que DETR3D [51] percibe escenas 3D en regiones locales. La Figura 5 (b) informa además el rendimiento de detección y la velocidad de PETR con diferentes tamaños de entrada. Los FPS se miden en una única GPU Tesla V100. Para el mismo tamaño de imagen (por ejemplo, 1056 × 384), nuestro PETR infiere 10,7 FPS, mientras que BEVDet [18] infiere 4,2 FPS. Tenga en cuenta que la velocidad de BEVDet [18] se mide en la GPU NVIDIA 3090, que es más potente que la GPU Tesla V100.

Tabla 3. Efecto de la incrustación de posición 3D. 2D PE es una incrustación posicional común utilizada en DETR. MV es una incrustación de ubicación de múltiples vistas para distinguir diferentes vistas. 3D PE es la incrustación de posiciones 3D propuesta en nuestro método.

inserte la descripción de la imagen aquí

Tabla 4. Diferentes métodos para analizar el espacio del tronco de cámara discreto y diferentes rangos de regiones de interés (ROI) para coordenadas 3D normalizadas. UD es una discretización uniforme, mientras que LID es una discretización lineal creciente.

inserte la descripción de la imagen aquí

4.4 Estudios de ablación

En esta sección, realizamos estudios de ablación de algunos componentes importantes de PETR. Todos los experimentos se realizan sin CBGS utilizando funciones C5 de una sola etapa de la columna vertebral ResNet-50 [57].

El efecto de la incrustación de posición 3D . Evaluamos el impacto de diferentes incrustaciones posicionales (PE) (ver Tabla 3). Cuando se utiliza solo PE 2D estándar en DETR, el modelo solo puede converger al 6,9 % de mAP. Luego agregamos una vista previa múltiple (convertir números de vista en PE) para distinguir diferentes vistas, lo que trajo una ligera mejora. Cuando solo se utiliza PE 3D generado a partir de coordenadas 3D, PETR puede lograr directamente un mAP del 30,5%. Esto sugiere que 3D PE proporciona una posición sólida antes de percibir la escena 3D. Además, el rendimiento se puede mejorar cuando combinamos PE 3D con PE 2D y vistas previas múltiples. Cabe señalar que las principales mejoras provienen del PE 3D, y que en la práctica se pueden utilizar opcionalmente PE 2D/vistas previas múltiples.

Generador de coordenadas 3D . En el generador de coordenadas 3D, discretice la vista en perspectiva en el espacio frustum de la cámara en una malla 3D. Las coordenadas transformadas en el espacio mundial 3D se normalizan aún más por región de interés (RoI).

Tabla 5. Estudios de ablación propuestos para diferentes componentes en PETR.

inserte la descripción de la imagen aquí

Aquí, exploramos la efectividad de diferentes métodos de discretización y rangos de RoI (consulte la Tabla 4). La discretización uniforme (UD) muestra un rendimiento similar en comparación con la discretización incremental lineal (LID). También probamos varias regiones de ROI comunes, y los rangos de ROI (−61,2 m, −61,2 m, −10,0 m, 61,2 m, 61,2 m y 10,0 m) lograron un mejor rendimiento que otros.

Codificador de posición 3D . Los codificadores de posición 3D se utilizan para codificar posiciones 3D en características 2D. Aquí, primero exploramos el efecto de la percepción multicapa (MLP) en la conversión de coordenadas 3D en incrustaciones de posiciones 3D. En la Tabla 5(a), se puede ver que, en comparación con la línea base sin MLP, la red con MLP simple puede mejorar el rendimiento en un 4,8% y un 5,3% en NDS y mAP, respectivamente (ajustando el número de canales de funciones 2D a D×4). Cuando se utilizan dos capas convolucionales de 3×3, el modelo no convergerá porque la convolución de 3×3 destruye la correspondencia entre las características 2D y las posiciones 3D. Además, comparamos diferentes métodos para fusionar características de imágenes 2D con PE 3D en la Tabla 5 (b). Las operaciones concatenadas logran un rendimiento similar en comparación con la suma y superan a la fusión multiplicativa.

generador de consultas . La Tabla 5 (c) muestra el efecto de diferentes consultas de generación de anclaje. Aquí comparamos cuatro tipos de anclajes: "Ninguno", "Fix-BEV", "Fix-3D" y "Learned-3D". El DETR original ("Ninguno") utiliza directamente un conjunto de parámetros que se pueden aprender como consulta de destino sin anclajes. La naturaleza global de la consulta de destino no permite que el modelo converja. "Fix-BEV" se refiere a generar anclajes fijos con un número de 39×39 en el espacio BEV. "Fix-3D" significa que el número de puntos de anclaje fijados en el espacio mundial 3D es 16 × 16 × 6. "Aprendido-3D" son anclajes que se pueden aprender definidos en el espacio 3D. Descubrimos que tanto "Fix-BEV" como "Fix-3D" tienen un rendimiento inferior al de los anclajes aprendidos. También exploramos el número de anclas (ver Tabla 5(d)), que oscila entre 600 y 1500. El modelo consigue el mejor rendimiento con 1500 anclajes. Teniendo en cuenta que el costo computacional aumenta con la cantidad de anclajes, simplemente usamos 1500 anclajes como compensación.

inserte la descripción de la imagen aquí

Figura 6. Análisis cualitativo de los resultados de detección en BEV y vistas de imágenes. El umbral de puntuación es 0,25 y la columna vertebral es ResNet-101. Los cuadros delimitadores 3D se dibujan con diferentes colores para distinguir diferentes clases.

inserte la descripción de la imagen aquí

Figura 7. Visualización del mapa de atención, generado por consultas de destino (correspondientes a camiones) en imágenes multivista. Tanto la vista frontal izquierda como la vista trasera izquierda tuvieron respuestas altas en el mapa de atención.

4.5 Visualización

La Figura 6 muestra algunos resultados de pruebas cualitativas. Proyecte y dibuje cuadros delimitadores 3D en el espacio BEV, así como en vistas de imágenes. Como se muestra en el espacio BEV, los cuadros delimitadores previstos están cerca de la verdad fundamental. Esto muestra que nuestro método logra un buen rendimiento de detección. También visualizamos mapas de atención generados a partir de consultas de destino en imágenes de múltiples vistas. Como se muestra en la Figura 7, las consultas de destino tienden a centrarse en el mismo destino, incluso en vistas diferentes. Esto sugiere que las incrustaciones de posiciones 3D pueden establecer correlaciones de posición entre diferentes vistas. Finalmente, proporcionamos algunos casos de falla (ver Figura 8). Los casos de falla están marcados con círculos rojos y verdes. Los círculos rojos muestran algunos objetos pequeños no detectados. Los objetos dentro de círculos verdes están clasificados erróneamente. Las detecciones falsas ocurren principalmente cuando diferentes vehículos tienen una gran similitud en apariencia.

inserte la descripción de la imagen aquí

Figura 8. Casos de fracaso del PETR. Marcamos los casos de falla con círculos rojos y verdes. Los círculos rojos son algunos objetivos pequeños no detectados. Los círculos verdes son objetivos mal clasificados.

5. Conclusión

Este artículo presenta una solución simple y elegante para la detección de objetos 3D de múltiples vistas. A través de la generación de coordenadas 3D y la codificación de posición, las características 2D se pueden transformar en representaciones de características 3D con reconocimiento de posición. Esta representación 3D se puede incorporar directamente a la arquitectura DETR basada en consultas y permitir la detección de un extremo a otro. Logra un rendimiento de vanguardia y puede servir como una base sólida para futuras investigaciones.

Agradecimientos : Esta investigación fue apoyada por el Programa Nacional Clave de Investigación y Desarrollo (No. 2017YFA0700800) y la Academia de Inteligencia Artificial de Beijing (BAAI).

Referencias

  1. Bertasius, G., Wang, H., Torresani, L.: ¿Es la atención espacio-temporal todo lo que necesita para comprender el vídeo? Preimpresión de arXiv arXiv:2102.05095 2(3), 4 (2021) 3
  2. Brasil, G., Liu, X.: M3d-rpn: Red de propuesta de región monocular 3D para detección de objetos. En: Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora. págs. 9287–9296 (2019) 3
  3. Caesar, H., Bankiti, V., Lang, AH, Vora, S., Liong, VE, Xu, Q., Krishnan, A., Pan, Y., Baldan, G., Beijbom, O.: nuscenes: Un conjunto de datos multimodal para la conducción autónoma. En: Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 11621–11631 (2020) 8
  4. Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: Detección de objetos de un extremo a otro con transformadores. En: Conferencia europea sobre visión por computadora. págs. 213–229. Saltador (2020) 1, 2, 3, 4, 7
  5. Chabra, R., Lenssen, JE, Ilg, E., Schmidt, T., Straub, J., Lovegrove, S., Newcombe, R.: Formas locales profundas: aprendizaje de antecedentes de sdf locales para una reconstrucción 3D detallada. En: Conferencia europea sobre visión por computadora. págs. 608–625. Saltador (2020) 4
  6. Chen, X., Kundu, K., Zhang, Z., Ma, H., Fidler, S., Urtasun, R.: Detección monocular de objetos 3D para conducción autónoma. En: Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones. págs. 2147-2156 (2016) 1, 3
  7. Chen, Y., Liu, S., Shen, X., Jia, J.: Dsgn: Red de geometría estéreo profunda para la detección de objetos 3D. En: Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 12536–12545 (2020) 5
  8. Chen, Y., Liu, S., Wang, X.: Aprendizaje de la representación continua de imágenes con función de imagen implícita local. En: Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 8628–8638 (2021) 2, 4
  9. Chen, Z., Zhang, H.: Aprendizaje de campos implícitos para el modelado generativo de formas. En: Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 5939–5948 (2019) 4
  10. Dai, Z., Yang, Z., Yang, Y., Carbonell, J., Le, QV, Salakhutdinov, R.: Transformer-xl: modelos de lenguaje atento más allá de un contexto de longitud fija. preimpresión de arXiv arXiv:1901.02860 (2019) 3
  11. Devlin, J., Chang, MW, Lee, K., Toutanova, K.: Bert: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. preimpresión de arXiv arXiv:1810.04805 (2018) 3
  12. Dong, B., Zeng, F., Wang, T., Zhang, X., Wei, Y.: Solq: Segmentación de objetos mediante consultas de aprendizaje. Avances en los sistemas de procesamiento de información neuronal 34 (2021) 3
  13. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a escala. preimpresión de arXiv arXiv:2010.11929 (2020) 3
  14. Gao, P., Zheng, M., Wang, X., Dai, J., Li, H.: Rápida convergencia de detr con coatención espacialmente modulada. En: Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora. págs. 3621–3630 (2021) 3
  15. Gehring, J., Auli, M., Grangier, D., Yarats, D., Dauphin, YN: Aprendizaje de secuencia convolucional a secuencia. En: Conferencia Internacional sobre Aprendizaje Automático. págs. 1243-1252. PMLR (2017) 3
  16. He, K., Zhang, X., Ren, S., Sun, J.: Aprendizaje residual profundo para el reconocimiento de imágenes. En: Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones. págs. 770–778 (2016) 4, 8, 9
  17. Hu, X., Mu, H., Zhang, X., Wang, Z., Tan, T., Sun, J.: Meta-sr: una red arbitraria de aumento para superresolución. En: Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 1575-1584 (2019) 2, 4, 6
  18. Huang, J., Huang, G., Zhu, Z., Du, D.: Bevdet: Detección de objetos 3D multicámara de alto rendimiento a vista de pájaro. Preimpresión de arXiv arXiv:2112.11790 (2021) 4, 9, 10
  19. J¨orgensen, E., Zach, C., Kahl, F.: Detección monocular de objetos 3D y ajuste de cajas entrenados de extremo a extremo mediante pérdida de intersección sobre unión. Preimpresión de arXiv arXiv:1906.08070 (2019) 3
  20. Kehl, W., Manhardt, F., Tombari, F., Ilic, S., Navab, N.: Ssd-6d: Hacer que la detección 3D basada en RGB y la estimación de pose 6D vuelvan a ser excelentes. En: Actas de la conferencia internacional IEEE sobre visión por computadora. págs. 1521-1529 (2017) 3
  21. Ku, J., Pon, AD, Waslander, SL: Detección monocular de objetos 3D que aprovecha propuestas precisas y reconstrucción de formas. En: Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 11867–11876 (2019) 3
  22. Kuhn, HW: El método húngaro para el problema de asignación. Logística de investigación naval trimestral 2 (1-2), 83–97 (1955) 8
  23. Lee, Y., Park, J.: Máscara central: segmentación de instancias sin anclajes en tiempo real. En: Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs.13906–13915 (2020) 8, 9
  24. Li, Y., Wu, CY, Fan, H., Mangalam, K., Xiong, B., Malik, J., Feichtenhofer, C.: Transformadores de visión multiescala mejorados para clasificación y detección. Preimpresión de arXiv arXiv:2112.01526 (2021) 3
  25. Lin, TY, Goyal, P., Girshick, R., He, K., Doll´ar, P.: Pérdida focal para la detección de objetos densos. En: Actas de la conferencia internacional IEEE sobre visión por computadora. págs. 2980–2988 (2017) 8
  26. Liu, S., Li, F., Zhang, H., Yang, X., Qi, X., Su, H., Zhu, J., Zhang, L.: Dab-detr: los cuadros de anclaje dinámicos son mejores consultas para destrucción. preimpresión de arXiv arXiv:2201.12329 (2022) 3
  27. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Transformador Swin: transformador de visión jerárquica que utiliza ventanas desplazadas. En: Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora. págs. 10012–10022 (2021) 3, 8
  28. Loshchilov, I., Hutter, F.: Sgdr: descenso de gradiente estocástico con reinicios en caliente. preimpresión de arXiv arXiv:1608.03983 (2016) 8
  29. Loshchilov, I., Hutter, F.: Regularización de la caída del peso desacoplada. preimpresión de arXiv arXiv:1711.05101 (2017) 8
  30. Meng, D., Chen, X., Fan, Z., Zeng, G., Li, H., Yuan, Y., Sun, L., Wang, J.: Detr condicional para una rápida convergencia del entrenamiento. En: Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora. págs. 3651–3660 (2021) 3
  31. Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A.: Redes de ocupación: aprendizaje de la reconstrucción tridimensional en el espacio funcional. En: Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 4460–4470 (2019) 4
  32. Mildenhall, B., Srinivasan, PP, Tancik, M., Barron, JT, Ramamoorthi, R., Ng, R.: Nerf: Representación de escenas como campos de radiación neuronal para síntesis de vistas. En: Conferencia europea sobre visión por computadora. págs. 405–421. Saltador (2020) 2, 4
  33. Mousavian, A., Anguelov, D., Flynn, J., Kosecka, J.: Estimación del cuadro delimitador 3D mediante aprendizaje profundo y geometría. En: Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones. págs. 7074–7082 (2017) 1, 3
  34. Park, D., Ambrus, R., Guizilini, V., Li, J., Gaidon, A.: ¿Se necesita un pseudo-lidar para la detección monocular de objetos 3D? En: Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora. págs. 3142–3152 (2021) 1, 3
  35. Park, JJ, Florence, P., Straub, J., Newcombe, R., Lovegrove, S.: Deepsdf: Aprendizaje de funciones de distancia continuas con signo para la representación de formas. En: Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 165-174 (2019) 4
  36. Peng, S., Niemeyer, M., Mescheder, L., Pollefeys, M., Geiger, A.: Redes de ocupación convolucionales. En: Conferencia europea sobre visión por computadora. págs. 523–540. Saltador (2020) 4
  37. Philion, J., Fidler, S.: Levantar, esparcir, disparar: codificar imágenes de equipos de cámara arbitrarios mediante la desproyección implícita en 3D. En: Conferencia europea sobre visión por computadora. págs. 194-210. Saltador (2020) 4
  38. Reading, C., Harakeh, A., Chae, J., Waslander, SL: Red de distribución de profundidad categórica para la detección monocular de objetos 3D. En: Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 8555–8564 (2021) 3, 4, 8
  39. Roddick, T., Kendall, A., Cipolla, R.: Transformación de características ortográficas para la detección monocular de objetos 3D. preimpresión de arXiv arXiv:1811.08188 (2018) 3
  40. Rukhovich, D., Vorontsova, A., Konushin, A.: Imvoxelnet: proyección de imagen a vóxeles para detección de objetos 3D de uso general monocular y de múltiples vistas. En: Actas de la Conferencia de Invierno IEEE/CVF sobre Aplicaciones de la Visión por Computadora. págs. 2397–2406 (2022) 3
  41. Simonelli, A., Bulo, SR, Porzi, L., L´opez-Antequera, M., Kontschieder, P.: Detección de objetos 3D monoculares desenredados. En: Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora. págs. 1991–1999 (2019) 3
  42. Sitzmann, V., Martel, J., Bergman, A., Lindell, D., Wetzstein, G.: Representaciones neuronales implícitas con funciones de activación periódicas. Avances en los sistemas de procesamiento de información neuronal 33, 7462–7473 (2020) 4
  43. Sitzmann, V., Zollhofer, M., Wetzstein, G.: Redes de representación de escenas: representaciones neuronales continuas de escenas tridimensionales conscientes de la estructura. Avances en los sistemas de procesamiento de información neuronal 32 (2019) 4
  44. Sun, Z., Cao, S., Yang, Y., Kitani, KM: Repensar la predicción de conjuntos basada en transformadores para la detección de objetos. En: Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora. págs. 3611–3620 (2021) 3
  45. Tancik, M., Srinivasan, P., Mildenhall, B., Fridovich-Keil, S., Raghavan, N., Singhal, U., Ramamoorthi, R., Barron, J., Ng, R.: Las características de Fourier permiten Las redes aprenden funciones de alta frecuencia en dominios de baja dimensión. Avances en los sistemas de procesamiento de información neuronal 33, 7537–7547 (2020) 4
  46. Tian, ​​Z., Shen, C., Chen, H., He, T.: Fcos: Detección de objetos de una etapa totalmente convolucional. En: Actas de la conferencia internacional IEEE/CVF sobre visión por computadora. págs. 9627–9636 (2019) 3
  47. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, AN, Kaiser, L., Polosukhin, I.: Atención es todo lo que necesita. Avances en sistemas de procesamiento de información neuronal 30 (2017) 3
  48. Wang, T., Xinge, Z., Pang, J., Lin, D.: Profundidad probabilística y geométrica: detección de objetos en perspectiva. En: Conferencia sobre aprendizaje de robots. págs. 1475-1485. PMLR (2022) 1, 3, 9
  49. Wang, T., Zhu, X., Pang, J., Lin, D.: Fcos3d: Detección de objetos 3D monocular de una etapa totalmente convolucional. En: Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora. págs. 913–922 (2021) 1, 3, 9
  50. Wang, Y., Zhang, X., Yang, T., Sun, J.: Anchor detr: Diseño de consulta para detector basado en transformador. Preimpresión de arXiv arXiv:2109.07107 (2021) 3, 7
  51. Wang, Y., Vitor Campagnolo, G., Zhang, T., Zhao, H., Solomon, J.: Detr3d: detección de objetos 3D a partir de imágenes de múltiples vistas mediante consultas de 3D a 2D. En: En Conferencia sobre aprendizaje de robots. págs. 180-191 (2022) 1, 2, 4, 7, 8, 9, 10
  52. Wu, CY, Li, Y., Mangalam, K., Fan, H., Xiong, B., Malik, J., Feichtenhofer, C.: Memvit: transformador de visión multiescala con memoria aumentada para un reconocimiento de vídeo eficiente a largo plazo. Preimpresión de arXiv arXiv:2201.08383(2022)
  53. Wu, K., Peng, H., Chen, M., Fu, J., Chao, H.: Repensar y mejorar la codificación de posición relativa para transformadores de visión. En: Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora. págs. 10033–10041 (2021) 3
  54. Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, RR, Le, QV: Xlnet: preentrenamiento autorregresivo generalizado para la comprensión del lenguaje. Avances en sistemas de procesamiento de información neuronal 32 (2019) 3
  55. Yin, T., Zhou, X., Krahenbuhl, P.: Detección y seguimiento de objetos 3D basados ​​en el centro. En: Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 11784–11793 (2021) 4, 8
  56. Zhou, X., Wang, D., Kr¨ahenb¨uhl, P.: Objetos como puntos. Preimpresión de arXiv arXiv:1904.07850 (2019) 9
  57. Zhu, B., Jiang, Z., Zhou, X., Li, Z., Yu, G.: Agrupación y muestreo equilibrados de clases para la detección de objetos 3D en nubes de puntos. preimpresión de arXiv arXiv:1908.09492 (2019) 9, 11
  58. Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable detr: Transformadores deformables para la detección de objetos de un extremo a otro. Preimpresión de arXiv arXiv:2010.04159 (2020) 3, 7

Supongo que te gusta

Origin blog.csdn.net/i6101206007/article/details/132135226
Recomendado
Clasificación