[Notas de papel] NeRF-Det: Aprendizaje de la representación volumétrica basada en la geometría para la detección de objetos 3D con múltiples vistas

Enlace original: https://arxiv.org/abs/2307.14620

1. Introducción

  Los sensores de profundidad rara vez se utilizan en escenas interiores (como en dispositivos VR y AR), por lo que depender únicamente de cámaras para la detección de objetos 3D es un desafío. El método de modelado geométrico más directo es estimar la profundidad, pero los algoritmos de estimación de profundidad monocular no pueden estimar con precisión la profundidad y no pueden lograr la coherencia de múltiples vistas.
  Los campos de radiación neuronal (NeRF) han demostrado ser eficaces en el modelado de geometría, pero aplicarlos a la detección de objetos 3D es complejo porque

  1. La renderización de NeRF requiere un muestreo del espacio de alta frecuencia para evitar el alias, pero la resolución de la cuadrícula de volumen para la detección 3D es menor.
  2. El NeRF tradicional realiza una optimización escena por escena (es decir, es necesario entrenar un NeRF para cada escena), lo que provocará un retraso considerable en las tareas de detección de objetos 3D basadas en imágenes.
  3. NeRF puede aprovechar la coherencia de múltiples vistas para aprender geometría durante el entrenamiento, pero simplemente unir NeRF y la percepción (primero la reconstrucción y luego la detección) no puede brindar las ventajas de la coherencia de múltiples vistas.

  Este artículo propone NeRF-Det, que modela explícitamente la geometría de la escena como un campo de opacidad y entrena conjuntamente la rama NeRF y la red de detección 3D. Específicamente, este artículo proyecta muestras de rayos en imágenes y extrae características de mapas de características de imágenes de alta resolución. Para mejorar la generalización del modelo NeRF a escenas desconocidas, este artículo utiliza más características de imagen mejoradas anteriores como entrada de NeRF MLP para hacer que las características modeladas por NeRF sean más discriminativas. A diferencia del artículo anterior que une directamente NeRF y la percepción, este artículo conecta la rama NeRF y la rama de detección a través de un MLP compartido (utilizado para predecir el campo de densidad), de modo que el gradiente de la rama NeRF se pueda propagar hacia atrás al características de la imagen, lo cual es beneficioso para la rama de detección. Posteriormente, el campo de densidad se convierte en un campo de opacidad y se multiplica con las características de la cuadrícula de volumen distribuida uniformemente para reducir el peso de los espacios vacíos en las características de la cuadrícula de volumen. Finalmente, las características de malla volumétrica que tienen en cuenta la geometría se introducen en el cabezal de detección para su detección. Durante la inferencia, se eliminan las ramas NeRF, minimizando la sobrecarga adicional del detector original.
  Los experimentos muestran que modelar explícitamente la geometría como un campo de opacidad puede crear una mejor representación de malla de volumen, mejorando así en gran medida el rendimiento sin medición de profundidad. Si se utiliza la medición de profundidad durante el entrenamiento, el rendimiento se puede mejorar aún más y no se requiere inferencia. . Además, los experimentos sobre síntesis de nuevas vistas y estimación de profundidad muestran que nuestro método puede sintetizar imágenes de nuevas vistas razonables y realizar una estimación de profundidad precisa, lo que indica que las características de malla de volumen 3D de este artículo pueden expresar mejor la geometría de la escena.

3. Método

  Como se muestra en la figura, NeRF-Det realiza una detección de objetivos 3D basada en imágenes extrayendo características de la imagen y proyectándolas en una cuadrícula de volumen 3D. Utilice NeRF para inferir la geometría de la escena y utilice un MLP compartido para conectar la detección de objetos 3D con NeRF para mejorar la estimación de la geometría utilizando restricciones de múltiples vistas en NeRF.
Insertar descripción de la imagen aquí

3.1 rama de detección 3D

  Primero, las imágenes de vistas múltiples se ingresan en la columna vertebral de imágenes 2D. Utilice FPN para fusionar funciones de múltiples escalas y seleccionar las funciones de mayor resolución para generar una malla de volumen 3D. Específicamente, cree N x × N y × N z N_x\times N_y\times N_z
  en el espacio 3Dnortex×nortey×nortezvóxeles y luego proyecte el centro de cada vóxel en la imagen para obtener el índice de píxeles correspondiente. Las características de la imagen cercanas al punto de proyección se muestrean mediante la interpolación del vecino más cercano. Para puntos proyectados fuera de la imagen o ubicados detrás del plano de la imagen, establezca la función de vóxel en 0. Luego, se promedian los vóxeles efectivos de las características de múltiples vistas: V avg ( p ) = ∑ i = 1 M p V i ( p ) / M p V^{avg}(p)=\sum_{i=1} ^ {M_p}V_i(p)/M_pVun vg (p)=yo = 1METROpVyo( p ) / MpM p M_pMETROpes el número de proyecciones 2D válidas).
  Sin embargo, las características de malla de volumen generadas por el método anterior no consideran el espacio vacío, lo que hace que la expresión 3D sea borrosa. Este artículo propone utilizar la rama NeRF para mejorar la capacidad de la rama de detección para aprender geometría.

3.2 rama NeRF

  Muestreo de funciones : NeRF es un método de representación neuronal que se utiliza para la síntesis de nuevas vistas. NeRF anterior muestra características de cuadrículas de volumen 3D de alta resolución, lo que puede causar alias para tareas de detección 3D de baja resolución. Este artículo muestra características de mapas de características de imágenes de alta resolución, como se muestra en la figura. Específicamente, primero a lo largo del rayo r ( t ) = o + t × d comenzando desde la cámara \mathbf{r}(t)=\mathbf{o}+t\times \mathbf{d
![Inserte descripción de la imagen aquí](https://img-blog.csdnimg.cn/e88c9ad716c4453ba540882346e9342c.png
  }r ( t )=oh+t×d punto de muestreo (dondeo \mathbf{o}o es el punto inicial del rayo,d \mathbf{d}d es la dirección del rayo). Coordenada p \mathbf{p}en el rayoPara el punto p , su color c ( p , d )se puede calcular según la siguiente fórmulac ( pag ,d ) y densidadσ ( p ) \sigma(\mathbf{p})σ ( p ) : σ(p), h^(p) = G-MLP(Vˉ(p), γ(p)) c(p,d) = C-MLP(h^(p),d) \ sigma(\mathbf{p}),\hat{\mathbf{h}}(\mathbf{p})=\text{G-MLP}(\bar{V}(\mathbf{p}),\gamma ( \mathbf{p}))\\\mathbf{c}(\mathbf{p},\mathbf{d})=\text{C-MLP}(\hat{\mathbf{h}}(\mathbf{ p }),\mathbf{d})σ ( p ) ,h^ (pag)=G-MLP (Vˉ (pag),c ( p ))c ( pag ,re )=C-MLP (h^ (pag),d ) dondeV ˉ ( p ) \bar{V}(\mathbf{p})Vˉ (p)es la característica de rayo agregada y mejorada a partir de características de múltiples vistas (ver más adelante),γ ( p ) \gamma{(\mathbf{p})}γ ( p ) es el código de posición,h ^ \hat{\mathbf{h}}h^ es una característica oculta. G-MLP \text{G-MLP}G-MLP se utiliza para estimar la geometría, mientras queC-MLP \text{C-MLP}C-MLP se utiliza para estimar el color. Para la función de activación, es la densidadσ ( p ) \sigma(\mathbf{p})σ ( p ) usa ReLU y colorc ( p , d ) \mathbf{c}(\mathbf{p},\mathbf{d})c ( pag ,d ) Utilice Sigmoide.
  Funciones mejoradas: los métodos anteriores no son suficientes para que G-MLP estime con precisión la geometría de la escena. Por lo tanto, este documento utiliza más antecedentes para ayudar a optimizar G-MLP. Primero calcule la varianza V var ( p ) = ∑ i = 1 M p ( V i ( p ) − V avg ( p ) ) 2 / M p V^{var}(p)=\sum_{ desde diferentes características de muestreo de vista.i=1}^{M_p}(V_i(p)-V^{promedio}(p))^2/M_pVvar (p) _ _=yo = 1METROp( v.yo( pag )Vavg (pag)) _2 /MpRealizar mejoras. La variación de las características de color puede expresar aproximadamente la ocupación del campo 3D: si una posición 3D p \mathbf{p}Si p está ocupado, la variación de características debería ser pequeña.
  Además, los valores RGB se utilizan para funciones de muestreo mejoradas (también se calculan la media y la varianza de cada vista). Por lo tanto, la característica mejoradaV ˉ \bar{V}Vˉ{ V promedio, V var, RGB promedio, RGB var } \{V^{promedio},V^{var},RGB^{promedio},RGB^{var}\}{ Vun vg ,Vsomos _ _ _RG Bun vg ,RG Bempalme de v a r }. Las características mejoradas se generan a través de NeRF MLP para densidad y color. Este artículo utiliza la representación de vóxeles para generar el color y la profundidad del píxel final:C ^ = ∑ i = 1 N p T i α ici , D ( r ) = ∑ i = 1 N p T i α iti \hat{\mathbf{C } }=\sum_{i=1}^{N_p}T_i\alpha_i\mathbf{c}_i,D(r)=\sum_{i=1}^{N_p}T_i\alpha_it_iC^=yo = 1norteptyoayoCyo,D ( r )=yo = 1norteptyoayotyo其中T i = exp ⁡ ( − ∑ j = 1 i − 1 σ j δ t ) , α i = 1 − exp ⁡ ( − σ i δ t ) T_i=\exp(-\sum_{j=1}^{ i-1}\sigma_j\delta_t),\alpha_i=1-\exp(-\sigma_i\delta_t)tyo=exp ( -j = 1yo 1pagjdt) ,ayo=1exp ( -p _yodt)ti t_ityoeste es el numero iiLa distancia entre el punto de muestreo i y la cámara,δ t \delta_tdtes la distancia entre los puntos de muestra en el rayo.

3.3 Estimación de la geometría de la escena

  Este artículo utiliza campos de opacidad para el modelado de geometría de escenas. El campo de opacidad es una representación de malla volumétrica que representa la presencia de objetos en un área específica (es decir, si hay un objeto que no se puede ver a través, el campo de opacidad en esa área debe ser 1,0). Para generar el campo de opacidad, las características en la rama de detección se mejoran utilizando el mismo método descrito anteriormente, donde los pesos de G-MLP se comparten con la rama NeRF. Esto permite que el gradiente en NeRF regrese a la rama de detección, lo cual es beneficioso para el entrenamiento; además, las características de la cuadrícula de volumen mejoradas por la rama de detección se pueden ingresar directamente en G-MLP durante la inferencia. Fórmula G-MLP σ ( p ) = G-MLP ( V ˉ ( p ) , γ ( p ) ) \sigma(\mathbf{p})=\text{G-MLP}(\bar{V}(\mathbf {p}),\gamma(\mathbf{p}))pag ( pag )=G-MLP (Vˉ (pag),p \mathbf{p}en γ ( p ))p es la posición central del vóxel de la rama de detección.
  Posteriormente, el campo de densidad se convierte en un campo de opacidad:α ( p ) = 1 − exp ⁡ ( − σ ( p ) × δ t ) \alpha(\mathbf{p})=1-\exp(-\sigma( \mathbf{p})\times\delta_t)un ( pag )=1exp ( σ ( p )×dt) . Pero aquíδ t \delta_tdtNo se puede obtener porque no hay ningún rayo definido. Sin embargo, dado que la cuadrícula de volumen está distribuida uniformemente, δ t \delta_tdtes una constante, por lo que se puede eliminar de la fórmula para obtener α ( p ) = 1 − exp ⁡ ( − σ ( p ) ) \alpha(\mathbf{p})=1-\exp(-\sigma( \mathbf{p }))un ( pag )=1exp ( σ ( pags )) . Finalmente, el campo de opacidad se combina con la cuadrícula de funciones de detección 3DV avg V^{avg}Vun vg se multiplica por elementos.

3.4 Cabezal de detección 3D y objetivo de entrenamiento

  Este artículo utiliza el mismo cabezal de detección que ImVoxelNet, selecciona 27 posiciones candidatas para cada objeto y utiliza 3 convoluciones para predecir la categoría, el tamaño y la posición central.
  La rama NeRF y la rama de detección se entrenan conjuntamente y no es necesario optimizar la rama NeRF escena por escenario durante las pruebas. La rama de detección utiliza la misma pérdida que ImVoxelNet, incluida la pérdida focal, la pérdida de centralidad y la pérdida de localización para la clasificación. La rama NeRF utiliza pérdida fotométrica L c = ∥ C ^ ( r ) − C ^ gt ( r ) ∥ 2 L_c=\|\hat{C}(r)-\hat{C}_{gt}(r)\ | _2lc=C^ (r)C^gt _( r ) 2. Si hay un valor de profundidad verdadero, la pérdida de profundidad L d = ∥ D ( r ) − D gt ( r ) ∥ L_d=\|D(r)-D_{gt}(r)\|lre=re ( r )Dgt _( r ) , en el queD ( r ) D(r)D ( r ) es el resultado de la última ecuación de la Sección 3.2. La pérdida final de la red es la suma de las pérdidas anteriores.

4. Experimentar

4.1 Principales resultados

  Resultados cuantitativos : en comparación con el método SotA ImVoxelNet, NeRF-Det tiene un mejor rendimiento; el rendimiento mejora aún más después de utilizar una supervisión profunda, lo que demuestra que un mejor modelado geométrico es útil para la detección 3D. Dado que NeRF requiere una gran cantidad de iteraciones para optimizarse, este documento duplicó la cantidad de rondas de entrenamiento y obtuvo un rendimiento significativamente mejor. NeRF-Det reduce la brecha de rendimiento entre los métodos basados ​​en RGB y los basados ​​en puntos.
  Resultados cualitativos : la visualización muestra que NeRF-Det puede detectar bien escenas densas y objetos de múltiples escalas.
  Análisis del modelado de geometría de escena : esta sección compara el enfoque basado en campos de opacidad con el resto de los enfoques de modelado de geometría de escena.
  Uso de mapas de profundidad : se supone que los mapas de profundidad están disponibles durante las etapas de entrenamiento e inferencia. En este punto, cada característica de la imagen se coloca en una unidad de vóxel única según el mapa de profundidad. Intuitivamente, esto puede reducir la ambigüedad de la expresión de vóxeles. En el caso de utilizar mapas de profundidad real, el límite superior de rendimiento de NeRF-Det se puede determinar porque NeRF puede obtener un modelado geométrico de escena perfecto.
  En situaciones reales, no se puede obtener la profundidad real, por lo que este artículo utiliza NeuralRecon para representar el mapa de profundidad mediante reconstrucción geométrica fuera del cuadro delimitador. Sin embargo, los experimentos muestran que el rendimiento de este método es menor que el de ImVoxelNet, lo que indica que los errores de estimación de profundidad aumentan la incertidumbre de detección.
  Cuadrícula de volumen de costos : la forma convencional de calcular la cuadrícula de volumen de costos es utilizar la covarianza entre las vistas de origen y de referencia. Esto es similar a cómo este artículo calcula la variación de diferentes vistas. Este artículo utiliza convolución 3D para codificar la cuadrícula de volumen de costos, obtiene la cuadrícula de volumen de probabilidad a través de Sigmoide y la combina con la cuadrícula de volumen característica V avg V^{avg}Vse multiplica un vg . Los experimentos muestran que este método puede superar ligeramente a ImVoxelNet.
  Tenga en cuenta que NeRF-Det en este artículo es muy similar al método basado en la cuadrícula de volumen de costos después de eliminar la rama NeRF. La diferencia es: (1) Este artículo utiliza el valor promedio y el valor de color para mejorar el valor de variación en el cuadrícula de volumen de costos; (2) ) Este artículo utiliza MLP y funciones de opacidad en lugar de Sigmoide para modelar la geometría de la escena. Los experimentos muestran que el rendimiento de este método es cercano al del método basado en la cuadrícula de volumen de costos del párrafo anterior, y ambos pueden superar a ImVoxelNet.
  El uso de campos de opacidad para modelar la geometría de la escena puede lograr un mejor rendimiento. Esto muestra que los campos de opacidad modelan la geometría de la escena de manera más efectiva que las mallas de profundidad y volumen de costos previstas.
  En comparación con el método de primero NeRF y luego detección: en comparación con NeRF-RPN, NeRF-Det tiene un mejor rendimiento y el tiempo de inferencia se reduce considerablemente. Además, la alta sobrecarga computacional de NeRF-RPN hace que sea casi imposible entrenar en grandes conjuntos de datos.
  ¿ Puede la rama NeRF aprender la geometría de la escena? Este artículo verifica esto a través de una nueva síntesis de vista y estimación de profundidad de la rama NeRF.

4.2 Estudios de ablación

  Ablación de G-MLP y estrategia de muestreo de características : compartir G-MLP permite propagar restricciones de coherencia de múltiples vistas desde la rama NeRF a la rama de detección. El rendimiento cae significativamente en el caso de G-MLP sin compartir, donde la coherencia de múltiples vistas solo se propaga al tronco de la imagen.
  En el caso de compartir G-MLP, tanto las funciones de muestreo de imágenes de múltiples vistas como las funciones de muestreo de cuadrículas de volumen pueden superar a ImVoxelNet, y tanto la rama NeRF como la rama de detección de la primera pueden tener un mejor rendimiento. La relación proporcional entre el rendimiento de las dos ramas indica que una mejor optimización de NeRF puede conducir a un mayor rendimiento de detección.
  Estudio de ablación sobre diferentes pérdidas : Los experimentos muestran que la rama NeRF solo usa pérdida fotométrica y solo pérdida de profundidad, y el rendimiento de la rama de detección es similar, lo que indica que la consistencia RGB de múltiples vistas es suficiente para proporcionar pistas para aprender geometría. Sin ninguna pérdida, el rendimiento es similar a los métodos basados ​​en la red de volumen de costos.
  Investigación de ablación sobre diferentes características : la introducción de características de variación para mejorar puede mejorar significativamente el rendimiento, lo que indica que las características de variación de hecho pueden proporcionar antecedentes geométricos. Además, la introducción de RGB en la imagen también mejora el rendimiento, lo que demuestra que los colores de bajo nivel también pueden proporcionar pistas geométricas.
  Estudio de ablación sobre el impacto de la rama de detección en la síntesis de nuevas vistas : aunque NeRF puede promover la detección 3D a través del modelado de geometría de escena, la rama de detección tiene un impacto negativo en NeRF. Puede ser que la detección de ramas elimine los detalles de bajo nivel que requiere NeRF.

A. Conjuntos de datos y detalles de implementación

  Rama NeRF : se muestrean 2048 rayos de 10 nuevas vistas como señales de supervisión durante el entrenamiento. Durante el renderizado de malla volumétrica, si hay más de 8 puntos ubicados en el espacio vacío, el rayo se descartará y no se realizará ningún cálculo de pérdida.

C. Resultados adicionales

  Estudio de ablación sobre el número de vistas : el número de vistas utilizadas durante el entrenamiento permanece sin cambios (20) y el número de vistas cambia durante las pruebas. Se descubre que cuando aumenta el número de vistas utilizadas, el rendimiento mejora significativamente. La mejora de ImVoxelNet es limitada e incluso disminuye cuando el número de vistas supera las 100.

D. Discusión sobre la detección 3D en exteriores

  Para la detección en exteriores, pueden existir las siguientes dificultades: dificultad para garantizar la coherencia de múltiples vistas de los objetos en movimiento; cuadrícula de volumen de escena ilimitada; condiciones de iluminación que cambian rápidamente (lo que afecta la precisión RGB).

Supongo que te gusta

Origin blog.csdn.net/weixin_45657478/article/details/132473886
Recomendado
Clasificación