ICCV 2023 Oral | Generación de nuevos campos de radiación neuronal de rayos cruzados en perspectiva a partir de colecciones de imágenes sin restricciones

imagen.png

Enlace del artículo: https://arxiv.org/abs/2307.08093
Enlace del código: https://github.com/YifYang993/CR-NeRF-PyTorch.git

01. Introducción

Este trabajo tiene como objetivo proporcionar una experiencia inmersiva en 3D mediante la síntesis de nuevas imágenes en perspectiva a partir de colecciones de imágenes ilimitadas, como imágenes extraídas de Internet. Este método permite a los usuarios apreciar puntos de referencia internacionales en cualquier época del año desde múltiples perspectivas, como la Puerta de Brandenburgo en Berlín, Alemania, y la Fuente de Tver en Roma, Italia.

Específicamente, supongamos que el usuario quiere ir a la Puerta de Brandenburgo para disfrutar del paisaje en diferentes momentos y en diferentes climas, pero el costo del viaje es demasiado alto por razones como estudios y trabajo, por lo que no puede ir allí en persona. Entonces, ¿cómo se puede "jugar con las nubes" en el lugar escénico en distintos climas, distintos momentos y desde múltiples ángulos sin salir?

En este momento, el CR-NeRF que propusimos puede resultar útil. Los usuarios solo necesitan recopilar fotografías de la Puerta de Brandenburgo de Internet, ya sean escenas de día, noche, primavera, verano, otoño o invierno, y luego usar CR-NeRF para generar una nueva imagen en perspectiva de la Puerta de Brandenburgo. CR-NeRF puede renderizar imágenes según el ángulo de la cámara y el estilo de imagen proporcionado por el usuario. A través de este método, los usuarios pueden experimentar las diversas escenas de la Puerta de Brandenburgo en el entorno virtual y sentir los cambios en el paisaje causados ​​por diferentes épocas y clima, lo que les permite visitar lugares mundialmente famosos desde casa y disfrutar de una experiencia de viaje inmersiva. Esta tecnología no solo ahorra tiempo y costos de viaje, sino que también brinda a los usuarios más posibilidades para explorar el mundo.

02. Resumen

Los campos de radiación neuronal (NeRF) es un método revolucionario para renderizar escenas que demuestra capacidades impresionantes para generar nuevas perspectivas a partir de imágenes de escenas estáticas mediante el muestreo de un solo rayo por píxel. Sin embargo, en la práctica, normalmente necesitamos recuperar NeRF de colecciones de imágenes sin restricciones, lo que enfrenta dos desafíos:

1) Las imágenes suelen tener cambios dinámicos en su apariencia debido a diferencias en el tiempo de toma y la configuración de la cámara;

2) Las imágenes pueden contener objetos transitorios, como personas y automóviles, que provocan oclusiones y artefactos.

Los enfoques tradicionales abordan estos desafíos explotando localmente los rayos individuales. Por el contrario, los humanos suelen percibir la apariencia y los objetos explotando información globalmente en múltiples píxeles. Para simular el proceso de percepción humana, en este artículo proponemos Cross-ray NeRF (CR-NeRF) , que utiliza información interactiva a través de múltiples rayos para sintetizar una nueva perspectiva sin oclusión y con la misma apariencia que la imagen. Específicamente, para modelar diferentes apariencias, primero proponemos usar características novedosas de rayos cruzados para representar múltiples rayos y luego recuperar la apariencia fusionando las estadísticas globales de los rayos (es decir, la covarianza de las características de los rayos y la apariencia de la imagen).

Además, para evitar oclusiones introducidas por objetos transitorios, proponemos un procesador de objetos transitorios e introducimos una estrategia de muestreo de cuadrícula para enmascarar objetos transitorios. Teóricamente, hemos descubierto que explotar la correlación entre múltiples rayos ayuda a capturar más información global. Además, los resultados experimentales en grandes conjuntos de datos del mundo real verifican la eficacia de CR-NeRF.

03. Motivación del método

A través de CR-NeRF, ingresamos fotografías bajo diferentes condiciones de iluminación para reconstruir una escena 3D con apariencia controlable y al mismo tiempo eliminar oclusiones en la imagen. La reconstrucción de NeRF con conjuntos de datos de imágenes de Internet enfrenta los dos desafíos siguientes.

  1. Apariencia diferente:  supongamos que dos turistas toman fotografías desde el mismo punto de vista, todavía se encuentran en diferentes condiciones: diferente tiempo de disparo, diferente clima (como soleado, lluvioso, con niebla), diferentes configuraciones de la cámara (como apertura, obturador, ISO). Esta condición cambiante da como resultado múltiples tomas de la misma escena desde la misma perspectiva que pueden parecer drásticamente diferentes.

  2. Oclusión transitoria:  los objetos transitorios, como automóviles y pasajeros, pueden oscurecer la escena. Dado que estos objetos a menudo sólo existen en una única imagen, a menudo no resulta práctico reconstruirlos con alta calidad. Los desafíos anteriores entran en conflicto con la suposición de escena estática de NeRF, lo que resulta en una reconstrucción inexacta, un suavizado excesivo y artefactos fantasma [1] .

Recientemente, los investigadores han propuesto varios métodos (NeRF-W [1]  ; Ha-NeRF [2] ) para abordar los desafíos anteriores. En la Figura 1 (a), NeRF-W y Ha-NeRF reconstruyen escenas 3D utilizando un enfoque de rayos de una sola cámara. Específicamente, este método fusiona características de apariencia y características de oclusión con características de un solo rayo por separado y luego sintetiza de forma independiente cada color de un nuevo píxel de vista. Un problema potencial con este enfoque es que se basa en información local de cada rayo (por ejemplo, información de un solo píxel de la imagen) para identificar la apariencia y los objetos transitorios.

Por el contrario, los humanos tienden a explotar la información global (por ejemplo, información en múltiples píxeles de la imagen), lo que proporciona una comprensión más completa de los objetos para observar su apariencia y lidiar con oclusiones. Con base en esto, proponemos utilizar el paradigma de rayos cruzados para manejar la apariencia cambiante y los objetos transitorios (ver Figura 1 (b)), donde utilizamos información global de múltiples rayos para recuperar la apariencia y manejar objetos transitorios. Luego, sintetizamos simultáneamente una región de una nueva vista.

MOTIVACIÓN.png
Figura 1: Diagrama de motivación de CR-NeRF

04. Método

Con base en el paradigma de rayos cruzados, proponemos campos de radiación neuronal de rayos cruzados (CR-NeRF). Como se muestra en la Figura 2, CR-NeRF consta de dos partes:

  1. Para modelar apariencias variables, proponemos una nueva característica de rayos cruzados para representar información de rayos múltiples. Luego fusionamos las características de los rayos cruzados y las características de apariencia de la imagen de entrada a través de una red de transformación de rayos cruzados utilizando estadísticas globales (por ejemplo, covarianza de características de los rayos cruzados). Las características fusionadas se introducen en el decodificador para obtener los colores de varios píxeles simultáneamente.

  2. En términos de procesamiento de objetivos transitorios, proponemos una perspectiva única que trata el procesamiento de objetivos transitorios como un problema de segmentación para detectar objetivos transitorios considerando la información global de las regiones de la imagen. Específicamente, segmentamos la imagen de entrada para obtener mapas de visibilidad de objetos. Para reducir la sobrecarga computacional, introducimos una estrategia de muestreo de cuadrícula que muestrea los rayos de entrada y las asignaciones segmentadas de manera idéntica para emparejarlos. Teóricamente analizamos que se puede capturar más información global utilizando la correlación entre múltiples rayos.

A continuación, describimos en detalle las dos partes de CR-NeRF.

PD: asumimos que el lector tiene conocimientos sobre NeRF, modelo de cámara, etc. Si no domina los conocimientos relevantes, consulte la parte preliminar del documento CR-NeRF.

tuberíav41.png

Figura 2: Flujo del método CR-NeRF

4.1 Módulo de transferencia de estilo

4.2 Módulo de procesamiento de oclusión

05. Experimento

5.1 Resultados cuantitativos

Realizamos experimentos extensos en los conjuntos de datos de la Puerta de Brandenburgo, el Sacre Coeur y la Fontana de Trevi. Como se muestra en la Tabla 1 , observamos que NeRF original tiene el peor rendimiento entre todos los métodos porque NeRF supone que la escena detrás de las imágenes de entrenamiento es estática. Al modelar incrustaciones de estilos y procesar objetos transitorios, NeRF-W y Ha-NeRF logran un rendimiento comparable en PSNR, SSIM y LPIPS. Debido a la ventaja de cruzar rayos, nuestro CR-NeRF supera a NeRF-W y Ha-NeRF.

cuanto.png
Tabla 1: Comparación entre los métodos CR-NeRF y SOTA

5.2 Experimentos de visualización

Presentamos resultados cualitativos para todos los métodos comparados en la Fig. 3 . Observamos que NeRF produce artefactos brumosos y una apariencia inexacta. NeRF-W y Ha-NeRF pueden reconstruir geometrías 3D más prometedoras y apariencias de modelos a partir de imágenes reales del terreno. Sin embargo, la geometría reconstruida no era lo suficientemente precisa, por ejemplo, la forma de la vegetación en Brandeburgo y el efecto fantasmal alrededor de las columnas, la cavidad del Sacre, etc. Además, los métodos existentes generan apariencias menos realistas, como la luz del sol sobre la estatua del Sacre, el cielo azul y el color gris del techo de Trevi. En comparación, nuestro CR-NeRF introduce un paradigma de rayos cruzados y, por lo tanto, logra un modelado de apariencia más realista y reconstruye una geometría consistente mediante la supresión de objetos transitorios.

alucinación_gifv21.png
Figura 3: Comparación entre los métodos CR-NeRF y SOTA

5.3 Experimento de ablación del módulo de transferencia de apariencia de rayos cruzados y el módulo de procesamiento de objetos transitorios

La Tabla 2 muestra los resultados experimentales de ablación de CR-NeRF en los conjuntos de datos de Brandenburg, Sacre y Trevi. Observamos que el rendimiento de nuestra línea de base (CR-NeRF-B) mejora gradualmente al agregar un módulo de migración de apariencia de rayos cruzados (CR-NeRF-A) y un módulo de procesamiento transitorio (CR-NeRF-T).

ablación.png
Tabla 2: Experimentos de ablación de CR-NeRF

5.4 Velocidad de razonamiento

tiempo de inferencia.png
Tabla 3: Comparación del tiempo de inferencia entre CR-NeRF y Ha-NeRF

5.5 Más experimentos

Realizamos experimentos de interpolación de características de apariencia, realizamos experimentos de comparación de transferencia de apariencia con métodos SOTA y también produjimos demostraciones en video. Lea nuestro artículo y visite el enlace de github.

06. Resumen y perspectivas

6.1 Resumen

Las aportaciones de este trabajo se resumen a continuación:

  • Un nuevo paradigma de rayos cruzados para sintetizar nuevas vistas a partir de colecciones de fotografías sin restricciones:  encontramos que los métodos existentes no logran producir resultados visuales satisfactorios a partir de colecciones de fotografías sin restricciones a través de un paradigma de nivel de un solo rayo, principalmente debido al descuido de las posibles interacciones cooperativas de rayos múltiples. . Para abordar este problema, proponemos un nuevo paradigma de rayos cruzados que explota la información global a través de múltiples rayos.

  • Esquema interactivo y global para manejar diferentes apariencias:  a diferencia de los métodos existentes que manejan cada rayo de forma independiente, representamos múltiples rayos introduciendo características de rayos cruzados, lo que facilita la interacción entre rayos a través de la covarianza de características. Esto nos permite inyectar información global de representación de la apariencia en la escena, lo que da como resultado un modelado de apariencia más realista y eficiente. Nuestro análisis teórico demuestra la necesidad de considerar múltiples rayos en el modelado de apariencia.

  • Una nueva técnica de segmentación para manejar objetos transitorios:  reformulamos el problema de objetos transitorios como un problema de segmentación. Segmentamos imágenes visibles utilizando información global de imágenes sin restricciones. Además, empleamos muestreo de cuadrícula para emparejar el mapa con múltiples rayos. Los resultados experimentales muestran que CR-NeRF elimina objetivos transitorios en imágenes reconstruidas.

6.2 Perspectivas

Todavía hay mucho margen de mejora en este trabajo. Por ejemplo, dijimos al final del artículo que actualmente, debido a la falta de supervisión GT para objetos transitorios, depende completamente del modelo profundo para aprender automáticamente el patrón de datos a partir de los datos, y todavía falta de modelado fino. Más importante aún, creemos que la definición de objetos instantáneos sigue siendo un problema sin resolver y lo dejamos para nuestro trabajo futuro.

Cita

[1] Martín-Brualla, Ricardo, et al. "Nerf en la naturaleza: campos de radiación neuronal para colecciones de fotografías sin restricciones". Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. 2021.

[2] Chen, Xingyu, et al. "Campos de radiación neuronal alucinada en la naturaleza". Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. 2022.

[3] Schwarz, Katja, et al. "Graf: campos de radiación generativos para síntesis de imágenes con reconocimiento 3D". Avances en sistemas de procesamiento de información neuronal 33 (2020): 20154-20166.


  Acerca de la comunidad de inteligencia artificial TechBeat

TechBeat (www.techbeat.net) está afiliado a Jiangmen Venture Capital y es una comunidad en crecimiento que reúne a las élites chinas globales de IA.

Esperamos crear más servicios y experiencias profesionales para los talentos de IA, acelerar y acompañar su aprendizaje y crecimiento.

¡Esperamos que esto se convierta en un terreno elevado para que aprendas conocimientos de IA de vanguardia, un terreno fértil para compartir tus últimos trabajos y una base para mejorar y luchar contra monstruos en el camino hacia el avance de la IA!

Introducción más detallada >> TechBeat, una comunidad de aprendizaje y crecimiento que reúne a las élites globales de IA chinas

Supongo que te gusta

Origin blog.csdn.net/hanseywho/article/details/132496824
Recomendado
Clasificación