Una revisión del progreso de la renderización neuronal en 2022

Una revisión del progreso en la representación neuronal

Fuente: https://zhuanlan.zhihu.com/p/567654308

Artículo de revisión de EuroGraphics'2022 "Advances in Neural Rendering", marzo de 2022, con autores de MPI, Google Research, ETH, MIT, Reality Labs Research, Technical University of Munich y Stanford University.

La síntesis de imágenes y videos fotorrealistas está en el corazón de los gráficos por computadora y ha sido el foco de investigación durante décadas. Tradicionalmente, las imágenes compuestas de una escena se generan mediante algoritmos de renderizado, como la rasterización o el trazado de rayos, que toman como entrada una representación especialmente definida de la geometría y las propiedades del material. En conjunto, estas entradas definen la escena real y el contenido renderizado, conocido como representación de la escena (la escena consta de uno o más objetos). Las representaciones de escenas de ejemplo son mallas triangulares (p. ej., creadas por artistas), nubes de puntos (p. ej., de sensores de profundidad), mallas de volumen (p. ej., de tomografías computarizadas) o funciones de superficie implícitas (p. ej., campos de distancia con signo truncado) con texturas adjuntas. ). La reconstrucción de una representación de escena de este tipo a partir de observaciones utilizando una pérdida de representación diferenciable se conoce como gráficos inversos o representación inversa.

La representación neuronal está estrechamente relacionada, ya que combina ideas de gráficos de computadora clásicos y aprendizaje automático para crear algoritmos que sintetizan imágenes a partir de observaciones del mundo real. La renderización neuronal es un paso hacia el objetivo de sintetizar imágenes fotorrealistas y contenido de video. Los últimos años han visto un gran progreso en este campo, demostrando diferentes enfoques para inyectar componentes de aprendizaje en canalizaciones de renderizado.

Este último informe sobre el progreso en la representación neuronal se centra en métodos que combinan principios de representación clásica con representaciones de escenas 3D aprendidas (a menudo llamadas representaciones de escenas neuronales ). Una ventaja clave de estos enfoques es que son consistentes en 3D por diseño, lo que permite aplicaciones como la síntesis de nuevos puntos de vista de escenas capturadas. Además de los métodos para manejar escenas estáticas, se presentan la representación de escenas neuronales para modelar objetos deformables de cuerpo no rígido y la edición y composición de escenas. Si bien la mayoría de estos métodos son específicos de la escena, también se analizan las técnicas de generalización entre las clases objetivo y se pueden usar para tareas generativas. Además de revisar estos métodos de vanguardia, se describen los conceptos básicos y las definiciones utilizadas. Finalmente, se discuten los desafíos públicos y el impacto social.


Si bien los gráficos por computadora tradicionales permiten la generación de imágenes controlables de alta calidad de una escena, todos los parámetros físicos de la escena (por ejemplo, parámetros de la cámara, iluminación y materiales de los objetos) deben proporcionarse como entrada. Estimar estas propiedades físicas a partir de observaciones existentes, como imágenes y videos, es decir, renderizado inverso, es un gran desafío si se desea generar imágenes controlables de escenas reales, especialmente cuando el objetivo son imágenes sintéticas fotorrealistas.

Por el contrario, la representación neuronal es un campo emergente que permite representaciones compactas de escenas y la representación se puede aprender de las observaciones existentes mediante redes neuronales. La idea principal de la representación neuronal es combinar los conocimientos de los gráficos informáticos clásicos (basados ​​en la física) con los avances recientes en el aprendizaje profundo. De manera similar a los gráficos por computadora clásicos, el objetivo de la representación neuronal es generar imágenes fotorrealistas de manera controlada, como la síntesis de nuevos puntos de vista, la reiluminación, la deformación y la composición de escenas, etc.

Un buen ejemplo de esto son las recientes técnicas de renderizado neuronal que intentan separar los procesos de modelado y renderizado aprendiendo solo representaciones de escenas en 3D y confiando en las funciones de renderizado en gráficos por computadora para la supervisión. Por ejemplo, **Neural Radiative Fields (NeRF)** utiliza un perceptrón multicapa (MLP) para aproximar los campos de radiación y densidad de una escena 3D. Esta representación de volumen aprendida se puede renderizar desde cualquier cámara virtual mediante renderizado analíticamente diferenciable (es decir, integración de volumen). Para el entrenamiento, suponga que la escena se observa desde varios puntos de vista de cámara. Desde estos puntos de vista de entrenamiento, se renderiza una escena 3D estimada y se minimiza la diferencia entre las imágenes renderizadas y observadas, y la red se entrena en estas observaciones. Una vez entrenada, la escena 3D aproximada por la red neuronal se puede representar desde nuevos puntos de vista, lo que permite una síntesis controlable. A diferencia de los enfoques que usan redes neuronales para aprender funciones de representación, donde NeRF usa el conocimiento de los gráficos por computadora de manera más explícita, las nuevas vistas se generalizan mejor debido al sesgo inductivo (físico): estructuras 3D intermedias de densidad de escena y radios expresados. Como resultado, NeRF aprende valores de densidad y color físicamente significativos en el espacio 3D, y la integración de volumen y emisión de rayos inspirada físicamente se pueden representar continuamente en nuevas vistas.

La calidad de los resultados obtenidos, junto con la sencillez del método, ha supuesto una “explosión” en el campo. Se han realizado varios avances que mejoran la aplicabilidad, permiten la capacidad de control, la captura de escenarios que cambian dinámicamente y el tiempo de entrenamiento e inferencia. Dado que la representación neuronal es un campo de crecimiento muy rápido con un progreso significativo en muchas dimensiones diferentes, los métodos recientes y sus dominios de aplicación se clasifican para brindar una breve descripción general de los desarrollos.

En este informe, nos enfocamos en métodos avanzados de renderizado neuronal que combinan el renderizado clásico con representaciones 3D aprendibles (ver Figura).

La representación neuronal 3D subyacente es consistente en 3D por diseño y capaz de controlar diferentes parámetros de la escena. En este informe, brindamos una descripción general completa de las diferentes representaciones de escenas y detallamos la lógica del componente tomada de las canalizaciones de representación clásicas, así como del aprendizaje automático. Se presta más atención a los métodos para renderizar con campos y volúmenes de radiación neuronal. Sin embargo, aquí se ignoran los métodos de representación neuronal que razonan principalmente en el espacio de pantalla 2D, ni los métodos de supermuestreo neuronal y eliminación de ruido para imágenes con trazado de rayos.


Durante décadas, la comunidad de gráficos por computadora ha explorado una variedad de representaciones, incluidas nubes de puntos, superficies implícitas y paramétricas, mallas y volúmenes (ver figura).

Si bien estas representaciones están bien definidas en el campo de los gráficos por computadora, a menudo hay confusión en la literatura actual de representación neuronal, especialmente cuando se trata de representaciones implícitas y explícitas de superficies y volúmenes. A menudo, las representaciones de volumen pueden representar superficies, pero no al revés. Los volúmenes representan las características del volumen de almacenamiento, como la densidad, la opacidad o la ocupación, pero también pueden almacenar características multidimensionales, como el color o el brillo. A diferencia de las representaciones de volumen, las representaciones de superficie almacenan las propiedades de la superficie de destino. No se pueden usar para simular sustancias a granel como el humo (excepto como una aproximación aproximada). Hay contrapartes tanto continuas como discretas para las representaciones de superficie y volumen (ver la figura anterior). Las representaciones continuas son particularmente interesantes para los métodos de representación neuronal porque pueden proporcionar gradientes analíticos.

Hay dos formas comunes de renderizar una escena 3D en un plano de imagen 2D: proyección de rayos y rasterización , vea la figura a continuación. También se puede calcular una imagen renderizada de una escena definiendo una cámara en la escena. La mayoría de los métodos utilizan una cámara estenopeica, donde todos los rayos de la cámara pasan a través de un solo punto en el espacio (punto focal). Para una cámara dada, un rayo desde el origen de la cámara se puede proyectar en la escena para calcular una imagen renderizada.

Para modelar correctamente la imagen actual de la cámara hay que tener en cuenta el objetivo. Dejando de lado efectos como la profundidad de campo o el desenfoque de movimiento que deben modelarse durante la formación de la imagen, los efectos de distorsión también se agregan a la función de proyección. Desafortunadamente, no existe un modelo simple para capturar todos los diferentes efectos de lentes. Los paquetes de calibración, como los proporcionados por OpenCV, normalmente implementan modelos con hasta 12 parámetros de distorsión. Están modelados por polinomios de grado 5 y, por lo tanto, no son simplemente invertibles (lo que se requiere para el raycasting, no para el pointcasting). Los métodos de calibración de cámaras más modernos utilizan más parámetros, logran una mayor precisión y son invertibles y diferenciables.

La rasterización directa utiliza principalmente mallas, que se describen mediante un conjunto de vértices v y caras f, que conectan tres o cuatro vértices para definir una superficie. Una idea básica es que las operaciones geométricas en 3D solo pueden tratar con vértices: por ejemplo, transformar cada punto del mundo al sistema de coordenadas de la cámara con la misma matriz extrínseca E. Después de la conversión, los puntos fuera del tronco de visualización o con direcciones normales incorrectas se pueden eliminar, lo que reduce la cantidad de superficies de puntos que se procesarán en el siguiente paso. Las posiciones de los puntos proyectados en las coordenadas de la imagen también se pueden encontrar fácilmente a través de la matriz de referencia interna K. La información de superficie se puede utilizar para interpolar la profundidad de las primitivas de superficie, y la superficie superior se puede almacenar en el búfer z. Sin embargo, algunos efectos (por ejemplo, efectos de iluminación, sombras, reflejos) son difíciles de capturar de esta forma. Se puede subdividir en técnicas de rasterización "suaves".


A continuación se analizan varios enfoques para la representación neuronal y la representación de escenas neuronales por aplicación: nueva síntesis de puntos de vista para escenas estáticas, generalización a objetos y escenas, síntesis de puntos de vista para escenas no estáticas, edición y composición de escenas, reiluminación y edición de materiales, etc.

1 Nueva vista de síntesis

La síntesis de nueva vista es la representación de una escena dada desde nuevas posiciones de cámara dado un conjunto de imágenes y sus poses de cámara como entrada.

Los métodos de síntesis de vista se evalúan en función de varios criterios importantes. Obviamente, la imagen de salida debe ser lo más realista posible. Sin embargo, esto no es todo, quizás lo más importante es la consistencia 3D multivista. Las secuencias de video renderizadas deben mostrar un contenido 3D consistente sin parpadeos ni deformaciones a medida que la cámara se mueve por la escena. A medida que el campo de la representación neuronal ha madurado, la mayoría de los enfoques se han movido hacia la generación de una representación 3D fija, cuyo resultado se puede utilizar para generar nuevas vistas 2D. Este enfoque proporciona automáticamente un nivel de consistencia de vista múltiple que ha sido difícil de lograr en el pasado cuando se confiaba demasiado en redes convolucionales 2D de caja negra como generadores o renderizadores de imágenes.

Para resolver la resolución de la cuadrícula de vóxeles y las limitaciones de memoria, las redes de representación de escenas (SRN) combinan un renderizador neuronal basado en el seguimiento de esferas con un perceptrón multicapa (MLP) como representación de la escena, centrándose en la generalización de la escena e implementando Menos reconstrucción de lentes. La representación volumétrica diferenciable (DVR) aprovecha de manera similar los métodos de representación de superficies, pero demuestra que el sobreajuste de una sola escena permite la reconstrucción de una apariencia y geometría más complejas.

Neural Radiant Fields (NeRF) marca un gran avance en la aplicación de representaciones de escena basadas en MLP a la síntesis de vista de novela fotorrealista de una sola escena, vea la figura a continuación.

A diferencia de los métodos basados ​​en la superficie, NeRF aplica directamente un modelo de representación de volumen para sintetizar imágenes de un MLP, mapeando desde posiciones de entrada y direcciones de visualización hasta densidades y colores de volumen de salida. En función de la pérdida de representación a nivel de píxel de la imagen de entrada, se optimiza un conjunto diferente de pesos MLP para representar cada nueva escena de entrada.

Las representaciones de escenas basadas en MLP logran una resolución más alta que los volúmenes 3D discretos debido a la compresión diferenciable eficiente de la escena durante la optimización. Por ejemplo, renderizar una representación NeRF de una imagen de salida con una resolución de 800 × 800 requiere solo 5 MB de peso de red. En comparación, una cuadrícula de vóxeles RGBA de 800^3 consumiría cerca de 2 GB de almacenamiento.

Esta capacidad se puede atribuir al hecho de que NeRF aplica una codificación posicional a las coordenadas espaciales de entrada antes de pasar por el MLP. En comparación con trabajos anteriores que utilizan redes neuronales para representar superficies implícitas o volúmenes implícitos, el MLP de NeRF puede representar señales de frecuencia mucho más altas sin aumentar su capacidad (en términos de la cantidad de pesos de la red).

La principal desventaja de cambiar de mallas 3D discretas a representaciones basadas en MLP es la velocidad de renderizado. Calcular el color y la densidad de un solo punto en el espacio, en lugar de consultar directamente estructuras de datos simples, requiere evaluar una red neuronal completa (cientos de miles de operaciones de punto flotante). La implementación de NeRF en marcos estándar de aprendizaje profundo para renderizar una sola imagen de alta resolución toma decenas de segundos en una GPU de escritorio típica.

Existen algunos métodos de renderizado de volumen acelerado basados ​​en representaciones MLP, como Neural Sparse Voxel Fields y KiloNeRF. También hay varios métodos que almacenan en caché varias cantidades aprendidas por NeRF MLP en cuadrículas 3D dispersas, lo que permite la representación en tiempo real después de completar el entrenamiento, como SNeRG, FastNeRF, PlenOctrees y NeX-MPI, entre otros. Otra forma de acelerar el renderizado es entrenar la propia representación MLP, precalculando eficientemente algunas o todas las integrales de volumen a lo largo de los rayos, como AutoInt y Light Field Networks.

Muchos métodos nuevos utilizan estructuras de datos clásicas, como cuadrículas, cuadrículas dispersas, árboles y hash para acelerar el procesamiento y lograr tiempos de entrenamiento más rápidos. Instant Neural Graphics Primitives aprovecha la codificación hash de resolución múltiple, en lugar de estructuras de cuadrícula explícitas, lo que permite el entrenamiento de NeRF en segundos.

Otras mejoras incluyen datos supervisados ​​(por ejemplo, valores de profundidad), poses de cámara optimizadas, representaciones híbridas de superficie/volumen, mejoras de solidez y calidad (NeRF++, MipNeRF), una combinación de NeRF y métodos de imágenes computacionales estándar (Deblurr-NeRF, NeRF in the Dark, HDR-NeRF y NeRF-SR, etc.), escenas a gran escala y NeRF a partir de texto (Dream NeRF y CLIP NeRF), etc.


2 Generalización de objetivo y escena

Gran parte del trabajo implica la generalización de múltiples escenas y clases de destino basadas en representaciones de escenas neuronales estructuradas basadas en vóxeles, cuadrículas o no 3D. Aquí discutimos principalmente el último progreso en la generalización de representaciones de escenas basadas en MLP. Entre ellos, el método de sobreajuste de un solo MLP en una sola escena requiere una gran cantidad de datos de observación de imágenes, y el objetivo principal de la generalización en la representación de escenas es la síntesis de nuevas vistas dadas pocas o posiblemente solo una vista de entrada. Los métodos en la descripción general se clasifican de la siguiente manera: si explotan las condiciones locales o globales, si se pueden utilizar como modelos generativos no tradicionales, qué representaciones 3D se explotan (volumen, SDF u ocupación), qué datos de entrenamiento se requieren, y cómo se realiza la inferencia (a través del decodificador de codificación, el marco de decodificador automático o el metaaprendizaje basado en gradientes, etc.).

Hay dos formas clave de generalizar diferentes escenarios. Una clase de trabajo sigue un enfoque similar al renderizado basado en imágenes (IBR), donde múltiples vistas de entrada se deforman (deforman) y se combinan (combinan) para sintetizar nuevos puntos de vista. En el contexto de las representaciones de escenas basadas en MLP, esto generalmente se logra a través del condicionamiento local, donde las entradas de coordenadas de la representación de escena MLP se concatenan con vectores de características de variación local almacenados en una representación de escena discreta, como una cuadrícula de vóxeles.

PiFU utiliza un codificador de imágenes para calcular las características de una imagen de entrada y ajusta el MLP 3D de estas características mediante la proyección de coordenadas 3D en el plano de la imagen. Sin embargo, PiFU no tiene un renderizador diferenciable y, por lo tanto, requiere una supervisión 3D real. PixelNeRF y Pixel-Aligned Avatars explotan este enfoque en marcos de representación de volumen, donde estas características se agregan en múltiples vistas y el MLP genera campos de color y densidad, representados en forma de NeRF. Cuando se entrena en múltiples escenas, se puede aprender una escena anterior para la reconstrucción, reconstruyendo la escena desde varias vistas con alta fidelidad.

PixelNeRF también se puede entrenar en clases de objetos específicas, lo que permite la reconstrucción 3D de instancias de objetos a partir de una o más imágenes de pose. GRF utiliza un marco similar con un módulo de atención adicional para dar cuenta de la visibilidad de los puntos 3D en imágenes de entrada muestreadas de manera diferente. Stereo Radiance Fields extrae características de múltiples vistas contextuales de manera similar, pero aprovecha las coincidencias de correspondencia aprendidas entre pares de características de imágenes contextuales para agregar características a través de imágenes contextuales en lugar de una simple agregación promedio. Finalmente, IBRNet y NeR-Former introducen una red de transformadores en el muestreo de rayos para inferir la visibilidad. LOLNeRF aprende un modelo NeRF generalizado para imágenes de retrato con solo supervisión monocular. La red generadora se entrena conjuntamente, condicionada por vectores latentes específicos de la instancia. GeoNeRF construye un conjunto de cuerpos de costos concatenados y usa transformadores para inferir geometría y apariencia.

Una alternativa a los métodos basados ​​en imágenes tiene como objetivo aprender una representación global holística de la escena, en lugar de depender de imágenes u otras estructuras de datos espaciales discretas. Dado un conjunto de observaciones, su implementación describe la escena completa infiriendo un conjunto de pesos para una representación de escena MLP. Algunos trabajos hacen esto codificando la escena en un solo código latente de baja dimensión y luego usan este código para condicionar la representación de la escena MLP.

Las redes de representación de escena (SRN) asignan el código latente de baja dimensión a los parámetros de la representación de escena MLP a través de una hiperred y luego representan el MLP 3D resultante a través de ray-marching. Para reconstruir una instancia dada una vista de pose, SRN optimiza el código latente cuya representación coincide con la vista de entrada. La representación volumétrica diferenciable utiliza de manera similar la representación de superficies, calcula sus gradientes de forma analítica y realiza inferencias a través de un codificador CNN. Light Field Networks aprovecha el código latente de baja dimensión para parametrizar directamente el campo de luz 4D de una escena 3D, lo que permite una representación de evaluación única.

NeRF VAE incorpora a NeRF en un codificador automático variacional (VAE), que representa de manera similar toda la escena en un solo código latente, pero aprende un modelo generativo para permitir el muestreo.Sharf emplea un modelo generativo que convierte en vóxeles la forma del objetivo en una clase, que luego se sintoniza un campo de radiación neuronal de mayor resolución, que utiliza la representación de volumen para una mayor fidelidad en la nueva síntesis de vista.

Fig-NeRF modela la categoría objetivo como una forma de plantilla condicionada por un código latente que sufre una deformación condicionada por la misma variable latente. Esto permite que la red interprete ciertos cambios de forma como deformaciones más intuitivas. Fig-NeRF se enfoca en recuperar categorías de objetos de escaneos de objetos reales y también propone segmentar objetos de sus fondos con un modelo de fondo aprendido. Una alternativa es representar la escena como un código latente de baja dimensión y optimizar rápidamente los pesos de la representación de la escena MLP en unos pocos pasos de optimización a través del metaaprendizaje basado en gradientes. Esto se puede usar para reconstruir rápidamente el campo de radiación neuronal a partir de una pequeña cantidad de imágenes Cuando se entrena, el modelo preentrenado converge más rápido y requiere menos vistas que el entrenamiento de campo de radiación neuronal estándar.

Portrait-NeRF propone un enfoque de metaaprendizaje para recuperar NeRF a partir de una única imagen frontal de una persona. Para tener en cuenta las diferencias de pose entre los sujetos, los retratos en 3D se modelan en un marco de referencia estándar independiente de la pose, deformando cada sujeto con puntos clave en 3D. El NeRF de la escena se recupera rápidamente mediante metaaprendizaje basado en gradientes y ajustes locales en las características de la imagen.

En lugar de inferir códigos latentes de baja dimensión a partir de un conjunto de observaciones que buscan escenas 3D, se puede utilizar un enfoque similar para aprender modelos generativos incondicionales. Aquí, una representación de escena 3D equipada con un renderizador neuronal está integrada en una red adversarial generativa (GAN). En lugar de inferir códigos latentes de baja dimensión a partir de un conjunto de observaciones, se define una distribución de códigos latentes. En el pase hacia adelante, se muestrea una variable latente de esta distribución, se ajusta la representación de la escena MLP y el Neural Renderer renderiza la imagen. Esta imagen se puede utilizar en una derrota contradictoria. Dadas solo imágenes 2D, esto puede aprender un modelo generativo 3D de la forma y apariencia de la escena 3D. Un marco para la representación de escenas 3D paramétricas a través de cuadrículas de vóxeles, donde GRAF primero explota NeRF condicional y logra mejoras significativas en el fotorrealismo. Pi-GAN mejora aún más la arquitectura a través de un esquema de acondicionamiento FiLM ("Película: razonamiento visual con una capa de condicionamiento general") basado en una estructura SIREN ("Representaciones neuronales implícitas con funciones de activación periódicas").

Varios enfoques recientes han explorado diferentes direcciones para mejorar la calidad y la eficiencia de estos modelos generativos. El costo computacional y la calidad de la reconstrucción de la geometría se pueden mejorar mediante representaciones de superficie. Además de sintetizar imágenes de vista múltiple para el discriminador, ShadeGAN utiliza un paso de sombreado explícito para generar también representaciones de imágenes de salida bajo diferentes condiciones de iluminación para una reconstrucción de geometría de mayor calidad. Se han explorado muchos enfoques en términos de técnicas híbridas, donde las redes CNN basadas en imágenes se utilizan para optimizar la salida de los generadores 3D. Las redes de espacio de imagen se pueden entrenar con una resolución más alta y una salida de mayor fidelidad. Algunos enfoques exploran la descomposición de modelos generativos en espacios separados de geometría y textura. Aquí, algunos métodos aprenden textura en el espacio de la imagen, mientras que otros aprenden geometría y textura simultáneamente en 3D.

Si bien estos métodos no requieren más de una observación por escena 3D, ni requieren la verdad del suelo de la pose de la cámara, aún requieren el conocimiento de la distribución de la pose de la cámara (para imágenes de retrato, la distribución de la pose de la cámara debe producir ángulos de retrato plausibles). CAMPARI aborda esta limitación mediante el aprendizaje conjunto de distribuciones de poses de cámara y modelos generativos. GIRAFFE propone parametrizar la escena como una combinación de múltiples NeRF de primer plano (objeto) y un solo NeRF de fondo para aprender un modelo de generación de escena compuesto por múltiples objetos. El código latente se muestrea individualmente para cada NeRF y el renderizador de volumen lo sintetiza en una imagen 2D plausible.

3 Ampliación de escenas dinámicas

Los campos de radiación neuronal sin procesar se utilizan para representar escenas y objetos estáticos, y existen métodos que además manejan contenido que cambia dinámicamente. Estos métodos se pueden categorizar como métodos de representación que varían en el tiempo, que permiten la síntesis de nuevos puntos de vista de escenas que cambian dinámicamente en reproducciones sin modificar (por ejemplo, producir efectos de tiempo de viñetas), o como técnicas para controlar estados de deformación, que permiten que el contenido se sintetiza y edita con nuevos puntos de vista. El campo de radiación neural deformado puede implementarse implícita o explícitamente, como se muestra en la figura: el de la izquierda se implementa implícitamente, modulando el campo de radiación v sobre la deformación (tiempo t). El derecho se implementa explícitamente, utilizando un MLP deformable separado para deformar el espacio y hacer retroceder el desplazamiento (flecha azul) del espacio deformado (negro) al espacio de norma estático (amarillo). Esta deformación desvía los rayos de luz rectos hacia el campo de radiación estándar.

  • representación variable en el tiempo

NeRF variable en el tiempo permite la reproducción de videos con nuevos puntos de vista. Debido a la renuncia al control, estos métodos no dependen de un modelo de movimiento específico y, por lo tanto, pueden manejar objetos y escenas generales.

Mientras tanto, algunos trabajos propusieron varias extensiones de NeRF para escenas no rígidas. Primero se discuten los métodos para simular implícitamente las deformaciones. Si bien el NeRF original es estático y solo toma puntos en el espacio 3D como entrada, se puede extender para que varíe en el tiempo de una manera simple: además, las representaciones volumétricas pueden depender de vectores que representan estados deformados. En los métodos actuales, este condicionamiento emplea entradas temporales (posiblemente codificadas posicionalmente) o códigos latentes decodificados automáticamente en cada paso de tiempo.

El manejo de escenas no rígidas sin un conocimiento previo del tipo de objeto o la forma 3D es un problema mal planteado, y tales métodos emplean varios métodos de regularización geométrica, así como aprendizaje condicional en patrones de datos adicionales. Para fomentar la coherencia temporal de los reflejos y las opacidades, existen varios enfoques para aprender un mapa de flujo temporal de la escena entre pasos de tiempo adyacentes. Dado que esto se limita a pequeños vecindarios temporales, la síntesis sin distorsiones de nuevas vistas principalmente muestra la trayectoria de la cámara de entrada de cerca. tiempo espacial.

Los mapas de flujo de escena se pueden entrenar con una pérdida de reconstrucción que deforma la escena de otros pasos de tiempo al paso de tiempo actual, lo que fomenta la coherencia entre el flujo óptico estimado y las proyecciones 2D de flujo de escena, o puntos clave de seguimiento 3D para retroproyección. El flujo de la escena a menudo se ve limitado por pérdidas de regularización adicionales, como fomentar la suavidad espacial o temporal o la consistencia del ciclo hacia adelante y hacia atrás. A diferencia de los otros métodos mencionados, **Neural Radiance FLow (NeRFlow)** modela deformaciones con desplazamientos infinitesimales, lo que requiere integración con ODE neuronales para obtener estimaciones de compensación.

Además, algunos métodos utilizan mapas de profundidad estimados para supervisar la estimación de la geometría. Una limitación de esta regularización es que la precisión de la reconstrucción depende de la precisión del método de estimación de profundidad monocular. Por lo tanto, los artefactos del método de estimación de profundidad monocular se pueden ver en nuevas vistas.

Finalmente, los fondos estáticos a menudo se procesan por separado, lo que permite señales de vista múltiple para entradas monoculares temporales. Con este fin, algunos métodos estiman un segundo volumen estático que no está condicionado a la deformación, o introducen una pérdida de regularización suave para restringir el contenido de la escena estática.

NeRFlow se puede utilizar para la eliminación de ruido y vistas de superresolución de escenas preentrenadas. Las limitaciones de NeRFlow incluyen la dificultad para mantener fondos estáticos, manejar escenas complejas (movimiento y deformaciones rígidas no segmentadas) y generar nuevas vistas bajo trayectorias de cámara que son sustancialmente diferentes de las trayectorias de entrada.

Hasta ahora, los métodos emergentes modelan implícitamente las deformaciones con representaciones de escenas dependientes de la deformación. Esto hace que el control de la deformación sea engorroso y difícil. Otro trabajo desvincula la deformación de la geometría y la apariencia: descomponer la deformación en una función independiente sobre una escena canónica estática es un paso crucial hacia la controlabilidad. La deformación se implementa emitiendo rayos rectos en el espacio de deformación y deformándolos en la escena canónica, generalmente mediante la regresión de las compensaciones de puntos en los rayos rectos con un MLP basado en coordenadas. Esto se puede considerar como una deformación del espacio o un flujo de escena.

A diferencia del modelado implícito, estos métodos comparten información geométrica y de apariencia a lo largo del tiempo a través de la construcción de escenas canónicas estáticas, lo que proporciona correspondencias duras que no se desvían. Debido a esta fuerte restricción, a diferencia de los métodos implícitos, los métodos con deformaciones explícitas no pueden manejar cambios topológicos y demostrar resultados solo para escenas con un movimiento significativamente menor que los métodos implícitos.

D-NeRF utiliza un MLP de flexión de rayos sin regularización para simular deformaciones de objetos sintéticos únicos o múltiples segmentados desde el fondo, vistos a través de una cámara virtual. Supone que dado un conjunto predefinido de imágenes de vista múltiple, solo se selecciona una vista única para la supervisión durante el entrenamiento. Por lo tanto, D-NeRF puede considerarse como un paso intermedio entre las técnicas supervisadas de vista múltiple y los métodos supervisados ​​monoculares verdaderos.

Varios trabajos han demostrado resultados de escenas reales observados por cámaras monoculares en movimiento. La aplicación central de Deformable NeRF es la construcción de Nerfies, los selfies de punto de vista libre. NeRF deformable modula la deformación y la apariencia con códigos latentes decodificados automáticamente para cada vista de entrada. Los rayos de flexión se regularizan con un término lo más rígido posible (también conocido como término de energía elástica), lo que penaliza las desviaciones de las configuraciones de escena rígidas por partes.

Como resultado, Deformable NeRF funciona bien en escenas articuladas (por ejemplo, una mano que sostiene una raqueta de tenis) y escenas que involucran cabezas humanas (donde la cabeza se mueve en relación con el torso). Sin embargo, las pequeñas deformaciones no rígidas se manejan bien (como las sonrisas) porque el regularizador es blando. Otra innovación importante de este trabajo es el esquema de grueso a fino, que permite aprender primero los componentes de baja frecuencia y evita los mínimos locales debido al sobreajuste de los detalles de alta frecuencia.

HyperNeRF es una extensión de Deformable NeRF, que utiliza un hiperespacio canónico en lugar de un marco canónico único. Esto permite manejar escenas con cambios topológicos, como abrir y cerrar la boca. En HyperNeRF, la red de flexión (MLP) de Deformable NeRF se aumenta con una red de superficie de corte circundante (también MLP), que ajusta indirectamente la escena canónica deformable, eligiendo un subespacio canónico para cada vista RGB de entrada. Por lo tanto, es un modelo híbrido que combina modelado de deformación explícito e implícito, lo que permite sacrificar correspondencias duras para manejar cambios topológicos.

NeRF no rígido (NR NeRF) modela apariencias de escenas variables en el tiempo utilizando volúmenes canónicos de escena, marcadores de rigidez de escena (MLP) y operadores de flexión de rayos de marco (MLP). NR NeRF muestra que no se requieren señales de supervisión adicionales, como mapas de profundidad o flujo de escena, para procesar escenas con pequeñas deformaciones y movimientos no rígidos. Además, las deformaciones observadas son regularizadas por un operador de divergencia que impone restricciones de conservación de volumen que estabilizan las regiones ocluidas en relación con las vistas de entrada monocular supervisadas. En este sentido, tiene propiedades similares a los regularizadores elásticos de Nerfies, que penalizan las desviaciones de las deformaciones rígidas por tramos. Esta regularización hace que la trayectoria de la cámara de la nueva vista sea significativamente diferente de la trayectoria de la cámara de entrada. Si bien la capacidad de control aún está muy limitada, NR-NeRF demuestra varias ediciones simples en el campo de deformación aprendido, como la amplificación de movimiento o la eliminación dinámica del contenido de la escena.

Otros métodos no se limitan al caso de entrada monocular de video RGB, sino que consideran la presencia de otras entradas.

El método de campos de radiación de tiempo de vuelo (TöRF) reemplaza el conocimiento previo basado en datos para reconstruir contenido dinámico con mapas de profundidad de sensores de profundidad. A diferencia de la gran mayoría del trabajo de visión por computadora, TöRF utiliza mediciones de sensores ToF sin procesar (los llamados fasores), que brindan ventajas cuando se trata de regiones débilmente reflectantes y otras limitaciones de los sensores de profundidad modernos (por ejemplo, rango de profundidad operativo limitado). En el aprendizaje NeRF, la integración de la profundidad de la escena medida reduce el requisito de la cantidad de vistas de entrada, lo que da como resultado modelos nítidos y detallados. Las señales de profundidad proporcionan mayor precisión que NSFF y los campos de radiación neuronal espaciotemporal.

Neural 3D Video Synthesis configura y modela implícitamente las deformaciones con RGB multivista. El método primero entrena en fotogramas clave, explotando la suavidad temporal. También configura la cámara para que permanezca estática, el contenido de la escena es principalmente estático y muestra la luz de forma sesgada para el entrenamiento. Incluso para contenido dinámico más pequeño, los resultados son nítidos.

  • controlar el estado de deformación

Para controlar la deformación del campo de radiación neural, dichos métodos utilizan un modelo de movimiento específico de clase como representación básica del estado de deformación (por ejemplo, un modelo deformado de un rostro humano o un mapa esquelético deformado de un cuerpo humano).

NeRFace es el primer método para controlar implícitamente los campos de radiación neuronal utilizando modelos deformables. Utilizan un rastreador facial para reconstruir los parámetros de la forma de la mezcla facial y la pose de la cámara en la vista de entrenamiento (video monocular). El MLP se entrena en estas vistas con parámetros de forma de mezcla y un código latente por cuadro que se puede aprender como condicionamiento. Además, asumen un fondo estático conocido, lo que hace que el campo de radiación solo almacene información sobre rostros. Los códigos latentes se utilizan para compensar la pérdida de información de seguimiento (es decir, los hombros de la persona), así como los errores de seguimiento. Después del entrenamiento, el campo de radiación se puede controlar a través de los parámetros de forma de mezcla, lo que permite la recreación y la edición de expresiones.

Un campo de radiación neuronal controlado por audio ( AD-NeRF ) inspirado en NeRFace , en lugar de coeficientes de expresión, las funciones de audio extraídas por Deep-Speech se asignan a una función que proporciona condiciones para la representación del campo de radiación MLP. Si bien las expresiones se controlan implícitamente a través de señales de audio, se proporciona un control explícito sobre la postura rígida de la cabeza. Para sintetizar una vista de retrato de una persona, utilizaron dos campos de radiación separados, uno para la cabeza y otro para el torso.

"IM Avatar" amplía NeRFace en función del campo de la piel, que se utiliza para deformar un volumen canónico de NeRF con una nueva expresión y parámetros de pose.

Además de estos métodos de entrenamiento específicos del tema, Head-NeRF y MoFaNeRF proponen un modelo generalizado para representar rostros bajo diferentes puntos de vista, expresiones e iluminaciones. Al igual que NeRFace, sintonizan NeRF MLP controlando parámetros adicionales como la forma del personaje, la expresión, el albedo y la iluminación. Ambos métodos requieren una red refinada (red 2D) para mejorar los resultados aproximados de la representación de volumen basada en NeRF MLP condicional.

Si bien los métodos anteriores muestran resultados prometedores en escenarios de retratos, no son adecuados para deformaciones muy poco rígidas, especialmente el movimiento humano articulado capturado desde una sola vista. Por lo tanto, las incrustaciones de esqueleto humano deben explotarse explícitamente. **El campo de radiación articulado neuronal (NARF)** se entrena al posar imágenes anotadas. El objetivo articulado se descompone en varias partes rígidas del objetivo con su sistema de coordenadas local y variación de forma global en la parte superior. NARF convergente genera nuevas vistas mediante la manipulación de la pose, la estimación de mapas de profundidad y la realización de segmentaciones de partes del cuerpo.

En comparación con NARF, A-NeRF aprende un modelo de cuerpo neuronal somático específico del actor a partir de imágenes monoculares de manera autosupervisada. El método combina la capacidad de control explícito de los volúmenes NeRF dinámicos con incrustaciones esqueléticas humanas articuladas y reconstruye los campos de pose y radiación de forma sintética y analítica. Una vez entrenados, los campos de radiación se pueden utilizar para la síntesis de nuevos puntos de vista, así como para la relocalización del movimiento.

Cuando A-NeRF se entrena en video monocular, **Campos de radiación neuronal animables (ANRF)** es un método basado en esqueleto para reconstruir modelos humanos a partir de videos de múltiples vistas. Su componente central es una nueva representación del movimiento, un campo de peso híbrido neuronal, que se combina con un esqueleto humano en 3D para generar un campo de deformación. Similar a varios NERF no rígidos de propósito general, ANRF mantiene un espacio canónico y estima las correspondencias bidireccionales entre las entradas de múltiples vistas y los marcos canónicos.

El maniquí reconstruido que se puede animar se puede usar para renderizar puntos de vista arbitrarios y volver a renderizar en nuevas poses. Las mallas humanas también se pueden extraer de ANRF ejecutando el algoritmo de cubos de marcha en la densidad de volumen de puntos de espacio regularizados discretizados. El método logra una alta precisión visual para el modelo humano aprendido y, en trabajos futuros, se puede mejorar para manejar deformaciones complejas no rígidas de la superficie observada (como las causadas por ropa suelta).

Los métodos de Neural Body permiten una síntesis de vista novedosa de actuaciones humanas a partir de videos dispersos de múltiples vistas (por ejemplo, cuatro vistas simultáneas). Su método está condicionado por un modelo paramétrico de forma humana, SMPL, como un previo consciente de la forma. Asume que las representaciones neuronales recuperadas de diferentes marcos tienen el mismo conjunto de códigos latentes anclados a una cuadrícula deformable. Las líneas de base comunes, como NeRF rígido (aplicado por marca de tiempo) o Neural Volumes, asumen un conjunto más denso de imágenes de entrada. Por lo tanto, generar nuevas vistas de un cuerpo humano en movimiento a partir de varias imágenes de entrada simultáneas no puede competir con Neural Body. El método también se compara favorablemente con las técnicas de reconstrucción de malla humana como PIFuHD, que se basan en gran medida en el entrenamiento de datos 3D cuando se trata de la reconstrucción 3D de detalles finos de apariencia (p. ej., ropa única o que rara vez se usa).

Similar al método del cuerpo neuronal, Neural Actor (NA) y HVTR usan el modelo SMPL para representar el estado de deformación. Explotan al agente para desenvolver explícitamente el espacio 3D circundante en poses canónicas, en las que está incrustado NeRF. Para mejorar la recuperación de detalles geométricos y aparentes de alta fidelidad, utilizan un mapa de textura 2D adicional definido en la superficie SMPL como condición adicional a NeRF MLP.

H-NeRF es otra técnica para la reconstrucción 3D temporal utilizando condiciones fantasma. Al igual que Neural Body, requieren conjuntos de video escasos de cámaras sincronizadas y calibradas. Por el contrario, H-NeRF utiliza un modelo humano implícito estructurado con campos de distancia simbólica, lo que lleva a una representación más limpia y una geometría más completa. Similar a H-NeRF, DD-NeRF se construye sobre campos de distancia firmados, representando el cuerpo humano completo. Dada una imagen de entrada de vista múltiple y un volumen SMPL reconstruido, representan los valores SDF regresivos acumulados y de radiancia con el volumen.

Human-NeRF también se basa en múltiples vistas de la entrada, pero aprende un campo de radiación neuronal generalizado para la representación de puntos de vista arbitrarios, que se puede ajustar para actores específicos. Otro trabajo, llamado HumanNeRF, impulsa el campo de movimiento con un campo de movimiento no rígido genérico refinado de esqueleto, que muestra cómo entrenar un campo de radiación neuronal específico del actor basado en datos de entrada monoculares.

Mezcla de primitivas volumétricas para la representación en tiempo real de modelos humanos virtuales dinámicos y animables. La idea principal es modelar una escena u objeto con un conjunto de vóxeles que pueden cambiar dinámicamente de posición y contenido. Estas primitivas, como modelos basados ​​en partes, modelan los componentes de la escena. Cada vóxel es una cuadrícula de vóxeles generada por la red del decodificador a partir del código latente. Este código latente define la configuración de la escena (por ejemplo, la expresión facial en el caso de un rostro humano), que la red del decodificador utiliza para generar posiciones sin procesar y valores de vóxel (incluidos el color RGB y la opacidad).

Para renderizar, se utiliza un procedimiento de marcha de rayos para acumular valores de color y opacidad a lo largo de los rayos correspondientes para cada píxel. De manera similar a otros métodos NeRF dinámicos, los videos de vistas múltiples se utilizan como datos de entrenamiento. El método es capaz de crear representaciones en tiempo real de muy alta calidad que parecen realistas incluso en materiales difíciles como el cabello y la ropa. E-NeRF demuestra una solución de representación NeRF eficiente basada en tecnología de muestreo guiada por profundidad. Demuestran la representación en tiempo real de humanos en movimiento y objetos estáticos utilizando imágenes de vista múltiple como entrada.

4 Combinar y editar

Los métodos discutidos hasta ahora permiten reconstruir representaciones volumétricas de escenas estáticas o dinámicas y posiblemente generar nuevas vistas de ellas a partir de varias imágenes de entrada. Mantenga la escena observada sin cambios, excepto por modificaciones relativamente simples (como la eliminación del primer plano). Varios métodos recientes también permiten la edición de escenas 3D reconstruidas, es decir, la reorganización y la transformación afín de objetos y el cambio de su estructura y apariencia.

NeRF condicional puede cambiar el color y la forma de los objetivos rígidos observados en imágenes 2D mediante la edición manual del usuario (por ejemplo, se pueden eliminar algunas partes del objetivo). La función comienza con un solo NeRF entrenado en múltiples instancias de destino de la misma clase. Durante la edición, los parámetros de la red se ajustan para que coincidan con la forma y el color de la instancia recién observada. Una de las contribuciones de este trabajo es encontrar el subconjunto de parámetros ajustables que pueden propagar con éxito las ediciones del usuario para generar nuevas vistas. Esto evita costosas modificaciones a toda la red. CodeNeRF representa la variación de forma y textura en las clases objetivo. Similar a pixelNeRF , CodeNeRF puede sintetizar nuevas vistas de objetos invisibles. Aprende dos incrustaciones diferentes de forma y textura. En el momento de la prueba, estima la pose de la cámara, la forma 3D del objeto y la textura de una sola imagen, y se puede modificar continuamente cambiando el código latente. CodeneRF logra un rendimiento comparable a los métodos anteriores de reconstrucción 3D de una sola imagen sin asumir poses de cámara conocidas.

**Neural Scene Graphs (NSG)** es un método para sintetizar nuevas vistas de videos monoculares (vistas del propio vehículo) grabados mientras conduce. La técnica descompone una escena dinámica de múltiples objetos rígidos independientes en movimiento en un gráfico de escena aprendido que codifica transformaciones y radiaciones de objetos individuales. Por lo tanto, cada objetivo y fondo está codificado por una red neuronal diferente. Además, el muestreo de nodos estáticos se limita a cortes (que son paralelos al plano de la imagen) para mayor eficiencia, es decir, representaciones 2.5D. NSG requiere datos de seguimiento anotados para cada objeto de interés que se mueve rígidamente en una colección de marcos de entrada, y cada clase de objeto (por ejemplo, automóvil o autobús) comparte un solo cuerpo antes. El gráfico de escena neuronal se puede usar para generar nuevas vistas de la misma escena (es decir, observada) o editada (es decir, reorganizando objetos). Las aplicaciones de NSG incluyen la descomposición de fondo y primer plano, el enriquecimiento de conjuntos de datos de entrenamiento para la percepción automotriz y la mejora de la detección de objetos y la comprensión de la escena.

Otra representación jerárquica, NeRF espacial y temporalmente coherente ( ST-NeRF ) se basa en los cuadros delimitadores de todos los objetos articulados y que se mueven de forma independiente, lo que da como resultado múltiples capas y desenreda su información de posición, deformación y apariencia. La entrada a ST-NeRF es un conjunto de 16 videos simultáneos de cámaras colocadas en un semicírculo a intervalos regulares y una máscara de segmentación de fondo humano. El nombre del método sugiere que las restricciones de coherencia espaciotemporal se reflejan en su arquitectura, es decir, el módulo de deformación espaciotemporal y el módulo NeRF como espacio de calibre. ST-NeRF también acepta marcas de tiempo para dar cuenta de la evolución de la apariencia a lo largo del tiempo. Al renderizar una nueva vista, los rayos muestreados se proyectan en múltiples capas de escena, lo que da como resultado densidad y color acumulativos. ST-NeRF se puede usar para la edición de escenas neuronales, como cambiar la escala, mover, duplicar o eliminar artistas, y reprogramar el tiempo.

5 iluminación pesada y edición de materiales

La aplicación anterior se basa en un modelo de renderizado de emisor-absorbente simplificado, donde la escena se modela como cuerpos de partículas que bloquean y emiten luz. Si bien el modelo es lo suficientemente bueno para generar imágenes de la escena desde nuevos puntos de vista, no puede generar imágenes de la escena bajo diferentes condiciones de iluminación. Habilitar la reiluminación requiere una representación de la escena que simule el transporte de la luz a través de los volúmenes, incluida la dispersión de la luz por partículas con diversas propiedades materiales.

Neural Reflectance Fields propone extender NeRF para volver a encender por primera vez. A diferencia de NeRF, Neural Reflectance Fields no representa la escena como un campo de densidad de volumen y un campo de radiación relacionado con la vista, sino que representa la escena como un campo de densidad de volumen, superficie normal y función de distribución de reflectancia bidireccional (BRDF). Esto permite la renderización de escenas en condiciones de iluminación arbitrarias mediante el uso de la normal de superficie predicha y BRDF en cada ubicación 3D para evaluar la cantidad de luz entrante que las partículas en esa ubicación reflejan hacia la cámara. Sin embargo, para los modelos de renderizado de volumen neural, la evaluación de la visibilidad de cada fuente de luz desde cada punto a lo largo del rayo de la cámara es computacionalmente intensiva. Incluso considerando solo la iluminación directa, el MLP debe evaluar en ubicaciones densamente muestreadas entre cada punto a lo largo del rayo de la cámara y cada fuente de luz para calcular la iluminación entrante para representar ese rayo. El campo de reflejo neural solo se ilumina con un único punto de luz ubicado junto a la cámara, y el entrenamiento en las imágenes objetivo resultantes evita este problema, por lo que el MLP solo necesita evaluarse a lo largo del rayo de la cámara.

Otro trabajo reciente que recupera el modelo reencendido simplemente ignora la autooclusión y asume que todas las fuentes de luz en el hemisferio superior sobre cualquier superficie son completamente visibles, evitando la dificultad de calcular la visibilidad de la fuente de luz. Dos métodos, PhySG y NeRD , asumen una visibilidad completa de la fuente de luz y representan la iluminación ambiental y la escena BRDF como una mezcla de gaussianas esféricas para acelerar aún más el renderizado, de modo que la luz incidente se multiplique por la integral hemisférica de BRDF, que puede ser calculado en forma cerrada. Suponiendo que la visibilidad total de la luz funcione bien para la mayoría de los objetos convexos, esta estrategia no puede simular los efectos de la geometría de la escena que ocluye las fuentes de luz, como las sombras proyectadas.

Los campos de visibilidad y reflectancia neuronal (NeRV) entrenan un MLP para aproximar la visibilidad de la fuente de luz para cualquier posición 3D de entrada y dirección de luz incidente 2D. A diferencia de consultar el MLP en puntos densamente muestreados a lo largo de cada rayo, aquí el MLP de visibilidad solo debe consultarse una vez para cada dirección de luz incidente. Esto permite que la red neuronal recupere un modelo que se puede volver a encender de la escena a partir de imágenes con efectos significativos de sombreado y autooclusión.

A diferencia de los métodos discutidos anteriormente, NeRFactor comienza con un modelo NeRF previamente entrenado. Luego, NeRFactor simplifica la geometría del volumen del NeRF previamente entrenado en un modelo de superficie, optimiza la visibilidad de la fuente de luz y la superficie normal de cualquier punto en la superficie de representación MLP y, finalmente, optimiza la iluminación ambiental y la representación BRDF de cualquier punto de la superficie para restaurar el modelo reencendido. Esto da como resultado un modelo que se puede volver a iluminar más eficiente al renderizar imágenes, ya que la geometría volumétrica se ha reducido a una sola superficie y la visibilidad de las fuentes de luz en puntos arbitrarios se puede calcular con una sola consulta MLP.

La técnica NeROIC también utiliza una canalización de varias etapas para recuperar modelos similares a NeRF que se pueden volver a iluminar a partir de imágenes objetivo capturadas en múltiples entornos de iluminación sin restricciones. La primera etapa recupera la geometría teniendo en cuenta los cambios de apariencia debido a la iluminación con incrustaciones de apariencia latente, la segunda etapa extrae vectores normales de la geometría recuperada y la tercera etapa estima las propiedades BRDF y una representación armónica esférica de la iluminación.

A diferencia de las representaciones que se pueden volver a encender que se enfocan en restaurar objetos, NeRF-OSR restaura modelos que se pueden volver a encender al estilo NeRF de grandes edificios y sitios históricos. NeRF OSR toma el modelo lambertiano y descompone la escena en albedo difuso, superficies normales, representación armónica esférica de iluminación y sombras, que se combinan para volver a iluminar la escena bajo la nueva iluminación ambiental.

El modelo reiluminable anterior representa el material de la escena como un campo 3D continuo de BRDF. Esto permitirá la edición básica de algunos materiales, ya que el BRDF restaurado se puede cambiar antes de renderizar. NeuTex presenta una red de parametrización de superficies para aprender el mapeo de coordenadas 3D en el cuerpo a coordenadas de textura 2D, para lograr una edición de material más intuitiva. Después de restaurar el modelo NeuTex de la escena, las texturas 2D se pueden editar o reemplazar fácilmente.

Ref-NeRF se centra en mejorar la capacidad de NeRF para representar y renderizar superficies especularmente reflectantes. Si bien Ref-NeRF no se puede usar para volver a encender porque no puede separar la luz incidente de las propiedades reflectantes, construye la luz emitida como componentes físicamente significativos (colores difusos y especulares, vectores normales y rugosidad), lo que permite la edición intuitiva de materiales.

6 campos de luz

El renderizado de volumen, el trazado de bolas y otros modelos avanzados de renderizado 3D pueden producir resultados fotorrealistas. Sin embargo, para un rayo dado, todos requieren muestrear la escena 3D subyacente en cualquier coordenada 3D en la que el rayo intersecta primero la geometría de la escena. Dado que este punto de intersección no se conoce a priori, un algoritmo de marcha de rayos primero debe descubrir este punto de la superficie. En última instancia, esto crea una complejidad de tiempo y memoria proporcional a la complejidad geométrica de la escena, donde se deben muestrear más y más puntos para generar escenas cada vez más complejas. En la práctica, hay cientos o incluso miles de puntos por rayo. Además, la representación precisa de los reflejos y los efectos de iluminación de segundo orden requiere el trazado de rayos de rebote múltiple, por lo que para cada píxel, se deben rastrear varios rayos en lugar de solo uno. Esto crea una alta carga computacional. Mientras que en el caso de reconstruir una sola escena (sobreajuste) esto se puede evitar con estructuras de datos inteligentes, hashing e ingeniería experta de bajo nivel, en el caso de reconstruir una escena 3D con solo unas pocas observaciones o incluso una sola imagen, estos datos La estructura dificulta la aplicación de algoritmos de reconstrucción aprendidos, como el uso de redes neuronales convolucionales para inferir los parámetros de una escena 3D a partir de una sola imagen.

7 Marco de ingeniería

El uso de modelos de representación neuronal plantea importantes desafíos de ingeniería para los profesionales: se deben procesar grandes cantidades de datos de imagen y video de una manera muy no secuencial, y los modelos a menudo necesitan distinguir entre gráficos computacionales grandes y complejos. El desarrollo de operadores eficientes a menudo requiere el uso de lenguajes de bajo nivel, lo que también dificulta el uso de la diferenciación automática. Avances recientes en herramientas que pueden ayudar a superar toda la pila de software asociada con la representación neuronal. Incluyendo: almacenamiento, búsqueda de hiperparámetros, renderizado diferencial y emisión de rayos, etc.

Preguntas abiertas y desafíos

  • integración perfecta
  • Aumentar proporcionalmente
  • universalización
  • aprendizaje multimodal
  • calidad

Influencia social

Las áreas más afectadas por las nuevas representaciones neuronales son la visión por computadora, los gráficos por computadora y la realidad virtual y aumentada, que podrían beneficiarse del fotorrealismo mejorado de los entornos renderizados. De hecho, los modelos volumétricos de última generación se basan en principios elegantes y fáciles de entender, lo que reduce las barreras para la fotogrametría y la investigación de reconstrucción 3D. Más importante aún, este efecto se ve amplificado por la facilidad de uso de estos métodos y las bibliotecas de códigos y conjuntos de datos disponibles públicamente.

Dado que la representación neuronal aún es inmadura y no se comprende bien, las herramientas de usuario final como Blender aún no existen para habilitar estos nuevos enfoques. Sin embargo, una comprensión más amplia de la tecnología afecta inevitablemente a los productos y aplicaciones desarrollados. Se espera que se reduzca la carga de trabajo de creación de contenido de juegos y efectos especiales de películas. La posibilidad de generar nuevas vistas fotorrealistas de una escena a partir de varias imágenes de entrada es una ventaja significativa sobre el estado del arte. Esto podría remodelar todo el proceso establecido de diseño de contenido en la industria de efectos visuales (VFX).

conclusión

El campo de la representación neuronal se ha desarrollado rápidamente en los últimos años y continúa creciendo rápidamente. Sus aplicaciones van desde videos de puntos de vista arbitrarios de escenas rígidas y no rígidas hasta edición de formas y materiales, reiluminación y generación de avatares humanos.

Creemos que el renderizado neuronal sigue siendo un campo emergente con muchos desafíos abiertos que se pueden abordar.

【Recomendación de proyecto】

La biblioteca de código central de los principales documentos de conferencias para Xiaobai: https://github.com/xmu-xiaoma666/External-Attention-pytorch

Biblioteca de detección de objetivos YOLO para Xiaobai: https://github.com/iscyy/yoloair

Análisis de artículos para la principal revista y conferencia de Xiaobai: https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

![](https://files.mdnice.com/user/18705/379cbb49-f18e-4590-9a3c-4d

Supongo que te gusta

Origin blog.csdn.net/Jason_android98/article/details/127140316
Recomendado
Clasificación