[Lectura en papel] Recuperación de mallas de textura fina de NeRF a través del refinamiento de superficie adaptable


inserte la descripción de la imagen aquí
código de papel


Abstracto

Neural Radiation Field (NeRF) ha logrado un gran avance en el campo de la reconstrucción 3D basada en imágenes. Sin embargo, sus representaciones de volumen implícitas son bastante diferentes de las mallas poligonales ampliamente adoptadas, y carecen de soporte de software y hardware 3D comunes, lo que resulta en una representación y manipulación ineficientes de las mismas. Para superar esta limitación, proponemos un marco novedoso que puede generar mallas de superficies texturizadas a partir de imágenes. Nuestro enfoque primero utiliza NeRF para inicializar eficientemente la geometría y las apariencias de descomposición dependientes de la vista. Posteriormente, se extrae una malla gruesa y se desarrolla un algoritmo de refinamiento de superficie iterativo para ajustar de forma adaptativa las posiciones de los vértices y la densidad de caras en función de los errores de representación reproyectados. Refinamos conjuntamente la apariencia con la geometría y la horneamos en una imagen de textura para renderizar en tiempo real. Extensos experimentos muestran que nuestro método logra una calidad de malla superior y una calidad de renderizado competitiva.

1. Introducción

La reconstrucción de escenas 3D a partir de imágenes RGB es una tarea compleja en visión artificial con muchas aplicaciones prácticas. En los últimos años, Neural Radiative Field (NeRF) [30, 2, 8, 31] ha ganado popularidad debido a su impresionante capacidad para reconstruir y renderizar grandes escenas con detalles realistas. Sin embargo, NeRF afirma que las funciones implícitas y los algoritmos de marcha de rayos especializados se utilizan a menudo para el renderizado, lo que, debido al soporte deficiente del hardware, dificulta su manipulación y el renderizado es lento, lo que limita su uso en aplicaciones posteriores. Por el contrario, las mallas poligonales son la representación más utilizada en aplicaciones 3D y son compatibles con la mayoría del hardware de gráficos para renderizado acelerado. Sin embargo, la reconstrucción directa de la malla puede ser un desafío debido a la irregularidad de la misma, y ​​la mayoría de los métodos se limitan a la topología fija o la reconstrucción a nivel de objeto.

Algunos trabajos recientes [32,6,11,51] se centran en combinar las ventajas de NeRF y las representaciones de malla. MobileNeRF [11] propone optimizar NeRF en la cuadrícula y binarizar los pesos de representación para incorporar la rasterización para la representación en tiempo real. Sin embargo, la malla resultante es diferente de la malla de la superficie y la textura está en el espacio de funciones en lugar del espacio RGB, lo que dificulta su edición o manipulación. Para obtener mallas de superficie precisas, un enfoque popular es usar campos de distancia con signo (SDF), que pueden definir superficies con precisión [46,50,54]. Sin embargo, la investigación en esta área a menudo produce una geometría demasiado suave, no logra modelar estructuras delgadas y, a menudo, ignora la calidad del renderizado. Además, las mallas obtenidas por Marching Cubes [28] pueden tener posiciones de vértice inexactas y una gran cantidad de caras. NVdiffrec [32] utiliza un rasterizador diferenciable [22] para optimizar mallas tetraédricas deformables, pero se limita a la reconstrucción a nivel de objeto y no puede restaurar topologías complejas. La presencia de brechas de representación hace que sea un desafío recuperar una malla de superficie precisa de NeRF volumétrico mientras se mantiene la calidad de renderizado.

Este artículo presenta un nuevo marco llamado NeRF2Mesh para extraer mallas superficiales finamente texturizadas de imágenes RGB, como se muestra en la Figura 1. Nuestra idea principal es refinar las mallas gruesas extraídas de NeRF para la optimización conjunta de la geometría y la apariencia. La representación volumétrica NeRF es adecuada para la inicialización eficiente de la geometría y la apariencia. Con una malla gruesa extraída de NeRF, ajustamos las posiciones de los vértices y la densidad de caras de acuerdo con los errores de renderizado 2D, lo que a su vez ayuda a optimizar la apariencia. Para habilitar la edición de texturas, descomponemos la apariencia en un término difuso independiente de la vista y un término especular dependiente de la vista, de modo que los colores difusos se puedan exportar como texturas de imagen RGB estándar. El color especular se exporta como una textura característica, que se puede alimentar a un pequeño MLP incrustado en el sombreador de fragmentos junto con la dirección de visualización actual para generar colores dependientes de la vista. En general, nuestro marco permite la creación de productos de malla versátiles y prácticos que se pueden usar en una variedad de escenarios que son un desafío para NeRF volumétrico.
inserte la descripción de la imagen aquí
Figura 1: Nuestro marco, NeRF2Mesh, reconstruye mallas de superficie de alta calidad utilizando texturas difusas y especulares a partir de imágenes RGB multivista, generalizando bien desde conjuntos de datos a nivel de objeto a nivel de escena. Las mallas texturizadas exportadas están disponibles de inmediato para el hardware y el software de gráficos comunes, lo que facilita una variedad de aplicaciones posteriores.

Nuestras contribuciones se pueden resumir de la siguiente manera:
• Proponemos el marco NeRF2Mesh para reconstruir mallas de superficies texturizadas a partir de imágenes RGB multivista refinando conjuntamente la geometría y la apariencia de las mallas gruesas extraídas de NeRF descompuesto por apariencia.
• Proponemos un algoritmo de refinamiento de malla adaptable que nos permite ajustar la densidad de área, donde las superficies complejas se subdividen y las superficies más simples se diezman en función de los errores de imagen 2D reproyectados.
• Comparado con métodos recientes, nuestro método mejora la calidad de la malla de la superficie, tiene un tamaño de malla relativamente pequeño y tiene una calidad de representación competitiva. Además, las mallas resultantes se pueden renderizar y editar de forma interactiva en tiempo real utilizando hardware y software 3D comunes.

2. Trabajo relacionado

2.1. NeRF para reconstrucción de escenas

NeRF [30] y su trabajo de seguimiento [2, 3, 56, 36, 48, 34, 48, 1, 7, 37] representan un avance significativo en la reconstrucción de escenas 3D a partir de imágenes RGB. A pesar de su excelente calidad de renderizado, el NeRF simple se enfrenta a varios problemas. Por ejemplo, la velocidad de entrenamiento e inferencia del modelo es lenta debido a la gran cantidad de evaluaciones MLP, lo que limita la amplia adopción de representaciones NeRF. Para abordar este problema, algunos trabajos [53,38,41,31,8] proponen formas de reducir el tamaño de MLP o eliminarlo por completo y, en su lugar, optimizar una cuadrícula de características 3D explícita que almacena información de densidad y apariencia. DVGO [41] adopta dos cuadrículas de características densas para la codificación de densidad y apariencia, pero las cuadrículas densas conducen a un tamaño de modelo grande. Para controlar efectivamente el tamaño del modelo, Instant-NGP [31] propone una tabla hash de resolución múltiple. Además de los problemas de eficiencia, a diferencia de las representaciones explícitas como las mallas poligonales, las representaciones implícitas de NeRF no se pueden manipular ni editar directamente tanto en geometría como en apariencia. Aunque algunos trabajos [23, 42, 49, 26, 45] exploran las operaciones geométricas y la composición de NeRF, todavía están limitados en diferentes aspectos. Por otro lado, otros [57, 5, 55, 40, 4, 44] apuntan a descomponer el albedo bajo iluminación desconocida para volver a iluminar y editar texturas. Estos problemas generan una brecha entre las representaciones NeRF y las mallas poligonales ampliamente utilizadas en aplicaciones posteriores. Nuestro objetivo es cerrar esta brecha explorando formas de convertir las reconstrucciones NeRF en mallas texturizadas.

2.2. Malla de superficie para la reconstrucción de escenas

La reconstrucción directa de mallas de superficie explícitas puede ser un desafío, especialmente para escenas complejas con topología compleja. La mayoría de los métodos en esta área de investigación asumen cuadrículas de plantilla con topología fija [9, 10, 20, 25]. Métodos recientes [32, 17, 24, 39] han comenzado a resolver problemas de optimización topológica. NVdiffrec [32] combina tetraedros marchantes diferenciables [24] con renderizado diferenciable para optimizar directamente las mallas superficiales. También puede descomponer materiales e iluminación, lo que se mejora aún más en NVdiffrecMC [17] utilizando renderizado Monte Carlo. Sin embargo, estos métodos aún son limitados ya que solo son adecuados para la reconstrucción de mallas a nivel de objeto y es difícil distinguir entre mallas de fondo y de primer plano en escenas exteriores ilimitadas. Las máscaras de primer plano [32] deben estar preparadas para refinar los límites de los objetos utilizando una representación diferenciable. Por el contrario, nuestro enfoque está en la reconstrucción de mallas superficiales a nivel de objeto y escena sin conocimiento previo.

2.3. Extracción de malla de superficie de NeRF

NeRF utiliza campos de densidad aparente para representar formas geométricas, que no necesariamente forman superficies definidas. Para abordar este problema, una estrategia popular es aprender campos de distancia con signo (SDF) [46, 50, 14, 15, 54, 47], donde las superficies pueden determinarse mediante conjuntos de nivel cero. NeuS [46] aplica SDF a transformaciones de densidad para una representación diferenciable, y el algoritmo Marching Cubes [28] se usa a menudo para extraer mallas de superficie de estos volúmenes. Al trabajar en paralelo, BakedSDF [51] optimiza las representaciones de superficies volumétricas SDF híbridas y las convierte en mallas para renderizarlas en tiempo real. Sin embargo, los métodos basados ​​en SDF tienden a aprender geometrías demasiado suaves y no pueden manejar estructuras delgadas. Algunos métodos [43, 27] exploran campos de distancia sin signo (UDF) o combinaciones de campos de densidad y SDF para abordar esta limitación, pero todavía están limitados a la reconstrucción a nivel de objeto. SAMURAI [6] tiene como objetivo recuperar conjuntamente la pose de la cámara, la geometría y la apariencia de un solo objeto en condiciones de captura desconocidas y derivar una malla texturizada. MobileNeRF [11] propuso entrenar a NeRF en la cuadrícula de malla, que se puede representar en tiempo real. Sin embargo, sus mallas no son exactamente mallas de superficie, solo las características se exportan como texturas, que deben renderizarse con sombreadores personalizados y son inconvenientes para editar. Un trabajo reciente [31, 35] encontró que la activación de densidad exponencial puede ayudar a enfocar la densidad y formar mejores superficies. También empleamos campos de densidad para capturar topologías complejas y refinar aún más las superficies.

3. Método

En esta sección, presentamos nuestro marco, que se muestra en la Figura 2, para reconstruir mallas de superficies texturizadas a partir de colecciones de imágenes RGB compatibles con hardware y software 3D comunes. El proceso de formación consta de dos etapas. Primero, entrenamos un NeRF basado en grillas [31] para inicializar eficientemente la geometría y apariencia de la grilla (Sección 3.1). A continuación, extraemos la malla superficial gruesa y ajustamos la geometría y apariencia de la superficie (Sección 3.2). Una vez completada la capacitación, podemos usar un formato estándar (como Wavefront OBJ (OBJ es un formato de archivo de gráficos geométricos desarrollado por Wavefront Technology. Este formato se desarrolló originalmente para la herramienta de animación Advanced Visualizer, que ahora está abierta y disponible en muchos otros software de gráficos 3D. ) y PNG) para exportar mallas de superficies texturizadas, que están disponibles en una variedad de aplicaciones posteriores (Sección 3.3).
inserte la descripción de la imagen aquí
Figura 2: Marco NeRF2Mesh. La geometría se aprende inicialmente a través de una cuadrícula de densidad y luego se extrae para formar una cuadrícula gruesa. Lo optimizamos a una malla más fina con superficies más precisas y densidad de área adaptativa. La apariencia se aprende a través de una cuadrícula de colores y se descompone en términos difusos y especulares. Después de la convergencia, podemos exportar la malla fina, desenvolver sus coordenadas UV y hornear la textura ("hornear" es el nombre del proceso de guardar las características geométricas de la malla 3D en un archivo de textura (archivo de mapa de bits). El nombre en inglés es [Hornear], hornee múltiples propiedades combinadas (incluidos materiales, texturas e iluminación) a partir de propiedades de objetos 3D (oclusión ambiental, normal, color de vértice, orientación, curvatura, posición, etc.) en una sola textura, que luego puede usar el objeto. coordenadas UV para reasignar la textura de la imagen al objeto modelo).

3.1. Entrenamiento NeRF Eficiente (Etapa 1)

En la etapa inicial, explotamos la representación volumétrica NeRF para recuperar la geometría y apariencia de escenas arbitrarias. El objetivo principal de esta fase es establecer de manera eficiente una geometría topológicamente precisa y una apariencia descompuesta lista para la siguiente fase de refinamiento de la malla superficial . Mientras que el estudio directo de mallas poligonales [32] plantea un desafío para el aprendizaje de geometrías complejas, el NeRF volumétrico [30] proporciona una alternativa más accesible.

Seguimos los avances recientes en NeRF basado en cuadrículas [31, 41, 8, 38] para mejorar la eficiencia de NeRF mediante la adopción de dos cuadrículas de características independientes para representar el espacio 3D. Aunque la superficie puede carecer de precisión debido a las densidades que pueden estar dispersas por el espacio, estos problemas se pueden abordar en la siguiente etapa de refinamiento de la malla.

Geometría El aprendizaje de la geometría es facilitado por cuadrículas de densidad [31] y MLP poco profundos, expresados ​​de la siguiente manera:
inserte la descripción de la imagen aquí
donde φ φφ es una activación exponencial que promueve superficies más nítidas [31],E geo E^{geo}mig eo es una cuadrícula de características multirresolución que se puede aprender,x ∈ R 3 x ∈ \mathbb{R} ^3XR3 es la ubicación de cualquier punto 3D.

Descomposición de la apariencia NeRF generalmente opera sin hacer suposiciones sobre la iluminación o las propiedades del material. Por lo tanto, el trabajo anterior adopta principalmente funciones implícitas 5D condicionadas a la posición 3D y la orientación de la vista 2D para modelar la apariencia dependiente de la vista. A pesar de lograr un rendimiento fotorrealista, este enfoque presenta la apariencia de una caja negra, lo que dificulta la representación con imágenes texturadas 2D tradicionales.
Para abordar esto, usamos una cuadrícula de colores y dos MLP superficiales para descomponer la apariencia en colores difusos independientes de la vista cd c_dCrey el color especular dependiente de la vista cs c_sCs, expresado como sigue:
inserte la descripción de la imagen aquí
donde ψ ψψ significa activación sigmoidea,fs f_sFsIndica la posición xxcaracterística intermedia del color especular en x , ddd representa la dirección de visualización. El color final se obtiene sumando los dos términos:
inserte la descripción de la imagen aquí
como se muestra en la Figura 3, hemos separado con éxito los términos difuso y especular. R 3 \mathbb{R} ^3REl color difuso en 3 se puede convertir convenientemente en una textura de imagen RGB. Al mismo tiempo, la característica especularfs f_sFsTambién se puede hornear como textura, y el pequeño MLP 2 MLP_2M L P2Puede adaptarse al siguiente sombreador de fragmentos [11]. Por lo tanto, el color especular también se puede exportar y renderizar más tarde (consulte la Sección 3.3 para obtener más detalles). En particular, nuestro enfoque implica convertir las condiciones de iluminación en texturas. Esto se debe a que estimar la iluminación ambiental puede ser un desafío para los conjuntos de datos del mundo real, y estudios anteriores han observado que esto puede conducir a una menor calidad de representación [57, 32].

inserte la descripción de la imagen aquí
Figura 3: Separación de colores difusos y especulares.

Función de pérdida Para optimizar nuestro modelo, seguimos la pérdida de representación NeRF original. Dada una línea de ooo emitido, direcciónddd' s rayrrr , estamos en la posiciónxi = o + tid x_i = o + t_idXyo=o+tyoConsulte el modelo en d y muestree a lo largo de los rayos secuencialmente para obtener la densidadσ i σ_ipagyoy color ci c_iCyo. El color del píxel final se obtiene por cuadratura numérica usando la siguiente ecuación:

inserte la descripción de la imagen aquí
其中δ i = ti + 1 − ti δ_i = t_{i+1}−t_idyo=tyo + 1tyo是步长,wi = 1 − exp ( − σ i δ i ) wi = 1−exp(−σ_iδ_i)yo _=1mi x pags ( - pagsyodyo) es el peso de representación punto por punto,T i T_iTyoes la transmitancia. Minimizamos el color predicho C ^ ( r ) \hat C(r) para cada píxelC^ (r)y el color de verdad fundamentalC ( r ) C(r)Pérdida entre C ( r ) :

inserte la descripción de la imagen aquí

Fomentamos la separación de los términos difusos y especulares aplicando la regularización L1 al color especular:

inserte la descripción de la imagen aquí

Para aclarar la superficie, aplicamos regularización de entropía a los pesos de representación:
inserte la descripción de la imagen aquí
donde wi w_iwyoes el peso de representación por punto. Para escenas al aire libre ilimitadas, también estamos en el campo de densidad E geo E_{geo}migeo _La regularización de la variación total (TV) se aplica para reducir los flotadores [41, 8].

3.2. Refinación de malla superficial (Etapa 2)

En la segunda etapa, extraemos la malla de superficie gruesa del modelo NeRF de la primera etapa y la optimizamos aún más. Este proceso implica refinar vértices, triángulos y apariencias en superficies, como se muestra en la Figura 4.
inserte la descripción de la imagen aquí
Figura 4: Refinamiento de malla. Refinamos la geometría y apariencia de la malla gruesa en la etapa 2.

Refinación de la apariencia Para representar una imagen, la malla se rasteriza y la posición 3D se interpola en píxeles en el espacio de la imagen. Dado que los colores de píxeles todavía se consultan punto por punto, el modelo de apariencia de la etapa 1 se puede trasladar a la etapa 2. Esto elimina la necesidad de aprender las apariencias desde cero, lo que reduce la cantidad de pasos de capacitación necesarios para la convergencia de la Fase 2. La pérdida de color de píxeles en la Ecuación 6 todavía se aplica en la etapa 2 para permitir la optimización conjunta de la apariencia y la geometría.

Refinación de malla iterativa Marching Cubes [28] Las mallas gruesas extraídas de los campos de densidad a menudo son defectuosas. Estos defectos incluyen vértices inexactos y caras densas y uniformemente distribuidas, lo que genera un gran espacio de almacenamiento en disco y una velocidad de renderizado lenta. Nuestro objetivo es recuperar una malla refinada similar a una malla artificial refinando las posiciones de los vértices y la densidad de caras.

Dada la cuadrícula gruesa inicial M gruesa = { V , F } \mathcal{M}_{gruesa} = \{ \mathcal{V} ,\mathcal{F} \}METROco a rse={ V ,F } , para cada vérticevi ∈ V v_i ∈ \mathcal{V}vyoV asigna un desplazamiento entrenableΔvi Δv_iv_ _yo. Usamos renderización diferenciable [22] para optimizar estas compensaciones retropropagando los gradientes de pérdida de espacio de imagen siguiendo [32]. Las caras de malla, por el contrario, no son diferenciables y no pueden optimizarse mediante la propagación hacia atrás de la misma manera. Para abordar este problema, proponemos un algoritmo de refinamiento de malla iterativo inspirado en el algoritmo de mínimos cuadrados reponderados iterativamente (IRLS) [19]. La idea clave es ajustar de forma adaptativa la densidad de área de acuerdo con el error de entrenamiento anterior. Durante el entrenamiento, reproyectamos los errores de representación de píxeles 2D en la Ecuación 6 en las caras de malla correspondientes y acumulamos los errores de cara. Después de un cierto número de iteraciones, tenemos todos los errores de cara E face E_{face}micara _ _Clasifique y determine dos umbrales:
inserte la descripción de la imagen aquí
error mayor que essubdivide e_{subdivide}mis u b d i v i d eLa superficie de se subdividirá por el punto medio [12] para aumentar la densidad de la superficie, y el error es menor que edcimate e_{dcimate}mid c ima t ede caras se extraerán y se volverán a mallar para reducir la densidad de caras. Después de actualizar la malla, reinicializamos las compensaciones de vértices y enfrentamos errores y continuamos entrenando. Este proceso se repite varias veces hasta que se completa la Fase 1.

Escena ilimitada Sin pérdida de generalidad, podemos modelar hacia adelante [29] y escenas ilimitadas a gran escala [3]. Dividimos la escena en varias regiones de crecimiento geométrico [ − 2 k , 2 k ] 3 , k ∈ { 0 , 1 , 2 , ⋅ ⋅ ⋅ } [−2^k, 2^k]^3, k ∈ \{ 0 , 1, 2, · · · \}[ - 2k ,2k ]3 ,k{ 0 ,1 ,2 ,⋅⋅⋅} similar a Instant-NGP [31]. Cada región exporta una malla separada, con partes superpuestas eliminadas automáticamente para formar la geometría de toda la escena. También disminuimos la resolución del cubo en marcha a medida que aumenta k, ya que las regiones exteriores normalmente carecen de detalles en comparación con las regiones centrales (k = 0). El refinamiento iterativo de la malla considera solo la región central porque la geometría de las regiones exteriores es relativamente simple. Función de pérdidaL smooth L_{smooth}en la mallaLsuave _ _ _ _[33]. Además, regularizamos el desplazamiento del vértice usando una pérdida L2:
inserte la descripción de la imagen aquí
esto asegura que los vértices no estén demasiado lejos de sus posiciones originales.

3.3. Exportación de malla

El objetivo de nuestro marco es exportar mallas de superficie con texturas compatibles con hardware y software 3D comunes. Actualmente, tenemos una malla de superficie de etapa 2 M fina M_{fina}METROf en mi, pero la apariencia todavía está codificada en una cuadrícula de color 3D. Para extraer la apariencia como una imagen de textura, primero desempaquetamos M fine M_{fine} usando XAtlas [52]METROf en miLas coordenadas UV del . Posteriormente, establecemos el color difuso de la superficie en cd c_dCrey la característica especular fs f_sFsHorneado en dos imágenes separadas, yo d I_dIreSuma I s I_sIs

Representación en tiempo real: nuestras mallas exportadas se pueden acelerar de manera eficiente y renderizar en tiempo real al igual que las mallas texturizadas tradicionales. Textura difusa I d I_dIrePuede interpretarse como una textura RGB y renderizarse en la mayoría de los dispositivos compatibles con OpenGL y paquetes 3D como Blender [13] y Unity [16]. Para representar el color especular, adoptamos el método propuesto en MobileNeRF [11]. Exportamos pequeñas MLP 2 MLP_2M L P2e incorpórelo en el sombreador de fragmentos. Este sombreador personalizado agrega un término especular a un término difuso, lo que permite efectos dependientes del punto de vista en tiempo real.
Manipulación de mallas Al igual que las mallas texturizadas tradicionales, nuestras mallas exportadas se pueden modificar y editar fácilmente en términos de sus propiedades geométricas y visuales. Además, ayuda a combinar múltiples mallas exportadas, como se muestra en la Figura 1.

4. Experimenta

4.1. Detalles de implementacion

En la primera etapa, entrenamos para 30 000 pasos y evaluamos alrededor de 2 1 8 2^18 en cada paso21 8puntos. Use un programa de tasa de aprendizaje exponencialmente decreciente de 0.01 a 0.001. Específicamente, durante los primeros 1000 pasos, el entrenamiento utiliza solo color difuso para fomentar la descomposición de la apariencia. Para la segunda etapa, entrenamos de 10 000 a 30 000 pasos adicionales en función de la convergencia y establecemos la tasa de aprendizaje del desplazamiento de vértice en 0,0001. El optimizador Adam [21] se utiliza para ambas etapas. Marchando Cubos con51 2 3 512^351 2Una resolución de 3 y un umbral de densidad de 10 extraen mallas gruesas. Eliminamos rostros que no son visibles en todas las poses de cámara de entrenamiento y reducimos el número total de rostros a 30,000. Seguimos el enfoque propuesto en Instant-NGP [31], manteniendo una cuadrícula de densidad para facilitar la poda ligera. Todos los experimentos se realizan en una sola GPU NVIDIA V100. Consulte el material complementario para obtener más detalles.

Conjuntos de datos Llevamos a cabo experimentos en tres conjuntos de datos para verificar la efectividad y la capacidad de generalización de nuestro método: 1) El conjunto de datos NeRF-Synthetic [30] contiene 8 escenas sintéticas. 2) El conjunto de datos LLFF [29] contiene 8 escenas directas reales. 3) El conjunto de datos Mip-NeRF 360 [3] contiene 3 escenas exteriores ilimitadas reales disponibles públicamente. Nuestro método se generaliza bien a diferentes tipos de conjuntos de datos y puede reconstruir mallas realistas incluso para escenas ilimitadas desafiantes.

4.2. comparaciones

Principalmente comparamos con métodos que derivan mallas texturizadas, como MobileNeRF [11] y NVdiffrec [32]. Dado que nuestro método también incluye una etapa NeRF, comparamos las capacidades de varios métodos NeRF volumétricos [30, 18].

4.2.1 Calidad de malla

Reconstrucción de superficies.

La falta de mallas reales en el suelo en las escenas del mundo real dificulta medir la calidad de la reconstrucción de la superficie. Por lo tanto, comparamos principalmente los resultados en conjuntos de datos sintéticos, como se hace en NVdiffrec [32]. Evaluamos cualitativamente las mallas extraídas generadas por diferentes métodos, como se muestra en la Fig. 5. Específicamente, nos enfocamos en estructuras delgadas como follaje denso y redes de cuerdas. Nuestro método reconstruye con éxito estas estructuras con alta fidelidad, mientras que otros métodos no logran reconstruir con precisión geometrías complejas. Además, las mallas generadas por nuestro método están más ordenadas y ordenadas, de forma similar a la verdad del suelo artificial.

inserte la descripción de la imagen aquí
Figura 5: Calidad de reconstrucción de superficie del conjunto de datos sintéticos NeRF. En comparación con los métodos anteriores, nuestro método logra una calidad de reconstrucción de malla superior, especialmente en estructuras delgadas con topología compleja. Reducimos las mallas de NeuS [46] al 25% de las caras originales, ya que son demasiado densas para ser visualizadas.

Para cuantificar la calidad de la reconstrucción de la superficie, empleamos la métrica de distancia de chaflán (CD). Sin embargo, dado que la malla de verdad del suelo puede no ser una malla de superficie (por ejemplo, una malla de Lego está hecha de muchos ladrillos pequeños), proyectamos rayos desde la cámara de prueba y tomamos muestras de 250 millones de puntos. En la Tabla 1, mostramos el CD promedio en todos los escenarios, lo que demuestra que nuestro método logra los mejores resultados. Notamos que nuestro método funciona particularmente bien en escenas con topologías complejas como árboles banianos, barcos y Lego. Sin embargo, nuestro método funciona un poco peor en escenas con una gran cantidad de superficies no lambertianas . Esta limitación surge de la capacidad relativamente pequeña de nuestra red de apariencia, ya que nuestro modelo a menudo intenta simular tales efectos de iluminación ajustando los vértices de la malla, lo que da como resultado una geometría incorrecta. Tabla 1: La distancia de biselado ↓ (en unidades de 1 0 − 3 10^{−3})
inserte la descripción de la imagen aquí
del conjunto de datos sintéticos NeRF en comparación con la cuadrícula de verdad del terreno1 03)。

Tamaño de malla
También evaluamos la aplicabilidad práctica comparando el número de vértices y caras en la malla exportada, como se muestra en la Tabla 2. Además, medimos el almacenamiento en disco y el uso de memoria de la GPU necesarios para renderizar las mallas exportadas, como se muestra en la Tabla 3. Comparación justa, los formatos de archivo de malla son OBJ y MTL sin comprimir, las texturas son PNG y otros metadatos se almacenan en formato JSON. En comparación con los datos reales y MobileNeRF [11] en el conjunto de datos sintéticos NeRF, nuestras mallas exportadas contienen menos vértices y caras. Esto se debe a que el proceso de refinamiento iterativo de la malla puede aumentar la cantidad de vértices para mejorar el detalle de la superficie al tiempo que reduce la cantidad de caras para controlar el tamaño de la malla.
inserte la descripción de la imagen aquí
Tabla 2: Número de vértices y caras ↓ (la unidad es 103). Nuestro método utiliza relativamente pocos vértices y caras en el conjunto de datos sintéticos NeRF y mejora la calidad de la malla.
inserte la descripción de la imagen aquí
Tabla 3: Almacenamiento en disco y uso de memoria GPU ↓ (en MB). Medimos el tamaño del modelo exportado y el uso de la memoria GPU en el renderizado.

4.2.2 Calidad de representación

inserte la descripción de la imagen aquí
Tabla 4: Comparación de calidad de renderizado. Informamos PSNR, SSIM y LPIPS en diferentes conjuntos de datos y los comparamos con diferentes clases de métodos. Logramos un rendimiento comparable en mallas de volumen y mallas que no son de superficie, y un mejor rendimiento en mallas de superficie.

Mostramos los resultados de la comparación de calidad de renderizado en la Tabla 4. Observamos cierta degradación en la calidad de renderizado al extraer de NeRF (volumen) a malla. Específicamente, encontramos que el término de regularización suave L suave L_{suave}Lsuave _ _ _ _Desempeña un papel vital en el mantenimiento del equilibrio entre la suavidad de la superficie y la calidad del renderizado. La desactivación de este término de regularización da como resultado una mejor calidad de renderizado a expensas de la calidad de la superficie (ver Sección 4.4 para más detalles). Demostramos que nuestro enfoque basado en malla produce una calidad de representación superior en comparación con NVdiffrec [32], el estado actual del arte para la reconstrucción de malla de superficie. Además, nuestro método se generaliza bien para escenas directas e ilimitadas, mientras que NVdiffrec [32] solo puede reconstruir objetos individuales. Por el contrario, las mallas similares a mallas derivadas de MobileNeRF [11] carecen de suavidad y es posible que no se alineen bien con las superficies de los objetos. Estas mallas se basan en la transparencia de la textura para esculpir la superficie. Aunque nuestra malla suave muestra una calidad de representación más pobre, nuestra malla sin el término de regularización suave logra un rendimiento comparable. La Figura 6 presenta una visualización de la calidad de representación de nuestra malla y la compara con métodos relacionados.

inserte la descripción de la imagen aquí
Figura 6: Visualización de la calidad de renderizado. Logramos una calidad de representación comparable en diferentes conjuntos de datos.

En la Figura 7, también mostramos imágenes de textura derivadas de diferentes métodos. Demostramos que nuestra malla de superficie de alta calidad produce imágenes de textura que son más compactas e intuitivas que las producidas por otros métodos.
inserte la descripción de la imagen aquí
Figura 7: Visualización de imágenes de textura. Mostramos que nuestras texturas son más compactas e intuitivas debido a la calidad mejorada de la superficie.

4.3. Eficiencia

Nuestro marco exhibe una alta eficiencia tanto en las etapas de entrenamiento como de inferencia. Una sola GPU NVIDIA V100 con 16 GB de memoria tarda aproximadamente 1 hora en entrenar ambas etapas y exportar la malla para cada escena . Por el contrario, otros métodos de la competencia suelen tardar horas [32] o incluso días [11], con mayores requisitos de hardware para tareas similares. Además, las mallas exportadas son livianas, lo que permite la representación en tiempo real en dispositivos habilitados para OpenGL, incluidos los dispositivos móviles.

4.4. Estudios de ablación

En la Fig. 8 y la Tabla 5, realizamos un estudio de ablación centrado en la fase de optimización de la geometría. Específicamente, comparamos el modelo completo con variantes que excluyen la regularización suave o los procedimientos de refinamiento de malla iterativo. Los resultados muestran que: 1) Cuando se elimina la regularización de la suavidad, la malla de la superficie resultante muestra una mejor calidad de representación, pero presenta irregularidades y autointersecciones. Además, el tamaño de la malla aumenta porque los procesos iterativos de refinamiento de la malla no manejan bien esas superficies irregulares. Estas caras irregulares también pueden dar lugar a una calidad UV deficiente y a imágenes de textura desordenada. 2) Cuando se elimina el refinamiento iterativo de la malla, la densidad del área se vuelve casi uniforme, lo que da como resultado tamaños de malla más grandes y una calidad de representación ligeramente más pobre. Esto se debe a que la densidad de la cara no se puede ajustar de forma adaptativa de acuerdo con el error de renderizado reproyectado.
inserte la descripción de la imagen aquí
Figura 8: Ablación Cualitativa. Visualizamos estructuras de malla e imágenes de texturas bajo diferentes configuraciones.
inserte la descripción de la imagen aquí
Tabla 5: Cuantificación de la ablación. Informamos estadísticas de malla y PSNR para escenas de micrófono.

5. Limitaciones y Conclusión

Aunque nuestro método ha mostrado resultados prometedores, todavía tiene algunas limitaciones. Debido a la dificultad de estimar condiciones de iluminación desconocidas a partir de imágenes sin comprometer la calidad de la reconstrucción [57], optamos por convertir la iluminación en texturas, lo que limita nuestra capacidad para volver a iluminar . Nuestra red de apariencia relativamente pequeña también dificulta el aprendizaje de efectos complejos dependientes de la vista , lo que puede conducir a una calidad de superficie más baja en estas regiones. Estas elecciones se hicieron intencionalmente para mantener la eficiencia de la tubería. En el futuro, esperamos abordar estas limitaciones utilizando mejores técnicas de modelado de apariencia. Finalmente, similar a otros métodos basados ​​en malla [32, 11], realizamos rasterización de un solo paso y no podemos manejar objetos semitransparentes.

En resumen, proponemos un marco eficiente para reconstruir mallas de superficies texturizadas a partir de imágenes RGB multivista. Nuestro método utiliza NeRF para la geometría gruesa y la inicialización de la apariencia, luego extrae y mejora la malla poligonal y finalmente convierte la apariencia en imágenes de textura para la representación en tiempo real. La malla reconstruida muestra una calidad de superficie mejorada, especialmente para estructuras delgadas, y es fácil de manipular y editar para aplicaciones posteriores.

Supongo que te gusta

Origin blog.csdn.net/m0_50910915/article/details/131823539
Recomendado
Clasificación