[Lectura intensiva del artículo]MVSDF: Aprendizaje del campo de distancia firmado para la reconstrucción de superficies de múltiples vistas

Este es un artículo de ICCV2021.
Dirección del proyecto: Dirección del artículo de Github
: arxiv

Abstracto

Investigaciones recientes sobre representaciones neuronales implícitas han mostrado resultados prometedores en la reconstrucción de superficies de múltiples vistas. Sin embargo, la mayoría de los métodos se limitan a geometrías relativamente simples y, a menudo, requieren máscaras de objetos limpias para reconstruir objetos complejos y cóncavos. En este trabajo, presentamos un nuevo marco de reconstrucción de superficies neuronales que aprovecha el conocimiento de la coincidencia estéreo y la coherencia de características para optimizar las representaciones de superficies implícitas. Más específicamente, aplicamos campos de distancia firmados (SDF) y campos de luz de superficie para representar la geometría y la apariencia de la escena, respectivamente. SDF se supervisa directamente mediante geometrías estéreo coincidentes y se refina optimizando la coherencia de las características de múltiples vistas y la fidelidad de las imágenes renderizadas. Nuestro método es capaz de mejorar la solidez de la estimación de la geometría y respaldar la reconstrucción de una topología de escena compleja. Se llevan a cabo amplios experimentos con conjuntos de datos DTU, EPFL y Tanks and Temples. En comparación con métodos de última generación anteriores, nuestro método logra una mejor reconstrucción de malla en grandes escenas abiertas sin máscaras como entrada.

1. Introducción

Tradicionalmente, la reconstrucción de superficies se puede dividir en dos subpasos: 1) Los mapas de profundidad y las nubes de puntos se reconstruyen a partir de imágenes mediante algoritmos estéreo de vista múltiple (MVS); 2) Las superficies, normalmente representadas como mallas triangulares, se construyen maximizando la coherencia con puntos Extracto de puntos densos. Alternativamente, se puede aplicar un paso de refinamiento de la superficie para recuperar detalles geométricos a través de la consistencia de fotografías de múltiples vistas. Si bien se ha demostrado que este proceso es eficiente y sólido en una variedad de situaciones, la geometría reconstruida puede ser subóptima debido a pérdidas acumulativas en la transformación de la representación de imagen a puntos y malla. Por ejemplo, los errores introducidos en la reconstrucción de la nube de puntos se transmiten a la reconstrucción de la superficie, lo que da como resultado una topología de malla incorrecta y es difícil recuperarse. Aunque recientemente se han propuesto métodos de extracción de malla y MVS basados ​​en el aprendizaje para mejorar de forma independiente la calidad de la reconstrucción de cada subpaso, todavía existe el deseo de reconstruir superficies óptimas a partir de imágenes de un extremo a otro.

Además, trabajos recientes sobre representaciones neuronales han demostrado que las superficies de malla se pueden construir directamente a partir de imágenes mediante representaciones implícitas y renderizaciones diferenciables. La geometría de la superficie y la información de color de una escena generalmente se representan como funciones implícitas, modeladas directamente por perceptrones multicapa (MLP) en la red y optimizadas mediante representación diferenciable. Las mallas triangulares se pueden extraer de campos implícitos mediante el algoritmo Marching Cube. En comparación con los canales de malla clásicos, estos métodos pueden reconstruir la geometría de la escena y generar simultáneamente imágenes sintéticas de un extremo a otro. Sin embargo, dado que todos los parámetros de la escena se optimizan conjuntamente al mismo tiempo, la geometría es solo un subproducto de todo el proceso de renderizado diferencial, y existe ambigüedad en la geometría y la apariencia. Para aliviar este problema, los renderizadores implícitamente diferenciables (IDR) aplican máscaras de objetos etiquetados manualmente como entrada, pero esto no es factible para una gran cantidad de imágenes y, a veces, no está bien definido para entradas de imágenes del mundo real.

En este artículo, proponemos MVSDF, un novedoso marco de reconstrucción de superficies neuronales que combina la estimación implícita de la superficie neuronal con redes MVS de última generación. Por un lado, seguimos un renderizador implícitamente diferenciable que representa la superficie como un conjunto de campos de distancia con signo (SDF) de nivel cero y la apariencia como un campo de luz de superficie, que se optimiza conjuntamente mediante una pérdida de renderizado. Por otro lado, introducimos características de imágenes de profundidad y mapas de profundidad de MVS basado en aprendizaje para ayudar en la estimación SDF implícita. El SDF es supervisado por los valores de profundidad inferidos por la red MVS y se refina aún más maximizando la consistencia de las características de múltiples vistas de los puntos de superficie del SDF. Descubrimos que la topología de la superficie se puede mejorar enormemente cuando se guía por mapas de profundidad MVS, y nuestro método se puede aplicar a geometrías complejas incluso sin máscaras de objetos de entrada. Además, en comparación con las pérdidas de renderizado en IDR, la coherencia de las características de múltiples vistas impone restricciones fotométricas en las primeras etapas del proceso de renderizado diferenciable, lo que mejora significativamente la precisión geométrica y ayuda a preservar los detalles de alta fidelidad en la reconstrucción final.

2 trabajos relacionados

Presenta principalmente el trabajo relacionado de MVS, superficie neuronal implícita y reconstrucción de superficie mediante representación diferenciable.

Nuestro método está más relacionado con IDR, que utiliza SDF y campos de luz de superficie como representación de la escena. Las dos redes implícitas se entrenan conjuntamente con una pérdida de representación y aplican máscaras de imagen para una optimización SDF restringida. Sin embargo, la calidad de la reconstrucción de IDR depende en gran medida de la precisión de la máscara de entrada, y una máscara inexacta puede causar pérdida o redundancia de la superficie de la malla. Dado que los métodos de segmentación automática de objetos no siempre son perfectos, IDR aplica máscaras etiquetadas manualmente para garantizar la calidad de la reconstrucción. En este trabajo, introducimos el estéreo multivista y la coherencia de características como nuestras limitaciones geométricas para mejorar la calidad de la superficie y relajar los requisitos de máscara de imagen.

3 método

Marcos

3.1 Representaciones de geometría y apariencia

Interfaz S θ S _ {\theta}Sise considera como el conjunto cero de SDF y está compuesto por un MLP ff en la redf para representar. Definimos esteθ \thetaθ esffUn parámetro que se puede aprender en f . Este MLP consultará la ubicaciónxxx como entrada y luego genera la distancia desde la posición hasta el punto más cercano en la superficie.

Inspirada en IDR, la apariencia de nuestra escena está representada por un campo de luz de superficie, utilizando otro campo de luz de superficie con parámetros que se pueden aprender ϕ \phiϕ的 MLPgggramo . Campo de luz de superficie para consultar el punto de superficiexxx , su vector normalnnn y vistavvEl vector unitario de v se toma como entrada y genera el color RGBccc .

Al renderizar, la intersección de la línea de visión y la superficie se obtiene mediante el seguimiento de la esfera, y el punto normal se puede calcular como el gradiente analítico de la superficie implícita n = ∇ xf ( x ; θ ) n = ∇xf(x; θ)norte=∇xf ( x ; _ _yo ) .

Intersección de superficies diferenciables

El seguimiento de esferas no es diferenciable en la red. Al igual que en trabajos anteriores, construimos una aproximación de primer orden de la función desde los parámetros de la red hasta las ubicaciones de las intersecciones. Para los parámetros de red actuales θ 0 \theta_{0}i0, rayo visual vvv y el punto de intersección x 0 x_{0}en este rayoX0, tenemos la ecuación f ( x ; θ ) ≡ 0 f(x; θ) ≡ 0f ( x ;yo )0 realiza una diferenciación implícita y la intersección de la superficie se puede expresar comoθ \thetaFunción de θ
Insertar descripción de la imagen aquí
: dondef ( x 0 ; θ 0 ) f(x_{0}; θ_{0})f ( x0;i0)∇ xf ( x 0 ; θ 0 ) ∇xf(x_{0}; θ_{0})∇xf ( x _ _0;i0) es una constante.

3.2 Supervisión de geometría

Los algoritmos estéreo de vistas múltiples pueden proporcionar mapas de profundidad de alta calidad como representaciones densas de escenas. En esta sección, describimos cómo utilizar mapas de profundidad MVS para supervisar la optimización de SDF.

Estimación del mapa de profundidad de múltiples vistas

En nuestra red, el módulo MVS tiene como objetivo generar características de imágenes profundas y mapas de profundidad calificados para todas las imágenes de entrada. Aplicamos el código abierto Vis-MVSNet como nuestro módulo de generación de profundidad. Para la imagen de referencia y sus imágenes de origen adyacentes, primero se aplica el estándar UNet para extraer mapas de características de imágenes de profundidad. Luego, todos los mapas de características se deformarán en el tronco de la cámara de la imagen de referencia y se construirá un volumen de costo C 3D. Regularizamos aún más el volumen de costos a través de 3D CNN y obtenemos la distribución de probabilidad de muestras de profundidad a través de softmax. Finalmente, haga una regresión de la profundidad D 0 D_{0} del volumen de probabilidad tomando la expectativa de profundidadD0. Además, para píxeles pp en el mapa de profundidadp , evaluamos su probabilidad alrededor del valor de profundidad predicho yP ( p ) P(p)P ( p ) , como indicador de confianza en la profundidad. Los píxeles con baja confianza se filtran para producir un mapa de profundidad limpio.

Supervisión directa del SDF

Trabajos anteriores propusieron entrenar redes implícitas minimizando la diferencia entre mapas de profundidad de seguimiento y mapas de profundidad GT. Sin embargo, esta estrategia solo puede afectar la salida de la red cerca de la estimación de superficie actual. Para garantizar que el SDF se recupere correctamente en todo el espacio, tomamos muestras aleatorias de puntos de todo el espacio y calculamos la distancia desde los puntos de muestra hasta el mapa de profundidad de MVS.
Insertar descripción de la imagen aquí
Dado un punto de muestreo xxx y mapa de profundidadDDD , primero ponemosxxx se proyecta en el punto p proyectado sobre el mapa de profundidad. Luego tomamos la profundidad MVSD ( p ) D(p)D ( p ) es conx D ( p ) x_{D}(p)Xre( p ) La misma posición se proyecta hacia atrás en el espacio. Como se muestra en la Figura 3, dexxLa distancia con signo de x a la superficie MVS es aproximadamente:
Insertar descripción de la imagen aquí
dondend n_{d}norterees la normal calculada en función de la profundidad. Además, si la probabilidad suma P ( p ) P(p)P ( p ) es menor que el umbralT prob T_{prob}tproblema _ _, consideramos que ese píxel está en el fondo y excluimos el punto correspondiente del cálculo de la distancia. Esta distancia aproximada con signo se puede utilizar para supervisar el entrenamiento de SDF. Usaremos la pérdida de distancia LD L_{D}lreDefinido como:
Insertar descripción de la imagen aquí
donde SSS es un punto de muestreo válido.

Fusión a distancia firmada en un mini lote

Un problema con la Ecuación 5 es la distancia aproximada con signo l ( x ) l(x) calculada a partir de un único mapa de profundidadl ( x ) no suele ser fiable. En primer lugar, los puntos de muestra en el espacio libre pueden quedar ocluidos en una vista determinada. En segundo lugar, cuando se producen superficies no planas, lal ( x ) l(x)l ( x ) puede no ser exacto. Para aumentarl ( x ) l(x)precisión l ( x ) , cambiamos N b N_ {b}durante el entrenamientonortesegundolas vistas se agrupan en un mini lote y se fusionarán fusionando N b N_ {b} dentro del mini lotenortesegundoMúltiples observaciones de cada mapa de profundidad para refinar l ( x ) l(x)l ( x )

Para el punto de consulta xxx , primero calculamos su distancia aproximada con signo{ lk ( x ) } k = 1 N b \{l_{k}(x)\}^{N_{b}}_{k=1} en cada mapa de profundidad{ yok( x ) }k = 1nortesegundo. Según lk (x) l_{k}(x)yok( x ) , si la distancia desde{ lk ( x ) } k = 1 N b \{l_{k}(x)\}^{N_{b}}_{k=1}{ yok( x ) }k = 1nortesegundode al menos T fuera T_{out}to u tSi la distancia es positiva, el punto de definición se encuentra fuera de la superficie. Después de determinar si el punto de consulta está dentro o fuera, recopilamos cada distancia de vista con el mismo signo y tomamos la distancia de profundidad mínima como la distancia de fusión l ( x ) l (x)El valor absoluto de l ( x ) . Descubrimos que esta estrategia de fusión simple puede filtrar eficazmente observaciones erróneas de un único mapa de profundidad, y ell ( x ) l (x)l ( x ) es lo suficientemente preciso y puede usarse para guiar la optimización de SDF.

3.3 Refinamiento de la geometría local

La supervisión geométrica de la Sección 3.2 puede recuperar correctamente la topología de la superficie. Sin embargo, dado que el mapa de profundidad de la red MVS suele ser ruidoso, es bastante difícil recuperar los detalles de la superficie en la reconstrucción final de la malla. Con este fin, recomendamos optimizar la coherencia de las funciones y la coherencia de las imágenes renderizadas durante el entrenamiento de la red.

Consistencia de características

En MVS tradicionales o tuberías de reconstrucción de malla, las nubes de puntos densas o las superficies de malla a menudo se refinan mediante la optimización de la consistencia fotométrica de múltiples vistas. La consistencia fotométrica de un punto de superficie se define como el costo de coincidencia entre múltiples vistas (por ejemplo, ZNCC). En nuestro trabajo, tenga en cuenta que las características de la imagen profunda se han extraído en Vis-MVSNet. En cambio, minimizamos la coherencia de las características de profundidad de múltiples vistas.

Consistencia de la imagen renderizada

La consistencia de la imagen renderizada se usa ampliamente en procesos de renderizado diferenciables recientes. Para píxeles pp en imagenp , podemos trazar el punto de intersección de su superficie xxen el espaciox . Al convertirx ( θ ) x(θ)x ( θ )∇ xf ( x ; θ ) ∇_{x}f(x; θ)xf ( x ;θ ) sumavvv es entrada para la funciónggEn g , los píxeles ppse pueden obtener directamente del campo de luz de la superficie.Color de renderizado de p c ( p ) c(p)c ( pag ) . Luego, la pérdida de renderizado se calcula como la distancia L1 desde el color renderizado hasta el color de la imagen de entrada.

La pérdida de renderizado puede optimizar conjuntamente la geometría θ θθ y aparienciaφ φφ . conLF L_ {F}lFComparado con LR L_{R}lrEs más sensible a los cambios de color locales y desempeña un papel importante en la restauración de detalles de superficie de alta fidelidad.

3.4 Indicador de superficie válida

Si la imagen de entrada no cubre completamente el objeto de interés, la superficie del área invisible no estará bien definida y tenderá a producir superficies extrapoladas en el área de fondo. Para distinguir estas superficies no válidas, utilizamos otra función indicadora para marcar si un punto espacial se puede rastrear desde ciertas vistas de entrada. Específicamente, la función h(x; γ) representa el indicador de x en la superficie efectiva. Durante cada iteración de entrenamiento, el indicador de la posición rastreada exitosamente {x +} se establece en 1. Para evitar que h(x; γ) informe 1 en todas partes, también tomamos muestras aleatorias de los puntos {x −} en el espacio y establecemos la métrica de fondo en 0. Luego aplicamos la entropía cruzada binaria como nuestra pérdida de métrica: tenga en cuenta que nuestro
Insertar descripción de la imagen aquí
MVS El mapa de profundidad se filtra utilizando el mapa de probabilidad correspondiente y no aplicamos trazado de rayos a estos píxeles filtrados. Por lo tanto, a las regiones filtradas en los mapas de profundidad MVS se les tiende a asignar un indicador de fondo de 0. En otras palabras, podemos identificar áreas de superficie no válidas según el mapa de profundidad MVS filtrado.

3.5 Pérdida

Insertar descripción de la imagen aquí

4 experimentos

Se presenta la implementación específica y los resultados experimentales, quienes estén interesados ​​pueden comprobarlo por sí mismos.

4.1. Implementación

4.2. Punto de referencia en el conjunto de datos DTU

4.3. Punto de referencia en el conjunto de datos EPFL

4.4. Resultados cualitativos adicionales

4.5. Estudio de ablación

5. Conclusión

En este trabajo, presentamos un nuevo marco de reconstrucción de superficies neuronales que combina la estimación implícita de la superficie neuronal con redes MVS de última generación. En nuestra red, la geometría y la apariencia están representadas por MLP como funciones neuronales implícitas. La geometría es supervisada directamente por el mapa de profundidad MVS para recuperar la topología de la superficie y se refina localmente mediante la consistencia de las características de profundidad y la pérdida de la imagen renderizada. El método propuesto ha sido evaluado exhaustivamente en diferentes conjuntos de datos. Tanto los resultados cualitativos como cuantitativos muestran que nuestro método supera a los métodos anteriores en términos de precisión geométrica y fidelidad de representación, lo que demuestra la efectividad del marco propuesto.

Supongo que te gusta

Origin blog.csdn.net/YuhsiHu/article/details/132400430
Recomendado
Clasificación