[Paper Brief] IS-MVSNet: MVSNet basado en muestreo de importancia (ECCV 2022)

1. Breve introducción del artículo

1. Primer autor: Likang Wang

2. Año de publicación: 2022

3. Revista publicada: ECCV

4. Palabras clave: MVS, reconstrucción 3D, muestreo de importancia, estimación de distribución de error no supervisada

5. Motivación de exploración: prediga el mapa de profundidad de manera gruesa a fina, lo que alivia parcialmente la limitación de resolución. La suposición básica detrás del algoritmo de grueso a fino es que las predicciones en la etapa gruesa son estimaciones confiables de la verdad. Pero incluso con la estrategia de grueso a fino, la resolución de profundidad sigue siendo un factor clave que dificulta el logro simultáneo de alta precisión y alta eficiencia. Los algoritmos existentes de grueso a fino no explotan completamente las suposiciones de predicción previamente confiables debido a que tratan cada valor de profundidad candidato por igual en todo el rango de profundidad.

6. Objetivos de trabajo: este artículo se centra en seleccionar los valores candidatos más prometedores. El nuevo problema, entonces, es distinguir qué profundidades son más confiables. Si bien las predicciones aproximadas suponen una proximidad a la profundidad real, no son 100 por ciento precisas. Por lo tanto, estimar la distribución de errores de las predicciones aproximadas se vuelve crucial para localizar la verdad fundamental con mayor precisión.

7. Idea central: en base a las consideraciones anteriores, se propone la importancia de la MVSNet basada en el muestreo (IS-MVSNet) y se presenta una estrategia candidata efectiva de muestreo en profundidad, que se puede realizar de manera gratuita al mejorar significativamente la profundidad. resolución cercana al valor real Predicción de profundidad más precisa.

  1. Propusimos un módulo de muestreo de importancia para muestrear la profundidad candidata, logrando efectivamente una mayor resolución de profundidad y mejores resultados de nube de puntos sin introducir costos adicionales.
  2. Además, propusimos un método de estimación de distribución de error no supervisado para ajustar la variación de densidad del módulo de muestreo de importancia.
  3. En particular, el módulo de muestreo propuesto no requiere ningún entrenamiento adicional y funciona razonablemente bien con los pesos previamente entrenados del modelo de referencia.

8. Resultados experimentales:

Tanks & Temples (TNT), ETH3D y DTU demuestran la superioridad de IS-MVSNet sobre las SOTA actuales. Con una puntuación F del 62,82 %, ISMVSNet supera todos los algoritmos MVS publicados en el punto de referencia intermedio de TNT por un claro margen.

9. Descarga de papel:

https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136920663.pdf

https://github.com/NoOneUST/IS-MVSNet

2. Proceso de implementación

1. Descripción general de IS-MVSNet

IS-MVSNet continúa la estructura de la red de grueso a fino, como se muestra en la siguiente figura.

  1. IS-MVSNet emplea Feature Pyramid Network (FPN) para extraer representaciones de varios niveles de imágenes de referencia y fuente.
  2. Muestra un conjunto de profundidades hipotéticas para una evaluación adicional. Para la etapa más gruesa S=1, las profundidades hipotéticas se muestrean uniformemente en un rango de profundidad predefinido. Para la etapa S>1, se propone una estrategia de selección de hipótesis profunda basada en el muestreo de importancia, que proporciona un método de muestreo más eficiente para IS-MVSNet sin sacrificar la eficiencia. También se propone un método no supervisado para estimar hiperparámetros adecuados para el muestreo de importancia.
  3. Calcular cuerpo de costo.
  4. Se utiliza una CNN 3D para regularizar el volumen de costos y predecir la probabilidad de cada profundidad hipotética de verdad en el terreno.
  5. Calcule el producto interno de la muestra de profundidad y la probabilidad de la predicción correspondiente como predicción de profundidad para la etapa actual.

2. Selección de profundidad de hipótesis basada en muestreo de importancia

Como algoritmo de grueso a fino, IS-MVSNET refina gradualmente la predicción de profundidad. En el caso de la etapa S>1, aunque la predicción anterior D s 1 está más o menos cerca de la profundidad real D GT , todavía hay una brecha entre ellos. Suponiendo que podemos estimar el error de predicción de profundidad por píxel, muestreamos aún más la profundidad hipotética alrededor de la realidad del suelo a una resolución mayor. En este caso, la capacidad del modelo para capturar detalles finos se puede mejorar considerablemente.

Si bien estimar el error por píxel es difícil y poco práctico, proponemos estimar la distribución de errores en el conjunto de datos y ajustar el muestreo de profundidad asumido en consecuencia. Sin embargo, los algoritmos MVS existentes no consideran la estimación del error y consideran ciegamente el error de predicción como una variable aleatoria uniforme. En IS-MVSNET, proponemos un método para encontrar N s buenos valores candidatos de profundidad di para cada píxel en la etapa S>1, con base en la predicción de profundidad D s 1 de la etapa anterior y el error de predicción de profundidad δ️️ La probabilidad la función de densidad (PDF), F(δ), se estima para todos los píxeles del conjunto de datos. Luego muestreamos en di para generar una predicción de profundidad Ds más precisa:

donde p(di) representa la probabilidad de que la profundidad candidata Di sea el vecino más cercano de dgt.

De esta manera, podemos ubicar con mayor precisión a los candidatos de profundidad más prometedores y luego asignarles más atención. El resultado es una mayor precisión de profundidad debido a los incrementos de resolución de profundidad más finos alrededor del valor real.

Formulación de errores. El primer problema es cómo formular la distribución de errores. Creemos que es razonable aproximar la PDF de error como una función unimodal por tres razones. Primero, dado que hay muchos factores que afectan el error de predicción, el teorema del límite central muestra que el error tiende a una distribución unimodal de media cero; segundo, la estimación sin sesgo se logra generando predicciones aproximadas a través de un muestreo uniforme; tercero, los experimentos verifican que el error sí obedece a una distribución unimodal con una media cercana a cero. En particular, no requerimos la etapa anterior para dar una predicción probabilística unimodal de la profundidad hipotética para un píxel dado. En cambio, esperamos que las distancias desde la profundidad real hasta las predicciones de profundidad calculadas a partir de todas las profundidades hipotéticas sigan una distribución unimodal.

Suponiendo que la mayoría de las estimaciones de profundidad de píxeles de la etapa anterior sean correctas, nuestro método supera significativamente el muestreo uniforme. En la Figura 4d, nuestros experimentos en conjuntos de datos reales muestran que el muestreo siguiendo una distribución gaussiana de media cero es significativamente mejor que una distribución uniforme. Además, el muestreo siguiendo una distribución gaussiana beneficia a la mayoría de los píxeles al proporcionar una mayor densidad de muestreo en las profundidades reales de estos píxeles, aunque la mayoría de las estimaciones de profundidad de píxeles fueron incorrectas en los casos extremos de la etapa anterior. Incluso si no seguimos una distribución gaussiana de media cero para estimar la media y la muestra, nuestro método aún se beneficia de más píxeles que el muestreo uniforme. Nuestro método de muestreo supera o es comparable al muestreo uniforme incluso en regiones que contienen las predicciones más falsas, como regiones repetitivas y sin textura, objetos pequeños lejos del fondo.

intervalo discreto. Los intervalos discretos tienen dos ventajas sobre el muestreo de un PDF continuo. Primero, dado un número finito de profundidades, digamos 8, los intervalos discretos producen densidades de muestreo más estables que el muestreo iid, más cercano a la distribución de error real. En segundo lugar, los intervalos discretos son beneficiosos para las circunvoluciones, ya que los píxeles adyacentes tienen profundidades de muestreo similares y la correlación espacial es crucial para las circunvoluciones.

Sobre la base de estas consideraciones, proponemos además muestrear candidatos de profundidad no uniformes siguiendo una secuencia de intervalos predefinidos. Precisamente, el PDF de error debe controlar el intervalo de profundidad: donde el PDF es mayor, el intervalo debe ser menor; de lo contrario, debe ser mayor. Si µs e−1 representa el error promedio de la etapa s−1, entonces el intervalo de profundidad cercano a Dps−1+µs e−1 debería ser más pequeño, de lo contrario debería ser más grande. Adoptamos una secuencia geométrica simple y típica para ajustar el patrón de intervalo para cumplir con los requisitos. Tenga en cuenta que otras secuencias con tendencias similares son aceptables si tienen propiedades similares de la distribución gaussiana N(μes−1, σse−1), es decir, tienen solo una unimodalidad en μes−1 y las secuencias tienen las mismas propiedades que σes − 1 para (N(μ se−1, σes−1)) parámetros de efectos similares. Además, no es necesario hacer cumplir estrictamente la secuencia de intervalos para que converja a
N(µs e−1, σes−1) cuando el número de intervalos tiene una orientación ∞. Por ejemplo, las progresiones aritméticas también funcionan bien. Con este enfoque, muestreamos la profundidad de la distribución de errores mientras mantenemos la consistencia local. El algoritmo de muestreo de importancia detallado se describe a continuación.

Detalles del algoritmo. Utilice intervalos discretos para colocar hipótesis de profundidad en un rango de profundidades, en lugar de muestrear profundidades directamente desde un PDF continuo. En la primera etapa, todo el rango de profundidad R1 se divide en n1−1 intervalos equivalentes de tamaño R1/n1−1, ya que no se proporciona una estimación de profundidad imparcial previa en la etapa s=1. En la siguiente etapa s ∈ {2,3,…}, se emplea una progresión geométrica ordinaria para generar hipótesis de profundidad y aumentar la densidad de muestreo en la región central. Los intervalos discretizados se parametrizan con ks, un hiperparámetro que determina la forma del intervalo. Como se muestra en la Figura 2, el intervalo mínimo se reduce a 1ks y la velocidad de cambio de la longitud del intervalo es cs, que está controlada por ks. Un ks más grande significa un muestreo más denso alrededor de Dps−1+μes−1 en la predicción previa corregida. Cuando ks > 1, el intervalo de profundidades hipotéticas del centro se reduce a 1/ks, mientras que el intervalo de profundidades de los bordes aumenta. Es decir, el intervalo central rs/ks es 1/ks más pequeño que el intervalo de muestreo uniforme rs. Cuando ks=1, el muestreo de importancia se degrada a un muestreo uniforme. Cuando 0 < ks < 1, este método puede manejar la mayoría de los casos en los que las predicciones anteriores fueron incorrectas.

Figura 2: Diagrama esquemático de selección de profundidad cuando el número de profundidades es 6. En esta estrategia de muestreo, el rango de profundidad permanece sin cambios. El intervalo de profundidad mínima se reduce a 1 ks y la longitud del intervalo aumenta en la proporción de cs, que está controlada por la característica ks de la ecuación (1). Cuanto mayor es ks, menor es el intervalo mínimo, y cuanto mayor es cs, más rápido cambia la longitud del intervalo.

Específicamente, los intervalos de profundidad forman una progresión geométrica simétrica:

 cs es la razón común de los intervalos adyacentes. Dado que es deseable mantener el rango de profundidad de la red y el número de profundidades supuestas igual que el modelo de línea de base, cs está controlado únicamente por ks, Rs y ns de acuerdo con la ecuación (1). En la práctica, cs se calcula numéricamente como la raíz de la ecuación (1).

Defina un candidato de profundidad único para cada píxel. Específicamente, primero, cada píxel tiene su propio conjunto de candidatos de profundidad discretos definidos por una secuencia de intervalos; segundo, el intervalo (es decir, la suma de intervalos) entre el candidato de profundidad y el rango de profundidad R es consistente en el tamaño de todos los píxeles y tercero, establezca la posición central del rango de profundidad R a lo largo del eje de profundidad en la estimación de profundidad anterior Dps−1 para cada píxel. Por lo tanto, cada píxel tiene un conjunto único de candidatos de profundidad cuyo espaciado es el mismo en todos los píxeles; cuarto, si se estima el error promedio μes−1, la posición del rango "corregido" adicional es Ds−1p+ µes−1.

3. Estimación de distribución de error no supervisada

En IS-MVSNet, presentamos dos nuevos hiperparámetros ks y µs para ajustar la forma de la función de muestreo gs(x) en la etapa s > 1. En aplicaciones prácticas, el error de estimación de profundidad se concentra alrededor de cero. Por lo tanto, por defecto tratamos el error medio µs = 0 y solo estimamos ks. Sin embargo, el esquema de estimación de ks propuesto en esta sección también es aplicable a µs. Si queremos estimar tanto ks como µs, primero fijamos ks y estimamos µs, luego fijamos µs y estimamos ks.

Como se analizó en la sección anterior, cuando se conoce la profundidad real, la k óptima se puede determinar de manera única minimizando la diferencia entre la función de muestreo gs(x) y la distribución de error real. Sin embargo, no conocemos la profundidad real en la escena real, y la escala, la iluminación y los elementos intrínsecos de la cámara son diferentes para diferentes conjuntos de datos. Por lo tanto, es necesario estimar un ks para cada conjunto de datos. Tomamos el costo de coincidencia como una pista de la profundidad real y mostramos que estimar la distribución del error es equivalente a minimizar el costo de coincidencia, lo que siempre se puede lograr. En esta sección se propone una estrategia general de selección de hiperparámetros no supervisados ​​ks que hace que el módulo de muestreo basado en la importancia no esté restringido por hiperparámetros en todos los escenarios.

Recuerde que en MVS, la imagen 2D de entrada y los parámetros de la cámara siempre están disponibles, y existe consistencia fotométrica entre diferentes vistas. Dado un punto 3D P con profundidad dr y proyección Pr en la vista de referencia, las coordenadas de la proyección Pv de P en la v-ésima vista de origen se pueden calcular como Pv = Hv(dr)Pr, donde Hv(dr) es una matriz homográfica .

Suponiendo que la estimación de profundidad Dps sea correcta, entonces Pvs = Hv(Dps)Psr debería representar el mismo punto 3D que Psr, es decir, la característica Frs = Fvs de Psr. Dado que se dan múltiples vistas, usamos la varianza Var[Fvs] para medir su similitud. Por lo tanto, la mejor estimación de profundidad Dp*=argminVar[Fvs].

Como se mencionó en la sección anterior, k determina la PDF de distribución del error de estimación. Específicamente, una k más grande indica una distribución de error con menos varianza. Cuando k=1, el muestreo de importancia es lo mismo que el muestreo uniforme; cuando k=∞, solo un punto candidato tiene la posibilidad de ser muestreado. Claramente, tanto k = {1, ∞} conducen a una diferencia no mínima entre la PDF estimada y la real. Por lo tanto, cuando k aumenta desde 1, el rendimiento del modelo mejora primero y luego disminuye gradualmente. Adoptamos una función unimodal para aproximar la curva k de rendimiento. Con base en esta consideración, proponemos un algoritmo de selección de hiperparámetro k no supervisado basado en la búsqueda ternaria, como se muestra en el Algoritmo 1, el Algoritmo 2 y la Figura 3. Dado que la búsqueda ternaria reduce el rango de búsqueda en una proporción constante en cada iteración, converge muy rápido. En términos generales, de 3 a 5 iteraciones pueden obtener una k satisfactoria. Nuestros experimentos en la Figura 4c muestran que seleccionar al azar dos vistas de referencia por escaneo es suficiente para determinar k.

Figura 3: Diagrama esquemático del módulo de estimación de distribución de errores. Evaluamos k con una pérdida fotométrica y aplicamos una búsqueda ternaria para encontrar el k óptimo para el algoritmo 1 y el algoritmo 2.

4. Experimenta

4.1 Conjuntos de datos

 4.2 Comparación con tecnologías avanzadas

Continuando con Vis-MVSNet, se predice un mapa de profundidad de tamaño medio, mientras que otros métodos mencionados son de tamaño completo. Dado que los objetos en la DTU son muy pequeños, el mapa de profundidad requiere una resolución plana más alta. Por lo tanto, la mejora en TNT es más significativa que en DTU. Aunque UCSNet muestra una mejor distancia general, su ventaja se basa en una estrategia de determinación del rango de profundidad, que no entra en conflicto con nuestro algoritmo de muestreo agnóstico del rango de profundidad.

Supongo que te gusta

Origin blog.csdn.net/qq_43307074/article/details/130659310
Recomendado
Clasificación