[Lectura intensiva en papel 0] Explicación detallada de la serie MVSNet Papers-GC-Net

GC-Net, el documento titulado: Aprendizaje de extremo a extremo de la geometría y el contexto para la regresión estéreo profunda, documento ICCV 2017 (CCF A). Regresión de disparidad para geometría estéreo mediante el aprendizaje de información geométrica y contextual
a través de una red neuronal de extremo a extremo . De repente descubrí que una parte considerable de MVSNet usaba directamente la idea de este modelo sin una explicación detallada . Para comprender mejor algunos conceptos de sustantivos y principios de métodos en MVSNet, complementé y leí intensamente el artículo.


Para la relación entre paralaje y profundidad , puede ver
[Conocimiento complementario de reconstrucción 3D-0] paralaje, concepto de profundidad y su conversión

1. Antecedentes del problema

  • En la estimación de disparidad, el problema central es calcular la correlación de píxeles entre diferentes imágenes , y los algoritmos tradicionales más avanzados anteriores a menudo tienen dificultades en áreas sin textura, superficies reflectantes, estructuras delgadas y patrones repetidos , por lo que a menudo pasan la agrupación o el gradiente. -basado en la regularización para aliviar estas fallas , pero requiere un compromiso entre suavizar la superficie y detectar estructuras detalladas
  • Actualmente, los modelos de aprendizaje profundo pueden aprender representaciones de características con información semántica de imágenes sin procesar.
  • Para muchos problemas de geometría sólida, el efecto del algoritmo se beneficiará del conocimiento del contexto semántico global , en lugar de depender únicamente de la geometría local.
  • En el problema de geometría tridimensional anterior, el método de uso de funciones de aprendizaje profundo consiste principalmente en usar la representación de funciones profundas para generar elementos unarios , y aplicar la coincidencia de costos (coincidencia de costos) en representaciones unarias profundas no es lo suficientemente bueno para estimar la disparidad de píxeles. , y todavía necesita usar métodos tradicionales de regularización y posprocesamiento (como SGB y consistencia de vista izquierda-derecha) , pero estos pasos de regularización superficiales diseñados a mano aún son vulnerables a limitaciones graves, como texturas débiles mencionadas anteriormente

2. Conocimiento relevante

  • Subconjuntos de investigación de inferencia de profundidad : cálculo de costos coincidentes, agregación de soporte de costos, cálculo y optimización de disparidades o refinamiento de disparidades
  • Costo de coincidencia : una medida potencial de la disimilitud de píxeles correspondiente a las ubicaciones de la imagen, como diferencias absolutas, diferencias al cuadrado y diferencias truncadas.
  • Descriptor local basado en gradiente : CENSO, BREVE, etc.

3. Puntos de innovación del artículo

El propósito es usar el par de imágenes estéreo corregidas para encontrar el valor de disparidad de cada punto de píxel en la imagen a través del método de regresión.

  • Usando la representación de características extraída por la red neuronal, el conocimiento geométrico se usa para construir el cuerpo de costo
  • Use convoluciones 3D para agregar información contextual de volúmenes de costos
  • Usando el método de argmin suave propuesto en el artículo para hacer retroceder el paralaje del volumen de costos, se puede lograr una precisión de subpíxeles sin procesamiento posterior y se puede lograr un entrenamiento de extremo a extremo (porque se puede propagar hacia atrás)

4. Modelo de tesis

inserte la descripción de la imagen aquí

1. Características unarias

Utilice la red neuronal con el uso compartido de parámetros para extraer la representación de características profundas, la escala de salida es [H/2, W/2, F], F representa la cantidad de canales de características y el valor de estas características unarias es un valor único. característica.

2. Generación de cuerpos de costes

Calcule un cuerpo de costo para cada una de las imágenes de entrada izquierda y derecha, use la función unaria ([H/2, W/2, F]) extraída en el paso anterior, agregue una dimensión de paralaje y conviértase en [D/2, H/2, W/2, 2F].

Después de agregar la nueva dimensión de disparidad, el mapa de características 3D original se convierte en un volumen de costo 4D , y el valor de la disparidad es: [1, d max ]
Para cada disparidad d i , las características únicas de las imágenes izquierda y derecha están conectadas juntos , pero el conectado es la característica del punto de píxel p en la imagen de la izquierda y la característica del punto de píxel p+d i
en la imagen de la derecha. De esta manera, la escala corporal de costo final es [D/2, H /2, W/2, 2F], y D/2 se debe a que el paralaje solo A lo largo de la dirección horizontal, el máximo es la mitad del ancho de la imagen , y 2F se debe a que para cada paralaje d i en el empalme anterior, se puede considerado como la adición de un canal de características F n de la imagen izquierda original a la imagen de la derecha, más el paralaje correspondiente El canal de características F 'n .

El artículo enfatiza que la ventaja de esto es que la representación absoluta de la característica se retiene en el cuerpo del costo , en lugar de usar métodos como productos punto o métricas de distancia para obtener solo la relación relativa entre diferentes características , evitando así la reducción de las dimensiones de la característica y pérdida de información. , puede calcular y utilizar mejor la información semántica en el proceso posterior .

3. Contexto de aprendizaje

El propósito de esta parte, la regularización del volumen de costos, es aprender una función de regularización que tenga en cuenta el contexto en el volumen de costos y mejore la estimación de la disparidad. Además, se señala que incluso si las funciones aprendidas por la red neuronal se utilizan para la coincidencia de costos, habrá problemas. Por ejemplo, para algunas escenas con una intensidad de píxeles uniforme, como el cielo, el promedio de coincidencia del área local será muy plano, por lo que está previsto utilizar operaciones de convolución 3D para filtrar y optimizar la representación.

La estructura de red de esta parte de la convolución 3D:
inserte la descripción de la imagen aquí

  • Las circunvoluciones 3D pueden aprender representaciones de características a partir de dimensiones de altura, ancho y disparidad, y dado que se calcula una curva de costo para cada característica unaria, los filtros convolucionales se pueden aprender a partir de esta representación.
  • El problema de usar la convolución 3D es que una dimensión de disparidad más traerá una gran carga computacional, que se puede aliviar usando una estructura profunda de codificación y decodificación (Deep Encoder-Decoder), es decir, submuestreo de mapas de características durante la codificación y aumento de muestreo durante la decodificación. Ejemplos de mapas de características.

4.可微ArgMin (ArgMin diferenciable)

Esta parte es para inferir el mapa de profundidad y proponer la operación argmin suave que MVSNet continuará usando más adelante.

En primer lugar, se señala que en el método anterior, el cuerpo del costo se calcula igualando el costo, y el argmin se usa para estimar la disparidad a lo largo de la dimensión de la disparidad, por lo que hay dos problemas:

  • La disparidad calculada es discreta y no se puede generar una estimación de disparidad de subpíxeles (por lo que la precisión de subpíxeles simplemente significa precisión "continua, incluido el punto decimal" )
  • El resultado no es diferenciable, por lo que no se puede entrenar con retropropagación.

Por ello, se propone el método Soft argmin, en concreto:

  • Invierta el valor (costo previsto) de cada píxel en el volumen de costo (volumen de costo) después de la regularización para obtener el volumen de probabilidad (volumen de probabilidad)
  • Regularice el cuerpo de probabilidad a lo largo de la dirección de la disparidad, es decir, realice la operación softmax
  • Encuentre expectativas a lo largo de la dirección de la disparidad

Expresar todo el proceso a través de la fórmula es: soft argmin : = ∑ d = 0 D maxd × σ ( − cd ) soft\ argmin:=\sum^{D_{max}}_{d=0}d\times{σ (-c_{d})}s o f t a r g m i n :=re = 0Dmx _ _d×σ ( - dore)
cdes el valor del costo de predicción cuando la disparidad en el volumen del costo de regularización es d.


  • La nota en esta parte del diagrama del modelo de tesis es "Soft argmax". De hecho, hay una pequeña línea de notas en la narración.
  • Además, el documento utiliza deliberadamente una parte del espacio para describir cómo hacer que el argmin suave produzca los mismos resultados de predicción de paralaje que el argmin directo ¿No es mejor esperar expectativas? Puede ser que este método se haya elegido a la inversa del efecto experimental. .

5. Función de pérdida

inserte la descripción de la imagen aquí
Nada especial, es resolver la pérdida de L1 píxel a píxel como un problema de regresión.

5. Prominencia del modelo

inserte la descripción de la imagen aquí
El documento calcula la imagen de arriba utilizando el valor de paralaje de cada píxel como entrada para calcular la influencia de cada píxel. Se puede ver que la inferencia de paralaje de cada píxel de cruz blanca objetivo contiene información de contexto más amplia, a través de las características de píxel del automóvil. y el suelo circundante se utilizan para calcular su disparidad , lo que antes era imposible para los algoritmos estéreo de aprendizaje profundo basados ​​en parches como 9x9 .

Supongo que te gusta

Origin blog.csdn.net/qq_41794040/article/details/128101121
Recomendado
Clasificación