Serie de extracción de funciones basada en el aprendizaje profundo (2): artículo de SuperPoint

0 resumen

Este artículo propone un marco autosupervisado para entrenar detectores y descriptores de puntos de interés adecuados para una gran cantidad de problemas geométricos de múltiples vistas en visión por computadora. A diferencia de las redes neuronales basadas en parches, nuestro modelo totalmente convolucional opera en la imagen de tamaño completo y calcula conjuntamente las ubicaciones de los puntos de interés a nivel de píxel y los descriptores asociados en un solo paso hacia adelante. Presentamos la Adaptación Homográfica, un enfoque de múltiples escalas y múltiples homologías para mejorar la reproducibilidad de la detección de puntos de interés y realizar una adaptación entre dominios (por ejemplo, de sintético a real). Cuando se entrena en el conjunto de datos de imágenes universales MS-COCO mediante adaptación homográfica, nuestro modelo puede detectar repetidamente un conjunto más rico de puntos de interés que el modelo profundo preadaptado inicial y cualquier otro detector de esquinas tradicional. El sistema final produce resultados de estimación de homografía de última generación en HPatches en comparación con LIFT, SIFT y ORB.

Anotación: Para resolver el problema de la geometría de múltiples vistas, se propone la Adaptación Homográfica, que es la clave para comprender este artículo.

1. Introducción

En términos generales, para implementar un marco de autosupervisión significativo, se necesitan muchos puntos de interés de verdad pseudofundamental. Utilizando un conjunto de datos sintéticos -Synthetic Shapes, el detector entrenado se llama MagicPoint y el detector se utiliza para generar puntos de interés de verdad pseudo-terrenos. Aunque MagicPoint es bueno, tiene dificultades de adaptación al dominio. Para resolver este problema, se propone una técnica de múltiples escalas y múltiples cambios: la Adaptación Homográfica. La adaptación homográfica está diseñada para permitir el entrenamiento autosupervisado de detectores de puntos de interés. Utilice la adaptación homográfica combinada con MagicPoint para mejorar el rendimiento del detector y crear muchos puntos de interés de verdad pseudo-terrenos, a los que llamamos SuperPoint.
Nota: la verdad pseudofundamental es una verdad fundamental irreal y no está traducida. El modelo entrenado etiqueta pseudopseudo y no está seguro de si es la etiqueta correcta.

2. Trabajo relacionado

El detector de esquinas FAST es el primer algoritmo que detecta rápidamente puntos característicos, y SIFT es el descriptor de características local más famoso en la tradición. La fuente de inspiración de SuperPoint es el reciente aprendizaje profundo combinado con la extracción de funciones. Como se muestra en la Tabla 1, SuperPoint es el más completo. Presentemos brevemente los métodos supervisados ​​y no supervisados.

Tabla I
Insertar descripción de la imagen aquí

3 Marco de SuperPoint

Diseñamos una arquitectura de red neuronal totalmente convolucional llamada SuperPoint que opera en imágenes de tamaño completo y genera detecciones de puntos de interés junto con descriptores de longitud fija en un solo paso hacia adelante (consulte la Figura 3). El modelo tiene un único codificador compartido para procesar y reducir las dimensiones de la imagen de entrada. Después del codificador, la arquitectura se divide en dos decodificadores que aprenden pesos específicos de la tarea, uno para la detección de puntos de interés y el otro para la descripción de puntos de interés. La mayoría de los parámetros de la red se comparten entre las dos tareas, lo que es contrario a los sistemas tradicionales. Los sistemas tradicionales primero detectan puntos de interés y luego calculan descriptores, y carecen de la capacidad de compartir el cálculo y la representación entre las dos tareas.

imagen 3
Insertar descripción de la imagen aquí

3.1 Codificador compartido

La red VGG convencional reduce la dimensionalidad de la imagen de entrada y el codificador consta de funciones de activación no lineal y agrupación de reducción de resolución espacial.

3.2 Detector de puntos de interés

El detector de puntos de interés genera la probabilidad (grado de interés) de cada píxel de la imagen. Una red de predicción densa estándar como SegNet [1] utiliza una estructura de codificador-decodificador para reducir primero la dimensionalidad mediante agrupación y convolución deslizante, y finalmente deconvolucionar nuevamente a la imagen de tamaño completo mediante muestreo ascendente. Sin embargo, dado que el muestreo superior requiere muchos cálculos, proponemos un decodificador explícito para reducir la cantidad de cálculos del modelo ( en esencia, aquí se utiliza una operación de convolución de subpíxeles, también llamada reproducción aleatoria de píxeles ).

Anotación: puntos de interés, es decir, puntos característicos.

3.3 Detector de descriptores

Para obtener un descriptor denso de longitud fija, primero aprenda a obtener un descriptor semidenso similar al de UCN. Los descriptores de aprendizaje semidensos se utilizan para reducir la memoria de entrenamiento y reducir la complejidad computacional. La salida del decodificador se somete a un algoritmo de interpolación bicúbica y luego a una regularización L2 para obtener un descriptor denso y de longitud fija.

3.4 Función de pérdida

L p representa la función de pérdida del detector de puntos de interés y L d representa la función de pérdida del detector de descriptores. Utilizamos un conjunto de imágenes rotadas sintéticas que contienen posiciones de puntos de interés de verdad pseudo-terreno y la correspondencia entre las dos imágenes reales mediante deformación homográfica (la deformación homográfica es una tecnología, palabras clave: alineación de imágenes, imágenes de múltiples vistas ).
Palabras originales: utilizamos pares de imágenes deformadas sintéticamente que tienen (a) ubicaciones de puntos de interés de verdad pseudo-fundamental y (b) la correspondencia de verdad fundamental de una homografía H generada aleatoriamente que relaciona las dos imágenes.
Es un bocado, pero lo entiendo como una correspondencia entre la ubicación del punto de interés falso y las dos imágenes reales.
Para un par de imágenes, podemos optimizar dos funciones de pérdida al mismo tiempo. Utilice λ para equilibrar la función de pérdida final:
Insertar descripción de la imagen aquí

Función de pérdida de entropía cruzada, x hw ∈ X, y hw ∈Y, Y es la etiqueta:
Insertar descripción de la imagen aquí

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí
Comentario: Todavía no entiendo esta función de pérdida.

4 Preentrenamiento sintético

El detector base se llama MagicPoint y se combina con la adaptación homográfica para generar etiquetas de puntos de interés de verdad pseudo-terrenos a partir del entrenamiento de imágenes sin etiquetar de manera no supervisada, como se muestra en la Figura 2.

Resumen de la Figura 2
Insertar descripción de la imagen aquí
:
1. Modelado (nudo Y, nudo L, nudo T y los puntos finales del segmento central y de línea de pequeñas elipses) + Formas sintéticas 》》MagicPoint
2. MagicPoint + mapa sin etiqueta》》 verdad pseudo-terreno Figura
3, SuperPoint + gráfico de verdad pseudo-terreno》》Mapa de puntos de características

El modelado puede entenderse como el uso de métodos matemáticos para encontrar algunos puntos característicos.

4.1 Formas sintéticas

Grandes conjuntos de datos con puntos que antes no estaban interesados. Por lo tanto, primero cree un gran conjunto de datos sintéticos llamado Formas sintéticas, como se muestra en la Figura 4. En este conjunto de datos, la ambigüedad de las etiquetas se elimina modelando puntos de interés utilizando nudos Y, nudos L, nudos T simples y los centros y extremos de los segmentos de elipses diminutas.

Después de renderizar las imágenes sintéticas, aplicamos deformaciones homográficas a cada imagen para aumentar la cantidad de ejemplos de entrenamiento. Los datos se generan dinámicamente y la red nunca ve un ejemplo dos veces. Aunque los tipos de puntos de interés representados en Synthetic Shapes solo representan un subconjunto de todos los puntos de interés potenciales que se encuentran en el mundo real, hemos descubierto que cuando se utiliza para entrenar detectores de puntos de interés, funciona razonablemente bien en la práctica.

Anotación: Las formas sintéticas representan conjuntos de datos y no se traducirán más adelante.

Figura 4
Insertar descripción de la imagen aquí

4.2 Punto Mágico

Usamos la parte del codificador de la arquitectura SuperPoint (ignorando la parte del descriptor) y la entrenamos en formas sintéticas. Al modelo resultante lo llamamos MagicPoint. Lo interesante es que cuando comparamos MagicPoint con otros detectores de esquinas tradicionales en el conjunto de datos de Synthetic Shapes, como los detectores de esquinas FAST, Harris y Shi-Tomasi. Nuestro MagicPoint es el mejor, como se muestra en la Tabla 2.

Comentario: ¿No es normal que los hijos de padres estén más familiarizados con sus padres? ? ¿Será que las amantes y las amantes saben más sobre sus padres? Las amantes y las amantes son sus pares [perro] [perro] [perro]

Cuadro II
Insertar descripción de la imagen aquí

¿MagicPoint también puede producir buenos efectos en imágenes reales? Nuestra respuesta es sí, pero no es tan bueno como imaginamos, lo cual se describirá en detalle en la Sección 7.2. MagicPoint funciona muy bien en el mundo real, especialmente en lugares con ventanas, mesas y sillas (MagicPoint es biológico, como los padres). Desafortunadamente, su rendimiento en términos de repetibilidad ante cambios de punto de vista es deficiente en comparación con los mismos detectores clásicos en el espacio de todas las imágenes naturales. Por ello, proponemos la Adaptación Homográfica para solucionar este problema.

5 Adaptación homográfica

Primero, en cada dominio objetivo generamos una ubicación de punto de interés de verdad pseudo-terreno. Luego, utilizamos una máquina de aprendizaje supervisada tradicional. El núcleo es que usamos homografías aleatorias para voltear las imágenes aleatoriamente, luego detectamos los puntos de las esquinas a través de MagicPoint y agregamos los puntos de las esquinas de cada imagen al mapa de resultados para obtener el superconjunto de puntos de interés. Como se muestra en la Figura 5, el diagrama combinado debería ser fácil de entender.

Ejemplo: El núcleo de nuestro método es un proceso que aplica homografías aleatorias a copias deformadas de la imagen de entrada y combina los resultados, un proceso que llamamos Adaptación Homográfica (ver Figura 5).

Nota: Para las oraciones clave en el futuro, mantendré las oraciones originales cerca, porque algunas traducciones realmente no pueden expresar bien el significado original.
Figura 5
Insertar descripción de la imagen aquí

5.1 Cálculo

Nota: Es mejor leer el texto original de esta parte, que es relativamente sencillo.
Sea f θ (·) la función de puntos de interés inicial que deseamos adaptar, I la imagen de entrada, x los puntos de interés resultantes y H una homografía aleatoria, de modo que: Debido a la
Insertar descripción de la imagen aquí
propiedad covariante, puede haber:
Insertar descripción de la imagen aquí
deformación:
Insertar descripción de la imagen aquí
(9) La fórmula es la fórmula ideal, pero en realidad lo es:
Insertar descripción de la imagen aquí

5.2 Seleccionar homografías

Para la Adaptación Homográfica, 3x3 no siempre es la mejor opción, debe incluir todas las operaciones posibles de la cámara. Superponga todas las operaciones de la Figura 6 en el cultivo del centro de la raíz y luego obtenga el cultivo homográfico aleatorio.
Figura 6
Insertar descripción de la imagen aquí

Existe un superparámetro de N h , que representa el número de Homografías, generalmente se realiza un experimento de control con N h = 1, lo que equivale a no realizar Adaptación Homográfica. Después de los experimentos, se encontró que después de N h >100, los beneficios comienzan a disminuir, por lo que debemos seleccionar al menos 100 para este parámetro.

5.3 Adaptación homográfica iterativa

Figura 7 El gráfico de resultados después de algunas iteraciones. La fila superior es el resultado del MagicPoint inicial y la fila inferior es el gráfico después de más y más iteraciones.
Insertar descripción de la imagen aquí

6 detalles experimentales

¡No es necesario esta parte!

7 resultados experimentales

La repetibilidad se calcula con una resolución de 240 × 320 con 300 puntos detectados en cada imagen.
表3
Insertar descripción de la imagen aquí

表4
Insertar descripción de la imagen aquí
repetibilidad (Rep.)
error medio de localización (MLE)
mapa del vecino más cercano (NN mAP)
puntuación de coincidencia (M. Score)

¡Haz un agujero! Espere hasta que tenga tiempo para comprender los indicadores aquí. La idea central de este artículo se puede entender a partir del contenido anterior: ¡la lectura de este artículo se ha abreviado adecuadamente y el texto completo no será traducido!

Trucos para leer rápidamente el artículo:
1. Encuentre el mecanismo central, verifique la explicación original y comprenda el principio
2. Combine los diagramas y las descripciones de texto
3. Omita la actuación correspondiente y algunas palabras alardes.

Supongo que te gusta

Origin blog.csdn.net/private_Jack/article/details/132730345
Recomendado
Clasificación