Aprendizaje de la detección de descriptores

Método de evaluación

Índice de evaluación de puntos característicos

exactitud

En un gráfico simple con puntos de esquina obvios, pruebe la tasa de detección y calcule el valor RMSE (error cuadrático medio) en ambas direcciones xy

velocidad

En la misma plataforma experimental, los umbrales de los parámetros se ajustan manualmente al mejor estado para la prueba.

Adaptabilidad (examina principalmente la tasa de repetición)

La adaptabilidad es principalmente para rotación, cambios de escala, cambios de ángulo de visión (los más difíciles), brillo, contraste, ruido, etc.

Extraiga dos imágenes, use la imagen con menos puntos característicos como punto de referencia y calcule la tasa de repetición en la otra imagen

Tasa de repetición = número de puntos repetitivos de las dos imágenes / número de puntos característicos de la imagen de referencia

Uniformidad

Generalmente, los puntos característicos extraídos del operador de interés a menudo se concentran en el área de textura densa
El método de selección de cuadrícula basado en la entropía de información local optimizará la distribución espacial.

Evaluación del descriptor

Al hacer coincidir e identificar la misma escena u objetivo en diferentes condiciones de observación, el número de puntos de coincidencia (tasa de repetición de dos imágenes) y la precisión de recuperación (precisión de coincidencia) se utilizan como criterios de evaluación

Conjunto de datos marrón [2010 PAMI]

El uso del método de reconstrucción tridimensional para obtener la ubicación de los puntos característicos y la relación de coincidencia
contiene un total de tres
indicadores de conjuntos de datos : FPR95-95% de la relación de coincidencia es correcta, la proporción de error de relación de no coincidencia.
Ordene la distancia entre cada conjunto de pares de parches de pequeño a grande y seleccione el valor incluido en el 95% de las relaciones coincidentes como el umbral de coincidencia y no coincidencia. Los datos dentro de este umbral tendrán pares coincidentes incorrectos (FP), habrá un par coincidente correcto (TN) fuera del umbral, el FPR final = FP / (FP + TN)

Funciones locales de ETH [CVPR 2017]

Utilice el método de reconstrucción tridimensional para evaluar, principalmente para establecer el valor real de algunas características significativas del conjunto de datos, como la longitud de la pista, el número de puntos de profundidad, la profundidad, etc., y compare con el valor real para obtener el promedio. tasa de error

Conjunto de datos de HPatches [2017 CVPR]

Se da el valor real de la matriz de homografía y se desverifica la exactitud de la coincidencia, de modo que la tasa de recuperación y la precisión se
centran en la evaluación del descriptor local, pero también incluye el valor real, pares geométricos transformación y detección de puntos característicos para evaluar

SuperPoint [CVPRW18], SuperGlue [CVPR20], Key.Net [ICCV19], D2-Net [CVPR19], R2D2 [NIPS19] y otros logros en los últimos dos años se basan en los resultados de las pruebas de este conjunto de datos como evaluación. criterios

Actuar como indicador de evaluación

Exterior: YFCC100M
Interior: SUN3D, ScanNet
integrado: FM-Benchmark (TUM (interior, KITTI (calle), T&T (exterior), CPC (atracción))

Trabajo típico de los últimos años

LIFT: puntos de característica invariantes aprendidos [ECCV16]

Este artículo presenta un marco de aprendizaje profundo e implementa la detección de puntos de características de la imagen, la estimación de la dirección y la extracción de descriptores. Cada parte se implementa en función de las CNN de redes neuronales convolucionales, utilizando una capa de conversión espacial para modificar bloques de imágenes para obtener características Detección de puntos y estimación de dirección. Al mismo tiempo, se utiliza la función argmax en lugar del método tradicional de supresión no máxima, su rendimiento se debe a otros métodos previamente conocidos. La estructura general es la siguiente: La
Inserte la descripción de la imagen aquí
extracción SIFT de puntos de características incluye tres pasos: el detector de puntos clave detecta puntos de características candidatos, asigna valores a direcciones y calcula vectores descriptores de 128 dimensiones. En el trabajo anterior de LIFT, muchos usan CNN para aprender estos tres pasos Algoritmo, sin embargo LIFT es el primero en proponer la integración de estas tres redes juntas y proponer un método de entrenamiento exitoso. Ya que es imposible entrenar toda la red desde cero, porque el propósito de estas tres redes neuronales es diferente. propuesto Entrene estas tres redes por separado para resolver este problema: primero entrene el descriptor (Descriptor), luego el estimador de orientación (Estimador de orientación) y finalmente el detector de puntos característicos (detector)

Método de entrenamiento:
1. Establezca la red siamesa, los puntos característicos utilizados para el entrenamiento son el resultado del algoritmo SFM y la entrada es el bloque de imagen donde se encuentra el punto característico;
2. Primero entrene el descriptor, luego úselo para entrenar la estimación de la dirección, y finalmente entrenar la función Detección de puntos
3. El entrenamiento es el bloque de imagen utilizado, y la escala es diferente.


Inserte la descripción de la imagen aquí
Resultados experimentales de la canalización en tiempo de ejecución :
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

SuperPoint: Detección y descripción de puntos de interés auto-supervisados ​​[CVPRW18]

SuperPoint es un método de extracción de descriptores y detección de puntos de características basado en entrenamiento auto-supervisado, que fue propuesto en un artículo publicado por MagicLeap en 2018. El autor también publicó un artículo en 2016 y 2017. Los tres artículos básicamente pueden ver la evolución de la idea del autor de usar el aprendizaje profundo para la estimación de poses.

16 años de estimación de homografía de imagen profunda: estimación de la matriz de homografía de un par de imágenes de un extremo a otro. El conjunto de datos de entrenamiento se genera seleccionando imágenes de MS-COCO y luego realizando una transformación de homografía en esta imagen para obtener pares de imágenes. Para obtener la confianza de la transformación matricial (como establecer la varianza en slam, estas cosas son necesarias), el autor divide la red en dos partes, correspondientes a dos salidas, una que genera un único resultado de transformación y la otra que genera múltiples transformaciones posibles. resultados, y Dar la confianza de cada resultado de transformación En uso real, seleccione el que tenga la mayor confianza.

Hacia Geometric Deep SLAM en 2017: es un método de extracción de características basado en el aprendizaje profundo diseñado para SLAM. Incluye principalmente dos partes, una es la red de extracción de puntos de características MagicPoint y la otra es la red MagicWarp para la estimación de pose basada en la extracción puntos característicos. En particular, el método modificado no necesita aprender descriptores, solo extrae la ubicación de los puntos característicos. Dado que el entrenamiento de la red requiere poses reales entre imágenes, el autor diseñó una biblioteca de objetos virtuales tridimensionales y obtuvo el conjunto de datos requeridos simulando diferentes perspectivas e interceptando las imágenes correspondientes. El resultado final muestra que MagicPoint es más robusto que los métodos tradicionales para extraer características, y MagicWarp tiene una mayor precisión en la estimación de pose.

SuperPoint es el trabajo del autor a través de los dos artículos anteriores, después de resumen y mejora, la dirección es extraer características a través de la red de aprendizaje profundo, pero se ha producido un gran cambio en el pensamiento, es decir, no hay aprendizaje de poses de un extremo a otro. En cambio, solo se aprenden los puntos de características y los descriptores.
En este documento, se diseñan dos redes, una es BaseDetector, que se utiliza para detectar puntos de esquina (pueden entenderse como puntos de características candidatos), y la otra es la red SuperPoint, que genera puntos de características y descriptores.

La formación de la red se divide en tres pasos:

1) El primer paso es usar objetos virtuales tridimensionales como un conjunto de datos y entrenar la red para extraer puntos de esquina.
Aquí está el Detector de base de red, que es el MagicPoint mencionado anteriormente. Se conocen los puntos de esquina de la estructura virtual , por lo que puede directamente Como un conjunto de datos etiquetado para entrenar la capacidad de la red para extraer esquinas.
2) Utilizando imágenes de escenas reales, extraiga puntos de esquina con la red entrenada en el primer paso. Este paso se denomina Autoetiquetado de puntos de interés.
El conjunto de datos utilizado por el autor es MS-COCO, para generalizar la red En este paso , el autor no solo usa la imagen original, sino que también rota y amplía aleatoriamente cada imagen para formar una nueva imagen, y la nueva imagen también se usa para el reconocimiento. Este paso es realmente similar a la mejora de datos que se usa comúnmente en el entrenamiento de detección de objetivos.
3) Realice una transformación geométrica en la imagen utilizada en el segundo paso para obtener una nueva imagen, de modo que haya un par de imágenes con una relación de pose conocida, e ingrese estas dos imágenes en la red para extraer puntos característicos y descriptores.
Este paso consiste en construir la función de pérdida con el error de actitud El contenido específico de la función de pérdida se ha descrito en la sección sobre estructura de red. Permítanme decir un poco más aquí, para hacer que los puntos característicos extraídos sean más adecuados para el cálculo de la pose (es decir, una mejor estabilidad y precisión). A menudo, el error de pose se utiliza para construir la función de pérdida al diseñar la red. Significa entrenando con lo que quieres como objetivo directo. La red GCN previamente interpretada utiliza este método.

Estructura de la red SuperPoint

Inserte la descripción de la imagen aquí
La red se divide en cuatro partes, que se presentan a continuación

1) Red de codificación
A partir de la imagen de la red SuperPoint anterior, podemos ver que se trata esencialmente de dos redes, pero hay algunas estructuras idénticas en la primera mitad, por lo que estas mismas estructuras se extraen y comparten, y parece que después de fusionarse. Es como una red. Esta red compartida es la red de codificación. El autor eligió una estructura de red similar a VGG. Su función es reducir la dimensionalidad de la imagen y extraer características para reducir la cantidad de cálculo en la red posterior.

2) Red de detección de puntos característicos

La red aquí es en realidad un decodificador, con codificación, y la decodificación es naturalmente necesaria aquí. La función es calcular una probabilidad para cada píxel de la imagen, y esta probabilidad representa la probabilidad de que sea un punto característico. Con respecto al problema del cálculo excesivo en las operaciones generales de decodificación, el autor también propuso el uso de convolución de subpíxeles para reducir el cálculo.

3) Red de detección de descriptores

Del mismo modo, aquí también hay un decodificador. Primero aprenda descriptores semi-densos (el método para no usar denso es reducir la cantidad de cálculo y memoria), luego realice una interpolación bicúbica para obtener el descriptor completo y finalmente use L2-normaliza para obtener la descripción de la longitud de la unidad de.

4) Función de pérdida

La red se divide en dos ramas, y la función de pérdida se divide naturalmente en dos ramas. Sin embargo, para entrenar de manera uniforme, el autor utiliza la suma de las funciones de pérdida de las dos ramas como función de pérdida final. La función de pérdida final es
Inserte la descripción de la imagen aquí

Resultados experimentales

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Key.Net: Detección de puntos clave mediante filtros CNN hechos a mano y aprendidos [ICCV19]

Este artículo presenta un nuevo método de tarea de detección de puntos clave, que combina filtros CNN hechos a mano y aprendidos en una estructura de escalas múltiples poco profunda para la detección de puntos clave.

Puntos de contribución:

1. Proponga un detector de puntos clave que combine funciones de CNN hechas a mano y aprendidas.
2. Proponer un nuevo operador y pérdida de múltiples escalas para la detección de escalas cruzadas y la estabilidad de clasificación de puntos clave.
3. Detección de características de escala múltiple basada en arquitectura superficial.
Inserte la descripción de la imagen aquí
Primero, para imitar la pirámide, reduzca la resolución de la imagen original + desenfoque gaussiano (escala de 3 capas) y luego realice el aprendizaje en red en cada escala.
Luego, cada entrada primero realiza la primera derivada del degradado en el píxel para obtener una capa de mapa de características y luego realiza la segunda derivada del píxel para obtener una capa de mapa de características.
Luego pasa a través de varias capas de CNN y finalmente muestra el tamaño de la imagen original. Luego, cada capa de escala se acumula y fusiona para obtener la capa final del mapa de respuesta WH1.
Este modelo se entrena con los datos creados sintéticamente por Image Net y evaluados en el punto de referencia Hpatch.
La pérdida se basa en la diferencia al cuadrado entre los puntos extraídos por la capa de IP (sugerencia de índice) y las coordenadas máximas reales (NMS) en las ventanas correspondientes de Ia e Ib.
Inserte la descripción de la imagen aquí
El resultado final de coincidencia muestra que ket-net tiene un buen resultado de coincidencia en los cambios de punto de vista, mientras que LF-Net + HardNet tiene un buen resultado de coincidencia en los cambios de iluminación.

R2D2: Detector y descriptor repetible y confiable [NIPS19]

Anteriormente, estaba pensando en si podemos extraer y describir puntos característicos solo en la región de interés, pero este artículo cree que la región saliente no es necesariamente fácil de distinguir, lo que puede conducir a situaciones difíciles de describir. Además, los descriptores solo deben coincidir en áreas de alta confianza, por lo que la red del autor, si bien genera una descripción y un kp_map repetible, también genera la confiabilidad de cada píxel (0 ~ 1) (descriptor Preparado), la estructura es la siguiente:
Inserte la descripción de la imagen aquí
La red es como se muestra en la figura anterior y genera descriptores locales densos (uno para cada píxel) y dos mapas de confiabilidad y repetibilidad relacionados. Para los dos mapas, uno estima que los puntos clave son repetibles y el otro estima que sus descriptores son separables. Finalmente, los puntos clave se toman desde la posición donde se maximiza la respuesta de estas dos imágenes.
Para entrenar el detector de puntos clave, se adopta una nueva función de pérdida no supervisada, que fomenta la repetitividad, la escasez y la distribución uniforme de la imagen. Para el entrenamiento de descriptores locales, se entrena con pérdida de clasificación por lista, que usa métricas basadas en la precisión promedio aproximada (AP) para conocer el progreso más reciente en lugar de usar triplete estándar o pérdida contrastiva. Aprendemos un valor de confianza de confiabilidad para predecir qué píxeles tendrán descriptores de AP altos, tanto discriminativos como robustos, y finalmente se pueden emparejar con precisión.

Ilustre la diferencia clave entre repetibilidad (segunda columna) y confiabilidad (tercera columna) de una imagen dada. El área repetible en la primera imagen solo se encuentra cerca del triángulo negro, sin embargo, todos los parches que lo contienen son igualmente confiables. Por el contrario, todos los cuadrados en el patrón de tablero de ajedrez son significativos y, por lo tanto, repetibles, pero debido a la auto-semejanza, nadie se distingue. Ambos mapas de confianza son estimados por nuestra red. En definitiva, repetibilidad significa asegurar que se pueda volver a detectar después de que cambie la condición, la confiabilidad tiende a ser fácil de distinguir, es decir, favorece el emparejamiento basado en descriptores.
Inserte la descripción de la imagen aquí

experimentar:

Inserte la descripción de la imagen aquí
La pantalla MMA supera el Superpoint, pero si sigue estrictamente los requisitos de baja precisión (el umbral es de 3 píxeles o menos), el superpunto no se supera en condiciones de iluminación.

D2-Net: una CNN entrenable para la descripción conjunta y la detección de características locales [CVPR19]

Este artículo toma prestada la idea tradicional de detección de puntos característicos.
La mayoría de las redes anteriores, como lift, primero realizan la detección de puntos clave y luego determinan la ubicación del punto clave antes de generar más descriptores, es decir, detectar-luego-describir. En Superpoint y GCNv2, la detección y la descripción se dividen en dos ramas. Superpoint usa una máscara para marcar descriptores coincidentes y no coincidentes, mientras que en GCNv2, la pérdida triple se construye directamente, que se basa en los puntos característicos. Elija su descriptor correspondiente.
Y este artículo también cree que la detección y la descripción deben realizarse al mismo tiempo y, a diferencia de las dos ramas de red anteriores, aquí solo se usa una red. Específicamente, el mapa de características HWC se genera para una imagen después de pasar por la red, luego la característica 1 × 1 × C corresponderá a una región de la imagen original, es decir, esta característica es una descripción parcial de la imagen original. . Podemos considerar este mapa de características como similar al DoG en detectores tradicionales como SIFT, que es la capa de diferencia de gradiente de la imagen. Luego siga el proceso del detector tradicional para extraer el punto de característica. En este momento, la característica 1 × 1 × C es el descriptor del punto, y luego se construye la pérdida para el entrenamiento.
Inserte la descripción de la imagen aquí
La precisión de posicionamiento de los puntos característicos no es alta y la velocidad también es muy lenta, pero la robustez de la iluminación es muy alta.

Innovación:

Salió del paradigma tradicional de detección de características y obtuvo det y des directamente. A partir de entonces, una gran cantidad de trabajo ya no aprenderá específicamente una detección de puntos clave para detectar la posición, escala, ángulo, etc. de puntos clave.

AdaLAM: Revisando la detección de valores atípicos hechos a mano [CVPR2020]

Innovación:

1. Basado en el algoritmo de emparejamiento espacial existente (emparejamiento espacial), se propone el algoritmo de verificación de consistencia de imagen robusto y rápido existente;
2. Basado en un supuesto geométrico (afín local), la escena es más práctica Fuerte; Después de la verificación experimental, el El algoritmo llega actualmente a SOTA.

Marco principal y puntos técnicos clave:

Inserte la descripción de la imagen aquí

Hay cuatro pasos en total:

1. Primero obtenga densos pares coincidentes de acuerdo con la coincidencia de características (todas las coincidencias son top1);
2. Encuentre puntos con alta confianza y buena distribución como semillas, y encierre en un círculo un vecindario;
3. Pase ransac en la coincidencia inicial Seleccione un punto coincidente en el misma área que el punto de semilla
4. Mantenga una mejor combinación con la consistencia local.

Selección de semillas:

Asigne una puntuación a cada coincidencia (la puntuación puede ser de la prueba de proporción, cuanto mayor sea la confianza, mayor será la puntuación), y luego use la supresión de valor no máximo en un cierto rango cuando extraiga similar a tamizar al punto de coincidencia de puntuación más alta Es decir, se selecciona el punto de semilla.

Selección y filtro de vecindario:

Sea Si = (xSi1, xSi2), donde xSi1, xSi2 respectivamente representan el i-ésimo par de coincidencia de semillas en las dos imágenes, y se ajustan a la transformación de similitud (es decir, rotación + escala, donde rotación αSi = αSi2 − αSi1, escala σSi = σSi2 / σSi1). Entonces, para cualquier coincidencia (p1, p2) = ((x1, d1, σ1, α1), (x2, d2, σ2, α2)) ∈M, donde d representa el descriptor, si la coincidencia anterior satisface la siguiente relación de restricción, puede Se incluye en el conjunto de emparejamiento Ni⊆M que admite puntos semilla. La relación de restricción es: en la
Inserte la descripción de la imagen aquí
fórmula anterior, αp = α2 − α1, σp = σ2 / σ1 representa el ángulo y la diferencia de escala entre dos puntos de emparejamiento; R1 y R2 ​​respectivamente Representa el radio de difusión del punto semilla de las imágenes I1 e I2; λ representa el término regular de la cobertura del círculo vecino.
La primera fórmula anterior indica: la coincidencia inicial es similar al punto semilla en la posición relativa y el radio es λR se agregará a Ni; la segunda fórmula nos dice: estos pares coincidentes agregados anteriormente deben cumplir el mismo ángulo y escala solamente Se puede agregar sexo, de lo contrario no se discutirá. Las dos condiciones anteriores deben cumplirse al mismo tiempo para obtener Ni.

Control afín adaptativo:

Suponiendo que los pares coincidentes se ajustan a la transformación afín local, es decir, cada Ni mencionado anteriormente satisface la hipótesis, entonces la hipótesis se puede usar para filtrar algunos pares coincidentes incorrectos: use la idea RANSAC para encontrar el conjunto de solución mínimo que se ajuste al simulación Irradia la matriz y filtra los pares coincidentes con poca confianza.
Dado que solo se pueden usar 2 pares de puntos coincidentes para obtener la matriz afín, no lleva mucho tiempo ni siquiera encontrar el afín para cada círculo. Para la j-ésima iteración, podemos obtener la relación de coincidencia k. Para el conjunto Ni, podemos seleccionar aleatoriamente un par de xk1, xk2 coincidentes de ellos, y luego obtener la matriz afín Aji entre los dos, y luego podemos obtener la coincidencia par de relación dos El residuo generado por un par coincidente es el siguiente:
Inserte la descripción de la imagen aquí
establecer el nivel de confianza
Inserte la descripción de la imagen aquí

Cuando la confianza es mayor que un cierto umbral, significa que el modelo se ajusta bien a la relación de coincidencia y la coincidencia se considera un punto interior; de lo contrario, es un punto exterior.

experimentar:Inserte la descripción de la imagen aquí

Inserte la descripción de la imagen aquí

SuperGlue: combinación de funciones de aprendizaje con redes neuronales gráficas [CVPR20]

Todo el marco consta de dos módulos principales: atención GNN y capa de coincidencia óptima. El GNN de atención codifica los puntos de características y descriptores en un vector (este vector puede entenderse como un vector de coincidencia de características) y luego utiliza la atención propia y la atención cruzada para mejorar (repetir L veces) el rendimiento de coincidencia de características de este vector f ; luego ingrese la capa de coincidencia óptima, obtenga la matriz de puntuación de coincidencia calculando el producto interno del vector de coincidencia de características y luego use el algoritmo de Sinkhorn (tiempos T iterativos) para resolver la matriz de asignación de características óptima.

Atención GNN:

El autor primero hizo algunos pensamientos desde la perspectiva de la visión humana. Cuando buscamos una coincidencia, primero necesitamos establecer la particularidad de un punto. Obviamente, necesitamos la información de posición y píxel de este punto; en segundo lugar, también podemos determinar su particularidad a partir de la relación posicional relativa entre un punto y otro punto; Finalmente, la información en otra imagen también se puede utilizar para distinguir algunas situaciones difíciles de distinguir (definir artificialmente la topología entre la información). Al mismo tiempo, tendemos a comparar de un lado a otro entre dos imágenes (iteración), centrándonos en la relación entre ciertos puntos (atención).
Con base en los puntos anteriores, el autor propone la estructura de red que se muestra en la figura siguiente. Primero, el autor diseñó un codificador para integrar las posiciones y descripciones de los puntos extraídos antes, y luego usar la forma de gráficos para conectar los puntos característicos dentro y entre los gráficos (equivalente a a priori del flujo de información) Conocimiento), y agregar conocimientos aprendibles. pesos a los bordes del gráfico como mecanismo de atención A través de la iteración de la red del gráfico, finalmente se obtiene el descriptor de coincidencia (f) de los puntos característicos.

Capa de coincidencia óptima:

Luego, el autor puntúa la coincidencia de cada punto de acuerdo con este descriptor (utilizando el producto interno del descriptor para medir la similitud) y obtiene una matriz de puntuación coincidente. Debido a factores como la oclusión, es posible que no haya coincidencia. El autor es aquí Se agregan una fila y una columna (cubo de basura) al final de esta matriz de puntuación para colocar puntos de características incomparables.
Desde la matriz de puntuación hasta la matriz de distribución final, se puede considerar como un problema de TO, y el autor utiliza el algoritmo de Sinkhorn diferenciable tradicional para resolverlo. Finalmente, la matriz de distribución P se obtiene después de que se deja caer el cubo de basura.

Pérdida:

Tanto la red GNN como la capa de coincidencia óptima son diferenciables, lo que hace posible el entrenamiento de propagación hacia atrás. El entrenamiento en red utiliza un método de aprendizaje supervisado, es decir, con un valor de verdad coincidente M = {(i, j)} ⊂A × B (por ejemplo, la relación de coincidencia obtenida de la transformación de pose relativa del valor de verdad), por supuesto, También se pueden obtener algunos puntos característicos incomparables I⊆A y J⊆B. Cuando se da una etiqueta de verdad, es posible minimizar la función de probabilidad logarítmica negativa de la matriz de distribución P¯¯¯¯:
Inserte la descripción de la imagen aquí
el objetivo de este aprendizaje supervisado es maximizar simultáneamente la precisión y la recuperación de la coincidencia.

experimentar:

Estimación de la matriz de homología:
Inserte la descripción de la imagen aquí

Estimación de pose en interiores y exteriores:
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Selección de invariancia en línea para descriptores de características locales [ECCV20]

Selección de invariancia local de LISRD en tiempo de ejecución para descriptores
Este artículo se centra principalmente en la selección en línea de características locales de invariancia a través de redes neuronales. Con un pequeño aumento en la cantidad de cálculo, este método se puede extender de manera más universal a varias detecciones y descriptores, mejorando en gran medida el efecto de coincidencia de la escena real.

Innovación:

1. Utilice una red para aprender descriptores que se adapten a múltiples combinaciones de cambios a través del aprendizaje multitarea
2. Proponer una selección en línea liviana de descriptores invariantes basada en el meta descriptor
3. Aprendizaje multitarea propuesto en este artículo El método de cambiar descriptores y La selección en línea de descriptores invariantes puede extenderse a cualquier descriptor tradicional o basado en el aprendizaje, que tiene una gran versatilidad.

Invariancia óptima

Inserte la descripción de la imagen aquí
Como se muestra en la figura anterior, SIFT puede funcionar bien en el caso de rotación pura, pero cuando no hay rotación, Upright SIFT (la dirección principal está fijada en (0, 1)) funciona mejor que SIFT. Entonces, obviamente, esperamos que haya un mecanismo automático para elegir qué descriptor coincidir. A la derecha se muestra el resultado de la selección automática del algoritmo, se puede observar que en dos situaciones diferentes se han obtenido buenos resultados de emparejamiento.

Estructura de red

Inserte la descripción de la imagen aquí
El diseño de la red se refiere a las muchas mejoras de SuperPoint. Después de que las características semi densas se generan a partir de la red troncal de CNN compartida, se dividen en 4 cabezas, correspondientes a los dos factores que tienen el mayor impacto en el descriptor.4 combinaciones diferentes de rotación e iluminación. Después de entrenar 4 descriptores diferentes con el método anterior, este artículo propone un mejor mecanismo de selección en línea para obtener una mejor coincidencia.
Metadescriptores
Primero dividimos la imagen en cuadrículas c × c (3 × 3 usado en este artículo), y los descriptores en cada cuadrícula obtienen un centro de clúster como meta descriptores a través de NetVLAD. De esta forma, para cada grilla dividida se obtienen finalmente 4 meta descriptores, y estos meta descriptores también se normalizan en L2.
En segundo lugar, se utilizan decisiones blandas en lugar de decisiones duras. Las ponderaciones se calculan mediante metadescriptores, lo que equivale a utilizar metadescriptores como representante de todos los descriptores. Cada descriptor se pondera individualmente mediante softmax y la distancia final se obtiene mediante la suma de 4 pesos.
Inserte la descripción de la imagen aquí

experimentar

En el conjunto de datos HPatches
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
En el conjunto de datos DNIMInserte la descripción de la imagen aquí

Charla online

[ECCV20] Taller MLAD
https://www.youtube.com/watch?v=4ii0ALys6cY
https://www.youtube.com/watch?v=M-X6HX1JxYk

[CVPR20] Taller de comparación de imágenes
https://www.youtube.com/watch?v=UQ4uJX7UDB8

[CVPR20] Tutorial CVPR2020: Funciones locales: de SIFT a métodos diferenciables
https://www.youtube.com/watch?v=ZscK5p9hZBI

[CVPR20] Fronteras de SLAM visual profundo: SuperPoint, SuperGlue y SuperMaps
https://www.youtube.com/watch?v=u7Yo5EtOATQ

resumen de análisis

1. Desde LIFT en 16 años, se ha trabajado mucho en la aplicación del aprendizaje profundo en la extracción y el emparejamiento de puntos característicos, especialmente en los últimos dos años, casi todas las conferencias relacionadas pueden tener alrededor de diez trabajos relacionados. Tomando Hpatches, el conjunto de datos de evaluación más utilizado, el equipo autor de superpoint + superglue ha estado trabajando en esta área durante mucho tiempo. Después de años de acumulación y comprensión, ha podido lograr una precisión de coincidencia del 90,7% y un Tasa de recordación coincidente del 98,3% Este indicador es demasiado Es difícil de superar, y el siguiente trabajo solo puede tener unos pocos indicadores en escenarios individuales que en el pasado, y los puntos de características 2D son más maduros.

2. El conjunto de prueba de evaluación está disponible, pero el conjunto de entrenamiento para este campo es relativamente pequeño, porque el conjunto de entrenamiento tiene requisitos relativamente altos para la cantidad de imágenes, incluida la conversión de escala, cambios de iluminación, rotación, etc., generalmente los equipos calificados utilizar sus propios datos de recopilación, o seleccionar una parte de cada uno de los datos de referencia en cada conjunto de datos de fuente abierta y taller para capacitar. Generalmente, no se explica en detalle en el documento, y los laboratorios ordinarios no tienen condiciones para hacerlo.

3. AdaLAM de CVPR20 es una solución tradicional, pero puede superar algunas redes de aprendizaje profundo El potencial de los métodos tradicionales no se ha aprovechado por completo.

4. La mayor parte del trabajo consiste en extraer puntos característicos, calcular descriptores y hacer coincidir con varias redes. También es una tendencia reducir el número de redes.

Supongo que te gusta

Origin blog.csdn.net/weixin_43900210/article/details/109060183
Recomendado
Clasificación