Proceso de generación de bolsas de palabras binarias y principio de funcionamiento en SLAM

imagen

Uno de los requisitos más importantes del SLAM (localización y mapeo simultáneos) visual a largo plazo es el reconocimiento sólido de la ubicación. Después de un período de exploración, cuando se vuelven a observar áreas que no han sido observadas durante mucho tiempo, el algoritmo de coincidencia estándar falla.

Cuando se detectan de manera sólida, la detección de cierre de bucle proporciona una asociación de datos correcta para obtener un mapa consistente. Los mismos métodos utilizados para la detección de bucles se pueden utilizar para la relocalización del robot después de una pérdida de trayectoria, por ejemplo debido a un movimiento repentino, oclusiones graves o desenfoque de movimiento.

La técnica básica de la bolsa de palabras implica construir una base de datos a partir de imágenes recopiladas en línea por un robot para recuperar las imágenes más similares cuando se adquieran nuevas imágenes. Si son lo suficientemente similares, se detecta un circuito cerrado. La clasificación de texto tradicional utiliza principalmente métodos basados ​​​​en el modelo de bolsa de palabras. Sin embargo, existe un problema importante en el modelo BoW: la escasez de datos.

Dado que generalmente hay muchas palabras en el texto y un texto contiene solo una pequeña parte de ellas, los vectores de características construidos por el modelo BoW son en su mayoría vectores cero y son muy escasos. Esto da como resultado una clasificación deficiente y una ineficiencia computacional. El modelo BoBW (Binary Bag of Words) supera el problema de escasez del modelo BoW. Para resolver el problema de escasez del modelo BoW, los investigadores propusieron el modelo de bolsa de palabras binarias (BoBW) basado en características binarias. El método BoBW utiliza códigos binarios de tamaño fijo para representar texto en lugar de vectores de frecuencia de palabras de alta dimensión.

De esta forma se supera el problema de escasez del modelo BoW. El modelo BoBW también puede mejorar la eficiencia computacional. Debido a que el modelo BoBW utiliza características binarias de baja dimensión, reduce en gran medida la cantidad de cálculo y los requisitos de memoria. Esto le da al modelo BoBW ventajas significativas en velocidad y eficiencia de clasificación.

La bolsa binaria de palabras es un método de representación de características que asigna palabras en texto a vectores binarios de longitud limitada. Específicamente: primero, establezca una lista de vocabulario para el texto y use todas las palabras únicas que aparecen en el texto como palabras en la lista de vocabulario. Luego, para un texto específico, verifica si cada palabra del vocabulario aparece en él. 1 si está presente; 0 en caso contrario. Esto construye un vector binario de longitud fija para representar el texto, donde cada elemento corresponde a una palabra del vocabulario.

La representación de características binarias utiliza el algoritmo FAST para detectar puntos de esquina, que detecta puntos de esquina comparando la escala de grises de píxeles de un círculo de Bresenham con un radio de 3 alrededor del punto de esquina. De esta manera, solo es necesario comparar una pequeña cantidad de píxeles y la eficiencia del cálculo es alta. Calcule el descriptor BREVE para cada punto de esquina RÁPIDO. El descriptor BREVE es un vector binario y cada elemento es el resultado de la comparación del brillo de dos píxeles en el parche alrededor del punto de la esquina. BREVE fórmula descriptiva:

imagen

Donde Bi(p) es el i-ésimo elemento del descriptor, I() es el brillo en el píxel y ai y bi son los desplazamientos de los dos píxeles comparados con respecto al centro del parche. Dado el tamaño del parche S_b y el número de elementos L_b, a_i y b_i se seleccionan aleatoriamente en la etapa fuera de línea. La distancia entre dos descriptores BREVES se calcula utilizando la distancia de Hamming. Utilice binario para construir un modelo de Bolsa de palabras y discretice el subespacio de descripción binaria en palabras visuales mediante agrupación binaria (k-medianas). Se implementan indexación directa e indexación inversa para acelerar el proceso de recuperación de imágenes similares y verificación geométrica. Al considerar la coherencia con coincidencias anteriores, el problema de similitud semántica se maneja de manera efectiva. La extracción de características y la coincidencia semántica del algoritmo final solo toma 22 ms, que es un orden de magnitud más rápido que características como SURF.

imagen

Figura : Ejemplo de un árbol de vocabulario y los índices directo e inverso que componen la base de datos de imágenes. El vocabulario es el nodo de la hoja del árbol. El índice inverso almacena el peso de una palabra en la imagen en la que aparece. La indexación directa almacena las características de una imagen y sus nodos asociados en algún nivel del árbol de vocabulario.

1. Modelado de bases de datos de imágenes.

Esta sección presenta el uso del modelo Bag of Words para convertir características de imágenes en vectores digitales dispersos para facilitar el procesamiento de grandes cantidades de imágenes. Se utiliza un árbol de vocabulario para discretizar el subespacio de descripción en W palabras visuales. A diferencia de otras características, lo que aquí es discreto es un subespacio de descripción binaria y el modelado es más compacto. El árbol semántico se construye mediante agrupación jerárquica de k-medianas.

Primero realice la agrupación de k-medianas en las muestras de entrenamiento y tome el centro. Luego repita recursivamente para cada rama de agrupación para construir un árbol semántico de capa Lw con nodos de hoja W como palabras visuales finales. A cada palabra semántica se le asigna un peso de acuerdo con su frecuencia en el corpus de entrenamiento, y se suprimen las palabras de alta frecuencia y baja discriminación. Utilice el valor tf-idf. La imagen se convierte en un vector vt de bolsa de palabras, y su descriptor binario atraviesa el árbol semántico desde la raíz, seleccionando el nodo intermedio con la menor distancia de Hamming entre cada capa y finalmente llega al nodo hoja. La similitud de dos vectores de bolsa de palabras v1 y v2 se calcula como:

imagen

Además de la bolsa de palabras y el índice inverso, el artículo también propone utilizar el índice directo para almacenar las palabras de cada imagen y sus características correspondientes. La indexación directa se utiliza para calcular rápidamente los puntos correspondientes y solo compara características de nodos ancestros que pertenecen al mismo nivel.

2. Detección de bucle invertido
1. Consulta de base de datos _

Cuando obtenga la imagen más reciente, conviértala en el vector vt de bolsa de palabras. Buscando en la base de datos, el resultado son las imágenes <vt,vt1>, <vt,vt2>,..., que son más similares a vt, y sus puntuaciones s(vt,vtj). Calcule la similitud normalizada con la imagen que mejor coincide:

imagen

donde s(vt,vt-Δt) es la puntuación de la imagen anterior, que se utiliza para aproximar la puntuación más alta de It.

2. Agrupación de partidos _

Para evitar la competencia entre imágenes consecutivas, se agrupan imágenes consecutivas similares. Si la diferencia horaria entre dos imágenes es pequeña, entonces pertenecen al mismo grupo. Calcular la puntuación de un grupo:

imagen

El grupo con mayor puntuación se toma como partido inicial.

3. Consistencia temporal

Comprobación de coherencia para consultas continuas. La coincidencia <vt,VT'> debe ser consistente con las k coincidencias anteriores <vt-Δt,VT1>,...,< vt-kΔt,VT">, y el intervalo de tiempo entre grupos adyacentes debe ser más corto. Solo el <vt,vt'> con la puntuación eta más grande se retiene como una coincidencia de cierre de bucle candidato.

4. Consistencia geométrica efectiva

Cuando se nos da un par de imágenes coincidentes <It, It'>, primero consultamos It' en el índice directo. La indexación directa almacena las palabras asociadas a cada imagen y sus características correspondientes. Solo comparamos características de nodos principales que pertenecen al mismo nivel de árbol de vocabulario l.

El parámetro l es un factor que pesa el número de puntos coincidentes y el costo de tiempo. Cuando l = 0, solo se comparan las características que pertenecen a la misma palabra (más rápido), pero se obtienen menos puntos correspondientes. Cuando l = Lw, el número de puntos correspondientes no se ve afectado pero el tiempo no mejora. Una vez que se obtienen suficientes puntos correspondientes, utilizamos el algoritmo RANSAC para encontrar la matriz fundamental. Aunque solo necesitamos la matriz básica para verificar la coincidencia, después de calcular la matriz básica, podemos proporcionar la asociación de datos entre imágenes para el algoritmo SLAM sin costo adicional.

3. Pruebas experimentales

La evaluación incluye: utilizar 5 conjuntos de datos públicos, que cubren entornos interiores y exteriores, estáticos y dinámicos. Cree manualmente la verdad básica del loopback, incluidos los intervalos de tiempo coincidentes. Mida la corrección utilizando precisión y recuperación. Utilice diferentes conjuntos de datos para ajustar los parámetros y evaluar los efectos para demostrar la solidez del algoritmo.

En comparación con SURF, los resultados muestran que el efecto de BRIEF es cercano al de SURF y es mejor que SURF64 y U-SURF128 en Bicocca25b. BRIEF es más rápido, pero sensible a los cambios de escala y rotación. BRIEF es más adecuado para hacer coincidir objetos distantes y SURF es adecuado para cambios grandes a corta distancia.

imagen

Figura 2: Curvas de recuperación de precisión obtenidas por BRIEF, SURF64 y U-SURF128 en el conjunto de datos de entrenamiento sin inspección geométrica.

En segundo lugar, se requiere una cierta cantidad de detección consistente en el tiempo para detectar loopbacks. El resultado de k=3 es el mejor y es estable para diferentes frecuencias. Como se muestra abajo:

imagen

Figura Umbral de similitud α, número de coincidencia consistente en el tiempo k y frecuencia de procesamiento f

En términos de consumo de tiempo, el algoritmo completo solo tarda 22 ms, que es un orden de magnitud más lento que SURF. La extracción de funciones lleva más tiempo. Usar un vocabulario amplio requiere más tiempo para realizar la conversión, pero las consultas son más rápidas. 

imagen

imagen

Figura Ejemplos de palabras coincidentes utilizando los descriptores BRIEF (emparejados a la izquierda) y SURF64 (emparejados a la derecha)

4. Conclusión

Las características binarias son muy efectivas y extremadamente eficientes en el enfoque de bolsa de palabras. En particular, los resultados muestran que las funciones FAST+BRIEF son tan confiables como SURF (64 o 128 dimensiones y sin invariancia de rotación) para resolver el problema de detección de bucle del movimiento de la cámara en el plano común en los robots móviles.

El tiempo de ejecución y los requisitos de memoria son un orden de magnitud menores sin necesidad de hardware especial. Los conjuntos de datos públicos describen entornos interiores, exteriores, estáticos y dinámicos, incluidas cámaras frontales o laterales. A diferencia de la mayoría de trabajos anteriores, para evitar un ajuste excesivo, nos limitamos a presentar todos los resultados utilizando el mismo vocabulario obtenido de conjuntos de datos independientes y la misma configuración de parámetros obtenida de un conjunto de conjuntos de datos de entrenamiento, sin echar un vistazo al conjunto de datos de evaluación.

Por lo tanto, podemos afirmar que nuestro sistema proporciona un rendimiento sólido y eficiente en una amplia gama de situaciones del mundo real sin ningún ajuste adicional. La principal limitación de esta técnica es el uso de características que carecen de rotación e invariancia de escala.

Supongo que te gusta

Origin blog.csdn.net/soaring_casia/article/details/132872881
Recomendado
Clasificación