posicionamiento de la cámara: ICCV2019 documentos analíticos

posicionamiento de la cámara: ICCV2019 documentos analíticos

SANet: Red Agnóstico Escena de la cámara de localización

 

 

Papeles enlace:

http://openaccess.thecvf.com/content_ICCV_2019/papers/Yang_SANet_Scene_Agnostic_Network_for_Camera_Localization_ICCV_2019_paper.pdf

El código está disponible en: https://github.com/ SFU-gruvi-3DV / sanet_relocal_demo

 

resumen

Propuesto neuronal posicionamiento de la cámara de red, los parámetros del modelo y de la escena escenario independiente el uno del otro agnóstico. A pesar de los recientes avances en términos de método basado en el aprendizaje, pero la mayoría de los métodos requieren una formación para cada escena, uno por uno, no se aplica a SLAM y la navegación del robot y otras aplicaciones en línea, ya que en estas aplicaciones, el modelo debe basarse en avión . El método de este estudio para establecer una representación jerárquica de la escena, en la planta en cualquier escenario de intensa escena dada y predecir el gráfico de consulta a las imágenes RGB. Con el escenario gráfico predicho puede estimar la imagen de búsqueda 6D pose cámara. Además, denso predicción puede ser utilizado para otros robots en línea y aplicaciones de RA tales como evitación de obstáculos. En este papel, los puntos de referencia interiores y exteriores demuestran la eficacia y la eficiencia de los métodos de la presente memoria, para lograr el rendimiento más avanzado.

1.       Introducción

posicionamiento de la cámara es determinar la orientación y la posición de la cámara de acuerdo con la imagen capturada por la cámara. Es SLAM, muchos de los componentes clave de identificación del lugar de aplicación, la navegación del robot y la realidad aumentada y así sucesivamente. Tradicional [30, 26, 25, 16, 15, 7] El método es encontrar primero una característica entre la imagen de entrada y la escena de referencia (representado por una nube de puntos o conjunto de imágenes de referencia) que corresponde a, y reduciendo al mínimo estas correspondencias definición de la función de energía para estimar la pose cámara.

Dado que los componentes hechos a mano (es decir, recuperación de la imagen, a juego característica y que corresponde a la estimación pose cámara) de tuberías de largo, este método es generalmente muy frágil.

enfoque en los últimos años, sobre la base de aprendizaje- [18,4,11,3] mejora bosques aleatorios ( FR) y neuronal de convolución de red ( rendimiento de posicionamiento de la cámara CNNs). Algunos trabajos [11, 10, 32, 2] cámara CNNs pose de regresión directa, mientras que otros trabajos [9, 31, 27, 3, 5] La primera estimación para cada píxel del gráfico de la escena, la definición de una imagen de consulta de en una de coordenadas XYZ, luego calcular la actitud cámara correspondiente, se trata de un problema de optimización bien planteado. Estos métodos son generalmente más robustos que las líneas tradicionales. Sin embargo, FR o CNN generalmente aprender de la imagen de una escena en particular, antes de ser aplicado a diferentes escenarios necesidad de re-entrenamiento o ajuste. Aunque la adaptación en línea es posible, pero sólo la imagen de búsqueda RGBD y la RF [6] para demostrar. CNNs suele producir una mayor precisión, pero la CNN cómo adaptarse rápidamente a diferentes escenarios está claro, lo que limita la aplicación de la CNN.

En este trabajo se sigue un método de aprendizaje basado en la posición de la cámara, el objetivo es crear una red agnóstica escena que puede trabajar en escenas no vistas sin la formación o reajustarse. Esta capacidad para aplicaciones en línea (como un sistema de navegación del robot y SLAM muy importante), ya que en estas aplicaciones, el reciclaje no es posible. Para la estimación de las coordenadas del mapa de la escena utilizando la literatura cálculo [5] un método similar a la escena desde las coordenadas de mapa estimados en la postura de la cámara, mientras que la búsqueda para que el proceso no se ve afectada por la escena. Estimado gráfico densa escena puede aplicarse adicionalmente a otras aplicaciones para evitar obstáculos y similares. Para lograr este objetivo, diseñamos una red SANet, algunos imagen de la escena de referencia desde y extractos de la escena en el punto 3D representa, en lugar de la información codificada en un parámetros específicos escenario de red, tal como la red descrita en este documento se pueden aplicar a diferentes escenarios, sin ningún tipo de reciclaje o ajuste.

Específicamente, la escena expresadas en este documento se caracterizan por diferentes niveles de la resolución de la pirámide. Al tiempo de consulta, la escena representada combina con características de la imagen de búsqueda, de grueso a fino para predecir el escenario gráfico denso. Intuitivamente, la imagen de búsqueda visual constante aprendizaje se introduce en la superficie de la escena tridimensional. Para la fusión característica de la imagen de búsqueda y la función de la escena, se utiliza el PointNet [21,22] para predecir las coordenadas de estructura similar de la escena característica, PointNet nubes de puntos pueden estar fuera de servicio. Para demostrar la eficacia del método propuesto, una escena de interior incluyendo papel ( 7 escena y una escena al aire libre [27]) (Cambridge evaluó en los métodos descritos en el presente documento [11]), que incluye una pluralidad de conjuntos de datos de referencia. En este trabajo se ha alcanzado el rendimiento más avanzado, y los métodos de este documento en ningún reciclaje o adaptación alguna escena.

2.       Trabajo relacionado

las características determinadas y ajustadas cámaras de funciones: En el método convencional, primeros recupera varios imagen adyacente, y en base a algunos manualmente en el descriptor de imagen de búsqueda y la coincidencia entre un conjunto de punto de la escena 3D relación de correspondencia 2D-3D, y finalmente a través de la cámara algoritmo de recuperación de PnP actitud [8,13]. Estos trabajos dibujados a mano comprometido a hacer más eficiente el descriptor [17, 26], más robusto [24, 29], o más fácilmente ampliado para grandes escenas al aire libre [15, 23, 26].

Sin embargo, los detectores y los descriptores de características hechas a mano se aplican buena imagen de textura única a. Recientemente, INLOC [30] en el que la mano sustituye CNNs, es decir NetVLAD [1] para la recuperación de la imagen, VGG [28] para la función de adaptación, a fin de promover el desarrollo en esta dirección. Aunque con una buena actuación, pero todavía se basa en la configuración de comunicación tradicionales tubo de contraste de modelos y de la cámara. En contraste, el método de regresión puede ser aprendido (incluyendo el trabajo descrito en el presente documento) directamente desde la imagen de búsqueda sobre la base del gráfico de la escena, la ventaja de utilizar la información de contexto global en la imagen para restaurar la estructura tridimensional de la región no texturados. escenario gráfico intensivo como un método de reconstrucción tridimensional densa, además de tener una buena robustez, pero también se puede aplicar en áreas tales como evitación de obstáculos.

Los bosques aleatorios: Shotton et al [27] propuso un método que utiliza las coordenadas de la escena del bosque de regresión aleatoria, y se extienden la tubería en los próximos trabajos. GuzmanRivera et al [9] la formación de un bosque al azar para predecir diferentes escenarios de coordenadas para resolver la ambigüedad de la escena. Valentin et al. [31] entrenado para predecir una escena del bosque al azar coordinar modelo multi-distribución, con el fin de mejorar la precisión de actitud. Brachmann et al [4] usando un Lin aleatorio automatizado mejorar la capacidad de predecir el contexto, a partir de la imagen RGB (en lugar de la posición RGB-D) de la cámara. Estas obras no son escena desconocida.

Un trabajo reciente [6] Este enfoque se ha extendido a utilizar la cámara RGBD y la escena en línea invisible de adaptación. En comparación con estos esfuerzos, los métodos de esta escena es incognoscible, sólo uno RGB posicionamiento de la cámara de imagen, que en las escenas de interiores y exteriores son aplicables. red neuronal de convolución: Basado en el enfoque de la CNN ha traído avances significativos en el rendimiento. PoseNet [11] posicionamiento de la cámara como un problema de clasificación para resolver, que plantean la cámara 6DOF un retorno inmediato.

Algunos mejora adicional en la pérdida de seguimiento de formación [10] o el uso del vídeo en función del tiempo para mejorar el posicionamiento de precisión [32]. Un trabajo reciente [2] estudiaron una métrica continuos para medir la coincidencia entre la imagen y el retorno a la postura de la cámara relativo entre la imagen de búsqueda y su vecino más cercano. retorno directo de diversa actitud de la cámara, los estudios recientes que utilizan las coordenadas de la escena CNNs como una cantidad intermedia de regresión [14, 3, 5], ya que la postura de la cámara de un escenario gráfico para estimar una buena optimización del rendimiento. El método descrito en este documento pertenecen a esta categoría, utilice CNNs para predecir las coordenadas de la escena de la imagen. Sin embargo, las características de nivel de red extrajeron en el presente documento de la escena, en lugar de aprender un conjunto de escenarios parámetros específicos de la red. Por lo tanto, el método descrito en el presente documento se escena desconocida, puede ser aplicado a una escena desconocida.

3.       Descripción general

Este artículo resume la tubería como se muestra en la Fig. Método de entrada se describe aquí un conjunto de imágenes de la escena {} Is toda su asociado de nubes de puntos 3D {X} de todo, y de la misma escena capturada la imagen consulta q. salida de la imagen de consulta se estima pose 6D cámara q = [Rq | tq]. Con el fin de reducir el espacio de entrada para mejorar la eficiencia y el rendimiento, utilizando el papel NetVLAD [1] todas imagen escena de la imagen de la consulta de búsqueda de n vecinos más cercanos. Entonces, se presenta una red, por interpolación con la imagen recuperada de la escena asociado con el gráfico de escena para el punto de retorno 3D la consulta (la primera sección 4). La interpolación es construir consultas jerárquicas escenas e imágenes a través de una red de este trabajo indican que completa y consulta característica llamada pirámide escena pirámide (la primera sección 4.1). El uso de dos pirámides, se diseñaron dos módulos: escenarios de consulta Registro ( QSR) y la integración, y la aplicación iterativa de ellos de una manera aproximada para volver al escenario gráfico exacta (sección 4.2). Esta arquitectura puede ser extremo a extremo de entrenamiento para realizar las tareas para construir las pirámides y la previsión del escenario gráfico intensivo. Por último, mediante el RANSAC + PnP estima plantean la cámara la imagen de búsqueda, como por ejemplo [5] como se muestra en (P 4.3).

4.       Método

4.1.  La construcción de pirámides

escena de la pirámide

NetVLAD [1] para recuperar una escena que comprende de referencia n imagen RGB {IS |. S = 1, ..., n} Vlad (en el presente documento se implementa en 256 × conjunto 192 píxeles), cada imagen en el sistema de coordenadas mundo mapa del contexto definido coordenadas Xs∈ {X} Vlad (densas o escasas) se asocia. La escena representada aquí como una pirámide, su geometría y la información codificada aparición en diferentes proporciones. Cada pirámide consta de un grupo compuesto de las coordenadas tridimensionales, las coordenadas de estos puntos unidos entre sí a lo largo de CNN extracción de características de imagen.

Para construir estas pirámides un escenario, cada uno de los extractos de papel las características de una escena de imagen a través de una red neuronal convolucional. Específicamente, como se usa en este documento, la red residual de expansión ( DRN38) [34] es un extractor de características, y se aplica a través del primer bloque en cada nivel de resolución de la re-expandido mediante la eliminación de todos los 2 muestras obtenidas con diferentes resoluciones Se caracteriza la figura.

Desde el mapa DRN38 extracción de características {Fl S |. L = 1, ..., . 5}, de la resolución . 4 × . A 3 64 × multiplicado por 48 2 Todas las escenas de imagen marco de pesos de la red compartir derecha. Además, la escena de coordenadas de textura X se escala para que coincida con los diferentes niveles de resolución características de textura. Aquí, en este documento el uso de filtros de la piscina un promedio y 2 × reduciendo su resolución núcleo 2, y se ignora en ausencia de entrada de escasa punto.

4.2.  La predicción de coordenadas de la escena

Teniendo en cuenta estas dos pirámides y E, este documento prevé la imagen de búsqueda escenario gráfico de q. Con el fin de codificar el contexto global de la escena y acelerar el cálculo, se utiliza la estrategia de grueso a fino para predecir el escenario gráfico. La red es primero 4 × 3 resolución áspera generar un gráfico de la escena como una estimación aproximada, y luego volver a determinarse iterativamente paso a paso más detallada predecir el gráfico de la escena final.

En cada iteración, en el presente documento dos módulos se aplican secuencialmente para predecir un escenario gráfico:

( 1) escenarios de consulta de registro ( los QSR) Coordenadas escena módulo de interpolación basado en la similitud de la escena visual punto de pirámide, cada característica de consulta de aprendizaje para registrar escena espacio píxel tridimensional;

( 2) la integración del módulo de fusión para el contexto de inter-pixel de la imagen de regularización información de nivel de pixel registrado QSR dado. Para simplificar, en este documento ahora módulo de QSR como un cuadro negro para explicar la escena de iteración mapa de predicción de coordenadas. En este artículo se discutirá en detalle más adelante módulo de QSR. tubo iterativo como se muestra en la Fig.

 

 

 

 

 

 

5.       experimentos

Tabla 1 también muestra la escena al aire libre la precisión de posicionamiento. En comparación con el escenario de modelo específico, el rendimiento en el presente documento a continuación DSAC [3] y el DSAC ++ [5], pero aún mejor que PoseNet [11]. En comparación con el método de la escena independiente, el método presenta cuatro escenarios, a saber, el Kings College, el antiguo hospital, fachadas de las tiendas y la iglesia de Santa María y la búsqueda activa [26] resultados bastante, y más de la INLOC [30] resultados ligeramente mejores . Debido a los cambios de iluminación a gran escala en la imagen de consulta difusa violenta modos de escena y, lo que resulta en los resultados de este estadio y la calle pobre. Tenga en cuenta que esta entrada se ajusta a una resolución escena marco de 480 × 270, para acelerar el algoritmo INLOC tasa.

La figura 5 escena varias coordenadas mapa predichos, y visualizado como la codificación de malla triangular de color. Y INLOC [30] en comparación con el método descrito en el presente documento produce una predicción denso, incluso en regiones en las que no hay ninguna característica también es robusto porque la red se describe en el presente documento utiliza contexto global la imagen de búsqueda en en la descodificación de la gráfica escena. Por ejemplo, INLOC [30] no producen resultados razonables en las paredes y techos, y los métodos de la presente memoria pueden. aplicaciones intensivas de otros que predicen el posicionamiento se hace posible, por ejemplo, una evitación robot obstáculo.

Los costos de tiempo

La Tabla 2 enumera las siete escenas cada paso WRT 7000 imágenes en tiempo de la escena, y con la DSAC ++ [5] y en comparación INLOC [30]. Para ORB-SLAM [19], por ejemplo, es aproximadamente cada TUM RGB-D SLAM secuencia cubierta 0.7s para crear un nuevo fotograma clave. Método y artículo INLOC [30] a través de [1] pase hacia adelante NetVLAD (promedio 0.06s) en los fotogramas clave entrantes índice fley, y DSAC ++ [5] para ejecutar múltiples períodos de tiempo para entrenar el modelo, tales como su papel dije, tome unos días.

Tubos en el presente documento a juego características para evaluar la eficacia de red convencional descrito en este documento. Específicamente, diseñamos un método de línea de base, la función de imagen de búsqueda El [p] y la toma de muestras escena característica directamente pirámide fl i∈ angularmente similitud a juego Slsub. En comparación con la red descrita en este documento, este enfoque tiene dos inconvenientes línea de base: En primer lugar, es independiente del píxel de procesamiento, y por lo tanto la escena de coordenadas proceso de predicción no se puede utilizar el contexto global de la imagen; un segundo ángulo de la medida de similitud puede no ser óptima a. Este documento informa sobre la figura . 4 y la Fig estimación pose cámara de precisión, en un escenario gráfico 6, ambos expresados como (línea de base) de este documento. Es evidente que el método propuesto en dos indicadores de evaluación han superado este método de línea de base, no puede ser ignorada margen. características escenario de referencia: el papel diseñado, además, dos experimentos para explorar la función de referencia de la escena significado físico de Rl.

Rl codificación correspondientes coordenadas en píxeles de la escena. En esto selecciona un píxel de la característica de imagen de búsqueda figura aleatoria Que, su posición en la Fig. 7 ( punto verde etiquetado a) es. La figura característica de la imagen de la escena, que es el valor de verdad de tierra posición del píxel en la figura correspondiente. 7 ( puntos rojos marcan b), mientras Neg punto azul está marcado por píxeles independientes aleatorios. Ahora, este artículo sólo dos puntos en la escena pirámides Pos y Neg codificados, y se transmiten a través de la consulta de la red de los pixeles escena Que para generar una referencia del mismo en donde R3 [Que]. Aquí, esta resolución selección 16 × 12 es la l = 3 experimentos, en el que cada píxel tiene 256 canales.

La figura 7 por dos conjuntos de la escena proyectada sobre la referencia espacio bidimensional caracterizado PCA, donde {R3 [Que]} FIX- pos y {R3 [Que]} FIX- neg muestran puntos rojos y azules. Claramente, el cambio es mucho más pequeño que el punto azul punto rojo. En otras palabras, la posición del punto de cambio de tierra escena real dará lugar a grandes cambios en la referencia se producen escenas de características. Esta es una fuerte evidencia de la presente memoria como característica escena de referencia que codifica correspondientes coordenadas de píxeles de la escena.

 

 

 

 

 

 

 

 

 

 

 

 

6.       Conclusiones

Este artículo presenta un escenario de arquitectura de red agnóstica, que se pueden predecir las consultas en cualquier entorno gráfico imagen RGB escena -Intensivo. A continuación, utilice las coordenadas para estimar la predicción pose cámara. Este artículo no sólo el aprendizaje de escena entorno de red se codifica en una representación jerárquica, sino también para predecir el gráfico de la escena registrada mediante la consulta de la escena. En particular, se diseña un módulo de aprendizaje, el módulo de forma iterativa para registrar la escena de la imagen de consulta a diferentes niveles, y genera información de la imagen en el gráfico denso contexto regularización. En este trabajo, la red de recogida de datos en interiores y exteriores han sido validados, y puesto en práctica el rendimiento más avanzado.

Supongo que te gusta

Origin www.cnblogs.com/wujianming-110117/p/12590745.html
Recomendado
Clasificación