Uso compartido de documentos de aprendizaje profundo (2) Seguimiento de funciones basado en datos para cámaras de eventos

prefacio

Artículo original: https://arxiv.org/abs/2211.12826
Código del artículo: https://github.com/uzh-rpg/deep_ev_tracker

Título:Seguimiento de funciones basado en datos para cámaras de eventos
Autores:Nico Messikommer* Carter Fang∗ Mathias Gehrig Davide Scaramuzza
Grupo de robótica y percepción, Universidad de Zúrich, Suiza

Aquí solo hago traducción (después de la modificación personal, no debería ser difícil de entender si hay una base), y tendré notas intensivas detalladas cuando tenga tiempo.

Abstracto

Debido a su alta resolución temporal, recuperación de desenfoque de movimiento mejorada y salida muy escasa, las cámaras de eventos han demostrado ser ideales para el seguimiento de funciones de baja latencia y bajo ancho de banda, incluso en escenarios desafiantes. Los métodos de seguimiento de funciones de cámaras de eventos existentes están hechos a mano o se derivan de los primeros principios, pero requieren un ajuste de parámetros extenso, son sensibles al ruido y no pueden generalizarse a una escena diferente. Para abordar estas deficiencias, presentamos el primer rastreador de funciones basado en datos para cámaras de eventos que aprovecha los eventos de baja latencia para rastrear las funciones detectadas en marcos en escala de grises. Logramos un rendimiento sólido con un nuevo módulo de atención de fotogramas que comparte información a través de trayectorias de funciones. Al transferir directamente muestras cero de datos sintéticos a datos reales, nuestro rastreador basado en datos supera a los métodos existentes en un 120 % en términos de antigüedad relativa de las características, al mismo tiempo que logra la latencia más baja. Esta brecha de rendimiento se amplía aún más al 130 % al adaptar nuestro rastreador a datos reales con una nueva estrategia de autosupervisión.

Primer principio: el texto original son los primeros principios, y no sé a qué traducir. Para obtener explicaciones específicas, consulte el blog
https://www.zhihu.com/question/21459243
https://zhuanlan.zhihu .com/p/41263094

El video del material multimedia está disponible en https://youtu.be/dtkXvNXcWRY y el código está disponible en https://github.com/uzh-rpg/deep_ev_tracker

1. Introducción

A pesar de muchas implementaciones exitosas en el mundo real, los rastreadores de funciones existentes todavía están limitados principalmente por el rendimiento del hardware de cámara estándar. En primer lugar, las cámaras estándar tienen restricciones de ancho de banda, lo que limita significativamente su rendimiento en movimiento rápido: a velocidades de fotogramas bajas, su ancho de banda es mínimo, pero a costa de una mayor latencia; además, las velocidades de fotogramas bajas generan espacios entre fotogramas sucesivos. en apariencia aumentan significativamente la dificultad de seguimiento de las características. A velocidades de cuadro altas, la latencia se reduce a expensas de una mayor sobrecarga de ancho de banda y consumo de energía de los sistemas de flujo descendente. Otro problema con las cámaras estándar es el desenfoque de movimiento, que es prominente en escenas de alta velocidad con poca luz, vea la Figura 1. Estos problemas se están volviendo más prominentes con la mercantilización de los dispositivos AR/VR actuales.
inserte la descripción de la imagen aquí
Figura 1: Nuestro método explota la alta resolución temporal de los eventos para proporcionar trayectorias de características estables durante el movimiento de alta velocidad donde los fotogramas estándar sufren de desenfoque de movimiento. Para lograr esto, proponemos un nuevo módulo de atención de fotogramas que combina información a través de trayectorias de funciones.

Las cámaras de eventos han demostrado ser complementos ideales de las cámaras estándar para abordar el equilibrio entre ancho de banda y latencia [16, 17]. Las cámaras de eventos son sensores de visión bioinspirados que activan información de forma asincrónica cada vez que el brillo de un solo píxel cambia más allá de un umbral predefinido. Debido a este principio de funcionamiento único, la salida de flujo de eventos dispersos de la cámara de eventos tiene una resolución de tiempo del orden de microsegundos y se caracteriza por un alto rango dinámico y un bajo consumo de energía. Dado que los eventos se activan principalmente desde el borde, las cámaras de eventos tienen un ancho de banda mínimo. Esto las hace ideales para superar las deficiencias de las cámaras estándar.

Los rastreadores de características existentes para cámaras de eventos muestran resultados sin precedentes en cuanto a latencia y robustez de seguimiento en escenarios de alta velocidad y alto rango dinámico [4, 17]. No obstante, hasta el momento, los rastreadores basados ​​en eventos se han desarrollado sobre la base de supuestos de modelos clásicos, que a menudo conducen a un rendimiento de seguimiento deficiente en presencia de ruido. Se basan en la optimización iterativa de los parámetros de movimiento [17, 26, 49] o emplean clasificaciones simples de posibles traducciones de características [4] y, por lo tanto, no se generalizan a diferentes escenarios debido a efectos no modelados. Además, a menudo tienen parámetros de modelo complejos que requieren un ajuste manual extenso para diferentes cámaras de eventos y nuevas escenas.

Para abordar estas deficiencias, proponemos el primer rastreador de funciones basado en datos para cámaras de eventos, que aprovecha la alta resolución temporal de las cámaras de eventos combinada con marcos estándar para maximizar el rendimiento del seguimiento. Mediante el uso de redes neuronales, nuestro método realiza un seguimiento de las funciones mediante la ubicación de parches de plantilla en imágenes en escala de grises en parches de eventos posteriores. La arquitectura de red se caracteriza por tener asignado un volumen coherente y usar capas recursivas para lograr una consistencia a largo plazo. Para mejorar el rendimiento del seguimiento, presentamos un nuevo módulo de atención de fotogramas que comparte información entre las trayectorias de las características de una imagen. Primero entrenamos en un conjunto de datos de flujo óptico sintético y luego lo ajustamos utilizando nuestro novedoso esquema autosupervisado basado en la triangulación de puntos 3D usando poses de cámara.

En el punto de referencia del conjunto de datos de la cámara de eventos [33] y el conjunto de datos EDS publicado recientemente [22], nuestro rastreador supera la línea base de última generación en un 5,5 % y un 130,2 %, respectivamente. Este rendimiento se logra sin requerir un ajuste manual extensivo de los parámetros. Además, nuestro método logra una inferencia más rápida que los métodos existentes sin optimizar el código de implementación. Finalmente, mostramos cómo la combinación de nuestro método con el bien establecido rastreador basado en cuadros KLT [30] puede lograr lo mejor de ambos mundos en escenarios de alta velocidad. Esta combinación de cámaras estándar y de eventos allana el camino para el concepto de fotogramas disparados discretamente basados ​​en la calidad del seguimiento, una herramienta clave para aplicaciones futuras donde el tiempo de ejecución y el consumo de energía son críticos.

2. Trabajo relacionado

Seguimiento de características basado en marcos : si bien el aprendizaje profundo no se ha explotado antes para rastrear características en eventos, recientemente se han propuesto enfoques basados ​​en datos para el seguimiento de características utilizando marcos estándar. Estos incluyen PIP [20], que estima las trayectorias de las ubicaciones de las características de consulta en las secuencias de imágenes, por lo que las características pueden incluso rastrearse a través de oclusiones al explotar las trayectorias frontal y posterior. En lugar de procesar toda la secuencia, DPVO [40] toma una secuencia de imágenes y estima la profundidad de la escena y la pose de la cámara en tiempo real. Para ello, toma muestras aleatorias de parches del mapa de características de un marco y los agrega a un gráfico bipartito que se puede optimizar iterativamente asociando los descriptores de características de los parches observados en diferentes poses de cámara. Un área de investigación relacionada con el seguimiento de características es la estimación de flujo óptico, la estimación de correspondencias de píxeles densos entre dos fotogramas. Existen muchos métodos de flujo óptico [13], entre los cuales las redes basadas en correlación [24, 39] son ​​de última generación. Sin embargo, a pesar de los avances recientes, los rastreadores de funciones basados ​​en cuadros todavía están limitados por el hardware de las cámaras estándar. Para abordar esta deficiencia, proponemos un rastreador autosupervisado que desbloquea las funciones de robustez de la cámara de eventos para el seguimiento de funciones y, al hacerlo, supera los métodos de seguimiento de última generación.

Supervisión de pose : la explotación de la pose de la cámara se ha explorado anteriormente para la detección de características de entrenamiento y las redes de coincidencia. [44] utilizan datos de posición para supervisar una red para la estimación de correspondencia por píxeles, donde se utiliza una restricción de kernel entre dos fotogramas para penalizar las predicciones incorrectas. Recientemente, una red de refinamiento de correspondencia llamada Patch2Pix [47] amplía la supervisión restringida epipolar utilizando la distancia de Sampson en lugar de la distancia euclidiana. En lugar de considerar solo dos poses de cámara, nuestra estrategia de autosupervisión utiliza DLT [1] para calcular un punto 3D para cada trayectoria predicha en múltiples fotogramas, lo que hace que nuestra señal de supervisión sea más resistente a los errores. Además, supervisamos nuestra red calculando la distancia 2D entre los puntos reproyectados y predichos sin la ambigüedad de la distancia a la línea epipolar.

Seguimiento de funciones basado en eventos : varios trabajos han explorado el seguimiento de funciones basado en eventos en los últimos años para mejorar la robustez en condiciones difíciles, como escenas de movimiento rápido con grandes cambios de píxeles entre pasos de tiempo y escenas con HDR escenas con regiones muy brillantes y oscuras [ 17]. Trabajos anteriores [26, 34, 49] rastrean características como conjuntos de puntos de eventos y usan ICP [5] para estimar el movimiento entre pasos de tiempo, que también se pueden combinar con rastreadores basados ​​en cuadros para mejorar el rendimiento [12]. En lugar de conjuntos de puntos, EKLT [17] estima la transformación paramétrica entre la plantilla y el bloque de destino de la imagen luma delta, así como la velocidad de las características. Otros rastreadores basados ​​en eventos alinean eventos a lo largo de curvas Bézier [37] o curvas B-spline [10] en el espacio y el tiempo para obtener trayectorias características.

Para explotar la asincronía inherente de los flujos de eventos, también se han propuesto rastreadores de evento por evento [2, 11]. Uno de ellos es HASTE [4], que reduce el espacio de posibles transformaciones a un número fijo de rotaciones y traslaciones. En HASTE, cada nuevo evento da como resultado una actualización de la confianza de la hipótesis, lo que conduce a una transición de estado si se supera el umbral de confianza. Otro trabajo llamado eCDT [23] primero representa las características como grupos de eventos y luego fusiona los eventos entrantes con los eventos existentes, lo que da como resultado centroides actualizados y, por lo tanto, ubicaciones de características actualizadas. En una dirección similar al seguimiento de características, se proponen varios detectores de características basados ​​en eventos [8, 31], algunos de los cuales realizan el seguimiento de características en función de la proximidad de las detecciones en las imágenes [3, 9]. Además del seguimiento y la detección de características basadas en eventos, múltiples trabajos han abordado el problema del seguimiento de objetos utilizando cámaras de eventos [7, 14, 27, 35, 45, 46].

La tarea de estimación de flujo óptico utilizando cámaras de eventos también está ganando popularidad. Zhu y otros [49] estiman el flujo óptico de características de los eventos utilizando ICP y una función objetiva basada en la maximización de expectativas para resolver los parámetros de la transformación afín. Recientemente, se propuso un algoritmo adaptativo de coincidencia de bloques [29] para estimar el flujo óptico. Finalmente, los enfoques recientes basados ​​en datos para la estimación de flujo óptico basado en eventos [18, 48] aprovechan los avances en la estimación de flujo óptico profundo. Inspirada en estos avances, nuestra red de seguimiento utiliza capas de correlación para actualizar la ubicación de las características.

3. Método

El objetivo de un algoritmo de seguimiento de características es rastrear un punto dado en un marco de referencia en pasos de tiempo posteriores. Por lo general, hacen esto extrayendo información de apariencia alrededor de ubicaciones de características en un marco de referencia, que luego se compara y localiza en un marco de referencia posterior. De acuerdo con esta canalización, en el paso de tiempo t 0 t_0t0Extraiga un parche de imagen P 0 P_0 en un marco de escala de grises en una ubicación de característica determinadaPAG0y realice un seguimiento del rasgo mediante un flujo de eventos asíncrono. Paso de tiempo tj − 1 t_{j−1}tj 1y tj t_jtjEl flujo de eventos entre E j = E_j =mij= { ei e_i miyo} yo = 1 nj _{i=1}^{n_j}yo = 1nortejpor evento ei e_imiyoComposición, cada evento ei e_imiyoCodificación de coordenadas de píxeles xi x_iXyo, con resolución de microsegundos τ i τ_ityoLa marca de tiempo y la polaridad del cambio de brillo pi p_ipagyo∈ {−1, 1}. Para obtener más información sobre cómo funcionan las cámaras de eventos, consulte [15].

Dado un parche de referencia P 0 P_0PAG0, nuestra red usa t_{j−1} en el paso de tiempo anterior tj − 1tj 1El flujo de eventos correspondiente E j en la vecindad local de la posición característica E_jmijpara predecir tj − 1 t_{j−1}tj 1y tj t_jtjEl desplazamiento característico relativo durante ∆ fj ^ ∆\hat{f_j}Fj^. Los eventos dentro de la ventana local se convierten en una representación de eventos densa P j P_jPAGj, específicamente la versión de SBT con marca de tiempo máxima [43], donde a cada píxel se le asigna la marca de tiempo del evento más reciente. Una vez que nuestra red ha referenciado el parche P 0 P_0PAG0Localice el parche de evento actual P j P_jPAGj, luego se actualiza la trayectoria de la característica y se extrae un nuevo parche de evento P j + 1 P_{j+1} en la posición de la característica recién predichaPAGj + 1, manteniendo el parche de referencia P 0 P_0PAG0. Luego, este proceso se puede repetir iterativamente mientras se acumulan desplazamientos relativos para construir una trayectoria de características continua. En la figura 2 se muestra una descripción general de nuestro enfoque y el módulo de atención del nuevo marco.

En la Sección 3.1, explicamos cómo la red de características procesa cada pista de características de forma independiente. La salida resultante sirve como entrada para nuestro módulo de atención de cuadros, que combina información de todas las trayectorias de características en una imagen, consulte la Sección 3.2. Finalmente, presentamos nuestro esquema supervisado sobre datos con datos reales y una estrategia autosupervisada basada en poses de cámara en la Sección 3.3. Para los detalles arquitectónicos específicos de cada red, nos referimos a la Sección Complementaria.

3.1. Red de características

Para parchear la plantilla P 0 P_0PAG0Localice el parche de evento actual P j P_jPAGjEn el interior, la red de características primero codifica los dos parches utilizando un codificador separado basado en una red piramidal de características [28]. El resultado resultante es un mapa de características por píxel de dos parches que contienen información contextual mientras conservan la información espacial. Para calcular explícitamente la medida de similitud entre cada píxel en el parche de evento y el parche de plantilla, basamos el codificador de parche de plantilla en el vector de características de cuello de botella R 0 R_0R0y los mapas de características de los parches de eventos construyen el gráfico de correlación C j C_jCj, como se muestra en la imagen 2. Luego combine los dos mapas de características con el mapa de correlación C j C_jCjjuntos como entrada al segundo codificador de características para refinar el mapa de correlación. El codificador de características consta de una convolución estándar y un estado de celda temporal F jFjSe compone el bloque ConvLSTM [38]. La información temporal es crucial para predecir trayectorias de características consistentes a lo largo del tiempo. Además, es capaz de integrar información de movimiento proporcionada por eventos. La salida de la red de características es un único vector de características con una dimensión espacial de 1×1. Hasta ahora, cada función se ha tratado de forma independiente.

inserte la descripción de la imagen aquí
Figura 2: como se muestra en (a), nuestro rastreador de eventos convierte la imagen en escala de grises I 0 I_0I0Parche de referencia P 0 en P_0PAG0y por paso de tiempo tj t_jtjEl flujo de eventos E j en E_jmijParche de evento construido P j P_jPAGjComo entrada, y predecir el desplazamiento relativo de la característica ∆ fj ^ ∆\hat{f_j}Fj^. Cada entidad es procesada individualmente por una red de entidades que utiliza estado FFLa capa ConvLSTM de F se basa en el vector de características de la plantillaR 0 R_0R0y mapas de características en píxeles de parches de eventos para procesar mapas de correlación C j C_jCj. Para compartir información entre diferentes trayectorias de características, nuestro nuevo módulo de atención de fotogramas (b) utiliza autoatención y estado temporal SSS fusiona los vectores propios procesados ​​de todas las trayectorias en la imagen para calcular el desplazamiento final∆ fj ^ ∆\hat{f_j}Fj^

3.2. Módulo de Atención de Marcos

Para compartir información entre entidades en la misma imagen, presentamos un nuevo módulo de atención de cuadros, como se muestra en la Figura 2. Dado que los puntos de un cuerpo rígido exhiben un movimiento correlacionado en el plano de la imagen, existe una gran ventaja al compartir información entre las características de la imagen. Para lograr esto, nuestro módulo de atención de cuadros toma el paso de tiempo actual tj t_jtjLos vectores propios de todos los parches en , se toman como entrada, y el desplazamiento final de cada parche se calcula en función de la fusión ponderada de atención propia de todos los vectores propios. Específicamente, mantenemos el estado SS de cada función a lo largo del tiempo.S , para utilizar predicciones de desplazamiento de pasos de tiempo anteriores en la fusión de la atención. La información temporal debería facilitar el intercambio de información de características con movimientos similares en el pasado. De esta manera, las trayectorias de características vulnerables se pueden mantener en situaciones desafiantes al condicionar de manera adaptativa las trayectorias de características vulnerables en trayectorias de características similares. Cada vector de características de entrada primero usa dos capas lineales con activación Leaky ReLU (MLP) con el estado actualS j − 1 S_{j−1}Sj 1Fusión sola. Luego, todas las características fusionadas resultantes en la imagen se utilizan como pares de clave, consulta y valor de la capa de atención de múltiples cabezas (MHA) [42], que realiza la autoatención en cada característica de la imagen. Para facilitar el entrenamiento, introducimos conexiones de salto alrededor de la atención de múltiples cabezales para cada función, que se ponderan de forma adaptativa por la capa de escala de capa [41] (LS) durante el entrenamiento. Los vectores propios resultantes se utilizan luego en una capa de activación simple paraSj 1(GL) Calcule el estado actualizado Sj, consulte la ecuación (3).
inserte la descripción de la imagen aquí
Finalmente, el estado actualizado S j S_jSjprocesado por una capa lineal para predecir el desplazamiento final ∆fj ^ ∆\hat{f_j}Fj^

3.3. Supervisión

En general, la supervisión de rastreadores, extractores e incluso redes de flujo sigue siendo un área de investigación abierta, ya que hay pocos conjuntos de datos que contengan correspondencias de píxeles como datos reales. Peor aún, hay incluso menos conjuntos de datos basados ​​en eventos que contienen correspondencias exactas de píxeles. Para superar esta limitación, entrenamos en un primer paso con datos sintéticos del conjunto de datos Multiflow [19], que contiene fotogramas, eventos generados sintéticamente y flujos de píxeles GT. Sin embargo, dado que el ruido no está modelado, los eventos sintéticos difieren significativamente de los registrados por cámaras de eventos reales. Por lo tanto, en el segundo paso, ajustamos nuestra red utilizando una nueva pérdida de supervisión de pose para cerrar la brecha entre los eventos sintéticos y reales.

Supervisión sintética : la ventaja de los datos sintéticos es que proporciona un seguimiento de características de GT. Por lo tanto, la pérdida basada en la distancia L1 se puede aplicar directamente en cada paso de predicción jj entre el desplazamiento relativo pronosticado y el desplazamiento relativo real del terreno.j , consulte la Figura 3. La trayectoria de la característica predicha puede desviarse fuera del parche de la plantilla, de modo que la siguiente ubicación de la característica no esté en la búsqueda actual. Por lo tanto, si la diferencia entre el desplazamiento pronosticado y el desplazamiento de verdad fundamental∣ ∣ ∆ fj ^ − ∆ fj ∣ ∣ 1 ||∆\hat{fj}−∆f_j||_1∣∣∆f j^∆f _j1Radio de parche excedido rrr , no sumamos la distancia L1 a la pérdida final para evitar introducir ruido en la supervisión. Nuestra pérdida por truncamientoL rp L_{rp}Lr pLa fórmula es la siguiente.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Figura 3: Distancia L1 ℓ J ℓ_JJComo lo muestra el paso de tiempo tj+k, si la característica GT está en el parche de evento actual P j P_jPAGj, entonces el ∆ f ^ j ∆\hat{f}_j predichoF^jy GT desplazamiento ∆ fj ∆f_j∆f _jℓ J ℓ_J entreJse utiliza como la pérdida por truncamiento, que se establece en cero.

Para reducir la brecha entre los datos sintéticos y reales, aplicamos un aumento sobre la marcha durante el entrenamiento, lo que aumenta significativamente la distribución del movimiento. Para enseñar a las redes representaciones geométricamente robustas, la transformación afín WWW se aplica al parche de evento actualP j P_jPAGj, para obtener el parche aumentado P jaug P^{aug}_j en cada paso de predicciónPAGjun ug, como se muestra en la ecuación (6). Durante el entrenamiento, la rotación, la traslación y la escala θ = (θr, θt, θs) se muestrean aleatoriamente a partir de una distribución uniforme en cada paso de prediccióni=( yor, yot, yos) parámetros de mejora. Entonces, nuestro rastreadorTTT en un parche mejorado determinadoP jaug P^{aug}_jPAGjun ugParche de plantilla original P 0 P_0PAG0En el caso del desplazamiento relativo predicho ∆ f ^ j − 1 ago ∆\hat{f}^{aug}_{j−1}F^j 1un ug. Luego calcule el desplazamiento predicho ∆ f ^ j − 1 ago ∆\hat{f}^{aug}_{j−1}F^j 1un ugy la verdad fundamental aumentada ∆fj − 1 aug obtenida aplicando la misma transformación afín W ∆{f}^{aug}_{j−1}∆f _j 1un ugpérdida entre.

inserte la descripción de la imagen aquí
Supervisión de poses : para adaptar la red a eventos reales, presentamos una nueva pérdida de supervisión de poses que se basa solo en las poses reales de las cámaras calibradas. La pose de verdad básica para pasos de tiempo escasos tj se puede obtener fácilmente utilizando estructuras de algoritmos de movimiento como COLMAP [36], o mediante un sistema de captura de movimiento externo. Dado que nuestra estrategia de supervisión se basa en la triangulación de puntos 3D basada en poses, solo se puede aplicar a escenas estáticas.

En el primer paso del ajuste fino, nuestra red predice múltiples trayectorias de características para una secuencia. Para cada trayectoria predicha iii , usamos la transformación lineal directa [1] para calcular el punto 3D correspondienteX i X_iXyo. Específicamente, para cada posición característica xj x_jXj, podemos usar la pose de la cámara (indicada como la matriz de rotación R tj R_{t_j}Rtjy vector de traslación T tj T_{t_j}Ttj, en el paso de tiempo tj t_jtj) y matriz de calibración KKK para escribir la ecuación de proyección suponiendo un modelo de cámara estenopeica, consulte la ecuación (9). La matriz de proyección resultante se puede expresar como la matrizM j M_jMETROj, la matriz M j M_jMETROjPor el vector columna mjk T m^{k^T}_j con k ∈ {1, 2, 3}metrojkTcomposición.
inserte la descripción de la imagen aquí
Usando transformaciones lineales directas, podemos reformular la ecuación de proyección como un sistema lineal homogéneo en la ecuación. (10). Usando SVD, obtenemos el punto 3D Xj, que minimiza el error de mínimos cuadrados de la ecuación. (10)
inserte la descripción de la imagen aquí
Una vez calculado X i X_iXyo, podemos usar la fórmula de proyección en perspectiva (9) para encontrar cada paso de tiempo tj t_jtjEl píxel reproyectado x ^ j \hat{x}_jX^j. Entonces, con base en el paso de tiempo tj t_jtjFunciones pronosticadas x ^ j \hat{x}_j para cada pose de cámara disponible enX^jY la función de reproyección KaTeX analiza el error: Secuencia de control indefinida: \x en la posición 1: \̲x̲_j para construir la pérdida de supervisión de pose final, como se muestra en la Figura 4. Igual que la configuración supervisada para Ecuación. (5), si las características reproyectadas están fuera del parche de evento, usamos una pérdida truncada que excluye la contribución de pérdida.
inserte la descripción de la imagen aquí
Figura 4: Para adaptar nuestro rastreador a datos de eventos reales, nuestra pérdida autosupervisada calcula un triángulo basado en la trayectoria prevista y la pose de la cámara. A continuación, los puntos 3D se reproyectan en cada plano de cámara y la distancia L1 ℓj se utiliza como señal de supervisión.

4. Experimentos

Conjunto de datos : comparamos nuestro rastreador basado en datos propuesto en un conjunto de datos de cámara de eventos de uso común [33] (EC), que incluye cuadros APS (24 Hz) y resolución grabada con una cámara DA VIS240C [6] para eventos de 240 x 180. Además, este conjunto de datos proporciona poses de cámara reales a una velocidad de 200 Hz desde un sistema de captura de movimiento externo. Además, para evaluar el rendimiento de seguimiento de la nueva configuración del sensor, probamos nuestro método en el conjunto de datos de odometría directamente dispersa asistida por eventos recientemente publicado [22] (EDS). En comparación con EC, el conjunto de datos EDS contiene fotogramas y eventos de mayor resolución (640 × 480 píxeles) capturados con una configuración de divisor de haz. Similar al conjunto de datos de EC, incluye poses reales a una velocidad de 150 Hz desde un sistema de captura de movimiento externo. La mayoría de las escenas en estos dos conjuntos de datos son estáticas, ya que el objetivo principal de EDS y EC es evaluar la estimación de la pose de la cámara. Para el ajuste fino específico y la selección del orden de prueba, nos referimos al Suplemento.

5. Conclusión

Presentamos el primer rastreador de características basado en datos para cámaras de eventos que aprovecha los eventos de baja latencia para rastrear las características detectadas en cuadros en escala de grises. A través de nuestro novedoso módulo de atención de fotogramas, que fusiona información entre trayectorias de características, nuestro rastreador supera el estado del arte en ambos conjuntos de datos y es más rápido en términos de tiempo de inferencia. Además, nuestro método propuesto no requiere un ajuste de parámetros manual intensivo y se puede adaptar a nuevas cámaras de eventos a través de nuestra estrategia de autosupervisión. Finalmente, podemos combinar el rastreador basado en eventos con el rastreador KLT para predecir trayectorias estables en escenarios desafiantes. Esta combinación de cámaras estándar y de eventos allana el camino para el concepto de fotogramas disparados discretamente basados ​​en la calidad del seguimiento, una herramienta clave para aplicaciones futuras donde el tiempo de ejecución y el consumo de energía son críticos.

6. Reconocimiento

Los autores desean agradecer a Javier Hidalgo Carrió por su apoyo en el conjunto de datos EDS. Este trabajo fue apoyado por la Fundación Nacional de Ciencias de Suiza a través del Centro Nacional de Competencia en Investigación (NCCR) Robótica (número de subvención 51NF40 185543) y el Consejo Europeo de Investigación (ERC) bajo el acuerdo de subvención No. 864042 (AGILEFLIGHT).

Suplementario

7. Trabajo futuro y limitaciones

Dado que los conjuntos de datos EC y EDS se registran para comparar algoritmos de estimación de poses, solo contienen escenas estáticas. Por lo tanto, no evaluamos el desempeño de nuestro método, especialmente nuestro módulo de atención de cuadros, en escenas con objetos dinámicos. No obstante, creemos que nuestro módulo de atención de cuadros es útil para otros rastreadores que usan eventos o cámaras estándar. Finalmente, nuestro método se basa en la calidad de la detección de características en imágenes en escala de grises, que puede sufrir en escenarios desafiantes. Sin embargo, nuestra estrategia de autosupervisión también abre la posibilidad de ajustar el detector de características de la cámara de eventos para mejorar la solidez de la detección de características.

Supongo que te gusta

Origin blog.csdn.net/qq_52358603/article/details/130393588
Recomendado
Clasificación