CVPR 2023 | OpenGait: Introducción al marco de código abierto para el reconocimiento de la marcha

Título : OpenGait: revisión del reconocimiento de la marcha hacia una mayor practicidad

Papel : https://arxiv.org/pdf/2211.06597.pdf

Código : https://github.com/ShiqiYu/OpenGait

guía

Lo que les presentaré hoy OpenGaites un conjunto de marcos Pytorchde reconocimiento de la marcha basados ​​en la construcción ( Gait Recognition), que cubre una serie de algoritmos de reconocimiento de la marcha de última generación y proporciona un modelo básico simple pero potente GaitBas, dedicado a inspirar a los investigadores a desarrollar métodos de reconocimiento de marcha más avanzados y ponerlos en aplicaciones de producción reales.

Reconocimiento de la marcha

El reconocimiento de la marcha también es un tipo de tecnología de reconocimiento biométrico. Su idea central es comparar la identidad de la persona en la base de datos mediante el análisis de la postura al caminar de una persona. Como todos sabemos, las características biológicas como la cara, la huella dactilar, la palma de la mano, el iris, etc., son únicas en el cuerpo humano. ¿Por qué se puede usar el reconocimiento de la marcha como una característica para identificar a una persona? Esto se debe a que cuando las personas caminan, la fuerza de los músculos de las piernas, incluso la densidad ósea y el centro de gravedad del cuerpo humano son diferentes, por lo que es completamente posible identificar de manera única la identidad de una persona mediante el análisis de estas diferencias.

Además, en comparación con otras tecnologías biométricas, el reconocimiento de la marcha tiene las ventajas de ser sin contacto, no invasivo, fácil de percibir, difícil de ocultar y camuflar. Un simple entendimiento es que el sistema de reconocimiento de la marcha no requiere la cooperación activa humana (como iris, huellas dactilares y palmas, etc.) y no tiene miedo de varias oclusiones (rostros) y cambios de ropa (ReID). Por lo tanto, la tecnología de reconocimiento de la marcha tiene amplias perspectivas de aplicación y valor económico en el monitoreo de seguridad, sistemas de control de acceso, diagnóstico médico y otros campos relacionados.

método

Hoy en día, los algoritmos basados ​​en el reconocimiento de la marcha se pueden dividir aproximadamente en dos categorías, una son los métodos basados ​​en la apariencia y la otra son los métodos basados ​​en el modelo. Presentemos brevemente algunos trabajos relacionados mencionados en este documento.

Métodos basados ​​en modelos

El método basado en modelos es relativamente Lupin, pero cómo modelar con precisión es un problema difícil, y también es difícil de implementar y la tasa de precisión no es alta.

< , , >

GaitGraphAlgunos métodos representados por los modelos 2D/3D posey SMPL. Aunque este método es naturalmente resistente a algunos factores de ruido, como el transporte y el uso, es particularmente propenso a fallar cuando la resolución no es lo suficientemente clara y carece de practicidad.

Nota: Del artículo SMPL" Un modelo lineal de múltiples personas con pielskinned vertex ", este es un modelo basado en el que puede representar con precisión varios tipos de cuerpo en posturas humanas naturales, y puede usarse para aprender varias formas y posturas del cuerpo humano a partir de datos relacionados. cambios.

Métodos basados ​​en la apariencia

El método basado en la apariencia aprende directamente las características de la forma del objetivo del video y puede funcionar normalmente en condiciones de baja resolución, por lo que tiene mayor precisión y es más conveniente de implementar, pero es más sensible a los cambios en la apariencia (como como la postura, el ángulo y el equipo). Con el vigoroso desarrollo del aprendizaje profundo, la mayoría de los trabajos actuales basados ​​en la apariencia se centran en la extracción de características espaciales y el modelado temporal de la marcha .


GaitSetPuede considerarse como uno de los trabajos de reconocimiento de la marcha más influyentes de los últimos años. Se publicó en AAAI en 2019. Considera de manera innovadora la secuencia de la marcha como un conjunto y utiliza la función máxima para comprimir la secuencia de características espaciales a nivel de fotograma, que es extremadamente simple y efectivo.


GaitPartes CVPR'2020el método publicado en , que explora silhouettelos detalles locales de la entrada en detalle y modela la dependencia temporal a través del módulo de captura de micro-movimiento.


GaitGLPublicado en ICCV 2021, se cree que la representación de la marcha basada en información espacial global generalmente ignora los detalles, y el descriptor basado en el área local no puede capturar la relación entre partes adyacentes, por lo que se desarrollan las capas convolucionales globales y locales para obtener pasos más detallados. información de estado.


CSTLPublicado en ICCV 2021, pero se enfoca en características temporales en tres escalas para obtener representaciones de movimiento basadas en información de contexto temporal.


No limitado a las restricciones de espacio 2D, el método también publicado en [10] ICCV 2021extrae 3DLocallas características del cuerpo a través de operaciones locales 3D de escala adaptativa.

GaitEdge,

,

GaitEdgeEntre ellos ECCV'2022, tiene como objetivo diseñar una modalidad intermedia que pueda usarse para el entrenamiento de características de borde para construir un marco de reconocimiento de marcha de extremo a extremo. mientras que GaitSSBy BiFusionse utilizan para construir millones de secuencias de marcha sin etiquetar e integrar información del esqueleto y la silueta para capturar ricas características espacio-temporales de la marcha, respectivamente.

Finalmente, uno de los protagonistas presentados hoy GaitBase, este es un modelo basado en el contorno con una estructura simple y efecto Lubang. Tiene un buen desempeño en videos de caminata de prueba tomados tanto en interiores como en exteriores, y puede usarse como una nueva línea de base para futuras investigaciones ( ) Baseline. .

Como se muestra en la figura, GaitBase adopta una red similar a ResNetuna red como modelo Backboneal transformar cada marco de contorno de entrada en un mapa de características 3D con dimensiones de altura, ancho y canal; luego, al adoptar el módulo de agrupación de tiempo, se agregará lo obtenido al realizar la maximización a lo largo de la dimensión temporal La secuencia de mapas de características de , da como resultado una comprensión a nivel de conjunto de la secuencia de paso de entrada, es decir, un mapa de características en 3D. Posteriormente, el mapa de características resultante se divide horizontalmente en varias partes, cada parte se desarrolla en un vector de características mediante la operación de agrupación y se mapea aún más en el espacio métrico utilizando una sola capa completamente conectada. Finalmente, se adopta el BNNeck ampliamente utilizado para ajustar el espacio de características, y se utilizan un triplete y una pérdida de entropía cruzada separados para supervisar todo el proceso de entrenamiento.

conjunto de datos

Los conjuntos de datos de marcha también son indispensables y críticos para la investigación de reconocimiento de marcha. Específicamente, CASIAy son los dos conjuntos de datos de marcha en interioresOU-ISIR más utilizados . Como aplicaciones más prácticas se enfrentan, por el contrario, son dos grandes conjuntos de datos de marcha al aire libre . Los cuatro conjuntos de datos se describen en detalle a continuación.GREWGait3D

CASIA

CASIAEs un conjunto de datos de marcha de código abierto del Instituto de Automatización de la Academia de Ciencias de China. Actualmente, incluye principalmente tres tipos:

  • Dataset-A, un conjunto de datos a pequeña escala
  • Conjunto de datos-B, conjunto de datos de vistas múltiples
  • Dataset-C, datos de escena infrarroja

Entre ellos, CASIA-Bhay tres condiciones de caminar, es decir, caminar normal , caminar con una bolsa en la espalda y caminar con un abrigo en la espalda.Los videos adquiridos son capturados por 11 cámaras fijas con diferentes ángulos de disparo, y son preprocesados ​​por el antiguo algoritmo de sustracción de fondo para generar la silueta de paso correspondiente.

Para obtener una introducción detallada del conjunto de datos, consulte el sitio web oficial: http://www.cbsr.ia.ac.cn/china/Gait%20Databases%20CH.asp, que también abre otros conjuntos de datos biométricos, como iris, cara, Análisis de huellas dactilares, palmares, manuscritos y de comportamiento, los pequeños socios que lo necesiten pueden rellenar el contrato y solicitarlo.

OU-HECHO

OU-ISIRActualmente es uno de los conjuntos de datos de marcha pública en interiores más grandes. La base de datos de marcha OU-ISIR, una gran base de datos de población de vista múltiple con secuencias de posturas, tiene como objetivo ayudar a los esfuerzos de investigación de dominio general en el desarrollo, prueba y evaluación de algoritmos de reconocimiento de marcha basados ​​en modelos. El conjunto de datos se basa en un OU-MVLPsujeto que contiene 10 307 secuencias de caminata de ida y vuelta capturadas por siete cámaras web a intervalos de 15° (esto equivale a 14 vistas considerando viajes de ida y vuelta en la misma ruta a pie), tamaño de imagen de 1280 x 980 píxeles a 25 FPS.

CRECIÓ

GREWEs el conjunto de datos de marcha al aire libre más grande hasta la fecha. Su video sin procesar se recopiló de 882 cámaras en un área pública grande, que contiene casi 3500 horas de transmisiones de 1080 × 1920. Además de decenas de miles de identificaciones, se anotan muchos otros atributos humanos, por ejemplo, 2 géneros, 14 categorías de edad, 5 condiciones de transporte y 6 estilos de vestimenta.

Marcha3D

Gait3DTambién es un conjunto de datos de marcha al aire libre a gran escala. Se recogió en un supermercado y contiene 1.090 horas de vídeo a una resolución de 1.920×1.080 a 25 FPS.

marcha abierta

OpenGaitEs una nueva generación de marco de reconocimiento de marcha de código abierto basado en Pythonlenguaje y Pytorchmarco de aprendizaje profundo. Se enfoca en diseño modular, código reutilizable y de alta eficiencia, y puede ayudarlo a reproducir fácilmente los principales documentos de conferencias, mover los dedos, ajustar súper parámetros, y alquimia clave!

Actualmente OpenGaitse actualiza continuamente, incluyendo principalmente las siguientes cuatro características:

  • Admite múltiples conjuntos de datos: incluidos cuatro conjuntos de datos de marcha principales, a saber CASIA-B, OUMVLP, HIDy GREW;
  • Soporte para múltiples algoritmos: OpenGaitse han reproducido varios métodos de reconocimiento de la marcha SOTA, todos logrando el mismo o incluso mejor rendimiento;
  • Compatibilidad con entrenamiento distribuido: tanto las etapas de entrenamiento como las de prueba utilizan el DDPmodo paralelo ( ) de datos distribuidos recomendado oficialmente;
  • Admite entrenamiento mixto de media precisión: se puede activar según sus propias necesidades AMPpara acelerar el proceso de entrenamiento;
  • Admite un registro hermoso: use tensorboardy loggingpara registrar y presentar mejor los resultados, y puede personalizar y agregar contenido visual.

Además, OpenGait también admite la construcción conveniente de optimizadores, programadores y muestreadores a través de archivos de configuración y admite funciones de pérdida combinada.

escribir al final

Si también está interesado en el campo completo de la inteligencia artificial y la visión por computadora, se recomienda encarecidamente que preste atención a la cuenta pública informativa, interesante y amorosa "CVHub", que le ofrece contenido original y de alta calidad. campo, y artículos científicos de vanguardia en profundidad todos los días ¡Interpretación y soluciones industriales maduras!

Al mismo tiempo, le invitamos a agregar el editor WeChat: cv_huber, note CSDN, únase al grupo oficial de intercambio académico | técnico | de reclutamiento y discutan temas más interesantes juntos.

Supongo que te gusta

Origin blog.csdn.net/CVHub/article/details/129647386
Recomendado
Clasificación