ICCV 2023 | MoCoDAD: Un modelo de difusión condicional de movimiento basado en esqueleto humano para lograr una detección eficiente de anomalías de video

Enlace del artículo: https://arxiv.org/abs/2307.07205

La detección de anomalías por video (VAD) se extiende desde la tarea clásica de detección de anomalías. Dado que las muestras anormales son muy raras, la detección de anomalías clásica generalmente se define como un problema de clasificación de una clase (OCC) . Para VAD, las muestras que pertenecen a situaciones anormales son muy raras, por lo que los métodos comunes solo usan una gran cantidad de muestras normales para el entrenamiento. Estos métodos limitarán las características ocultas del video normal a un espacio limitado y luego usarán la distancia y métricas como la probabilidad. las diferencias de distribución, la reconstrucción y los errores de predicción detectan muestras fuera del espacio como anomalías.

Este artículo presenta un trabajo publicado en ICCV 2023, que propone un nuevo método de detección de anomalías de video llamado modelo de difusión condicionada por movimiento MoCoDAD . Este modelo modela principalmente la representación esquelética del cuerpo humano en el video, asume que los fenómenos normales y anormales que aparecen en el video son multimodales y propone utilizar el modelo de difusión para predecir la postura futura del cuerpo humano . Al tomar como condición el movimiento histórico de los peatones en el video, se utiliza el mecanismo de actualización iterativa en el proceso de difusión para ajustar el movimiento humano y generar fotogramas futuros. Cuando la información del esqueleto de movimiento generado es significativamente diferente de la información real del esqueleto de movimiento futuro , se puede identificar como Anomalía detectada . El autor realizó una gran cantidad de experimentos en cuatro puntos de referencia estándar de detección de anomalías de video de esqueleto humano: UBnormal, HR-UBnormal, HR-STC y HR-Avenue, lo que demuestra que MoCoDAD ha logrado resultados SOTA.

01. Introducción

Aunque la visión por computadora se ha desarrollado muy rápidamente en los últimos años, la detección de anomalías en video sigue siendo una tarea desafiante por dos razones principales:

(1) La definición de anomalía es muy subjetiva y, a menudo, cambia según el contexto y los escenarios de aplicación , lo que dificulta su definición universal.

(2) Los eventos anormales son raros por naturaleza: la cantidad de datos para eventos normales es enorme, mientras que los datos para eventos anormales son muy escasos, lo que provoca graves problemas de desequilibrio de datos .

Para resolver el problema de la escasez de datos, los modelos existentes generalmente solo aprenden de muestras normales (también llamada clasificación de una clase), y algunos académicos también llaman a este método aprendizaje semisupervisado . Con base en estos antecedentes, este artículo propone un modelo de detección de anomalías de difusión condicionada por movimiento (MoCoDAD), que supone que tanto la normalidad como la anormalidad son multimodales. Dada una secuencia de movimiento, ya sea normal o anormal, la secuencia primero se segmenta y posteriormente los fotogramas futuros se degradan a ruido aleatorio. Tomando el primer marco de entrada claro (marco histórico) como condición, MoCoDAD realizará una reconstrucción multimodal en él . A esto le sigue la comparación de distribuciones multimodales para distinguir entre normal y anormal. En circunstancias normales, el movimiento generado por MoCoDAD es diverso y relevante para la situación real. En situaciones anormales, aunque el movimiento generado por el modelo también tiene cierta diversidad, carece de pertinencia .

La figura anterior muestra la comparación del efecto de MoCoDAD en la generación de cuadros futuros para ejemplos normales y anormales, donde el rojo (derecha) y el verde (izquierda) representan ejemplos anormales y normales respectivamente. Los vectores de características de 50 fotogramas futuros también se visualizan en la parte inferior de la figura. El contorno de puntos representa el rango de distribución de la secuencia de entrada actual. Los puntos rojos representan los vectores de características de los fotogramas reales correspondientes al fotograma predicho actual. En condiciones normales En circunstancias, el marco real estará en la región media de la distribución y los resultados de la predicción estarán relacionados con el marco real. En las anomalías, los fotogramas verdaderos estarán al final de la distribución , lo que produce predicciones deficientes y puede resaltar anomalías.

02. Método de este artículo.

MoCoDAD se basa en el modelo de probabilidad de difusión de eliminación de ruido (DDPM) y, en base a él, modela las características cinemáticas del cuerpo humano y utiliza la información del punto de trayectoria del esqueleto humano como unidad básica para actualizar las articulaciones del cuerpo de cada cuadro de forma aleatoria. traducción Se predicen las coordenadas .

2.1 Arquitectura del modelo

La siguiente figura muestra la arquitectura general del modelo MoCoDAD, que se divide en dos módulos principales: (1) modelo de difusión de trayectoria directa y (2) codificador automático guiado por condiciones de movimiento . El modelo de difusión está representado por bloques naranjas y su tarea es estimar el ruido degradado en los fotogramas de la secuencia de entrada para reconstruir los fotogramas futuros reales. El autor siguió el trabajo anterior AnoDDPM[1] y configuró esta parte en una arquitectura basada en U-Net. Luego, la red de difusión directa reduce y expande gradualmente la secuencia de pose generada al mismo tamaño espacial que la secuencia de entrada. Además, considerando la dimensión temporal de la secuencia de entrada, los autores utilizan GCN separable en espacio-tiempo (STS-GCN) [2] para construir la capa de difusión U-Net .

2.2 Modelo de difusión de trayectoria directa

2.3 Codificador automático guiado por condición de movimiento

03. Resultados experimentales

Este artículo realiza experimentos en cuatro conjuntos de datos de detección de anomalías de video estándar, a saber, UBnormal, HR-UBnormal, HR ShanghaiTech Campus (HR-STC) y HRAvenue . El conjunto de datos UBnormal es un conjunto de datos sintetizado por computadora. Los tres conjuntos de datos restantes son vídeos capturados en escenarios de vigilancia reales. El índice de evaluación del modelo es ROC-AUC . El autor seleccionó 8 algoritmos comunes de detección de anomalías de video, incluidos MPED-RNN, GEPC, ​​​​SSMTL ++ y COSKAD, para comparación experimental. Los resultados experimentales se muestran en la siguiente tabla.

Los primeros cuatro métodos en la tabla anterior no están dentro del alcance del método OCC porque usan etiquetas de fragmentos anormales para el entrenamiento (muchos documentos se refieren a este tipo de método como métodos débilmente supervisados) y no es justo compararlos directamente. con el método de este artículo . Se puede ver que MoCoDAD aún logra los mejores resultados: en comparación con el método similar COSKAD, el rendimiento de este método mejora en un 3,6% y un 2,9% en los dos conjuntos de datos respectivamente. Incluso en comparación con los métodos débilmente supervisados, MoCoDAD tiene ventajas muy obvias. Por ejemplo, en comparación con TimeSFormer, el rendimiento de este método es básicamente el mismo, pero los parámetros son solo 288K, mientras que los parámetros de TimeSFormer llegan a 121M .

Para analizar más a fondo el impacto del proceso de difusión en el rendimiento de detección de anomalías de video, el autor realizó un análisis de ablación en la estrategia de agregación del álgebra de generación del modelo de difusión  m  y la puntuación de anomalía  S  , como se muestra en la figura anterior. de la figura representa las reconstrucciones obtenidas mediante cuatro estrategias de agregación diferentes. Histograma de error, el lado derecho de la figura muestra la correlación entre la puntuación AUC de detección del modelo y el álgebra de generación, donde cada curva corresponde a una estadística de agregación diferente.

04. Resumen

Este artículo propone un nuevo método de detección de anomalías de video MoCoDAD basado en el modelo de difusión. El autor enfatiza que han introducido la tecnología del modelo de difusión en este campo por primera vez. Al analizar el movimiento de la secuencia del esqueleto humano, MoCoDAD puede comprender eficientemente el cuerpo en la imagen Tendencia de movimiento , en circunstancias normales, el modelo puede predecir secuencias futuras basándose en las secuencias históricas observadas. En circunstancias anormales, el modelo mostrará desviaciones de la secuencia futura real bajo la guía de información de movimiento anormal. A través de esta desviación, se puede lograr una detección de movimiento anormal con precisión. Además, dado que MoCoDAD no requiere ninguna información sobre la apariencia de los píxeles y solo calcula información del esqueleto humano, puede lograr un diseño de red liviano y una mejor eficiencia informática .

referencia

[1] Julian Wyatt, Adam Leach, Sebastian M. Schmon y Chris G. Willc cks. Anoddpm: Detección de anomalías con modelos probabilísticos de difusión de eliminación de ruido utilizando ruido simplex. En Actas de los talleres de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones (CVPR), páginas 650–656, junio de 2022.

[2] Theodoros Sofianos, Alessio Sampieri, Luca Franco y Fabio Gala. Red convolucional de gráficos separables en espacio-tiempo para pronósticos de pose. En Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora, páginas 11209–11218, 2021.


  Acerca de la comunidad de inteligencia artificial TechBeat

TechBeat (www.techbeat.net) está afiliado a Jiangmen Venture Capital y es una comunidad en crecimiento que reúne a las élites chinas globales de IA.

Esperamos crear más servicios y experiencias profesionales para los talentos de IA, acelerar y acompañar su aprendizaje y crecimiento.

¡Esperamos que esto se convierta en un terreno elevado para que aprendas conocimientos de IA de vanguardia, un terreno fértil para compartir tus últimos trabajos y una base para mejorar y luchar contra monstruos en el camino hacia el avance de la IA!

Introducción más detallada >> TechBeat, una comunidad de aprendizaje y crecimiento que reúne a las élites globales de IA chinas

Supongo que te gusta

Origin blog.csdn.net/hanseywho/article/details/132714062
Recomendado
Clasificación