La diferencia entre la detección de objetos de video y la detección de objetos de imagen

I. Introducción

Este artículo presenta las respuestas de varios peces gordos que conocen la diferencia entre la detección de objetivos de video y la detección de objetivos de imagen. El contenido principal incluye la diferencia entre la detección de objetos de video y la detección de objetos de imagen, el progreso de la investigación, las ideas de investigación y los métodos de detección de objetos de video.

Autor: Naiyan Wang, Zha Zha, Yi Chen
https://www.zhihu.com/question/52185576/answer/155679253

EDITAR: Guía técnica de CV

Descargo de responsabilidad: solo para uso académico compartido, intrusión y eliminación

Este artículo es una reproducción de la Guía técnica de CV

original

Autor: Naiyan Wang https://www.zhihu.com/question/52185576/answer/155679253

Tomarse el tiempo para responder brevemente a esta pregunta es una dirección que nos preocupa más.

En pocas palabras, la detección de video tiene más información de contexto temporal (contexto temporal) que la detección de una sola imagen. Diferentes métodos quieren usar estos contextos para resolver diferentes problemas. Un tipo de método es centrarse en cómo utilizar esta parte de la información para acelerar la Detección de vídeo . Debido a que hay mucha redundancia entre marcos adyacentes, es significativo en aplicaciones prácticas si se pueden usar algunos métodos económicos para acelerar sin comprometer el rendimiento. Otro método es prestar atención a esta parte de la información, que puede aliviar eficazmente las dificultades causadas por el desenfoque de movimiento y el área de objetos pequeños en la detección de imágenes de un solo cuadro, para mejorar el rendimiento. Por supuesto, la forma ideal es ser rápido y bueno.

Por supuesto, aquí hay algunos métodos básicos muy simples , como el uso directo de asociaciones de seguimiento . De hecho, este tipo de método no profundiza en el modelo en sí, y generalmente se limita a los pasos de postprocesado, aunque también puede lograr cierta mejora en los resultados, personalmente creo que no es muy elegante. Se presta más atención al trabajo de los siguientes dos grupos.

  1. CUHK: Xiaogong Wang tiene tres artículos de los que me enteré. Al principio** (TPAMI Sshort) procesa la salida de un BaselineUna pequeña mejora en elmulticlasecorrelaciónde movimientoa través dede imágenes de un solo cuadrodetector . Sobre esta base, el artículo de seguimiento (CVPR16) introdujo una CNN temporal** para volver a puntuar cada Tubelet . De esta forma, se reevalúa la confianza de cada propuesta a través de Información temporal . El trabajo reciente (CVPR17) generará este paso de la propuesta y también obtendrá el tiempo de la imagen estática para hacerlo. Además, para la clasificación de cada Tubelet , también se adopta el popular LSTM .

  2. MSRA: En términos relativos, el trabajo de jifeng Dai aquí es más limpio y su pensamiento es más claro. Personalmente, lo prefiero. De hecho, los dos trabajos en esta área tienen ideas similares, pero solo corresponden a los dos propósitos de aceleración y mejora del rendimiento mencionados anteriormente. Su núcleo es calcular rápidamente el flujo óptico para capturar la información de movimiento en el video y luego usar la información de flujo para usar el muestreo bilineal para deformar el mapa de características anterior (es decir, para predecir el mapa de características del cuadro actual a través del flujo óptico) . ). Con dicha información, si queremos acelerar, podemos usar directamente el mapa de funciones predicho para generar el resultado; si queremos obtener mejores resultados, podemos combinar el mapa de funciones predicho y el mapa de funciones calculado por el cuadro actual para generar el resultado juntos . Vale la pena mencionar que este último es actualmente el único método de detección de video de extremo a extremo .

Además, hay algunas tareas fragmentadas, que se encuentran básicamente en el proceso de posprocesamiento para abordar el problema de la detección de puntuación, como Seq-NMS , etc.

Finalmente, quiero lanzar un ladrillo para iniciar una discusión y proponer un problema que observamos en Detección de video También escribimos un documento para hablar sobre este tema ([1611.06467] Sobre la estabilidad de la detección y seguimiento de video), es decir, la estabilidad en los problemas de sexo de detección estabilidad ). Vea el video a continuación. De hecho, los dos detectores no son muy diferentes en términos de precisión. Sin embargo, para el ojo humano, está claro cuál es mejor. Enlace de video:
Video
Tal problema de estabilidad en realidad traerá muchos problemas en aplicaciones prácticas. Por ejemplo, en la conducción autónoma, se requieren marcos de detección 2D estables para la estimación de la distancia y la velocidad del vehículo. La detección inestable afectará en gran medida la precisión de las tareas posteriores. Entonces, en el artículo, primero propusimos un indicador cuantitativo para medir esta estabilidad y luego evaluamos varias líneas de base simples . También calculamos la correlación entre este indicador de estabilidad y el indicador de precisión de uso común , y encontramos que estos dos indicadores en realidad no están muy correlacionados, es decir, capturan la calidad de dos aspectos en Video Deection respectivamente. Espero que este trabajo pueda servirte de inspiración. Además de mejorar la precisión, también deberíamos considerar cómo mejorar la igualmente importante estabilidad.

En resumen, el problema de la Video Detección es un muy buen tema, tanto en términos prácticos como desde la perspectiva de la investigación académica. Con el trabajo continuo de RBG y Kaiming, cada vez hay menos margen de mejora en la detección de imágenes fijas . En lugar de tratar desesperadamente de lograr un mAP de 0.x puntos en Imagen fija , es mejor dar un paso atrás y buscar algunas configuraciones nuevas, lo que conducirá a un futuro más brillante.

Autor: Frito https://www.zhihu.com/question/52185576/answer/298921652

La respuesta de Naiyan Wang es excelente y señala la diferencia central: en la detección de objetos basada en video , podemos usar el contexto temporal para eliminar la redundancia de información cuando la velocidad de fotogramas es alta y usar el contexto temporal para complementar las imágenes de un solo fotograma con información insuficiente para seguimiento mejor y más rápido. También viene con dos algoritmos de detección de video hermosos y de moda correspondientes, que creo que se beneficiaron mucho.
Aquí quiero responder el mecanismo y la diferencia entre los dos desde mi propio punto de vista. Debido a que estuve haciendo detección y seguimiento de objetivos basados ​​en video en los últimos dos años, el método utilizado puede ser relativamente anticuado en comparación con la memoria a corto plazo (LSTM) actual, pero creo que el sujeto debería ser un novato. aprender sobre los clásicos del pasado o Es significativo y puede usarse como un complemento temprano.

problema de investigación

Ya sea que se base en video o en imagen, el núcleo de nuestra investigación es el problema de la detección de objetivos, es decir, identificar el objetivo en la imagen (o en la imagen del video) y realizar el posicionamiento.

Detección de objetivos basada en una imagen de un solo cuadro

La realización de la detección de objetivos en imágenes estáticas es en sí misma un proceso de ventana deslizante + clasificación. El primero es ayudar a bloquear el área local donde puede existir el objetivo, y el segundo es puntuar a través del clasificador para determinar si el área bloqueada tiene ( es) lo que estamos buscando La meta. El núcleo de la investigación se centra principalmente en lo último, qué tipo de representación de características elegir para describir su área bloqueada ( HOG, C-SIFT, Haar, LBP, modelos de piezas deformables (DPM) y etc. ), qué tipo de entrada estos cuenta con clasificadores ( SVM, Adaboost, etc. ) para puntuar y juzgar si es el objetivo que estamos buscando.

Aunque el objetivo que queremos detectar puede tener una variedad de formas (debido a la variedad, deformación, iluminación, ángulo, etc.), la representación de características obtenida al entrenar CNN a través de una gran cantidad de datos aún puede ayudar al proceso de reconocimiento y juicio. muy bien. Sin embargo, en algunos casos extremos, como el objetivo es muy pequeño, o el objetivo es demasiado similar al fondo, o el objetivo está realmente distorsionado debido a la borrosidad u otras razones en este cuadro de imagen, CNN también se sentirá impotente y no podrá reconocerlo como el objetivo que estamos buscando. Otra situación es que la escena de disparo se mezcle con otras cosas que se parecen al objetivo (como aviones y pájaros grandes con alas), y también puede haber errores de apreciación en este momento.

Es decir, en estos casos, es posible que no podamos completar la detección robusta del objetivo en virtud de la información de apariencia de un solo cuadro.

Detección de objetos basada en video

Un solo cuadro no es suficiente, se necesitan varios cuadros. En el video, el objetivo a menudo tiene características de movimiento y las fuentes de estas características incluyen la deformación del objetivo mismo, el movimiento del objetivo mismo y el movimiento de la cámara. Después de la introducción de múltiples fotogramas, no solo podemos obtener la información de apariencia del objetivo en muchos fotogramas, sino también obtener la información de movimiento del objetivo entre fotogramas. Así que hay algunas maneras

Tipo 1: información deportiva enfocada en objetivos

Primero, realice la separación del primer plano y el fondo en función de la segmentación del movimiento o la extracción del fondo (método de flujo óptico y distribución gaussiana, etc.), es decir, usamos la información del movimiento para seleccionar áreas que probablemente sean objetivos; luego, considere el objetivo en fotogramas consecutivos La persistencia (tamaño, color, consistencia de la trayectoria) puede ayudar a eliminar algunas áreas objetivo candidatas no calificadas; luego juzgue el área seleccionada puntuando o use información de apariencia (mencionada en un solo fotograma).

El segundo tipo: la combinación de dinámica y estática, es decir, sobre la base del primer tipo, agregando la apariencia de deformación del objetivo.

Algunos objetos en el video mostrarán deformaciones regulares y a gran escala, como peatones y pájaros. En este momento, podemos resumir las características especiales de movimiento y el paradigma de comportamiento del objetivo aprendiendo la ley de deformación y luego ver si el objetivo detectado cumple con dichos cambios de comportamiento. Las características de comportamiento comunes incluyen descriptores 3D, dinámicas de forma basadas en Markov, histograma basado en pose/acción primitiva, etc. Este método de combinar información estática y dinámica del objetivo para juzgar si es un objetivo específico está algo sesgado hacia la clasificación de acciones.

El tercero: el uso de características de dominio de frecuencia

En la detección de objetivos basada en video, además del análisis de la información de espacio y tiempo del objetivo, la información del dominio de frecuencia del objetivo también puede desempeñar un papel muy importante en el proceso de detección. Por ejemplo, en la detección de especies de aves, podemos distinguir las especies de aves analizando la frecuencia del aleteo.

Vale la pena señalar que aquí hay dos situaciones en la detección basada en video . Una es que solo desea saber si existe tal objetivo en esta escena y, de ser así, dónde está su posición de escena correspondiente; la otra es la segunda. es si hay tal objeto en esta escena, y dónde está su posición en cada cuadro. El enfoque que presentamos aquí se centra en el último, más complejo.

El aprendizaje profundo es prometedor y desenfrenado. Se espera que el modelado de características visuales continúe desarrollándose y que todo el campo de la visión artificial se diversifique más, en lugar de quedar marginado por el aprendizaje automático.

Autor: Yichen https://www.zhihu.com/question/52185576/answer/413306776

Al ver las respuestas de tantos tipos grandes arriba, también agregaré algunas de mis propios conocimientos.
En primer lugar, conceptualmente hablando, el problema a resolver en la detección de objetivos de video es identificar y ubicar correctamente el objetivo en cada cuadro del video. Entonces, ¿cuál es la diferencia con otros campos, como la detección de objetivos de imágenes y el seguimiento de objetivos?

1. La diferencia con la detección de objetivos de imagen

inserte la descripción de la imagen aquí
(La imagen proviene de Agregación de funciones guiada por flujo para la detección de objetos de video)

2. Diferencias con el seguimiento de objetivos

El seguimiento de objetivos generalmente se puede dividir en dos tipos: seguimiento de un solo objetivo y seguimiento de múltiples objetivos. Las tareas a resolver son las mismas que la detección de objetivos de video, ya que requieren un posicionamiento preciso del objetivo en cada cuadro de imagen. La diferencia es que el seguimiento de objetivos no considera el problema de reconocimiento de objetivos.

3. Progreso en la detección de objetos de video

  1. Métodos combinados con flujo óptico
    He estado siguiendo el trabajo de jifeng Dai de MSRA

El punto de partida del trabajo del jefe es muy simple. DFF (Deep Feature Flow) primero divide la tarea de detección en dos partes: la tarea de extracción de características Nfeat (ResNet101) y la tarea de detección Ntask (R-FCN). Al distinguir entre fotogramas clave y fotogramas no clave, Nfeat se utiliza para extraer características en fotogramas clave Obtenga el mapa de características, use la red FlowNet para estimar el flujo óptico en el fotograma no clave y obtenga el mapa de características del fotograma no clave en forma de deformación bilineal a través de las características extraídas del fotograma clave . La red de detección se utiliza para implementar la tarea después de los mapas de características obtenidos de las dos formas.
inserte la descripción de la imagen aquí
La ventaja de este trabajo es que la información redundante de tramas continuas se utiliza para reducir una gran cantidad de cálculos y la velocidad de detección es muy rápida.


El punto de partida de FGFA (Flow Guided Feature Aggregation) es mejorar la calidad de las funciones, mejorar el desenfoque de movimiento y los problemas de desenfoque de video en el video, y su método se caracteriza por una mejor fusión de la información de la parte delantera y trasera. marcos _ Con la ayuda de la idea del modelo de atención, la similitud del coseno de cada posición espacial entre el fotograma actual y los fotogramas anteriores y posteriores se calcula como el peso adaptativo, y cuanto más cerca esté el mapa de características de la deformación del actual marco, mayor es el peso.

inserte la descripción de la imagen aquí
Debido a la extracción de características de cada cuadro, este trabajo tiene un gran costo computacional y una baja velocidad de detección. La ventaja es que se mejora la precisión de detección, y el esquema campeón de tareas de ImageNet VID utiliza los dos métodos anteriores.

  1. Enfoques combinados con el seguimiento de objetos
    Enlace

  2. Método combinado con RNN
    链接: [1712.06317] Detección de objetos de video con una memoria espacial-temporal alineada (arxiv.org)

链接: [1607.04648] El contexto importa: refinar la detección de objetos en video con redes neuronales recurrentes (arxiv.org)

  1. otros métodos de fusión
    链接: [1712.05896] Red de impresiones para la detección de objetos de video (arxiv.org)

  2. enfoque no de extremo a extremo
    链接: [1604.02532v4] T-CNN: Tubelets con redes neuronales convolucionales para la detección de objetos a partir de videos (arxiv.org)

Enlace: [1602.08465v3] Seq-NMS para detección de objetos de video (arxiv.org)

En resumen, la investigación actual de detección de objetivos de video no es lo suficientemente interesante en comparación con el campo de la imagen. La mayoría de las ideas de investigación se centran en el uso de información redundante para mejorar la velocidad de detección o en fusionar información de contexto entre fotogramas consecutivos para mejorar la calidad de la detección. No hay mucho trabajo por hacer para reducir la redundancia y mejorar la velocidad. (También es posible que el artículo no se haya leído lo suficiente, bienvenido a corregirme) y la fusión de información de contexto puede considerar usar convolución 3D, RNN, modelo de atención y otros métodos comúnmente utilizados en el reconocimiento de comportamiento.

Supongo que te gusta

Origin blog.csdn.net/qq_53250079/article/details/127426768
Recomendado
Clasificación