CVPR2020 papel Resolución: Vídeo clasificación de la categoría de vídeo

CVPR2020 papel Resolución: Video Género Clasificación vídeo

Rethinking Cero tiro-Clasificación del vídeo: Formación de extremo a extremo para aplicaciones realistas

 

 

 

Documentos de Enlace: https://arxiv.org/pdf/2003.01455.pdf

resumen

El aprendizaje profundo ( profundo aprendizaje , DL ) es entrenado en grandes conjuntos de datos, que se pueden dividir en vídeo con precisión cientos de diferentes clases. Sin embargo, las observaciones de los datos de vídeo es caro. Zero-shot de aprendizaje ( ZSL ) propuso una solución. ZSL solamente la formación de una vez al modelo, así como promover su nueva clase tarea no está en el conjunto de datos de entrenamiento. La clasificación propuesta por primera vez para el vídeo ZSL algoritmos -END. El último programa de formación de vídeo basado en percepciones documentos clasificados, y puede ser entrenado para usar la CNN 3D para aprender las características visuales. Este video anterior ZSL diferentes métodos, que utiliza un extractor de características pre-formados. Se extiende el paradigma de referencia actual: la tecnología anterior diseñada para facilitar las tareas de prueba desconocida en el entrenamiento, pero no alcanzó este objetivo. En este artículo se refuercen la formación de la transferencia de dominios cruzados y los datos de prueba, y no permite la ZSL cultivo modelo para un determinado conjunto de datos de prueba. Mucho más que el rendimiento de esta tecnología más avanzada.

1.      Introducción

Contribución de este trabajo se relacionan ZSL diversos aspectos de la clasificación de vídeo:             

El nuevo enfoque de modelado: se propuso la primera de Zero-shot reconocimiento de E2E modelo de formación. Inspiración del programa de entrenamiento moderno supervisó las prácticas de clasificación de video. La Figura 1 muestra que este método es sencillo, pero mejor que el anterior trabajo. Además, el diseño simple de una nueva técnicas de formación previa a ZSL escena para identificar objetivos para el video.            

Protocolo de evaluación: se propone un nuevo ZSL formación y protocolos de evaluación, implementación de un realista ZSL configuración. Extended Roitberg et al. [40] trabajo. Una sola prueba sobre una pluralidad de conjunto de datos de prueba de modelo de formación, en el que los conjuntos de entrenamiento y de prueba son clases disjuntos. Además, creemos que la formación y áreas de prueba no debe ser la misma.             

El análisis en profundidad: En este trabajo, e2e de modelo y de la línea de base pre-formación para su posterior análisis. En una serie de experimentos en la guía, para explorar un buen ZSL características conjunto de datos.

 

 

 

2.       Trabajo relacionado

Este artículo se centra en la formación de los datos de prueba ZSL resume completamente desconocido. Hay una gran cantidad de literatura acerca de transconductancia ZSL de [1,33,54,55,59,58,60], en el que está disponible la imagen de prueba o vídeo durante el entrenamiento, pero la prueba no es una etiqueta. No discuta método de defensa antimisiles en este trabajo.

Vídeo clasi fi cación:

En este trabajo, vamos a ser el tiempo de formación de los más avanzados principios de muestreo de clasificación de vídeo en la configuración de ZSL. Esto permite que nosotros entrenar E2E incrustado visual. Por lo tanto, en comparación con el trabajo anterior, el proceso general de la arquitectura y el razonamiento es muy simple, y el resultado es el más avanzado - se muestra en la Figura 1.

Cero tiro clasi fi cación de vídeo:

Zero disparo práctica de clasificación de vídeo común es primero pre-entrenado usando una red (por ejemplo, C3D [51] o ResNet [21]) Las características visuales extraídos de los fotogramas de vídeo, y el entrenamiento visual modelo de tiempo asignadas para incrustar el espacio semántico incrustado [4,13 , 14,15,16,18,35,61,64]. nombre de la clase incrustado medios buena generalización semánticas que el modelo puede ser aplicado en ausencia de una posible nueva clase de datos de entrenamiento de salida de vídeo. Reducir el razonamiento para encontrar incluida en la salida de la clase de prueba más próximo modelo de vecino. Word2Vec [32] por lo general se utiliza para generar la palabra incrustado realidad del terreno. Otro método es utilizar la clase construir atributos manualmente [23]. En esto decidió no utilizar el método manual, la aplicación es difícil, ya que en el caso general.

Recientemente dos métodos eficaces, Hahn et al [18] y Bishay et al [4], C3D 52 características se extraen de cada segmento de vídeo 16 en. A continuación, un entrenamiento de la red neural recursiva [10,22], el resultado se codifica como un vector. Por último, una capa está totalmente conectado a la Word2Vec de vídeo codificada asignada incrustado dentro. La Figura 1 ilustra este método. Después de [18] y [4] el conjunto de datos disponibles en dos clases, utilizando la misma formación y las pruebas conjuntos de datos. Profundidad utilizando la red de pre-entrenado es muy conveniente, ya que la extracción de características visuales de antemano es muy fácil de encontrar en la memoria de la GPU, incluso para un gran número de fotogramas de vídeo también. Generación de un modelo usando un método alternativo para compensar la brecha [33,62] entre el perfil semántico y visual. Por desgracia, el rendimiento no se ajusta con precisión las restricciones visuales integrados. En este artículo muestra los ajustes precisos para generalizar el conjunto de datos es crítica. documento de trabajo con Zhu et al. [64] similar. En ambos métodos, todos aprenden una representación general de la operación, que puede ser generalizado entre los conjuntos de datos. Sin embargo, el modelo que proponen no hacer pleno uso del potencial de 3D CNN. En su lugar, utilizan un ResNet200 muy profundo [21], previamente entrenados en [9, 43] en IMAGEnet, este último no puede tomar ventaja de la información de tiempo. Como Roitberg et al. [40] Como se ha indicado anteriormente que el trabajo sobre el modelo de formación y el objetivo conjunto de datos de las operaciones de la superposición, en violación de los supuestos ZSL. Por ejemplo, Zhu et al [64] en la formación [11] en las conjunto completo de datos de red activa. Esto hace que sea muy difícil comparado sus resultados a este artículo. ZSL según la definición de este artículo. En el conjunto de datos del conjunto de datos de entrenamiento y de prueba tiene 23 categorías superpuestas. Todos los casos otros métodos similares en distintos grados.

 

 

 

3.       Cero-shot acción clasi fi cación

ZSL primera cuidadosamente definido en el contexto de la clasificación de vídeo. Esto nos permitirá no sólo para proponer un nuevo algoritmo de ZSL, pero también hizo una evaluación clara del acuerdo, con la esperanza de futuras investigaciones para encontrar soluciones prácticas ZSL.

3.1. Problemsetting

Formalmente, dado un video x, se deriva la correspondiente incrustación semántica z = g (x), y se incluyeron en el conjunto de clases de pruebas clasificadas como x z vecino más cercano. Entonces, entrenado modelo de clasificación M (·) de salida

 

 

 

3.2. De extremo a extremo de entrenamiento

Se recomienda este artículo mientras se optimiza FV y FS. Esa formación E2E ofrece varias ventajas: a. 1) Dado que fv proporciona un motor de cálculo complejo, fs pueden ser un simple lineal capa (véase la Fig. 1). 2) Puede utilizar CNNs estándar 3D para lograr el modelo completo.             

3) pre-formados en la visión tarea de clasificación incorporado es innecesaria.             

Dado que las limitaciones de memoria de la GPU, utilizando el extremo completo para terminar la optimización de vídeo no es factible. -Normas basadas clasificación de vídeo se describe aquí, a pesar de que sólo un pequeño fragmento del proceso de formación, que es también eficaz, como se discute en detalle en la Sección 2 de.             

Formalmente, en el caso de un par dado de formación de vídeo / clase (x, c) ∈Ds que T≤ (len (x) -16) fragmento xt 16 fotogramas extraídos en momentos aleatorios. Optimizar la red, reduciendo al mínimo la pérdida de

 

 

 

3.3. Hacia ZSL realista

Para asegurar que nuestro conjunto de ZSL son realistas, hemos extendido el método [40] de entrenamiento y prueba de datos cuidadosamente separados. Esto es difícil de lograr en la práctica, y la mayoría de los trabajos anteriores no se han tratado. Queremos una declaración clara de nuestro acuerdo de formación y evaluación permitirá a los futuros investigadores a entender más fácilmente el rendimiento de sus modelos en escena ZSL real.

 

 

 

Formación y las pruebas de que no se solapan Categoría:

El primer objetivo de este trabajo es asegurar Ds∪Dp y Dt son "no superposición-clasificación." Una solución simple - la eliminación de la fuente del nombre de la clase de destino de la clase o al lado del nombre de clase de origen no funciona, ya que las dos clases de nombres ligeramente diferentes pueden consultar con facilidad el mismo concepto, como se muestra en la figura. Se requiere una distancia entre el nombre de la clase. Con esta norma, podemos asegurar que las clases de formación y clases de prueba son menos similares. Formalmente, sea D: C → C representa la distancia métrica en el espacio de todos los posibles nombres de las clases C y proporcionado τ∈R indican umbral similar. En los siguientes casos, las tareas de clasificación de vídeo en el pleno cumplimiento de la restricción de cero-shot:

 

 

 

Un método sencillo es utilizar el nombre de la clase semántica definida incrustados. Se define la distancia entre las dos clases de

 

 

 

En donde cos denota la distancia coseno. Esto es consistente con los ajustes ZSL que utilizamos en la ecuación 1 en la distancia coseno. La figura 2 muestra la formación similar y se incluyeron en la clase de prueba mediante el uso de la dinámica de clase durante la extracción de los datos de prueba en el solapamiento. La Figura 3 muestra la distancia entre los datos de la clase y la concentración de artículo de prueba la formación de las distribuciones de clase. Hay una distancia muy cercana de entre 0 y mayor que 0,1 acantilado. En nuestros experimentos, hemos utilizado τ = 0,05 como umbral natural, sin prejuicios.             

formación y la prueba video de diferentes campos:             

Este documento sostiene que el dominio de vídeo Ds∪Dp y DT debe ser diferente. En trabajos anteriores, el protocolo estándar se evaluó a través de un conjunto de datos para el entrenamiento y prueba, el uso de 10 segmentación aleatoria. Esto no explica la escena real debido a la compresión de datos, cámaras de vídeo y otros artefactos se produjo la transferencia de dominio. Por lo tanto, idealmente, las series de entrenamiento ZSL y datos de ensayos con fuente de vídeo a ser disjuntos.             

Una pluralidad de conjuntos de datos de ensayo:             

ZSL un modelo debería funcionar bien en múltiples conjuntos de datos de prueba. Como se señaló anteriormente, el trabajo previo para cada conjunto de datos disponibles (por lo general la UCF y HMDB) re-formación y las pruebas. En los experimentos del presente documento, los datos de entrenamiento cinéticos establecen sólo una vez [25], la prueba [11] Todo el UCF [50], HMDB [28] y ActivityNet.

3.4. Fácil pre-entrenamiento para ZSL de vídeo

En un escenario real, el modelo sólo entrenó una vez y luego desplegar a una variedad de conjunto invisible de datos de prueba. Un conjunto amplio y diverso de la formación de los datos es fundamental para obtener un buen rendimiento. Idealmente, el conjunto de datos de entrenamiento se adaptará al campo general de razonamiento, tales como un fuerte ZSL desplegados en una pluralidad de seguimiento de los modelos de un lugar desconocido requerirá un gran conjunto de datos para supervisar e identificación movimiento. Sin embargo, el acceso a los marcadores específicos de dominio y conjuntos de datos de vídeo puede ser bastante caro. Por otro lado, la velocidad de Anotación de imagen mucho más rápido.

Por lo tanto, el diseño de un simple conjunto de programa de mejora de los datos, la generación de una imagen sintetizada fija de la formación de vídeo. Sec. 5 que el uso de este modelo para el conjunto de datos puede ser pre-entrenado para mejorar el rendimiento, especialmente en el caso de los datos de entrenamiento más pequeños disponibles.

Utilizando el efecto Ken Burns en imágenes de vídeo: una serie de movimiento de la imagen alrededor de la simulación de los cultivos de vídeo movimiento similar. Sec. 4.1 se ofrecen más detalles. Los experimentos se centran reconocimiento de operación. En el reconocimiento de movimiento (y muchas otras tareas de clasificación), la ubicación y el paisaje de video tiene una fuerte predicción de categoría acción. Por lo tanto, el criterio de selección de escenas conjunto de datos de reconocimiento SOL [57]. La figura 2 muestra el conjunto completo de datos de la escena está incrustado nombre de la clase clase.

 

 

 

 

 

 

 

 

 

4.       Resultados de la prueba

Con el fin de obtener la Figura 4, que la cinética por categoría 664 ha sido submuestreada. En primer lugar, seleccionaron al azar dos dinámica de la clase 664, y la formación algoritmo sólo en estas clases. Utilizamos 4,10,25,50,100,200,400 y todas las repeticiones de la clase 664 de este proceso. Por supuesto, las clases menos, menos entrenamiento conjunto de puntos de datos contenidas. Los resultados se muestran en la Figura 4 con los procedimientos descritos anteriormente comparación, hemos eliminado los puntos de datos cinéticos al azar, independientemente de su categoría.

En la Figura 5, elegimos cuatro formas en que el 50 clases de formación :( esquina superior izquierda) 664 datos de toda la dinámica de nuestro enfoque seleccionado aleatoriamente 50 clases, la formación de algoritmo en estas clases, y se ejecuta en el equipo de prueba de razonamiento . Repetimos este proceso diez veces, con un error medio de la inferencia. (Arriba a la derecha) insertamos 664 se divide en dos categorías en la categoría de espacio Word2Vec, y en el que selecciona al azar una clase de entrenamiento de clase 50 y el razonamiento. Luego repetimos los tiempos de proceso de diez el resultado promedio.

 

 

 

 

 

 

5. Conclusión

Este documento sigue literatura reciente clasificación de la práctica de vídeo, para el primer sistema de reconocimiento de ZSL E2E video de entrenamiento. La evaluación de este programa es más estricto que el trabajo existente, una medida más realista de la precisión de la clasificación de desviación cero. Incluso en este protocolo más estricto, el método descrito en este documento es superior a un trabajo anterior, el rendimiento de este último se superpone por la formación y equipos de prueba y dominio compartido a medir. A través de una serie de experimentos específicos, hemos encontrado un buen conjunto de datos de ZSL debe tener muchas clases diferentes. Bajo la dirección de este punto de vista, hemos desarrollado un sencillo técnicas de pre-entrenamiento para mejorar el rendimiento de ZSL. Modelo es fácil de entender y extender. Programa de formación y evaluación es fácil de usar en conjunción con otros métodos.

Supongo que te gusta

Origin www.cnblogs.com/wujianming-110117/p/12537527.html
Recomendado
Clasificación