Uso compartido de papel de aprendizaje profundo (3) Mirar más pero preocuparse menos en el reconocimiento de video (NIPS2022)

prefacio

Artículo original: https://arxiv.org/pdf/2211.09992.pdf
Código del artículo: https://github.com/BeSpontaneous/AFNet-pytorch

Título:Mire más pero preocúpese menos en el reconocimiento de video
Autores:Yitian Zhang1∗ Yue Bai1 Huan Wang1 Yi Xu1 Yun Fu1,2
1Departamento de Ingeniería Eléctrica e Informática, Universidad del Noreste
2Khoury Facultad de Ciencias de la Computación, Universidad del Noreste

Aquí solo hago traducción (después de la modificación personal, no debería ser difícil de entender si hay una base), y tendré notas intensivas detalladas cuando tenga tiempo.

Abstracto

Los métodos de reconocimiento de acciones existentes generalmente muestrean varios fotogramas para representar cada video para evitar cálculos pesados, lo que tiende a limitar el rendimiento del reconocimiento. Para resolver este problema, proponemos Ample and Focal Network (AFNet), que consta de dos ramas para utilizar más marcos pero menos cómputo. Específicamente, Ample Branch obtiene todos los marcos de entrada a través de cálculos comprimidos para obtener información rica y brinda orientación para Focal Branch a través del módulo de navegación propuesto; Focal Branch comprime el tamaño temporal para enfocarse solo en los marcos salientes de cada bloque de convolución; Finalmente, los resultados de las dos ramas se fusionan de forma adaptativa para evitar la pérdida de información. Con este diseño, podemos introducir más tramas a la red, pero a un menor costo computacional. Además, demostramos que AFNet puede utilizar menos fotogramas y lograr una mayor precisión porque la selección dinámica en características intermedias impone un modelado temporal implícito. Además, mostramos que nuestro método puede extenderse para reducir la redundancia espacial a un costo menor. Extensos experimentos en cinco conjuntos de datos demuestran la eficacia y eficiencia de nuestro método. Nuestro código está disponible en https://github.com/BeSpontaneous/AFNet-pytorch .

1. Introducción

El video en línea se ha desarrollado rápidamente en los últimos años y el análisis de video es necesario para muchas aplicaciones, como la recomendación [6], la vigilancia [4, 5] y la conducción autónoma [33, 18]. Estas aplicaciones requieren algoritmos de comprensión de video no solo precisos sino también eficientes. Con la introducción de redes de aprendizaje profundo [3] en el reconocimiento de video, el rendimiento de los métodos en este campo ha mejorado rápidamente. Si bien son exitosos, estos métodos de aprendizaje profundo a menudo son computacionalmente intensivos, lo que dificulta su implementación en el mundo real.

En el reconocimiento de video, necesitamos muestrear varios cuadros para representar cada video, lo que hace que el costo computacional sea proporcional a la cantidad de cuadros muestreados. En la mayoría de los casos, cada entrada muestra una pequeña fracción de todos los cuadros, que contienen solo información limitada sobre el video original. Una solución sencilla es muestrear más tramas en la red, pero el cálculo se escala según el número de tramas muestreadas.

Recientemente, se han propuesto algunos trabajos para muestrear dinámicamente marcos salientes [31, 17] para mayor eficiencia. El paso de selección de estos métodos se realiza antes de que los marcos sean enviados a la red de clasificación, lo que significa que la información de esos marcos sin importancia se pierde por completo y el proceso de selección consume un tiempo considerable. Algunos otros enfoques proponen abordar la redundancia espacial en el reconocimiento de acciones ajustando de forma adaptativa el tamaño de la resolución de acuerdo con la importancia de cada cuadro [24], o recortando el parche más destacado para cada cuadro [30]. Sin embargo, estos métodos aún descartan por completo la información que la red considera sin importancia e introducen la red de políticas para tomar decisiones para cada muestra, lo que lleva a un cálculo adicional y complica el entrenamiento de la política.

inserte la descripción de la imagen aquí
Figura 1: Comparación entre los métodos existentes y nuestra red amplia y focal propuesta (AFNet). La mayoría de los trabajos existentes reducen la redundancia de datos al inicio de las redes profundas, lo que genera pérdida de información. Proponemos un diseño de doble rama que procesa marcos con diferentes recursos computacionales en la red y conserva toda la información de entrada.

En nuestro trabajo, partimos de otro ángulo en comparación con el trabajo anterior. Proponemos un método para la selección de tramas en redes de clasificación. Como se muestra en la Fig. 1, diseñamos una arquitectura llamada Ample and Focal Network (AFNet), que consta de dos ramas: la rama amplia vislumbra todas las características de entrada a través de un cálculo ligero, a medida que reducimos la muestra de las características para obtener una resolución más pequeña y reducir aún más el escala de canal; la rama de enfoque recibe orientación del módulo de navegación propuesto para comprimir el tamaño temporal y ahorrar costos al calcular solo en los marcos seleccionados; finalmente, fusionamos la función de manera adaptativa para evitar la pérdida de información para los marcos no seleccionados.

De esta manera, ambas ramas son muy livianas y permitimos que AFNet amplíe su campo de visión al muestrear más cuadros y enfocarse en información importante para reducir el cálculo. Considerando estas dos ramas de forma unificada, por un lado, en comparación con otros métodos dinámicos, podemos evitar la pérdida de información porque suficientes ramas conservan toda la información de entrada; por otro lado, podemos pasar en cada bloque de convolución Deshabilitarlos para suprimir ruido para marcos sin importancia. Además, hemos demostrado que la estrategia de selección dinámica de características intermedias es beneficiosa para el modelado temporal, ya que implícitamente permite la atención cuadro por cuadro, lo que permite que nuestra red utilice menos cuadros mientras logra una mayor precisión. Además, en lugar de introducir una red de políticas para la selección de marcos, diseñamos un módulo de navegación liviano que se puede conectar a la red para que nuestro método se pueda entrenar fácilmente de un extremo a otro. Además, AFNet es compatible con el trabajo de adaptación espacial, lo que ayuda a reducir aún más el cálculo de nuestro método.

Resumimos nuestras principales contribuciones de la siguiente manera:
• Proponemos un marco adaptativo de doble rama que permite que las 2D-CNN procesen más tramas con menos costo computacional. Con este diseño, no solo podemos evitar la pérdida de información, sino también fortalecer la representación de los marcos básicos.
• Proponemos un módulo de navegación liviano que selecciona dinámicamente marcos sobresalientes en cada bloque convolucional, que se puede entrenar fácilmente de un extremo a otro.
• La estrategia de selección de funciones intermedias no solo hace que el modelo sea muy flexible, ya que se seleccionarán diferentes fotogramas en diferentes capas, sino que también impone un modelado temporal implícito, lo que permite a AFNet lograr una mayor precisión con menos fotogramas.
• Llevamos a cabo experimentos completos en cinco conjuntos de datos de reconocimiento de video. Los resultados muestran la superioridad de AFNet en comparación con otros métodos de la competencia.

2. Trabajo relacionado

2.1 Reconocimiento de vídeo

En los últimos años, el desarrollo del aprendizaje profundo ha impulsado en gran medida la investigación del reconocimiento de video. Un enfoque sencillo para esta tarea es utilizar una 2D-CNN para extraer características de los fotogramas muestreados y utilizar un método de agregación específico para modelar la relación temporal entre fotogramas. Por ejemplo, TSN [29] propone promediar la información temporal entre fotogramas. Mientras que TSM [21] desplaza los canales de tramas adyacentes para permitir el intercambio de información en la dimensión temporal. Otro enfoque es construir una 3D-CNN para el aprendizaje espacio-temporal, como C3D [27], I3D [3] y SlowFast [9]. Aunque se ha demostrado que son efectivos, los métodos basados ​​en 3D-CNN son computacionalmente costosos, lo que plantea grandes dificultades para su implementación práctica.

Aunque SlowFast explora un diseño de doble rama, nuestra motivación y estructura detallada difieren de ella de las siguientes maneras: 1) Categoría de red: SlowFast es un modelo 3D estático, mientras que AFNet es una red 2D dinámica; 2) Motivación: SlowFast tiene como objetivo recopilar información semántica y cambie el movimiento de las ramas a diferentes velocidades de tiempo para lograr un mejor rendimiento, mientras que AFNet tiene como objetivo omitir marcos dinámicamente para guardar los cálculos, y el diseño de la estructura de doble rama es para evitar la pérdida de información; 3) Diseño específico: objetivos de AFNet en suficiente Las funciones se muestrean en forma descendente en la rama para mejorar la eficiencia, mientras que SlowFast procesa las funciones en la resolución original; 4) Modelado temporal: SlowFast aplica convolución 3D al modelado temporal, y AFNet es un modelo 2D, que pasa por el diseño módulo de navegación Aplicación de modelado temporal implícito.

2.2 Redundancia en Datos (redundancia de datos)

La eficiencia de las CNN 2D se ha estudiado ampliamente en los últimos años. Mientras que algunos trabajos apuntan a diseñar estructuras de red eficientes [14], hay otra investigación que se enfoca en reducir la redundancia inherente en los datos basados ​​en imágenes [34, 12]. En el reconocimiento de video, generalmente se muestrea un número limitado de fotogramas para representar cada video para evitar grandes costos computacionales. No obstante, el cálculo del reconocimiento de video sigue siendo una carga pesada para los investigadores y una estrategia común para abordar este problema es reducir la redundancia temporal en los videos, ya que no todos los cuadros son esenciales para la predicción final. [35] propusieron usar el aprendizaje por refuerzo para omitir marcos para la detección de acciones. También hay otros trabajos [31, 17] que muestrean dinámicamente marcos salientes para ahorrar costos computacionales. Dado que la redundancia espacial existe ampliamente en los datos basados ​​en imágenes, [24] maneja marcos de forma adaptativa con diferentes resoluciones. La solución proporcionada por [30] es recortar el parche más destacado para cada cuadro. Sin embargo, las áreas o marcos no seleccionados de estas obras están completamente abandonadas. Por lo tanto, parte de la información se pierde en los programas que diseñan. Además, la mayoría de estos trabajos emplean redes de políticas para tomar decisiones dinámicas, que de alguna manera introducen cómputo extra y dividen el entrenamiento en varias etapas. Por el contrario, nuestro método emplea un diseño de doble rama para asignar diferentes recursos informáticos según la importancia de cada cuadro, evitando la pérdida de información. Además, diseñamos un módulo de navegación liviano para guiar a la red hacia dónde mirar, que puede incorporarse a la red troncal y entrenarse de manera integral. Además, verificamos que la selección dinámica de marcos de características intermedias no solo dota al modelo de una gran flexibilidad, ya que se seleccionarán diferentes marcos en diferentes capas, sino que también conduce a pesos de marcos aprendidos, lo que refuerza el modelado temporal implícito.

3. Metodología

Intuitivamente, considerar más marcos mejora el modelado temporal pero conduce a un mayor costo computacional. Para lograr un rendimiento competitivo de manera eficiente, proponemos que AFNet involucre más marcos pero extraiga información de ellos de manera juiciosa para mantener bajo el costo computacional. Específicamente, diseñamos una estructura de doble rama para tratar discriminadamente los marcos de acuerdo con su importancia y procesar las características de manera adaptativa, lo que puede proporcionar una gran flexibilidad a nuestro método. Además, demostramos que la selección dinámica de marcos en características intermedias conduce a pesos de marco aprendidos, que pueden verse como modelos temporales implícitos.
inserte la descripción de la imagen aquíFigura 2: Arquitectura del módulo AF. Este módulo consta de dos ramas, la rama suficiente procesará todas las características de entrada a una resolución más baja y un tamaño de canal reducido; mientras que la rama focal solo calculará las características de los marcos salientes guiados por nuestro módulo de navegación propuesto (característica de color). Los resultados de las dos ramas se fusionan de forma adaptativa al final del módulo AF para evitar la pérdida de información.

3.1 Diseño de arquitectura

Como se muestra en la Figura 2, diseñamos el módulo Amplio y Focal (AF) como una estructura de doble rama: la rama amplia (superior) maneja características ricas de todos los fotogramas con una resolución más baja y un tamaño de canal comprimido; la rama focal (inferior) Reciba orientación de suficientes ramas generadas por el módulo de navegación y realice cálculos solo en marcos seleccionados. Este diseño se puede aplicar convenientemente a estructuras CNN existentes para construir módulos AF.

Sucursal Amplia (Sucursal Amplia) . La rama de muestra está diseñada para incluir todos los marcos con un bajo costo computacional, y su función es: 1) guiar la selección de marcos destacados para ayudar a la rama focal a enfocarse en información importante; 2) un flujo complementario con la rama focal, evitando la pérdida de información a través de una estrategia de fusión bien diseñada.

Formalmente, tomamos la muestra de video iii se expresa comoviv^ivi , que contieneTTT fotogramas, expresados ​​comovi = v^i =vi= {F 1 yo , F 2 yo , . . . , f T si^i_1, f^i_2, ..., f^i_TF1yo,F2yo,... ,FTyo}. Por conveniencia, omitimos el superíndice ii en las siguientes secciones si no causa confusión.yo _ Denotamos la entrada de la rama de muestra comovx ∈ RT × C × H × W v_x ∈ \mathbb{R}^{T ×C×H×W}vxRT × C × H × W , donde C representa el tamaño del canal y H × W es el tamaño espacial. Las características generadas por la rama amplia se pueden escribir como:
inserte la descripción de la imagen aquí
dondevya ∈ RT × ( C o / 2 ) × ( H o / 2 ) × ( W o / 2 ) v_{y^a} ∈ \mathbb{R}^ {T × (C_o/2)×(H_o/2)×(W_o/2)}vyunRT × ( Co/2 ) × ( Ho/2 ) × ( anchoo/2 ) significa la salida de la rama de muestra,F a F^aFa representa una secuencia de bloques convolucionales. El canal, la altura y el ancho en la rama focal se denotan comoC o , H o , W o C_o, H_o, W_oCoHoWo. Establecemos la zancada del primer bloque convolucional en 2 para reducir la resolución de esta rama y aumentar la resolución de las características al final de esta rama mediante la interpolación más cercana.

Módulo de Navegación . El módulo de navegación propuesto tiene como objetivo proporcionar video viv^i adaptativamentevSelecciono el marco más destacado para guiar la rama de enfoque hacia dónde mirar.

Específicamente, el módulo de navegación usa el nnth en la rama de muestra vyanLas salidas de n bloques convolucionales generan una máscara temporal binariaL n L_nLn. Primero, aplique la agrupación promedio a vyna v_{y^a_n}vynorteunpara cambiar el tamaño de la dimensión espacial a 1 × 1, luego realizamos una convolución para convertir el tamaño del canal a 2:
inserte la descripción de la imagen aquí
donde ∗ * representa convolución,W 1 W_1W1Representa los pesos de una convolución de 1 × 1. Después de eso, presentamos v ~ yna \tilde{v}_{y^a_n}v~ynorteuntiene dimensiones de T × 2 × 1 × 1 a T × 2 × 1 × 1T×2×1×1 remodelado a1 × ( 2 × T ) × 1 × 1 1 × (2 × T ) × 1 × 11×( 2×t )×1×1 para que podamos modelar la relación temporal para cada video de la dimensión del canal por:
inserte la descripción de la imagen aquí
dondeW 2 W_2W2Denota los pesos de la segunda convolución 1×1, que será para cada trama ttt genera un logit binariopnt ∈ R 2 p^t_n ∈ \mathbb{R}^2pagnortetR2 , indicando si seleccionarlo.

Sin embargo, el muestreo directo de esta distribución discreta no es diferenciable. En este trabajo, aplicamos Gumbel-Softmax [15] para abordar esta no diferenciabilidad. Específicamente, usamos Softmax para generar una distribución categórica normalizada:
inserte la descripción de la imagen aquí
extraemos muestras discretas de la distribución π como:
inserte la descripción de la imagen aquí

Sea G j = − log ( − log U j ) G_j = − log(− log U_j)GRAMOj=- l o gramo ( - l o gramo Uj) muestreada de la distribución de Gumbel,U j U_jtujMuestra de una distribución uniforme de Unif(0,1). Dado que argmax no es diferenciable, relajamos LL de muestra discreta en retropropagación a través de SoftmaxL :
inserte la descripción de la imagen aquí
Cuando el factor de temperatura τ → 0, la distribuciónl ^ \hat{l}yo^ será un vector caliente y dejaremos que τ disminuya de 1 a 0,01 durante el entrenamiento.

rama de enfoque . La rama de enfoque es guiada por el módulo de navegación y solo se calculan los cuadros seleccionados, lo que reduce el costo computacional y el ruido potencial de los cuadros redundantes. nnth
en esta ramaLas características de n bloques convolucionales se pueden expresar comovynf ∈ RT × C o × H o × W o v_{y^f_n} ∈ \mathbb{R}^{T ×C_o×H_o×W_o}vynortefRT × Co× alturao× anchoo. Con base en la máscara temporal Ln generada por el módulo de navegación, seleccionamos para cada video los cuadros con valores correspondientes distintos de cero en la máscara binaria, y solo para estos cuadros extraídos vynf ′ ∈ RT l × C o × H o × W o v '_{y^f_n} ∈ \mathbb{R}^{T_l ×C_o×H_o×W_o}vynortef′′RTyo× Co× alturao× anchooAplicar operación de convolución:
inserte la descripción de la imagen aquí
donde F nf F^f_nFnortefes el enésimo de la ramaPara n bloques convolucionales, establecemos el número de grupos convolucionales en 2 para reducir aún más el cálculo. enésimo_Después de la operación de convolución de n bloques, generamos a yvynf v_{y^f_n}vynortefcomparten cero tensores de la misma forma, y ​​sumando vynf ′ v'_{y^f_n}vynortef′′suma vyn − 1 f v_{y^f_{n-1}}vynorte - 1fPara completar el valor, el diseño residual es el siguiente [13].

Al final de estas dos ramas, inspirados en [1, 12], generamos factores de ponderación θ mediante capas agrupadas y linealesθ para fusionar características de dos ramas:
inserte la descripción de la imagen aquídonde ○ denota la multiplicación de canales.

3.2 Modelado temporal implícito modelado temporal implícito

Si bien nuestro trabajo tiene como objetivo principal reducir la computación en el reconocimiento de video como [30, 25], demostramos que AFNet impone el modelado temporal implícito mediante la selección dinámica de fotogramas entre características intermedias. Considerando la red TSN[29] con la estructura ResNet[13] ordinaria, la característica del n-ésimo bloque convolucional en cada etapa se puede escribir como vn ∈ RT × C × H × W v_n ∈ \mathbb{R}^{T × C × AL × AN}vnRT × C × H × W . Por lo tanto, eln+1th n+1norte+La característica de 1 bloque se puede expresar como:
inserte la descripción de la imagen aquí
dondeF n + 1 F_{n+1}Fn + 1es el n+1 n+1norte+1 bloque de convolución, haremosΔvn + 1 Δv_{n+1}v_ _n + 1Definido como los coeficientes aprendidos de este bloque. De esta forma podemos poner esta fase v N v_NvnorteEl resultado de se escribe como:
inserte la descripción de la imagen aquí
Del mismo modo, definimos las características en las ramas amplia y focal como:
inserte la descripción de la imagen aquí

donde L n L_nLnes la máscara de tiempo binaria generada por la Ecuación 5, vy 1 v_{y_1}vy1Representa la entrada a esta etapa. De acuerdo con la Ecuación 8, podemos obtener la salida de esta etapa como:
inserte la descripción de la imagen aquí
Dado que L n L_nLnes la máscara binaria en términos de tiempo, que decidirá si calcular el coeficiente Δvynf Δv_{y^f_n} en cada cuadro de cada bloque convolucionalv_ _ynortef. Teniendo en cuenta que toda la etapa consta de múltiples bloques convolucionales, la salida de la rama focal está relacionada con la máscara binaria L n L_nLnLa multiplicación de la serie de aproximará los pesos blandos. Esto lleva a aprender pesos a nivel de cuadro en cada video, que tratamos como un modelado temporal implícito. Aunque no construimos explícitamente ningún módulo de modelado de tiempo, L n L_n en la Ecuación 3LnLa generación de ya ha considerado información temporal, por lo que los pesos temporales aprendidos equivalen a realizar un modelado temporal implícito en cada etapa.
inserte la descripción de la imagen aquí
Figura 3: Representación esquemática de la extensión de AFNet para reducir la redundancia espacial y mejorar aún más la eficiencia. Solo las regiones coloreadas se calculan durante la fase de inferencia.

3.3 Reducción de redundancia espacial reducción de redundancia espacial

En esta sección, mostramos que nuestro método es compatible con los métodos destinados a abordar el problema de la redundancia espacial. Extendemos el módulo de navegación aplicando un proceso similar a la generación de máscaras temporales y trabajamos [12] para generar la lógica espacial del n-ésimo bloque convolucional, como se muestra en la Figura 3: donde W
inserte la descripción de la imagen aquí
3 W_3W3Indica el peso de la convolución 3 × 3, W 4 W_4W4Representa los pesos de una convolución con un tamaño de kernel de 1 × 1. Posteriormente, todavía usamos Gumbel-Softmax para tomar muestras de una distribución discreta para generar una máscara espacial M n M_nMETROnY navegue por la rama de enfoque para enfocarse solo en las regiones sobresalientes de los marcos seleccionados para reducir aún más los costos.

3.4 Funciones de pérdida

Inspirándonos en [29], tomamos el valor promedio de cada predicción de cuadro para representar la salida final del video correspondiente, y nuestro objetivo de optimización es minimizar: el primer
inserte la descripción de la imagen aquí
término es el video de entrada vvv y la etiqueta one-hot correspondienteyyPredicción de y P ( v ) P (v)Entropía cruzada entre P ( v ) . Denotamos r en el segundo término como la proporción de fotogramas seleccionados en cada minilote y denotamos RT como la proporción objetivo establecida antes del entrenamiento (RS es la proporción objetivo al expandir el módulo de navegación para reducir la redundancia espacial). Dejamos que r se aproxime a RT agregando un segundo término de pérdida y gestionamos el equilibrio entre eficiencia y precisión introduciendo un factor λ que equilibra estos dos términos.

4 Validación empírica

En esta sección, llevamos a cabo experimentos completos para validar el método propuesto. Primero comparamos nuestro método con las CNN 2D estándar para demostrar que nuestro módulo AF implementa implícitamente una atención temporal que es beneficiosa para el modelado temporal. Luego verificamos la eficiencia de AFNet introduciendo más marcos, pero a un costo computacional más bajo en comparación con otros métodos. Además, demostramos el sólido desempeño de AFNet en comparación con otros marcos de reconocimiento de acciones eficientes. Finalmente, proporcionamos un análisis cualitativo y amplios resultados de ablación para demostrar la efectividad del módulo de navegación propuesto y el diseño de doble rama.

conjunto de datos Nuestro método se evalúa en cinco conjuntos de datos de reconocimiento de video: (1) Mini-Kinetics [24, 25] es un subconjunto de Kinetics [16], que selecciona 200 clases de Kinetics y contiene 121k videos de capacitación y 10k videos de validación; (2) ActivityNet -v1.3 [2] es un conjunto de datos sin podar con 200 categorías de acción y una duración promedio de 117 segundos. Contiene 10 024 muestras de video para entrenamiento y 4926 muestras de video para validación; (3) Jester es un conjunto de datos de reconocimiento de gestos introducido por [23]. El conjunto de datos contiene 27 categorías, incluidos 119 000 videos de capacitación y 15 000 videos de validación; (4) Something-Something V1 y V2 [11] son ​​dos conjuntos de datos de comportamiento humano con información temporal sólida, incluidos 98 000 videos para capacitación y validación, respectivamente, y 194 000 videos.

Preprocesamiento de datos . Muestramos uniformemente 8 fotogramas para representar cada video en Jester, MiniKinetics y 12 fotogramas en ActivityNet y Something-Something para compararlos con el trabajo existente, a menos que se indique lo contrario. Durante el entrenamiento, los datos de entrenamiento se recortan aleatoriamente a 224 × 224 siguiendo [37], y realizamos cambios aleatorios excepto Algo-Algo. Durante la etapa de inferencia, todos los fotogramas se recortan en el centro a 224 × 224, y utilizamos el recorte de un clip a la vez para cada video para mayor eficiencia.

Detalles de implementación . Nuestro método se basa en ResNet50 [13] de manera predeterminada y reemplazamos las primeras tres etapas de la red con nuestro módulo AF propuesto. Primero entrenamos nuestra red de dos sucursales desde cero en ImageNet para permitir una comparación justa con otros métodos. Luego agregamos el módulo de navegación propuesto y lo entrenamos junto con la red troncal en el conjunto de datos de reconocimiento de video. En nuestra implementación, RT representa la proporción de fotogramas seleccionados y RS representa la proporción de regiones seleccionadas, que se reducirá de 1 a la cantidad que establecimos antes del entrenamiento por pasos. Durante el entrenamiento, dejamos que la temperatura τ en el módulo de navegación decaiga exponencialmente de 1 a 0,01. Debido a limitaciones de espacio, incluimos más detalles de implementación en el material complementario.

4.1 Comparaciones con métodos existentes

Menos es más . Primero, implementamos AFNet en los conjuntos de datos Something-Something V1 y Jester con 8 fotogramas de muestra. Lo comparamos con el método de referencia TSN, ya que ambos métodos no crean módulos de modelado temporal de forma explícita, sino que se basan en ResNet50.
inserte la descripción de la imagen aquí

En la Tabla 1, nuestro método AFNet(RT=1.00) muestra un rendimiento similar al de TSN al seleccionar todos los marcos. Sin embargo, cuando seleccionamos menos cuadros en AFNet, muestra una mayor precisión que TSN y AFNet (RT=1.00), que logra menos, es mucho. Los resultados pueden parecer contradictorios, ya que ver más cuadros generalmente beneficia el reconocimiento de video. La explicación es que el diseño de doble rama de AFNet puede conservar la información de todos los marcos de entrada, y la selección de marcos destacados en características intermedias permite el modelado temporal implícito, como analizamos en la Sección 3.2.

Dado que la máscara binaria aprendida por el módulo de navegación decidirá si se calculan los coeficientes para cada cuadro de cada bloque convolucional, esto dará como resultado pesos temporales aprendidos en cada video. Para ilustrar mejor esto, realizamos experimentos eliminando Gumbel-Softmax [15] en el módulo de navegación y modificándolo para aprender pesos temporales suaves para las características de la rama focal. Podemos observar que AFNet (pesos suaves) tiene un rendimiento similar a AFNet (RT = 0.25), AFNet (RT = 0.50) y supera significativamente a AFNet (RT = 1.00), lo que indica que aprender pesos de marco suave produce un efecto similar. Más
inserte la descripción de la imagen aquí
es menos . Combinamos nuestro método con un módulo de migración temporal (TSM [21]) para verificar que AFNet puede reducir aún más la redundancia de los métodos de la competencia y lograr más viendo más fotogramas con menos cómputo, es decir, menos. Implementamos nuestro método en los conjuntos de datos Something-Something V1 y V2 que contienen información temporal sólida, y los resultados relevantes se muestran en la Tabla 2.

inserte la descripción de la imagen aquí
En comparación con el TSM que muestrea 8 fotogramas, nuestro método muestra ventajas de rendimiento significativas cuando se introducen más fotogramas, y la estructura de doble rama puede conservar la información de todos los fotogramas. Sin embargo, nuestro costo computacional es mucho más pequeño que TSM porque asignamos marcos con diferentes recursos computacionales a través de este diseño de doble rama y omitimos marcos sin importancia de manera adaptativa utilizando el módulo de navegación propuesto. Además, AFNet supera a muchos métodos estáticos que diseñan cuidadosamente sus estructuras para un mejor modelado temporal en términos de precisión y eficiencia. Esto se puede interpretar como que el módulo de navegación suprime el ruido de los fotogramas sin importancia y refuerza la atención de los fotogramas, lo que es beneficioso para el modelado temporal. En cuanto a otros métodos dinámicos competitivos como AdaFuse y AdaFocus, nuestro método muestra un rendimiento significativamente mejor tanto en precisión como en cálculo. Cuando el costo computacional es similar, AFNet supera a AdaFuse y AdaFocus en un 3,1 % y un 1,8 % en Something-Something V1, respectivamente. Además, implementamos nuestro método en otras redes troncales para una mayor precisión y eficiencia. Cuando creamos AFNet en la estructura eficiente MobileNetV3, podemos lograr un rendimiento similar al de TSM, pero solo necesitamos calcular 2,3 GFLOP. Además, AFNet-TSM (RT=0,8) con ResNet101 como columna vertebral logra un 50,1 % y un 63,2 % de precisión en Algo-Algo V1 y V2, respectivamente, lo que verifica aún más la efectividad y la capacidad de generalización de nuestro marco.

Comparación con métodos dinámicos de la competencia . Luego implementamos nuestro método en MiniKinetics y ActivityNet, y comparamos AFNet con otros métodos efectivos de reconocimiento de video. Primero, validamos nuestro método en Mini-Kinetics, donde AFNet muestra el mejor rendimiento tanto en precisión como en cálculo en comparación con otros métodos efectivos en la Tabla 3. Para demostrar que AFNet puede reducir aún más la redundancia espacial, ampliamos el módulo de navegación para seleccionar fotogramas significativos en regiones destacadas de ActivityNet. Movemos el módulo de navegación temporal a la primera capa de la red para evitar grandes diferencias de funciones al incorporar el módulo de navegación espacial, y tenga en cuenta que solo aplicamos este proceso en esta parte. Podemos ver en la Tabla 4 que nuestro método logra el mejor rendimiento mientras gasta la menor cantidad de cómputo en comparación con otros trabajos. Además, variamos la proporción de marcos seleccionados y trazamos la precisión promedio y el costo computacional de varios métodos en la Fig. 4. Podemos concluir que AFNet exhibe una mejor compensación entre precisión y eficiencia que otros trabajos.
inserte la descripción de la imagen aquí

4.2 Visualizaciones

Mostramos la distribución de RT entre diferentes bloques convolucionales bajo diferentes relaciones de selección en la Fig. 5, y utilizamos un polinomio de tercer orden para mostrar la tendencia de distribución (mostrada como una línea discontinua). A medida que aumenta el índice en el bloque convolucional, se puede ver que el RT de todas las curvas tiene una tendencia a la baja, lo que se puede explicar porque las capas anteriores capturan principalmente información de bajo nivel, que tiene diferencias relativamente grandes entre los diferentes marcos. Aunque la semántica de alto nivel entre diferentes marcos es más similar, AFNet tiende a omitir más en bloques convolucionales posteriores. En la Fig. 6, visualizamos fotogramas seleccionados en el tercer bloque de AFNet a RT = 0,5 en el conjunto de validación de Something-Something V1, y muestreamos uniformemente 8 fotogramas. Nuestro módulo de navegación guía de manera efectiva la rama de enfoque para enfocarse en los marcos que son más relevantes para la tarea y desactiva los marcos que contienen información similar.

4.3 Estudio de ablación

En esta parte, implementamos nuestro método en ActivityNet con 12 marcos de muestra para un estudio de ablación integral para verificar la efectividad de nuestro diseño.

El efecto de dos diseños de rama . Primero integramos nuestro módulo de navegación en ResNet50 y lo comparamos con AFNet para demostrar la solidez de nuestra arquitectura de doble rama diseñada. Como se puede ver en la Tabla 5, AFNet muestra ventajas de precisión significativas en diferentes escalas de marcos seleccionados. Además, los modelos que adoptan nuestra estructura pero con una estrategia de muestreo fija también exhiben un rendimiento significativamente mejor en comparación con las redes basadas en una sola rama, lo que puede demostrar aún más la eficacia de nuestra estructura de doble rama y preservar toda la información del marco que es necesario.

El efecto del módulo de navegación . En esta parte, comparamos además nuestro módulo de navegación propuesto con tres estrategias de muestreo alternativas con diferentes proporciones de selección: (1) muestreo aleatorio; (2) muestreo uniforme: marco de muestreo de pasos iguales; (3) muestreo normal: marcos de muestreo de un estándar Distribución gaussiana. Como se muestra en la Tabla 5, nuestra estrategia propuesta supera consistentemente a otras estrategias de muestreo fijas en diferentes proporciones de selección, lo que verifica la efectividad del módulo de navegación.

Además, la ventaja de nuestro método es más pronunciada cuando la proporción de fotogramas seleccionados es pequeña, lo que indica que nuestros fotogramas seleccionados son más relevantes para la tarea y contienen información esencial para el reconocimiento. Además, evaluamos la extensión del módulo de navegación que puede reducir la redundancia espacial y lo comparamos con: (1) muestreo aleatorio; (2) recorte central. En comparación con una estrategia de muestreo fija, nuestro método muestra un mejor rendimiento en varias proporciones de selección, lo que valida la efectividad de este diseño.

5. Conclusión

En este artículo, proponemos una red adaptativa amplia y focal (AFNet) para reducir la redundancia temporal en los videos, teniendo en cuenta el diseño arquitectónico y la redundancia inherente de los datos. Nuestro enfoque permite que las 2D-CNN accedan a más fotogramas, por lo que buscan más ampliamente pero con menos cómputo al centrarse en la información más destacada. AFNet muestra un rendimiento alentador porque nuestro diseño de doble rama conserva la información de todos los marcos de entrada en lugar de descartar el conocimiento parcial al comienzo de la red. Además, la selección temporal dinámica dentro de la red no solo suprime el ruido de los fotogramas sin importancia, sino que también impone un modelado temporal implícito. Esto permite que AFNet logre una mayor precisión utilizando menos fotogramas en comparación con los métodos estáticos sin un módulo de modelado temporal. Además, mostramos que nuestro método se puede ampliar para reducir la redundancia espacial calculando solo las regiones importantes de los marcos seleccionados. Los experimentos completos muestran que nuestro método supera a los métodos efectivos de la competencia tanto en precisión como en eficiencia computacional.

Agradecimientos y Divulgación de Financiamiento

El estudio fue patrocinado por el Centro Analítico DEVCOM y se completó bajo el Acuerdo de Colaboración No. W911NF-22-2-0001. Las opiniones y conclusiones contenidas en este documento pertenecen a los autores y no deben interpretarse como representativas de la política oficial de la Oficina de Investigación del Ejército o del Gobierno de los Estados Unidos, ya sea expresa o implícita. Sin perjuicio de los avisos de derechos de autor incluidos en el presente, el gobierno de los Estados Unidos se reserva el derecho de copiar y distribuir reimpresiones para fines gubernamentales.

Referencias

[1] Y . Bai, L. Wang, Z. Tao, S. Li e Y. Fu. Fusión correlativa consciente del canal para la clasificación de series de tiempo de vista múltiple
. En AAAI, 2021.
[2] F. Caba Heilbron, V . Escorcia, B. Ghanem, and J. Carlos Niebles. Activitynet: un punto de referencia de video a gran escala
para la comprensión de la actividad humana. En CVPR, 2015.
[3] J. Carreira y A. Zisserman. Quo vadis, reconocimiento de acciones? un nuevo modelo y el
conjunto de datos cinéticos. En CVPR, 2017.
[4] J. Chen, K. Li, Q. Deng, K. Li y S. Y . Felipe. Modelo de aprendizaje profundo distribuido para
sistemas de videovigilancia inteligentes con edge computing. Transacciones IEEE sobre informática industrial,
2019.
[5] RT Collins, AJ Lipton y T. Kanade. Introducción a la sección especial en video
vigilancia. IEEE Transactions on pattern analysis and machine intelligence, 22(8):745–746,
2000.
[6] J. Davidson, B. Liebald, J. Liu, P . Nandy, T. V an Vleet, U. Gargi, S. Gupta, Y . Él, M. Lambert,
B. Livingston, et al. El sistema de recomendación de videos de youtube. En la conferencia ACM sobre
sistemas de recomendación, 2010.
[7] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li y L. Fei-Fei. Imagenet: Una base de datos de imágenes jerárquicas a gran escala
. En CVPR, 2009.
[8] Q. Fan, C.-F. Chen, H. Kuehne, M. Pistoia y D. Cox. Más es menos: aprendizaje de representaciones de video eficientes
por red grande-pequeña y agregación temporal en profundidad. preimpresión de arXiv arXiv
:1912.00869, 2019.
[9] C. Feichtenhofer, H. Fan, J. Malik y K. He. Redes slowfast para reconocimiento de video. En
ICCV, 2019.
[10] R. Gao, T.-H. Ah, K. Grauman y L. Torresani. Escuchar para mirar: Reconocimiento de acciones mediante
la vista previa del audio. En CVPR, 2020.
[11] R. Goyal, S. Ebrahimi Kahou, V . Michalski, J. Materzynska, S. Westphal, H. Kim, V. Haenel,
I. Fruend, P. Yianilos, M. Mueller-Freitag, et al. La base de datos de videos "algo algo" para
aprender y evaluar el sentido común visual. En ICCV, 2017.
[12] Y . Han, G. Huang, S. Song, L. Yang, Y. Zhang y H.Jiang. Refinamiento de funciones adaptable espacialmente
para una inferencia eficiente. Transacciones IEEE sobre procesamiento de imágenes, 30:9345–9358,
2021.
[13] K. He, X. Zhang, S. Ren y J. Sun. Aprendizaje residual profundo para el reconocimiento de imágenes. En CVPR,
2016.
[14] AG Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto y
H. Adam. Mobilenets: redes neuronales convolucionales eficientes para aplicaciones de visión móvil.
Preimpresión de arXiv arXiv:1704.04861, 2017.
[15] E. Jang, S. Gu y B. Poole. Reparación categórica con gumbel-softmax. arXiv
preprint arXiv:1611.01144, 2016.
[16] W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola,
T. Green, T. Back, P . Natsev, et al. El conjunto de datos de video de acción humana cinética. preimpresión de arXiv arXiv
:1705.06950, 2017.
[17] B. Korbar, D. Tran y L. Torresani. Scsampler: Muestreo de clips destacados de video para
un reconocimiento de acción eficiente. En ICCV, 2019.
[18] P . Li y J. Jin. Time3d: Detección y seguimiento de objetos 3D monoculares conjuntos de extremo a extremo para
la conducción autónoma. En CVPR, 2022.
[19] X. Li, Y . Wang, Z. Zhou e Y. Qiao. Smallbignet: integración de vistas centrales y contextuales para
la clasificación de videos. En CVPR, 2020.
[20] Y . Li, B. Ji, X. Shi, J. Zhang, B. Kang y L. Wang. Té: Excitación temporal y agregación
para el reconocimiento de acciones. En CVPR, 2020.
[21] J. Lin, C. Gan y S. Han. Tsm: módulo de cambio temporal para una comprensión eficiente del video. En
ICCV, 2019.
[22] Z. Liu, L. Wang, W. Wu, C. Qian y T. Lu. Tam: Módulo adaptativo temporal para
reconocimiento de video. En CVPR, 2021.
[23] J. Materzynska, G. Berger, I. Bax y R. Memisevic. El conjunto de datos del bufón: un conjunto de datos de video a gran escala
de gestos humanos. En ICCVW, 2019.
[24] S Meng, C.-C. Lin, R. Panda, P Sattigeri, L. Karlinsky, A. Oliva, K. Saenko y R. Ferris.
Ar-net: resolución de cuadro adaptable para un reconocimiento de acción eficiente. En ECCV, 2020.
[25] S Meng, R. Panda, C.-C. lin, p. Sattigeri, L. Karlinsky, K. Saenko, A. Oliva y R. Ferris.
Adafuse: una red de fusión temporal adaptativa para el reconocimiento de acciones eficiente. preimpresión de arXiv
arXiv:2102.05775,
[26] X. Sun, R. Panda, C.-FR Chen, A. Oliva, R. Feris y K. Saenko. Cuantificación de red dinámica
para una inferencia de video eficiente. En ICCV, 2021.
[27] D. Tran, L. Bourdev, R. Fergus, L. Torresani y M. Paluri. Aprendizaje de características espaciotemporales
con redes convolucionales 3d. En ICCV, 2015.
[28] L. Wang, Z. Tong, B. Ji y G. Wu. Tdn: Redes de diferencias temporales para
el reconocimiento eficiente de acciones. En CVPR, 2021.
[29] L. Wang, Y . Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang y L. Van Gool. Redes de segmentos temporales
: Hacia buenas prácticas para el reconocimiento profundo de acciones. En ECCV, 2016.
[30] Y . Wang, Z. Chen, H. Jiang, S. Song, Y. Han y G. Huang. Enfoque adaptativo para video eficiente
reconocimiento. preimpresión de arXiv arXiv:2105.03245, 2021.
[31] Z. Wu, H. Li, C. Xiong, Y .-G. Jiang y LS Davis. Un marco dinámico de selección de cuadros para
un rápido reconocimiento de video. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[32] Z. Wu, C. Xiong, Y .-G. Jiang y LS Davis. Liteeval: Un marco de grueso a fino para
el reconocimiento de video eficiente en recursos. preimpresión de arXiv arXiv:1912.01601, 2019.
[33] Y . Xu, L. Wang, Y. Wang, y Y. Fu. Predicción de trayectoria adaptativa a través de gnn transferible. En
CVPR, 2022.
[34] L. Yang, Y . Han, X. Chen, S. Song, J. Dai y G. Huang. Redes adaptativas de resolución para
una inferencia eficiente. En CVPR, 2020.
[35] S. Yeung, O. Russakovsky, G. Mori y L. Fei-Fei. Aprendizaje integral de la detección de acciones
a partir de vislumbres de fotogramas en videos. En CVPR, 2016.
[36] B. Zhou, A. Andonian, A. Oliva y A. Torralba. Razonamiento relacional temporal en videos. En
ECCV, 2018.
[37] M. Zolfaghari, K. Singh y T. Brox. Eco: Red convolucional eficiente para
la comprensión de videos en línea. En ECCV, 2018.

Apéndice

A. Configuración experimental

ImageNet . Primero entrenamos nuestra red troncal en ImageNet [7] usando el optimizador SGD. El coeficiente de regularización L2 y el impulso se establecieron en 0,0001 y 0,9, respectivamente. Entrenamos la red durante 90 épocas con un tamaño de lote de 256 en 2 GPU NVIDIA Tesla V100, con un procedimiento de calentamiento de 5 épocas. La tasa de aprendizaje inicial se establece en 0,1 y decae a 0,1 en las rondas 30 y 60.

Mini-Kinetics y ActivityNet . Luego agregamos el módulo de navegación y lo entrenamos junto con la red troncal en el conjunto de datos de video. En Mini-Kinetics [16] y ActivityNet [2], usamos el optimizador SGD con un impulso de 0,9 y un coeficiente de regularización L2 establecido en 0,0001. La tasa de aprendizaje inicial se establece en 0,002, que disminuirá en 0,1 en las épocas 20 y 40. El modelo se entrenó para 50 épocas con un tamaño de lote de 32 en 2 GPU NVIDIA Tesla V100. El factor de pérdida λ se establece en 1 para ambos conjuntos de datos y la temperatura τ disminuye exponencialmente de 1 a 0,01.

Bufón y Algo-Algo . Los detalles de entrenamiento para los conjuntos de datos Jester [23] y SomethingSomething [11] son ​​los mismos que para ActivityNet [2], excepto por los siguientes cambios: tasa de aprendizaje inicial de 0.01, decayendo en 25 y 45 épocas, para un total de 55 épocas ; El factor de pérdida λ de λ se establece en 0,5; los datos de entrenamiento se redimensionarán a 240×320 y luego se recortarán a 224×224, ya que los datos originales en estos dos conjuntos de datos tienen resoluciones relativamente pequeñas.

B. Creación de AFNet en BasicBlock

inserte la descripción de la imagen aquí
En experimentos anteriores, construimos AFNet en ResNet50 [13] compuesto por una estructura de cuello de botella. En cambio, usamos BasicBlock en esta sección para construir AFNet en el conjunto de datos de Jester y compararlo con el método de referencia TSN [29]. La Tabla 6 muestra que nuestro método muestra continuamente ventajas significativas sobre TSN [29] bajo diferentes proporciones de selección, lo que también verifica la efectividad de nuestro método en la estructura BasicBlock. Curiosamente, AFNet logra el mejor rendimiento cuando la relación de selección se establece en 0,5, mientras que muestra la precisión relativamente más baja cuando se seleccionan más fotogramas. Esto se puede explicar porque nuestro módulo de navegación suprime efectivamente el ruido de los marcos sin sentido y logra un modelado temporal implícito, que usa menos marcos pero logra una mayor precisión.

C. Creación de AFNet con más marcos

inserte la descripción de la imagen aquí
En esta sección, construimos AFNet con más marcos de muestra y lo comparamos con los métodos de referencia. Los resultados se muestran en la Tabla 7. Cuando se muestrean 16 fotogramas, TSN muestra claras ventajas de rendimiento sobre otros métodos eficientes, lo que puede explicarse por la pérdida de información en las etapas de preprocesamiento (p. ej., selección de fotogramas, recorte de parches) de estos métodos dinámicos. Este fenómeno nos motiva a diseñar AFNet, que emplea una estructura de doble rama para evitar la pérdida de información. Los resultados muestran que AFNet es significativamente menos costoso desde el punto de vista computacional con solo una ligera caída en el rendimiento en comparación con los métodos de referencia. Además, llevamos a cabo experimentos en 32 fotogramas y el fenómeno es similar a 16 fotogramas.

D. Más ablación de AFNet

inserte la descripción de la imagen aquí
Además, incluimos más ablación de AFNet en ActivityNet con 12 fotogramas de muestra. En primer lugar, probamos el rendimiento de AFNet sin el módulo de fusión dinámica, y los resultados de la Tabla 8 pueden demostrar que este diseño es importante porque equilibra de manera efectiva los pesos entre las funciones de las dos ramas. Además, exploramos diferentes programas de disminución de temperatura, que incluyen: 1) disminución exponencial, 2) disminución en forma de coseno y 3) disminución lineal. Los resultados muestran que el decaimiento exponencial logra el mejor rendimiento y lo usamos como configuración predeterminada en todos los experimentos.

E. Limitaciones y posibles impactos sociales negativos

En primer lugar, debido a la estructura de dos ramas, la columna vertebral de AFNet debe estar especialmente capacitada en ImageNet, mientras que la mayoría de los otros métodos aprovechan directamente la ResNet previamente capacitada de los recursos en línea [13]. Para facilitar a otros el uso de AFNet, proporcionamos una red troncal previamente entrenada en ImageNet, a la que se puede acceder en el código que proporcionamos. En segundo lugar, no consideramos la construcción de ningún módulo de modelado temporal durante el diseño de AFNet, que es el enfoque principal de otros métodos estáticos como TEA [20], TDN [28], etc. Sin embargo, hemos demostrado que AFNet implementa el modelado temporal implícito y que es compatible con los módulos de modelado temporal existentes como TSM [21]. Hasta donde sabemos, nuestro método no tiene ningún impacto social negativo potencial.

Supongo que te gusta

Origin blog.csdn.net/qq_52358603/article/details/131025034
Recomendado
Clasificación