Redes neuronales guiadas por semántica para la lectura eficiente de documentos de reconocimiento de acciones humanas basadas en esqueletos

Redes neuronales guiadas por semántica para el reconocimiento eficiente de la acción humana basada en el esqueleto Notas de lectura de papel

Aplicación de redes neuronales guiadas por semántica en el reconocimiento de acciones humanas basado en esqueletos

Resumen

El reconocimiento de la acción humana basado en el esqueleto ha atraído un gran interés debido a la facilidad de obtener datos del esqueleto humano. En los últimos años, ha habido una tendencia a utilizar redes neuronales feed-forward muy profundas para modelar las coordenadas 3D de las articulaciones sin tener en cuenta la eficiencia computacional.En este artículo, proponemos una red neuronal guiada semántica (SGN) simple y efectiva para el reconocimiento de acciones basado en esqueletos. Introducimos explícitamente semántica de articulaciones de alto nivel (tipo de articulación e índice de marco) en la red para mejorar la representación de características.Además, superponemos dos módulos, un módulo de nivel de unión para modelar dependencias de unión en el mismo marco y un módulo de nivel de marco para modelar dependencias entre marcos de articulaciones en el mismo marco como un todo. Use la relación entre articulaciones. Se propone una base sólida para facilitar la investigación en este campo. SGN logra un rendimiento de última generación en conjuntos de datos NTU60, NTU120 y SYSU,El tamaño de su modelo es un orden de magnitud más pequeño que la mayoría de los trabajos anteriores.El código fuente está en la dirección del código .

1. Introducción

El reconocimiento de la acción humana tiene una amplia gama de escenarios de aplicación, como la interacción hombre-computadora y la recuperación de video [35, 50, 1]. El reconocimiento de acciones basado en esqueletos ha atraído un interés creciente en los últimos años. Un esqueleto es un dato bien estructurado en el que cada articulación de un cuerpo humano se identifica por tipo de articulación, índice de estructura y posición tridimensional. Hay varias ventajas en el uso de esqueletos para el reconocimiento de acciones. Primero, el esqueleto es una representación de alto nivel del cuerpo humano, que abstrae la pose y el movimiento del cuerpo humano. Biológicamente hablando, en ausencia de información sobre la apariencia, los humanos pueden reconocer categorías de acción simplemente observando los movimientos de las articulaciones. [17] En segundo lugar, los avances en cámaras de profundidad rentables [61] y técnicas de estimación de poses [38, 4, 43] han facilitado mucho la adquisición de esqueletos. En tercer lugar, en comparación con el video RGB, la representación del esqueleto es resistente a los cambios de punto de vista y apariencia. En cuarto lugar, también es computacionalmente eficiente debido a la representación de baja dimensión. Además, el reconocimiento de acciones basado en el esqueleto también es complementario al reconocimiento de acciones basado en RGB [42]. En este trabajo, nos centramos en el reconocimiento de acciones basado en esqueletos.

Figura 1: Comparación de diferentes métodos en términos de precisión y número de parámetros en NTU60 (configuración CS). El modelo SGN propuesto logra el mejor rendimiento en un tamaño de modelo más pequeño en un orden de magnitud.

Para el reconocimiento de acciones basado en el esqueleto, el aprendizaje profundo se usa ampliamente para modelar la evolución espaciotemporal de las secuencias del esqueleto [11, 47]. Se han desarrollado varias estructuras de red, como la red neuronal recurrente (RNN) [7, 63, 36, 41, 57, 40], la red neuronal convolucional (CNN) [18, 58, 30, 51] y la red de convolución de gráficos ( GCN) [54, 40, 44]. Al principio, RNN/LSTM era la red más popular para explotar dinámicas temporales a corto y largo plazo. Recientemente, ha habido una tendencia a utilizar redes neuronales convolucionales de avance (es decir, no recurrentes) para modelar secuencias en el habla, el lenguaje [34, 10, 53, 48] y esqueletos [18, 58, 30, 51] porque tienen excelentes propiedades. La mayoría de los métodos basados ​​en esqueletos organizan las coordenadas conjuntas como mapas 2D y cambian el tamaño de los mapas para que se ajusten a la entrada de la CNN (p. ej., 224 × 224) (p. ej., ResNet50 [12]). Sus filas y columnas corresponden a diferentes tipos de índices de marcos conjuntos. En estos métodos [18, 58, 30, 51], se espera que las dependencias a largo plazo y la información semántica sean capturadas por los grandes campos receptivos de las redes profundas. Esto parece brutal y, a menudo, da como resultado una alta complejidad del modelo. Intuitivamente, la información semántica, es decir, tipos de articulaciones e índices de marco, es muy importante para el reconocimiento de acciones. La semántica y la dinámica (es decir, las coordenadas 3D) revelan la configuración/estructura espacial y temporal de las articulaciones humanas. Como sabemos, dos articulaciones con las mismas coordenadas pero diferente semántica transmitirán información muy diferente. Por ejemplo, para una articulación por encima de la cabeza, si la articulación es una articulación de la mano, la acción podría ser levantar la mano; si es la articulación del pie, la acción podría ser una patada. Además, la información temporal también es importante para el reconocimiento de acciones. Tome las dos acciones de sentarse y pararse como ejemplo, solo difieren en el orden en que aparecen los marcos. Sin embargo, la mayoría de los métodos [11, 47] ignoran la importancia de la información semántica y no la exploran completamente.
Figura 2
Figura 2: El marco de la red neuronal guiada semántica (SGN) de extremo a extremo propuesta. Consiste en módulos de nivel de unión y módulos de nivel de marco. En DR, aprendemos la representación dinámica de las articulaciones al fusionar su información de posición y velocidad. Los módulos de nivel de conjunto y los módulos de nivel de marco contienen dos semánticas, tipo de conjunto e índice de marco, respectivamente. Para modelar las dependencias de las articulaciones en el módulo de nivel de articulación, usamos tres capas GCN. Para modelar las dependencias entre marcos, usamos dos capas CNN.

Para abordar las limitaciones antes mencionadas de los métodos existentes, proponemos una red neuronal guiada por semántica (SGN),Explota explícitamente la semántica y la dinámica para un reconocimiento de acción eficiente basado en el esqueleto.La figura 2 muestra el marco general. Construimos una red jerárquica explorando secuencialmente las dependencias a nivel de conjunto y de marco de la secuencia del esqueleto. Para un mejor modelado de las dependencias de nivel conjunto, además de la dinámica, tambiénCombinar la semántica de los tipos de articulaciones (p. ej., "cabeza" y "cadera")a la capa GCN, que permite la construcción de gráficos adaptables al contenido y el paso eficiente de mensajes entre las articulaciones dentro de cada cuadro. Para modelar mejor las correlaciones a nivel de marco, incorporamos la semántica de los índices de marco temporal en la red. En particular,Realizamos una operación de agrupación máxima espacial (SMP) en todas las características de las articulaciones dentro del mismo marco para obtener representaciones de características a nivel de marco.En combinación con la información de índice de fotogramas incrustada, se utiliza una red neuronal convolucional temporal de dos capas para aprender representaciones de características para la clasificación. Además, desarrollamos una línea de base robusta con alto rendimiento y eficiencia. Debido a la exploración eficiente de la información semántica, el modelado jerárquico y las líneas de base sólidas, nuestra SGN propuesta logra un rendimiento de vanguardia con menos parámetros.
Resumimos nuestras tres contribuciones principales de la siguiente manera:

  1. Proponemos explorar explícitamente la semántica conjunta (índice de marco y tipo de articulación) para un reconocimiento de acción eficiente basado en el esqueleto. Los trabajos anteriores ignoran la importancia de la semántica y se basan en redes profundas altamente complejas para el reconocimiento de acciones.
  2. Proponemos una red neuronal guiada semánticamente (SGN) para explotar jerárquicamente las correlaciones espaciales y temporales a nivel de conjunto y de marco.
  3. Desarrollamos una línea de base fuerte y liviana que es más robusta que la mayoría de los métodos anteriores. Esperamos que esta línea de base sólida facilite la investigación en el reconocimiento de acciones basado en esqueletos.

Con base en las contribuciones técnicas anteriores, obtenemos un modelo de reconocimiento de acción de alto rendimiento basado en esqueletos computacionalmente eficiente. Amplios estudios de ablación demuestran la efectividad del diseño del modelo propuesto. En los tres conjuntos de datos de referencia de reconocimiento de acción basados ​​en esqueleto más grandes, el modelo propuesto supera constantemente a muchos algoritmos de la competencia y tiene un tamaño de modelo más pequeño en un orden de magnitud (consulte la Figura 1).

2. Trabajo relacionado

El reconocimiento de acciones basado en esqueletos ha recibido una atención creciente en los últimos años. El trabajo reciente que utiliza redes neuronales [11] supera significativamente a los métodos tradicionales que utilizan funciones artesanales [11, 52, 46, 55, 9].
Basado en redes neuronales recurrentes. Las redes neuronales recurrentes, como LSTM [14] y GRU [5], se usan comúnmente para modelar la dinámica temporal de secuencias esqueléticas [7, 36, 63, 41, 57, 59, 60].Las coordenadas 3D de todas las articulaciones en un cuadro se concatenan en un cierto orden como el vector de entrada del intervalo de tiempo. No le dicen explícitamente a la red qué dimensiones pertenecen a qué articulaciones. Algunos otros trabajos basados ​​en RNN tienden a diseñar una estructura especial en RNN para que comprenda la información de la estructura espacial. Shahroudy et al., dividieron el módulo LSTM en cinco submódulos correspondientes a cinco partes del cuerpo, a saber, torso, brazos y piernas [36]. Liu et al., propusieron un modelo LSTM espacio-temporal para explotar las dependencias contextuales de las articulaciones en los dominios temporal y espacial [27], que proporcionan información para diferentes tipos de articulaciones en cada paso. En cierto modo, distinguen diferentes articulaciones.
** Basado en redes neuronales convolucionales. **En los últimos años, en el campo del modelado de secuencias de habla y lenguaje, las redes neuronales convolucionales han demostrado su superioridad tanto en precisión como en paralelismo [34, 10, 53, 48, 45]. Lo mismo ocurre con el reconocimiento de acciones basado en el esqueleto [6, 22, 18, 3]. Estos trabajos basados ​​en CNN convierten secuencias de esqueletos en algunos mapas de esqueletos del tamaño de un objeto, y luego usan una red popular como ResNet [12] para explorar la dinámica espacio-temporal. Algunos trabajos convierten secuencias de esqueleto en imágenes al tratar las coordenadas conjuntas (x, y, z) como los canales de píxeles R, G y B [6, 22]. Ke et al., convirtieron la secuencia del esqueleto en cuatro matrices 2D representadas por las posiciones relativas entre cuatro articulaciones de referencia seleccionadas (es decir, hombro izquierdo/derecho, cadera izquierda/derecha) y otras articulaciones [18]. Los esqueletos son datos bien estructurados con una semántica clara de alto nivel, a saber, índices de marco y tipos de unión. Sin embargo, los núcleos/filtros de las CNN son invariantes a la traducción [32], por lo que la semántica no se puede percibir directamente a partir de dichos mapas esqueléticos de entrada. CNN espera percibir esta semántica a través del gran campo receptivo de la red profunda, pero esto no es muy efectivo.
Basado en redes convolucionales de grafos.Graph Convolutional Networks [21] demostró ser un método eficaz para tratar con datos estructurados y también se ha utilizado para modelar datos de esqueleto estructurado. Yan et al. propuso una red convolucional de grafos espacio-temporales [54]. Tratan cada articulación como un nodo del gráfico. La existencia de bordes que representan relaciones conjuntas está predefinida por humanos en función del conocimiento previo. Para mejorar los gráficos predefinidos, Tang et al., definen los bordes de pares de articulaciones conectadas y desconectadas físicamente para una mejor construcción de gráficos [44]. Se propone un modelo SR-TSL [40] que utiliza un enfoque basado en datos para aprender los bordes del gráfico de cinco partes del cuerpo humano dentro de cada marco, en lugar de explotar las definiciones del cuerpo humano. El modelo GCN de dos flujos [37] aprende un gráfico adaptable al contenido basado en bloques no locales y lo usa para pasar mensajes en las capas GCN. Sin embargo, dado que la semántica de la información no se utiliza para aprender los bordes de los gráficos y el paso de mensajes de GCN, se reduce la eficiencia de la red.
Exploración explícita de la información semántica. La exploración explícita de la semántica se ha explotado en otros dominios, como la traducción automática [45] y el reconocimiento de imágenes [62]. Ashish y otros codifican explícitamente las posiciones de los marcadores en las secuencias para explotar el orden de las secuencias en las tareas de traducción automática [45]. Zheng y otros codifican índices de grupo en representaciones de canal convolucional para preservar la información del orden de grupo [62]. Sin embargo, para el reconocimiento de acciones basado en esqueletos, se ignoran los tipos de unión y la semántica del índice de marco, aunque dicha información es muy importante. En nuestro trabajo, proponemos codificar explícitamente tipos de articulaciones e índices de marcos para preservar información importante sobre la estructura espacial y temporal del cuerpo. Como un intento inicial de explorar esta semántica, esperamos que inspire más investigación y exploración en la comunidad académica relevante.

3. Redes neuronales guiadas por semántica

Para la secuencia esqueleto, pasamos su semántica(tipo de articulación e índice de marco)identificar articulaciones y representarlas junto con su dinámica (posición\coordenadas 3D y velocidades). Sin semántica, los datos básicos perderán una importante estructura espacio-temporal. Sin embargo, trabajos previos basados ​​en CNN [18, 6, 58] generalmente ignoran la semántica al ocultarlos implícitamente en mapas de esqueleto 2D (por ejemplo, filas correspondientes a diferentes tipos de uniones y columnas correspondientes a índices de marco). Proponemos una red neuronal guiada semántica (SGN) para el reconocimiento de acciones basado en esqueleto y demostramos el marco general de extremo a extremo en la Fig. 2. Consiste en módulos de nivel de unión y módulos de nivel de marco. Describimos los detalles de este marco en las siguientes subsecciones.
Específicamente, para las secuencias de huesos, representamos todas las articulaciones como un conjunto
S = { X tk ∣ t = 1 , 2 , . . . t : k = 1 , 2 , 3 , . . . J } \mathbf S = \{ \ matemáticasbf X_t^k |t= 1,2, ...t:k =1,2,3,...J\}S={ Xtkt=1 ,2 ,. . . t:k=1 ,2 ,3 ,. . . J }
dondeX tk \mathbf X_t^kXtkDenota nudos de tipo k en el tiempo t. t representa el número de cuadro de la secuencia del esqueleto, y J representa el número total de articulaciones del cuerpo humano en el cuadro. Para un tiempo t dado, el nudo k X tk \mathbf X_t^kXtk, se puede identificar por su dinámica y semántica. La cinética está relacionada con la posición tridimensional de la articulación. La semántica se refiere al índice de trama t y al tipo de articulación k.

3.1 Representación dinámica

Para una articulación dada X tk \mathbf X_t^kXtk, pasamos la posición pt , k = ( xk , t , yt , k , zt , k ) T ∈ R 3 , \mathbf p_{t,k} = (x_{k,t}, y_{t,k} , z_{t,k})^T \in \mathbb R^3,pagt , k=( Xk , t,yt , k,zt , k)TR3 ,, define su dinámica en un sistema de coordenadas tridimensional, y la velocidadvt , k = pt , k − pt − 1 , k v_{t,k} = p_{t,k} - p_{t-1, k }vt , k=pagt , kpagt 1 , k. Codificamos/incrustamos la posición y la velocidad en el mismo espacio de alta dimensión, es decir, P t , k ~ ie,\widetilde{P_{t,k}}yo _ mi . ,PAGt , k vt , k ~ \widetilde{v_{t,k}}vt , k . y fusionarlos sumando zt , k = pt , k ~ + vt , k ~ ∈ RC 1 ( 1 ) z_{t,k} = \widetilde{p_{t,k} } +\widetilde{v_ {t, k}} \en \mathbb R^{C_1} (1)zt , k=pagt , k +vt , k RC1( 1 ) dondeC 1 C_1C1es el tamaño de la representación conjunta. Tomando la incrustación de posiciones como ejemplo, usamos dos capas completamente conectadas (FC) para codificar la posición pt , k p_{t,k}pagt , k. pt , k ~ = σ ( W 2 ( σ ( W 1 pt , k + segundo 1 ) ) + segundo 1 ) , ( 2 ) \widetilde{p_{t,k}} = \sigma (W_2(\sigma(W_ {1}p_{t,k} + b_1)) +b_1),(2)pagt , k =s ( W2( pag ( W1pagt , k+b1) )+b1) ,( 2 ) W 1 ∈RC 1 × 3 W_1\in \mathbb R^{C_1 \times 3}W1RC1× 3W 2 ∈ RC 1 × C 1 W_2\in \mathbb R^{C_1 \times C_1}W2RC1× C1es la matriz de peso, b 1 b_1b1y b 2 b_2b2es el vector de polarización, σ \sigmaσ denota la función de activación de ReLU [33]. De manera similar, obtenemos la incrustación de velocidad comovt , k ~ \widetilde{v_{t,k}}vt , k

3.2 Módulos de nivel conjunto

Diseñamos un módulo a nivel de juntas para explotar la correlación de juntas en el mismo marco. Empleamos redes convolucionales de gráficos (GCN) para explorar las correlaciones en los datos del esqueleto estructural. Algunos métodos anteriores basados ​​en GCN tratan las uniones como nodos y predefinen conexiones de gráficos (bordes) en función del conocimiento previo [54] o aprenden gráficos adaptables al contenido [37]. También aprendemos gráficos adaptables al contenido, pero de manera diferente, incorporamos la semántica de los tipos de articulaciones en las capas de GCN para un aprendizaje más eficiente.
Mejoramos las capacidades de las capas GCN al explotar completamente la semántica desde dos aspectos.Primero, usamos la semántica y la dinámica de los tipos de articulaciones para aprender las conexiones gráficas entre intra-nodos (diferentes articulaciones). La información del tipo de junta ayuda a aprender una matriz de adyacencia adecuada (es decir, la relación de peso de conexión entre juntas). Tomando dos articulaciones de origen (pie y mano) y una cabeza de articulación de destino como ejemplo, intuitivamente, los valores de peso de conexión de pie a cabeza deberían ser diferentes de los de mano a cabeza aunque la dinámica de pie y mano sea la misma. . En segundo lugar, como parte de la información conjunta, la semántica de los tipos conjuntos participa en el proceso de paso de mensajes de las capas GCN.
Usamos el vector one-hot jk ∈ R d j_k \in\mathbb R^djkRd representa el tipo de la unión k-ésima (también conocida como tipo k), donde la dimensión k-ésima es 1, y las otras dimensiones son todas cero. Similar a la posición de... Obtenemos la incrustación del tipo de articulación k-ésima comojk ~ ∈ R d \widetilde {j_k }\in\mathbb R^djk Rre .
Dados los nodos J de un marco esquelético, construimos un gráfico de nodos J. Usamos la dinámica y la semántica de las uniones para representar el tipo de representación conjunta del tipo de unión k en el marco t comozt = [ zt , k , jk ~ ] ∈ R 2 C 1 z_t = [z_{t,k},\widetilde { j_k }]\en \mathbb R^{2C_1}zt=[ zt , k,jk ]R2C _1. Entonces, todas las uniones del marco t están representadas por Z t = ( zt , 1 ; . . . ; zt , J ) ∈ RJ × 2 C 1 Z_t = (z_{t,1};...;z_{t, J })\in\mathbb R^{J\veces 2C_1}Zt=( zt , 1;. . . ;zt , j)RJ × 2C _1expresar.
De manera similar a [49, 48, 37], los pesos de los bordes desde la unión i-ésima hasta la unión j-ésima en el mismo marco t se modelan mediante la similitud/afinidad en el espacio de incrustación de la siguiente manera: S t ( i , j ) = θ ( zt , yo ) T Φ ( zt , j ) ( 3 ) S_t (i,j) = \theta(z_{t,i})^T\Phi(z_{t,j})(3 )St( yo ,j )=yo ( zt , yo)T Φ(zt , j) ( 3 )

donde θ y φ representan dos funciones de transformación, y cada función se implementa mediante una capa FC, a saber, θ ( x ) = W 3 x + b 3 ∈ RC 2 \theta(x)=W_3x+b_3\in\mathbb R^C2θ ( x )=W3X+b3RC 2Φ ( x ) = W 4 x + segundo 4 ∈ RC 2 \Phi(x)=W_4x+b_4\in\mathbb R^{C_2}Φ ( x )=W4X+b4RC2.
Al calcular la afinidad de todos los pares conjuntos en el mismo marco basado en (3), obtenemos la matriz de adyacencia S t ∈ J × J S_t\in\mathbb J\times\mathbb JStj×J. EnS t S_tStLa normalización se realiza en cada fila usando SoftMax como en [45,48] para que la suma de todos los valores de borde conectados al nodo de destino sea 1. Denotamos la matriz de adyacencia normalizada por Gt. Denotamos la matriz de adyacencia normalizada por Gt. El mensaje que pasa entre nodos se realiza utilizando la capa de convolución del gráfico residual Y t ​​= G t Z t W y , Y_t=G_tZ_tW_y,Yt=GRAMOtZtWtu, Z t = Y t + Z t W z ( 4 ) Z_t=Y_t+Z_tW_z(4)Zt=Yt+ZtWz( 4 ) donde Wy y Wz son matrices de transformación. Para diferentes marcos de tiempo, se comparte la matriz de peso. Z0t es la salida. Tenga en cuenta que se pueden apilar varias capas convolucionales de gráficos residuales para que pasen más mensajes entre nodos con la misma matriz de adyacencia Gt.

3.3 Módulos a nivel de marco

Diseñamos un módulo a nivel de cuadro para aprovechar la correlación entre cuadros. Para que la red conozca el orden de los fotogramas, agregamos la semántica del índice de fotogramas para mejorar la capacidad de representación de los fotogramas.
Usamos el vector one-hot ft ∈ R df f_t\in\mathbb R^{d_f}FtRdfpara representar el índice del cuadro. Similar a la codificación posicional (2) en Equ. Obtenemos la incrustación del índice del cuadro como ft ~ ∈ RC 3 \widetilde{f_t}\in\mathbb R^{C_3}Ft RC3. Usamos la semántica del índice de trama y las características aprendidas para representar la representación conjunta correspondiente al tipo de unión k en la trama t como zt , k ′ = zt , k ′ + ft ~ ∈ RC 3 z^{'}_{t, k}=z^{'}_{t,k}+\widetilde{f_t}\in\mathbb R^{C_3}zt , k′′=zt , k′′+Ft RC3,其中zt , k ′ = Z t ′ ( k , : ) z^{'}_{t,k}=Z^{'}_{t}(k,:)zt , k′′=Zt′′( k ,:) .
Para combinar la información de todas las articulaciones en un marco, aplicamos una capa MaxPooling espacial para agregarlas a través de las articulaciones. Por lo tanto, la dimensión característica de esta secuencia es T×1×C3. Aplica dos capas de CNN. La primera capa de CNN es una capa de convolución temporal para modelar dependencias entre marcos. La CNN de segunda capa mejora la capacidad de representación de las características aprendidas mediante el mapeo de un espacio de alta dimensión con un tamaño de kernel de 1. Después de dos capas CNN, aplicamos una capa de maximización temporal para agregar la información de todos los cuadros y obtener una representación de características a nivel de secuencia de la dimensión C4. Luego hay una capa totalmente conectada con Softmax para realizar la clasificación.

4. Experimenta

4.1 Conjunto de datos

Conjunto de datos NTU60 RGB+D (NTU60) [36] . Este conjunto de datos es recopilado por una cámara Kinect para el reconocimiento de acciones en 3D en 56880 secuencias de esqueleto. Contiene 60 clases de acción realizadas por 40 sujetos diferentes. Cada esqueleto humano está representado por 25 articulaciones y coordenadas 3D (J=25). Para la configuración de sujetos cruzados (CS) [36], la mitad de los 40 sujetos se utilizan para entrenamiento y el resto para pruebas. Para la configuración de vista cruzada (CV) [36], las secuencias capturadas por dos de las tres cámaras se usan para entrenamiento y las secuencias capturadas por la otra cámara se usan para prueba. Siguiendo [36], seleccionamos aleatoriamente el 10% de las secuencias de entrenamiento para la validación en la configuración de CS y CV.
Conjunto de datos NTU120 RGB+D (NTU120) [25] . Este conjunto de datos es una extensión de NTU60. El conjunto de datos de reconocimiento de huesos en 3D más grande es RGB+114D. Contiene 120 clases de acción realizadas por 106 sujetos humanos diferentes. Para el entorno interdisciplinario (materia C), la mitad de las 106 materias se utilizan para entrenamiento y el resto para pruebas. Para la configuración de conjunto cruzado (conjunto C), la mitad del conjunto se usa para entrenamiento y el resto se usa para prueba.
Conjunto de datos de interacción hombre-computadora 3D SYSU (SYSU) [15] . Contiene 480 secuencias de esqueletos que realizan 12 acciones de 40 sujetos diferentes. Cada esqueleto humano tiene 20 articulaciones (J=20). Usamos el mismo protocolo de evaluación que [15]. Para la configuración de sujetos cruzados (CS), la mitad de los sujetos se utilizan para entrenamiento y el resto para pruebas. Para el entorno del mismo sujeto (SS), la mitad de las muestras de cada actividad se usan para capacitación y las muestras restantes se usan para pruebas. Usamos una validación cruzada de 30 veces y mostramos la precisión promedio para cada configuración [15].

4.2 Detalles de implementación

Configuración de red : para obtener una representación dinámica (DR.),El número de neuronas en cada capa FC se establece en 64(es decir, C1=64). Tenga en cuenta que los pesos de la capa FC no son pesos compartidos para la posición y la velocidad. Para codificar el tipo de unión,El número de neuronas en ambas capas de FC se establece en 64. Para codificar índices de cuadros, el número de neuronas de las dos capas de FC se establece en 64 y 256, respectivamente. C3=256 . Para la función de transformación en (3), el número de neuronas en cada capa FC se establece en 256, es decir, C2=256 . Para el módulo de nivel conjunto, establecemos el número de neuronas de las tres capas GCN en 128, 256 y 256 , respectivamente . Para el módulo de nivel de fama, establecemos el número de neuronas en la primera capa de CNN en 256 con un tamaño de kernel de 3 a lo largo de la dimensión de tiempo, y establecemos el número de neuronas en la segunda capa de CNN en 512 con un tamaño de kernel de 1 (es decir, C4 = 512). Después de cada capa GCN o CNN, se utilizan la normalización por lotes [16] y la función de activación no lineal ReLU.
Entrenamiento: Todos los experimentos se realizan en la plataforma Pytorch, utilizando una tarjeta GPU P100. Usamos el optimizador Adam(20) con una tasa de aprendizaje inicial de 0.001. La tasa de aprendizaje decae por un factor de 10 en las etapas 60, 90 y 110, respectivamente. El entrenamiento termina en la época 120. Usamos una caída de peso de 0.0001. Los tamaños de lote de los conjuntos de datos NTU60, NTU120 y SYSU se establecen en 64, 64 y 16, respectivamente. Todos los experimentos usan suavizado de etiquetas [13], y establecemos el factor de suavizado en 0.1. La pérdida de entropía cruzada para la clasificación se utiliza para entrenar la red.
Procesamiento de datos Similar a [57], la traducción a nivel de secuencia basada en el primer cuadro se realiza para que sea invariable a la posición inicial. Si un marco contiene dos personas, dividiremos el marco en dos marcos haciendo que cada marco contenga un esqueleto humano. Durante el entrenamiento, según [27], dividimos toda la secuencia del esqueleto en 20 segmentos en promedio, y seleccionamos aleatoriamente un cuadro de cada segmento para obtener una nueva secuencia de 20 cuadros. Durante la prueba, similar a [2], creamos aleatoriamente 5 nuevas secuencias de manera similar y usamos el puntaje promedio para predecir la categoría.
Durante el entrenamiento, realizamos la justificación de los datos al rotar aleatoriamente el esqueleto 3D hasta cierto punto en el nivel de secuencia para que siga siendo robusto para ver los cambios. Para los conjuntos de datos NTU60 (configuración CS), NTU120 y SYSU, tenemos una secuencia en [−17◦, 17◦]. Teniendo en cuenta que la vista de NTU60 cambia mucho (configuración de CV), la configuramos en [−30◦, 30◦].

4.3 Experimento de ablación

4.3.1 Explotar la eficacia de la semántica

La semántica contiene información estructural importante de las secuencias del esqueleto, lo cual es muy importante para el reconocimiento de acciones basadas en el esqueleto. Para demostrar la efectividad de explotar la semántica, en referencia a nuestro marco (ver Figura 2), construimos ocho redes neuronales y realizamos varios experimentos en el conjunto de datos NTU60. La Tabla 1 muestra los resultados de la comparación. A continuación, JT denota la semántica de los tipos de unión, FI denota la semántica de la indexación de cuadros, G denota el aprendizaje de gráficos (matrices de adyacencia) y P denota operaciones de convolución de gráficos que permiten la transferencia de información. T-Conv representa la capa convolucional temporal, la primera capa CNN del módulo de nivel de trama. El módulo de nivel conjunto (JL) y el módulo de nivel de marco (FL) utilizan tres capas GCN y dos capas CNN respectivamente. w y w/o significan "con" y "sin", respectivamente. Aproveche la disponibilidad de tipos de juntas. Estudiamos cuatro modelos de diseño (filas 1 a 4 en la Tabla 1) para verificar la efectividad de los tipos conjuntos en módulos de nivel conjunto (JL), y los cuatro modelos no incluyen la semántica de la indexación temporal. Explicamos un modelo aquí, y los otros tres modelos pueden entenderse de manera similar.
tabla 1
Tabla 1: Efectividad de explotar la semántica en términos de precisión (%) en módulos de nivel conjunto (JL) y módulos de nivel de marco (FL) en el conjunto de datos NTU60. JT indica tipo de unión y FI indica índice de marco.
JL(G sin JT&P sin JT)&FL" indica que la semántica de los tipos de articulaciones no se utiliza para aprender el gráfico (G) (es decir, G sin JT), ni participar en la transferencia de información (P) ( es decir, P w/o JT ) esquema para operaciones de convolución de gráficos
Tenemos las siguientes tres observaciones clave:

  1. Para el aprendizaje de gráficos de secuencias esqueléticas, al introducir la semántica de los tipos de articulaciones, "JL(G w JT&P w/o JT)&FL" es mejor que "JL(G w/o JT&P w/o JT)&FL" bajo CS y Configuraciones de CV, respectivamente Buena 0.6% y 0.9%. Intuitivamente, si el modelo no conoce los tipos de articulaciones, no puede distinguir entre articulaciones con las mismas coordenadas, incluso si tienen semántica diferente. La semántica de los tipos de articulaciones facilita el aprendizaje de los bordes de los gráficos.
  2. La información de tipo conjunto facilita el paso de mensajes en las capas GCN. Para las configuraciones CS y CV, “JL(G sin JT&P con JT)&FL” superó a “JL(G sin JT&P sin JT)&FL” en un 1,7 % y un 1,3 %, respectivamente. La razón es que GCN en sí mismo no conoce el orden (tipo) de las uniones, lo que dificulta el aprendizaje de las características de los datos del esqueleto con alta información estructural. Por ejemplo, aunque las coordenadas 3D de las dos articulaciones sean las mismas durante el paso del mensaje, la información de la articulación del pie y la articulación de la muñeca a la articulación objetivo debería ser diferente. La introducción de información de tipo conjunto puede mejorar la eficiencia de GCN.
  3. El uso de la semántica de los tipos conjuntos tanto para los gráficos de aprendizaje como para el paso de mensajes ("JL(G w JT & P w JT) & FL") no aporta más beneficios en comparación con "JL(G w /o JT & P w JT) & FL ” . Para paso de mensajes en Equ Yt=GtZtW. (4) El gradiente retropropagado a Gt también se ve afectado por Zt, que contiene información de tipo de articulación. De hecho, Gt conoce implícitamente la información del tipo de articulación, incluso si no incluimos la información del tipo de articulación en el aprendizaje de similitud/afinidad.

Efectividad de explotar la indexación de marcos:
investigamos dos modelos (filas 5 y 6 en la Tabla 1) para estudiar el efecto de la indexación de marcos en los efectos del módulo a nivel de marco (FL). "JL&FL (sin T-Conv) con FI" denota un modelo que usa semántica de índice de cuadro. Ambos modelos incorporan la semántica de los tipos de articulaciones.
Además, estudiamos dos modelos (filas 7 y 8 en la Tabla 1) para estudiar el impacto del índice de marco cuando se usa convolución temporal con tamaño de kernel 3. "JL&FL(w T-Conv) w FI" denota un modelo que usa semántica de índice de cuadro. Ambos modelos incorporan la semántica de los tipos de articulaciones.
Tenemos dos observaciones principales aquí.

  1. Cuando la convolución temporal está deshabilitada (es decir, el tamaño del núcleo del filtro es 1 en lugar de 3), "JL&FL(sin T-Conv) con FI" es mejor que "JL&FL(sin T-Conv) con FI" en CS y CV ajustes, respectivamente sin FI” mejor 1.0% y 0.9%. La información del índice de cuadros "dice" el orden de los cuadros de la secuencia del esqueleto de la red, lo que es beneficioso para el reconocimiento de acciones.
  2. La indexación de fotogramas facilita las circunvoluciones temporales. Para las configuraciones CS y CV, "JL&FL(w T-Conv) w FI" supera a "JL&FL(w T-Conv) w/o FI" en un 0,3 % y un 0,4 %, respectivamente. Los beneficios aportados por la semántica de la indexación de cuadros son menores que los de los modelos sin bucles temporales (tamaño de kernel de filtro 1). La razón principal es que la capa convolucional temporal permite que la red comprenda el orden de los cuadros de la secuencia del esqueleto hasta cierto punto a través de un tamaño de kernel más grande. Sin embargo, "decir" explícitamente a la red la semántica de la indexación de tramas mejora aún más el rendimiento a un costo insignificante. Adoptamos el esquema "JL&FL(w T-Conv) w FI" como esquema final, también conocido como "SGN".

En resumen, el modelado explícito de información de tipo conjunto es beneficioso para el aprendizaje de matrices de adyacencia y paso de mensajes en capas GCN. La información del índice de fotogramas permite que el modelo utilice eficazmente la información del orden de la secuencia.

4.3.2 Eficacia de los modelos jerárquicos

Modelamos jerárquicamente la correlación de articulaciones en módulos de nivel de articulación y módulos de nivel de marco. Para demostrar su efectividad, comparamos nuestro SGN con dos modelos diferentes, y los resultados se muestran en la Tabla 2.

"SGN w G-GCN" denota un esquema no jerárquico en el que eliminamos la capa de agrupación espacial máxima (SMP) y usamos semántica combinada (es decir, tipo de articulación e índice de marco) y dinámica (posición y velocidad). En lugar de construir un gráfico para cada marco, construimos un gráfico de adaptación global que incluye todas las articulaciones en todos los marcos y pasa mensajes entre todas las articulaciones. “SGN sin SMP” significa que en nuestro esquema “SGN” se elimina la capa Spatial MaxPooling (SMP),
tenemos las siguientes dos observaciones:
inserte la descripción de la imagen aquí
Tabla 2: Precisión de nuestro modelo jerárquico en el conjunto de datos NTU60 (%) en términos de eficacia.

  1. Modelar dependencias de nodos en el mismo marco con GCN es mucho más eficiente que modelar dependencias de nodos en todos los marcos, y "SGN sin SMP" supera a "SGN con G-GCN" para configuraciones CS y CV, respectivamente. "1.0% y 0.6 % Aprender un gráfico adaptativo de contenido global es más complejo y difícil.
  2. Para la configuración de CS y CV, "SGN" supera a "SGN sin SMP" en un 0,7 % y un 0,6 %, respectivamente. Al agregar la información de todas las articulaciones en un marco a través de MaxPooing (SMP), se puede extraer la información discriminativa representativa (con un gran valor de activación) del marco. Además, la capa MaxPooling espacial reduce la carga computacional posterior.

4.3.3 Líneas base sólidas

El trabajo previo generalmente emplea redes pesadas para modelar secuencias de esqueleto de baja dimensión [40, 39, 37, 58]. Desarrollamos varias técnicas que han demostrado ser muy efectivas en trabajos anteriores y establecemos una línea de base fuerte y liviana que logra un rendimiento comparable a la mayoría de los otros métodos de vanguardia [40, 57, 54, 8] . Esperamos que esto sirva como una base sólida para futuras investigaciones en el campo del reconocimiento de acciones basado en esqueletos. En esta sección, no todos los modelos usan semántica.
Primero construimos una línea de base básica ("línea de base"), y toda la canalización es similar a la canalización de la Figura 2. Hay tres diferencias. 1) No se utiliza la información de velocidad, tipo de articulación e índice de cuadro. 2) No se empleó el aumento de datos (DA) durante el entrenamiento (ver Procesamiento de datos). 3) Use AveragePooling en lugar de Maxpooling, como [54, 37].

La Tabla 3 muestra el impacto de nuestras técnicas adoptadas en la construcción de líneas de base sólidas. Tenemos las siguientes tres observaciones. 1) El aumento de datos mejora significativamente el rendimiento en la configuración de CV. Al aumentar las vistas observadas, es posible "ver" algunas vistas "no vistas" durante el entrenamiento. 2) Se ha demostrado que dos redes de flujo (utilizando tanto la posición como la velocidad) [40] son ​​efectivas, pero dos redes separadas duplican el número de parámetros. Fusionamos estos dos tipos de información en una etapa temprana (en la entrada), y con solo una pequeña cantidad de parámetros adicionales (es decir, 0.01M), el rendimiento se puede mejorar significativamente. 3) MaxPooling es mucho más potente que AveragePooling. La razón es que MaxPooling actúa como un módulo de atención, que impulsa el aprendizaje y la selección de características discriminatorias.
inserte la descripción de la imagen aquí
Tabla 3: Efecto de ciertas técnicas sobre la precisión (%) y el número de parámetros en el conjunto de datos NTU60.

4.3.4 Visualización de SMP

La agrupación de maximización espacial (SMP) juega un papel similar al mecanismo de atención. Visualizamos las articulaciones seleccionadas como tres acciones a través de SMP, a saber, aplaudir, patear y saludar en la Fig. 3. El tamaño de la respuesta es 256, y cada tamaño corresponde a una articulación seleccionada. Contamos el número de veces que SMP selecciona cada articulación. Las primeras cinco articulaciones seleccionadas se muestran con círculos azules grandes y las articulaciones restantes se muestran con círculos azules pequeños. Observamos que diferentes acciones corresponden a diferentes articulaciones informativas. El pie izquierdo es importante para patear. Solo la mano izquierda es valiosa para saludar, mientras que tanto la mano izquierda como la derecha son importantes para aplaudir. Esto es consistente con la percepción humana.
inserte la descripción de la imagen aquí
Figura 3: Visualización de las respuestas de la capa MaxPooling espacial a tres acciones, aplaudir, patear y saludar. Las primeras 5 articulaciones seleccionadas por SMP se dibujan con círculos azules más grandes.

4.3.5 Complejidad de SGN

Discutimos la complejidad de los SGN comparándolos con ocho métodos de reconocimiento de acción basados ​​en esqueletos de última generación. Como se muestra en la Figura 1, VA-RNN [58] tiene la menor cantidad de parámetros pero la peor precisión. VA-CNN [58] y 2s AGCN [37] logran una buena precisión, pero el número de parámetros es demasiado grande. En comparación con los métodos basados ​​en RNN, GCN y CNN, nuestro SGN propuesto logra un rendimiento ligeramente mejor con menos parámetros, lo que hace que SGN sea atractivo para muchas aplicaciones prácticas con potencia informática limitada.
inserte la descripción de la imagen aquí
Figura 1: Comparación de precisión y número de parámetros de diferentes métodos en NTU60 (configuración CS)

El modelo SGN propuesto logra el mejor rendimiento en un tamaño de modelo más pequeño en un orden de magnitud.

4.4 Comparación con el estado de la técnica

Comparamos el SGN propuesto con otros métodos de vanguardia en los conjuntos de datos NTU60, NTU120 y SYSU en la Tabla 4, Tabla 5 y Tabla 6, respectivamente. "SGN w/o Sem." indica nuestra línea de base fuerte sin usar semántica

Como se muestra en la Tabla 4, la configuración CS y CV de introducción semántica (Sem.) mejoran la precisión en un 2,1 % y un 1,7 %, respectivamente. “ElAtt GRU” [59] y “Clips+CNN+MTLN” [18] son ​​dos métodos representativos de los métodos basados ​​en RNN y CNN, respectivamente. Para la configuración CS, SGN los supera en un 8,3 % y un 9,4 % en precisión, respectivamente.Tabla
inserte la descripción de la imagen aquí
4: Comparación del rendimiento de NTU60 con configuraciones CS y CV en términos de precisión (%)

inserte la descripción de la imagen aquí
Tabla 5: Comparación de rendimiento de NTU120 con configuraciones CSubject y C-Setup en términos de precisión (%).

Explore mejor la información estructural de los huesos. Algunos métodos [54, 40] combinan CNN y GCN o LSTM y GCN juntos. Para la configuración CS, nuestro SGN propuesto también supera a [54] y [40] en precisión en un 5,5 % y un 4,2 %, respectivamente. Comparado con [37] y [58], el SGN propuesto en este artículo logra un desempeño competitivo teniendo solo el 10% del número de parámetros, como se muestra en la Fig. 1.

Como se muestra en la Tabla 5 y la Tabla 6, el SGN propuesto logra la mejor precisión en NTU120 y SYSU. El conjunto de datos NTU120 es un conjunto de datos recientemente publicado y lo comparamos con los resultados informados en [25]. Los ajustes semánticos (sem) C-Subject y C-Setup mejoran la precisión en un 1,8 % y un 2,3 %, respectivamente.
inserte la descripción de la imagen aquí

5. Conclusión

En este trabajo, proponemos una red neuronal guiada semánticamente de extremo a extremo simple pero efectiva para el reconocimiento de acciones humanas basado en esqueletos de alto rendimiento. Introducimos explícitamente semántica de alto nivel, a saber, tipos de conjuntos e índices de marco, como parte de la entrada de la red. Para modelar las dependencias de las articulaciones, proponemos un módulo de nivel de articulación para capturar las dependencias de las articulaciones en el mismo marco, y un módulo de nivel de marco para modelar las dependencias entre marcos, donde todas las articulaciones se consideran como un todo. La semántica ayuda a mejorar las capacidades de GCN y CNN. Además, formulamos una base sólida que supera a la mayoría de los métodos anteriores. En comparación con algunos trabajos anteriores, el tamaño de nuestro modelo propuesto es un orden de magnitud más pequeño, logrando resultados de última generación en tres conjuntos de datos de referencia.

Supongo que te gusta

Origin blog.csdn.net/qq_43679351/article/details/124837856
Recomendado
Clasificación