【Lectura en papel】Reconocimiento de emociones a nivel de grupo jerárquico

【Lectura en papel】Reconocimiento de emociones a nivel de grupo jerárquico

Resumen

Este blog hace referencia al artículo Reconocimiento de emociones a nivel de grupo jerárquico incluido en IEEE en 2021 y resume su contenido principal para profundizar la comprensión y la memoria.

1. Introducción

1) Aplicación de reconocimiento de emociones

El reconocimiento de emociones se puede utilizar en varias aplicaciones: apoyar a las personas con autismo [7], detectar la depresión en las personas [8], predicción de memoria de imágenes [74-75], interacción humano-computadora [9]. Las características visuales en las fotos juegan un papel importante en la identificación de las emociones individuales [15-16]

2)GER

El objetivo del reconocimiento de emociones grupales es clasificar las emociones grupales en tres categorías, que están definidas por el conocimiento psicológico [29] . Los investigadores han propuesto diferentes métodos para el reconocimiento de emociones grupales, la mayoría de los cuales se proponen a través de expresiones faciales individuales y características de la escena, que describen simultáneamente el tipo de evento (fiesta, manifestación y funeral), esto se debe principalmente a que las expresiones faciales de las personas y las características de la escena son relacionado con El sentimiento subyacente a nivel de grupo está estrechamente relacionado.

3) Problemas y hallazgos

En la práctica, la clasificación simultánea de tres clases, como la realizada en el enfoque anterior, no logra altos niveles de precisión. Como se destaca en estudios previos [1], [18], [19], [32], [34], [40], el uso de expresiones faciales es efectivo en el reconocimiento de emociones a nivel grupal . Al clasificar las etiquetas "frontales", los autores están de acuerdo con este hallazgo, ya que es probable que dichas imágenes incluyan expresiones faciales específicas, como la sonrisa. Sin embargo, los autores cuestionan si las suposiciones anteriores se aplican a las imágenes etiquetadas como 'neutrales' o 'negativas'. Por ejemplo, en referencia a las imágenes incluidas en el conjunto de datos [49], que han sido ampliamente utilizadas para el reconocimiento de emociones a nivel de grupo, los autores encontraron que en las imágenes etiquetadas como "neutrales" o "negativas", las expresiones faciales individuales tendían a ser similares ( Figura 1). Esto sugiere que el reconocimiento de expresiones faciales sufre una disminución en el rendimiento de discriminación entre "neutral" y "negativo".

Las características de la escena permiten a los autores representar los tipos de eventos que se muestran en las imágenes. Permiten que el sistema clasifique de manera eficiente las imágenes en las que las expresiones faciales representan características menos discriminatorias. Esto demuestra que el uso de características de la escena es efectivo no solo para distinguir entre etiquetas "negativas" y "neutrales", sino también para clasificar etiquetas "positivas" para las que no se observó una expresión facial particular.

Por lo tanto, los autores creen que el problema del reconocimiento de emociones grupales se aborda mejor analizando por separado las expresiones faciales y las características de la escena en las imágenes.

2. Trabajo relacionado

1) Asumiendo que el sentimiento del grupo se puede estimar agregando el reconocimiento de emociones de los individuos en imágenes: [1], [18], [19], [32], [34], [40], [73]

2) Agregación de características a través de operaciones aritméticas La mayoría de los métodos anteriores adoptaron un esquema de agregación aritmética

  • Promedio [2]-[4], [11], [18], [32], [39], [40]

  • mediana[14]

  • Votación mayoritaria [12], [31], [34], [41], [43], [47]

  • Rassadin y otros construyeron múltiples clasificadores utilizando las expresiones faciales promedio de los individuos, así como sus puntos de referencia faciales y características de la escena para obtener resultados de estimación de emociones a nivel de grupo [14]

  • Los métodos [30], [33], [63] concatenan rasgos faciales individuales y los introducen en capas totalmente conectadas (FC) para representar rasgos faciales para el reconocimiento de emociones a nivel de grupo

3) Agregación de funciones mediante análisis de correlación

Diferentes enfoques explotan los valores de correlación entre las características faciales individuales para mejorar el rendimiento del reconocimiento de emociones a nivel de grupo. Algunos métodos explotarán las correlaciones de expresión facial entre personas estimadas por RNN:

  • LSTM y GRU, incorporados en el marco de reconocimiento de emociones a nivel de grupo [13], [17], [19], [20], [35], [37], [44], [62]
  • Bawa y otros aplican LSTM a un conjunto de características profundas recopiladas de múltiples regiones faciales en una imagen
  • Los métodos [41], [45] introducen capas de atención [48] para estimar la correlación de expresiones faciales entre personas

3. Método

1) Resumen del método

Ⅰ El primer paso de clasificación: realizar una clasificación binaria y separar la etiqueta "positiva" y otras etiquetas

  • Primero detecte rostros en una imagen usando un detector de rostros [24]
  • Para distinguir qué rostros son los sujetos principales en la imagen de entrada, los autores utilizan el marco CASNet para estimar un mapa de prominencia que representa la atención visual [25]
  • Usando el mapa de prominencia estimado, los autores identifican los temas principales en la imagen que contribuyen al sentimiento a nivel de grupo al agrupar espectralmente [55] un conjunto de regiones faciales detectadas
  • Las redes neuronales convolucionales (CNN) reciben una imagen de una cara que se estima que es el sujeto principal, ajustada para generar resultados para la clasificación de expresiones faciales.
  • Las funciones profundas extraídas de las CNN se agregan mediante redes de atención en cascada [41]. Esto permitió a los autores representar las correlaciones entre los rasgos faciales individuales. Usando rasgos faciales agregados con una red de atención en cascada, los autores realizan una clasificación binaria en etiquetas "positivas" que incluyen expresiones faciales específicas y otras.

Ⅱ El segundo paso de clasificación del pase: los resultados de la primera clasificación se clasifican en tres categorías, que serán discriminatorias en términos de las características de la escena de la imagen.

  • Las características de la escena se representan utilizando información semántica del objeto estimada con flujos locales y características de la imagen completa estimadas con flujos globales

  • En el flujo local, los autores primero detectan objetos en una imagen usando un detector de objetos [53]. Luego, los autores realizan un análisis de mínimos cuadrados parciales (PLS) en un conjunto de imágenes de objetos detectados y las etiquetas de objetos correspondientes.

    El análisis PLS es un método estadístico para estimar la proyección de características de alta dimensión en subespacios donde las categorías latentes (es decir, sentimiento a nivel de grupo) en características incrustadas se pueden distinguir de manera eficiente. Por lo tanto, con la ayuda de los resultados del análisis PLS, permitió a los autores estimar qué tipos de objetos son discriminativos para la discriminación de emociones a nivel de grupo al agrupar espectralmente un conjunto de objetos detectados. Los autores introducen estas imágenes de objetos estimados en una red neuronal, ajustan la red neuronal para obtener resultados de clasificación de sentimientos a nivel de grupo y, por lo tanto, obtienen características profundas.

    Al igual que en la primera etapa de clasificación, los autores agregan las características profundas extraídas mediante una red de atención en cascada. Esto permite caracterizar el grado de co-ocurrencia de la frecuencia de ocurrencia de objetos en una imagen.

  • En el flujo global, los autores alimentan la imagen completa en otra CNN que se ajusta para obtener el resultado de la clasificación de sentimientos a nivel de grupo, obteniendo así características globales.

  • Utilizando los resultados calculados a partir de los flujos locales y globales, los autores finalmente los clasifican en tres categorías de etiquetas: "positivo", "neutral" y "negativo".

2) Fase 1: uso de la clasificación de expresiones faciales

  • Detección y alineación de rostros

En primer lugar, se utiliza una red convolucional en cascada multitarea para detectar regiones faciales en una imagen de entrada D [24]. Luego, los autores normalizan la variación en la pose facial (traslación y rotación) entre las caras detectadas siguiendo los métodos de [45], [57], ya que esta variación reduce la precisión del reconocimiento de expresiones faciales.

El autor define las N caras alineadas como I align = { I 1 align , ... , IN align } I^{align}=\{I^{align}_1, ..., I^{align}_N\}Ia l i g n{ yo1a l i g n,yonortea l i g n}

  • Evaluación de la materia principal

Cálculo del peso de la atención visual: según estudios previos [31], [40], las expresiones faciales del sujeto principal contribuyen en gran medida al sentimiento a nivel de grupo en las imágenes. Además, los autores de [28] informan que el rostro del sujeto principal en una fotografía atrae más atención visual que los rostros de las personas en el fondo. Estos hallazgos sugieren que el uso de la atención visual alienta al sistema a mejorar el rendimiento del reconocimiento de emociones a nivel de grupo.

Para estimar la atención visual, los autores utilizan CASNet [25], una arquitectura profunda que infiere la atención visual (es decir, un mapa de prominencia) mediante la incorporación de estímulos emocionales en las imágenes. Los autores definen el mapa de prominencia estimado como η y el valor de η en una posición (x,y) en la imagen como η(x,y)η(x,y)h x , y .

Utilice ( x , y ) ( x , y )η ( x , y ) poralineo I^{align}Ia l i g n proporciona ponderaciones, que se definen comowvis = (w 1 vis , … , w N vis ) w^{vis}=(w^{vis}_1, …, w^{vis}_N)wv yo s=w1v i s,wnortev i s) . En particular, los autoresw N visw^{vis}_Nwnortev i sCálculo:
w N vis = 1 W ∑ ( x , y ) ∈ FN η ( x , y ) , w^{vis}_N = \frac 1 W \sum_{(x,y)∈F_N}η(x, y ),wnortev i s=W1( x , y ) Fnorten ( x ,y ) ,
donde Fn representa un conjunto de posiciones de píxeles de la n-ésima imagen facial Ialign. El coeficiente de normalización W se calcula como:W = ∑ n ∑ ( x , y ) ∈ F n η ( x , y ) W=\sum_n \sum_{(x, y) ∈ Fn}η(x, y)W=nx y F norteh x , y .

  • Agrupamiento espectral usando ponderaciones de atención visual

Para estimar los temas principales, los autores utilizan pesos de atención visual wvisw^{vis}wv i sAlineo I^{align}Ia l i g n para agrupamiento espectral. Aquí, los autores describen los detalles de este proceso con una breve derivación matemática. Consulte [69] para obtener más detalles sobre el agrupamiento espectral.

Primero, se construye un gráfico de similitud completamente conectado, G = ( V , E ) ∈ RN × N , donde V = { v 1 , … , v N } G=(V, E) ∈ R^{N×N}, donde V=\{v_1,...,v_N\}GRAMO=( V , mi )RN × N , dondeV={ v1,vnorte} Representa un grupo de nodos, donde cada nodo representaI align I^{align}IImagen de la cara en a l i g n . Además,E = { e ( i , j ) } , i = 1 , . . . . , N , j = 1 , . . . , NE=\{e_{(i, j)}\}, i=1,.... , norte, j=1,..., nortemi={ miyo j} , yo=1 , ... . , N , j 1 , ... , N representa el peso de la atención visualwvisw^{vis}wv i s matriz de adyacencia ponderada. Específicamente, los autores calculan los pesos de los bordese(i, j) e_{(i, j)}miyo jPara:
e ( i , j ) = ∣ wivis − wjvis ∣ e_{(i,j)} = |w^{vis}_i − w^{vis}_j |mi( yo , j )=wiv i swjv i s∣Usando
E, el autor construye la matriz de grados D como:
D = { D ( i , j ) } i , j = 1 , . . . , N = { δ ( i , j ) ∑ ke ( i , k ) } yo , j = 1 , . . . , ND = \{D_{(i,j)}\}_{i,j=1,...,N} =\{δ_{(i,j)} \ sum_ke_{(i,k)}\}_{i,j=1,...,N}D={ re( yo , j )}yo , j = 1 , ... , norte={ re( yo , j )kmi( yo , k )}yo , j = 1 , ... , norte
donde δ(i,j) denota la función delta de Kronecker. El gráfico normalizado La matriz laplaciana L se calcula como:
L = D − 1 2 ( D − E ) D − 1 2 L = D^{− \frac 1 2} (D − E)D^{− \frac 1 2}L=D21( DE ) D21
levemente…

Manejar un caso donde todos son sujetos:

En este caso, el agrupamiento espectral reforzará la distinción de personas en sujetos principales y aquellos en segundo plano.

Para abordar este problema, los autores incorporaron un criterio para determinar si todas las personas eran sujetos primarios. Cuando una foto incluye al sujeto principal y personas en el fondo, el valor de la prominencia visual varía con la imagen de la cara. En cambio, cuando todas las personas son los sujetos principales, los valores de prominencia visual de todas las imágenes de rostros serán igualmente significativos. Esto sugiere que los cambios en la atención visual serían señales adecuadas para determinar si todos son sujetos principales.

Para examinar estadísticamente hasta qué punto varía la atención visual para cada rostro en una imagen, los autores utilizaron las imágenes del conjunto de datos para establecer un peso de atención visual wvisw^{vis}wHistograma acumulativo de varianza de v i s , definido como CumulHist(wvis). Mediante el análisis de CumulHist(wvis), los autores determinan que todas las personas en la imagen de entrada son objetos dominantes cuando la varianza Var(wvis) de la imagen de entrada es menor que cierto umbral derivado de la frecuencia relativa acumulada de CumulHist(wvis). Basado en experimentos preliminares, el autor determinó empíricamente que th es:th = 0.2 max Cumul Hist (wvis) th = 0.2 max CumulHist (w^{vis})t h=0,2 máx . C u m u l H i ​​s t wv i s

Diferenciación: el agrupamiento espectral proporciona a cada vértice vn (es decir, la imagen de la cara enésima) una etiqueta ψn ∈ {principal, otros}, que indica si vn es el sujeto principal (principal) (otros)

  • Extracción de rasgos de expresión facial

Los autores usan CNN para extraer rasgos faciales de I (la cara principal). Usando el modelo VGG16 [23], que está preentrenado con el conjunto de datos VGGFace [22]. (VGGFace es un conjunto de datos faciales a gran escala que consta de 2,6 millones de imágenes de 2622 identidades). Dado que el modelo VGG16 está diseñado para el reconocimiento facial, los autores utilizan la base de datos de rostros afectivos del mundo real (RAF-DB) [21] y Group Affect Database 2.0 (GAF2) [49] para afinarlo para tareas de reconocimiento de expresiones faciales.

(El conjunto de datos RAF-DB [21] es uno de los conjuntos de datos más recientes para el reconocimiento de expresiones faciales, incluidas imágenes faciales con grandes variaciones en apariencia, pose y edad. El conjunto de datos GAF2 [49] es un conjunto de datos bien conocido para el conjunto de datos de nivel A de grupo para tareas de reconocimiento de emociones).

El conjunto de datos RAF-DB contiene siete categorías de expresiones faciales (etiquetas) para reconocer las expresiones faciales de las personas; por lo tanto, es difícil usar directamente estas etiquetas para tareas de reconocimiento de emociones a nivel de grupo. Para abordar este problema, los autores redefinen estas etiquetas de expresión facial para que sean aplicables a las tareas de reconocimiento de emociones a nivel de grupo, como lo hicieron los métodos anteriores [33], [43]: (1) "felicidad" y "Sorpresa" → "Positivo" , (2) "Ira", "Disgusto", "Miedo" y "Triste" → "Negativo", y (3) Otro → "Neutral".

I. Ajuste fino: A continuación, los autores describen los detalles del proceso de ajuste fino en el sistema. Los autores siguen el procedimiento de ajuste fino propuesto en [27]. Los autores primero eliminan las dos últimas capas de FC del modelo VGG16 original. Los autores se refieren a las dos últimas capas de FC como FC7 y FC8, respectivamente. En lugar de estas capas FC eliminadas, los autores agregaron una capa FC de 256 nodos con unidades lineales rectificadas (ReLU) como FC7. Luego, los autores apilan la capa FC final (es decir, la capa de clasificación) como FC8, donde la unidad de activación softmax consta de 2 nodos correspondientes a las categorías de clasificación de la primera etapa ("positiva" y "no positiva").

Los autores primero entrenan este modelo VGG16 ajustado utilizando el conjunto de datos RAF-DB. Luego usamos el conjunto de datos GAF2 para entrenar este modelo VGG16 ajustado. Según un estudio anterior, esta estrategia de ajuste fino en dos etapas es eficaz para mejorar el rendimiento del reconocimiento de emociones a nivel de grupo [65].

II Extracción profunda de características: los autores ingresan cada imagen de la cara en I (la cara principal) en este modelo VGG16 ajustado. Para cada imagen, extraemos características profundas de 256D de FC7 en este modelo VGG16 perfeccionado. El autor define la colección de estas características profundas extraídas como fface = { fface 1 , ... , fface M } f^{face}=\{f^{face1}, ..., f^{faceM}\}Fcara _ _={ fcara 1 , _ _fcara M } , donde fcara M f^{caraM}Ff a ce M denota las características de profundidad de la imagen facial Mth.

  • Agregación de funciones mediante redes de atención en cascada

Los autores agregan las múltiples características profundas utilizadas y las correlaciones entre ellas. Para ello, los autores utilizaron la Red de Atención en Cascada (CAN) [41]

Ⅰ.Cálculo de autoatención

Ⅱ Cálculo de la atención del contexto

  • Dos categorías

Los autores usan rasgos faciales para realizar una clasificación binaria en las imágenes de entrada. Los autores primero usan CAN para agregar rasgos faciales de individuos. Según un estudio previo [58], las emociones de los individuos pueden verse afectadas por las emociones de las personas cercanas en el mismo grupo. Esto sugiere que el análisis de las correlaciones de la expresión facial desempeñará un papel importante en la estimación de las emociones subyacentes a nivel de grupo. Las imágenes clasificadas como "no positivas" se evaluarán con respecto a las características de la escena en el siguiente clasificador.

③Segunda etapa: usar la clasificación de características de la escena

Los autores describen los detalles de una segunda clasificación utilizando características de la escena. En el método propuesto, las características de la escena están representadas por flujos de objetos locales y flujos globales.

  • detección de objetos

Los autores primero detectan regiones de objetos en imágenes de entrada D ≤ clasificadas como "no positivas" en la primera etapa de clasificación utilizando Faster R-CNN [53] previamente entrenado en el conjunto de datos VG [59]. (El conjunto de datos VG es un conjunto de datos a gran escala que contiene imágenes de 108K anotadas con ubicaciones de objetos y etiquetas de objetos correspondientes (por ejemplo, "persona" y "vehículo").

  • Estimación de Objetos Discriminantes

Los autores estiman objetos que ayudan a describir emociones a nivel de grupo en imágenes. Los autores realizan un análisis de mínimos cuadrados parciales (PLS) en un conjunto de pares de regiones de objetos y etiquetas de objetos correspondientes. A continuación, los autores describen cómo se pueden estimar los detalles del objeto discriminante mediante una breve derivación matemática del análisis PLS. Se pueden encontrar más detalles sobre el modelado matemático del análisis PLS en [70].

Ⅰ Construcción de la frecuencia de aparición de etiquetas de objetos: el autor representa cada muestra (imagen) en el conjunto de datos como la frecuencia de aparición de etiquetas de objetos (es decir, histograma). La razón para usar esta representación es que los autores esperaban que la frecuencia de las etiquetas de los objetos mostrara una firma sesgada, dependiendo de las imágenes etiquetadas como 'positiva', 'neutral' y 'negativa'.

Ⅱ Análisis PLS: el autor realiza un análisis PLS en H y el conjunto de etiquetas correspondiente Y={y1,...,Yα}, donde cada etiqueta ya toma la etiqueta de sentimiento a nivel de grupo "positivo", "neutral" o "negativo". cualquiera. Este análisis PLS permitió a los autores obtener qué etiquetas de objetos eran más discriminatorias para distinguir el sentimiento a nivel de grupo.

Ⅲ.Cálculo del peso semántico del objeto: el autor es I obj I^{obj}Io bj proporciona pesos, definidos como:wpls = (w 1 pls, ..., w B pls) w^{pls} = (w^{pls}_1, ..., w^{pls}_B)wpor favor=w1por favor,wBpor favor

IV Agrupación espectral usando ponderaciones semánticas de objetos: para estimar objetos discriminatorios para el sentimiento a nivel de grupo, los autores usan wplsw^{pls}wpl sI obj I^{obj}Io bj para agrupamiento espectral.

  • Extracción de características de la escena local

El autor usa CNN para extraer características de escenas locales de I(obj,dis)

I. Ajuste fino: los autores utilizaron un modelo VGG16 que se entrenó previamente con el conjunto de datos de ImageNet [26]. Los autores lo ajustan para tareas de reconocimiento de emociones a nivel de grupo mediante el uso de imágenes de objetos detectados a partir de imágenes incluidas en el conjunto de datos.

II Extracción profunda de características: los autores introducen cada imagen de objeto I (obj, dis) en este modelo VGG16 ajustado. Para cada imagen, extraemos características profundas de 256D de FC7 en este modelo VGG16 perfeccionado.

  • Agregación de funciones de objetos mediante redes de atención en cascada

Los autores pueden asumir que existe una relación de co-ocurrencia en la frecuencia de etiquetas de objetos en las imágenes. Por ejemplo, las etiquetas de objeto "bandera" y "signo" pueden coexistir en una imagen etiquetada como "Negativo". Para explotar esta coexistencia de etiquetas de objetos, los autores utilizan una red de atención basada en CAN

  • Extracción de características de escena global

Los autores usan una CNN para extraer una única característica de escena global que caracteriza los tipos de eventos observados a lo largo de la imagen.

Ⅰ Ajuste fino: los autores usan un modelo VGG16, que está preentrenado con el conjunto de datos de ImageNet. Los autores lo ajustan para tareas de reconocimiento de emociones a nivel de grupo mediante el uso de imágenes de conjunto del conjunto de datos GAF2.

II Extracción profunda de características: los autores introducen la imagen completa en este modelo VGG16 ajustado. Luego, extraemos características profundas 256D de FC7 en este modelo VGG16 ajustado.

  • clasificacion final

Los autores utilizan características locales y globales para el reconocimiento final de emociones a nivel de grupo. El autor compara f( obj , att ) y fglof^{(obj, att)} y f ^{glo}F( o bj , a tt ) yfg lo se concatena y luego se alimenta a una capa FC que consta de tres nodos correspondientes a etiquetas de opinión a nivel de grupo con una función de activación softmax.

4. Experimenta

1) Reglas de implementación

Optimizador Stochastic Gradient Descent (SGD) [66] con una tasa de aprendizaje de 0,001 y un tamaño de lote de 10. Aumento de datos (giro horizontal aleatorio, rotación de ±20°, desplazamiento de canal de ±5°), 20 rondas de entrenamiento

Probado en PC con Windows con Intel Core i9-7900X 3.3 GHz y GeForce GTX 1080Ti

2) Conjuntos de datos GAF2 [49] y Group Sentiment Database 3.0 (GAF3) [50]

3) Experimento de ablación

  • método de clasificación jerárquica
  • Combinación de atención visual e información semántica de objetos.

4) Evaluación cualitativa

  • Resultados de la evaluación de la materia principal
  • Resultados de estimación de objetos discriminantes

5. Análisis

  • Los autores argumentan que el uso de rasgos faciales dificulta la estimación precisa en la clasificación de segunda etapa utilizando rasgos de escena.
  • Análisis de Complejidad
  • Limitaciones: exploración de una forma de mejorar el rendimiento de los esquemas de estimación de sujetos
  • Trabajo futuro: la cohesión grupal [51], [52] es una medida de la conexión entre los miembros del grupo y es efectiva para identificar emociones a nivel grupal [32], [67]. Los autores investigarán cómo se puede mejorar el rendimiento de la clasificación mediante la incorporación de la cohesión del grupo en nuestro marco para el reconocimiento de emociones a nivel de grupo.

Supongo que te gusta

Origin blog.csdn.net/qq_44930244/article/details/130471839
Recomendado
Clasificación