PersEmoN: una red profunda para analizar la personalidad aparente, la emoción y sus relaciones

PersEmoN: una red profunda para el análisis conjunto de la personalidad aparente, la emoción y su relación

Cuenta oficial: EDPJ

Tabla de contenido

1. Resumen

2. Palabras clave

3. Problemas enfrentados

4. Estructura de la red PersEmoN

5. Función de pérdida

5.1 Pérdida de personalidad

5.2 Pérdida de emociones 

5.3 Pérdida del clasificador del conjunto de datos 

5.4 Pérdida adversarial 

5.4 Pérdida de relación 

5.5 Funciones de pérdida general

6. Experimentos

6.1 Evaluación de la emoción

6.2 Evaluación de la personalidad aparente

6.3 Relación entre personalidad aparente y emoción

6.4 Eficacia del entrenamiento conjunto

6.5 Estrategia de coherencia

7. Referencia


1. Resumen

El análisis de la personalidad aparente y la emoción es el núcleo de la computación afectiva. El presente trabajo es un análisis independiente de los dos. Este artículo explora si estos dos rasgos emocionales de alto nivel y su relación pueden aprenderse conjuntamente a partir de imágenes faciales. Por lo tanto, este trabajo propone PersEmoN. Esta es una red profunda similar a la siamesa capacitada de extremo a extremo. Consta de dos redes convolucionales: una para el análisis de la personalidad representacional y la otra para el análisis de los sentimientos. Comparten el módulo de extracción de funciones subyacente y están optimizados en el marco del aprendizaje multitarea. Las redes de sentimiento y personalidad tienen sus propios conjuntos de datos anotados. Además, se utiliza una función de pérdida similar a la de un adversario para mejorar la coherencia de representación entre conjuntos de datos heterogéneos. Con base en esto, este artículo también discute la relación entre la emoción y la apariencia del personaje.

  • Rasgos de apariencia : la primera impresión/rasgos de apariencia de una persona se pueden usar para juzgar rápidamente sus rasgos de personalidad (Rasgos de personalidad)
  • Cinco rasgos de personalidad (Cinco grandes rasgos de personalidad, psicología de la personalidad , Lista de rasgos de personalidad )
    • Muchos estudios en esta área han demostrado que no importa si se usa vocabulario en inglés o chino, no importa si se les pide a los sujetos que se describan a sí mismos o a otros, no importa qué métodos de extracción y rotación de factores se usen, los resultados son cinco factores principales, que son:
      • Extraversión: extrovertido, enérgico, entusiasta;
      • Amabilidad: agradable, altruista, contagiosa;
      • Conciencia: imparcialidad, moderación, moderación;
      • Neuroticismo: nerviosismo, emociones negativas, nerviosismo;
      • Apertura a la experiencia: Directo, creativo, de mente abierta.
    • El acrónimo de estos cinco factores es OCÉANO, lo que implica una amplia representación del sistema de los "cinco grandes".
  • Computación afectiva : Investigación y desarrollo de sistemas y dispositivos capaces de reconocer, interpretar, procesar y simular la influencia humana.
  • Red siamesa ( Referencia 1 , Referencia 2 ): características principales
    • La red siamesa toma dos entradas diferentes a través de dos subredes similares con la misma arquitectura, parámetros y pesos.
    • Las dos subredes son imágenes especulares entre sí, como siameses. Por lo tanto, cualquier cambio en la arquitectura, los parámetros o los pesos de cualquier subred también se aplica a otras subredes.
    • Ambas subredes emiten una codificación para calcular la diferencia entre las dos entradas.
    • El objetivo de una red siamesa es clasificar si dos entradas son iguales o diferentes utilizando una puntuación de similitud. Las puntuaciones de similitud se pueden calcular utilizando entropía cruzada binaria, funciones contrastivas o pérdidas de triplete, que son técnicas utilizadas en métodos generales de aprendizaje de métricas a distancia.
    • Una red siamesa es un clasificador único que utiliza características discriminatorias para generalizar categorías desconocidas a partir de distribuciones desconocidas.
  • Datos heterogéneos : Datos de tipos y formatos muy variados. Datos heterogéneos para este documento: recopilados en diferentes entornos. La luminosidad del entorno, la postura de los personajes, etc. son muy diferentes. Cada conjunto de datos puede tener una distribución estadística significativamente diferente.

2. Palabras clave

Informática afectiva, emoción, personalidad aparente, aprendizaje antagónico, aprendizaje multitarea, aprendizaje profundo 

3. Problemas enfrentados

  1. Los conjuntos de datos a gran escala que contienen emociones etiquetadas y personalidades aparentes para aprender representaciones ricas de personalidad aparente, emoción y sus relaciones son escasos. En particular, los conjuntos de datos existentes solo contienen atributos de emoción, mientras que otros conjuntos de datos solo pueden anotar personalidad aparente. Anotar manualmente los datos de emoción y personalidad aparente puede aliviar parcialmente esta situación. Sin embargo, es costoso, requiere mucho tiempo y es propenso a errores debido a la subjetividad.
  2. Diferencias en los conjuntos de datos existentes: los conjuntos de datos a menudo se recopilan en diferentes entornos que pueden presentar variaciones significativas en la iluminación, la escala, la pose, etc. Cada conjunto de datos puede tener una distribución estadística muy diferente.
  3. La anotación de la emoción y la personalidad aparente se puede hacer a nivel de imagen, cuadro o video. ¿Cómo encapsular la comprensión a nivel de cuadro y de video en una sola red?

4. Estructura de la red PersEmoN

inserte la descripción de la imagen aquí

  • En primer lugar, utilice la red neuronal convolucional multitarea de código abierto (Red neuronal convolucional multitarea, MTCNN) para identificar y ajustar las caras en los conjuntos de datos de personalidad y emoción aparentes.
  • Para el conjunto de datos de personalidad aparente, utilice muestreo disperso (Muestreo disperso).
  • La red de personalidad aparente consta de un Módulo de extracción de características (FEM) y un Módulo de análisis de personalidad (PAM) para predecir a cuál de los cinco rasgos de personalidad pertenece una imagen. Se utiliza una función de agregación de consenso para agregar las puntuaciones de personalidad aparentes antes de enviarlas a PAM.
  • La red Emoción comparte FEM con la red de personalidad aparente y tiene su propio módulo de análisis de emociones (Emotion Aalysis Module, EAM), que se utiliza para predecir el valor de activación (Arousal) y el valor de activación (valencia) de la emoción.
  • Por último, existe un módulo que analiza la relación entre emoción y personalidad aparente (Relationship Analysis Moudel, RAM).

La excitación representa el nivel de excitación, y la valencia representa el nivel de emociones positivas.Estas dos dimensiones representan su nivel a través de valores numéricos. Por ejemplo, un rango de valores [-1,1], -1 significa muy deprimido/negativo, 1 significa muy emocionado/positivo. De esta manera, la felicidad (felicidad) puede estar representada por una excitación alta y una valencia alta, mientras que la depresión (depresión) puede estar representada por una excitación baja y una valencia baja. Casi todas las emociones humanas pueden ser representadas por el espacio bidimensional formado por estas dos dimensiones. ( referencia )

  • Durante la fase de entrenamiento, el sistema identifica de qué conjunto de datos proviene la imagen y automáticamente la asigna a la rama correspondiente.
  • Durante la fase de prueba, el sistema estima personalidad aparente y emoción a través de PAM y EAM respectivamente.
  • En la etapa de inferencia se obtienen rasgos aparentes de personalidad a partir de PAM y EAM.
  • Como subproducto, la RAM se puede utilizar para obtener rasgos de personalidad aparentes a partir de las emociones (excitación y excitación).
  • Vale la pena señalar que durante la fase de prueba, este método también es aplicable a conjuntos de datos de emociones basados ​​en video al procesar cada cuadro de video de forma independiente.
  • La estructura detallada de los diferentes módulos se muestra en la siguiente figura. Conv es una unidad convolucional que puede contener varias capas convolucionales. Los corchetes son unidades residuales. Por ejemplo, [3 \ veces 3,64] \ veces 4representa 4 capas convolucionales en cascada, cada una con 64 3 veces 3filtros de tamaño . S2 significa Stride es 2. FC representa la capa totalmente conectada, correspondiente al número de neuronas de salida.

inserte la descripción de la imagen aquí

5. Función de pérdida

5.1 Pérdida de personalidad

V e Y denotan el video de entrada y su etiqueta de verdad en tierra, respectivamente. Dado el i-ésimo video \left\{ {\mahop V\nolimits_i^P ,\mahop Y\nolimits_i^P } \right\}(i \in \mahop N\nolimits^P ), que \mahop N\límites^Prepresenta la colección de índices de videos de personalidad aparente, P significa que los datos provienen del conjunto de datos de personalidad aparente. Divida el i-ésimo video en K segmentos a intervalos iguales {\rm{\{ }}\mathop S\nolimits_{i1}^P {\rm{,}}\mathop S\nolimits_{i2}^P \mathop {, \cdots,S}\nolimits_{iK}^ PAG {\rm{\} }}, luego se puede obtener el siguiente modelo

 Entre ellos, {\rm{\{ }}\mathop I\nolimits_{i1}^P {\rm{,}}\mathop I\nolimits_{i2}^P \mathop {, \cdots,I}\nolimits_{iK}^ PAG {\rm{\} }}está el marco de la cara, \mahop S\nolimits_{iK}^Pun marco se muestrea aleatoriamente del fragmento \mahop yo\nolimits_{iK}^P. La función F(\mahop I\nolimits_{iK}^P ,\mahop W\nolimits^p )representa \mahop W\sin límites^pla red de personalidad cuyo parámetro es , y obtiene \mahop yo\nolimits_{iK}^Ppuntuaciones preliminares de personalidad aparente en función del rostro. La función de consenso de fragmentos G fusiona las puntuaciones preliminares para obtener las puntuaciones finales de personalidad aparente. \mahop l\nolimits_1 Optimice la red de personalidad con la función de pérdida suave .

 La \mahop l\nolimits_1función Smooth se expresa de la siguiente manera:

5.2 Pérdida de emociones 

Dada una imagen de rostro  \left\{ {​{\rm{ }}I_i^E,{\rm{ }}Y_i^E} \right\}(i \in {\rm{ }}{N^E}), la red de emociones genera puntajes de emoción:

 La función de pérdida de la red Emoción se expresa de la siguiente manera:

5.3 Pérdida del clasificador del conjunto de datos 

 El autor entrenó un \mahop W\sin límites^Dclasificador de conjunto de datos con un parámetro de D, que se usa para distinguir de qué conjunto de datos provienen los datos. Para cada representación de características derivada de FEM, el clasificador del conjunto de datos se entrena con la siguiente pérdida de softmax. Para el conjunto de datos de personalidad,

 Entre ellos, q(I,W,\mahop W\nolimits^D ) = soft\max(\mahop W\nolimits^D ,F(I,W);. Del mismo modo, para el conjunto de datos de emociones,

 La pérdida total se expresa como:

5.4 Pérdida adversarial 

En FEM se introduce un objetivo de aprendizaje similar al de un adversario. Maximiza la diferencia entre dos conjuntos de datos difusos mediante el cálculo de la entropía cruzada entre las etiquetas del conjunto de datos pronosticado y la distribución uniforme sobre las etiquetas del conjunto de datos .

5.4 Pérdida de relación 

 Para explorar si la personalidad aparente se puede inferir directamente de los atributos emocionales, el documento presenta RAM. Recibe puntajes de emoción de EAM para predecir puntajes aparentes de personalidad. La entrada a la RAM se puede expresar como:

  {\rm{\{ }}\mathop I\nolimits_{i1}^P {\rm{,}}\mathop I\nolimits_{i2}^P \mathop {, \cdots,I}\nolimits_{iK}^ PAG {\rm{\} }}Es el marco de la cara, \mahop S\nolimits_{iK}^Pse muestrea aleatoriamente un marco  del fragmento \mahop yo\nolimits_{iK}^P. F({\rm{ }}I_{iK}^P,{\rm{ }}{W^E})Indica \mahop W\sin límites^Ela red de emociones cuyos parámetros son: En base al encuadre del rostro  \mahop yo\nolimits_{iK}^Pse obtiene la predicción preliminar de las puntuaciones de las emociones. RAM \mahop V\nolimits_i^Pda puntajes de personalidad aparentes basados ​​​​en video:

 {W^R}Indica el parámetro de RAM. La RAM se obtiene optimizando la siguiente función objetivo:

5.5 Funciones de pérdida general

Cada módulo de PersEmoN es diferenciable y todo el sistema puede optimizarse de manera integral: minimice la siguiente función de pérdida

inserte la descripción de la imagen aquí

Dado que el objetivo principal del sistema es estimar la emoción y los rasgos aparentes de personalidad, es decir, \mathop L\nolimits_{estado}y \top L\nolimits_{per}son las principales funciones objetivo, sus pesos se establecen en \end \lambda \nolimits_1 = \end \lambda \nolimits_2 = 1. El papel de otras funciones de pérdida es la regularización, por lo que sus pesos son relativamente pequeños, establecidos en \top \lambda \nolimits_3 = \top \lambda \nolimits_4 = \top \lambda \nolimits_5 = 0.1. El parámetro m=0.05 de la función Smooth \mahop l\nolimits_1(Ecuación 3).

6. Experimentos

Para evaluar la calidad de la predicción de la emoción, se calculó el error cuadrático medio (MSE) del valor predicho y el valor real de la emoción. Este documento utiliza dos métricas: precisión media (precisión media) A y coeficiente de determinación (coeficiente de determinación) \mahop R\límites^2.

 Entre ellos, \mahop Ilimitado^tindica el número total de muestras de prueba, \mahop Y\límites^Pindica el valor real, \mahop P\limits_iindica el valor predicho e \top {\bar Y}\nolimits^Pindica la media del valor real.

Según la enciclopedia del coeficiente de determinación.

  • La suma total de cuadrados es el MSE entre el valor verdadero y la media del valor verdadero,
  • La suma de cuadrados de regresión es el MSE entre el valor predicho y la media del valor verdadero,
  • La suma residual de cuadrados es el MSE entre los valores predicho y verdadero.

Coeficiente de determinación utilizado en este artículo \mahop R\límites^2: 1 - suma de cuadrados residual/suma de cuadrados de regresión. En mi opinión , debería ser más preciso usar (1 - suma residual de cuadrados / suma total de cuadrados).

Cuanto menor sea la suma residual de los cuadrados, es decir, cuanto mayor sea el coeficiente de determinación, mejor será el rendimiento de la predicción.

6.1 Evaluación de la emoción

Los datos muestran que aunque PersEmoN no está diseñado para el reconocimiento de emociones como otros modelos, PersEmoN todavía tiene una ligera ventaja en la predicción de las dos dimensiones del valor de excitación (Arousal) y el valor de excitación (valencia).

6.2 Evaluación de la personalidad aparente

PersEmoN es un modelo de extremo a extremo y solo usa información de video para inferencia.

Fusión de características (Fusión)

  • En muchas tareas de aprendizaje profundo (como la detección de objetivos, la segmentación de imágenes), la fusión de características de diferentes escalas es un medio importante para mejorar el rendimiento. Las características de bajo nivel tienen una resolución más alta y contienen más posición e información detallada , pero debido a que tienen menos circunvoluciones , tienen una semántica más baja y más ruido . Las características de alto nivel tienen información semántica más sólida, pero tienen baja resolución y una mala percepción de los detalles . Cómo integrar eficientemente los dos, tomar sus puntos fuertes y descartar los malos, es la clave para mejorar el modelo de segmentación.
  • Muchos trabajos mejoran el rendimiento de detección y segmentación mediante la fusión de múltiples capas.Según el orden de fusión y predicción, se clasifican en fusión temprana y fusión tardía.
    • Fusión temprana (Fusión temprana):  primero fusione las características de varias capas y luego entrene al predictor en las características fusionadas ( solo después de la fusión completa, la detección se realiza de manera uniforme ). Este tipo de método también se denomina conexión de omisión y utiliza operaciones de concatenación y adición . Representantes de esta idea son Inside-Outside Net (ION) e HyperNet. Dos métodos clásicos de fusión de características:
      • concat : una serie de fusión de funciones, que conecta directamente dos funciones. Si las dimensiones de las dos características de entrada x e y son p y q, la dimensión de la característica de salida z es p+q;
      • add : estrategia paralela, que combina estos dos vectores de características en un vector complejo, para las características de entrada x e y, z = x + iy, donde i es la unidad imaginaria.
    • Fusión tardía (fusión tardía): mejore el rendimiento de detección combinando los resultados de detección de diferentes capas ( antes de que se complete la fusión final, la detección se inicia en la capa parcialmente fusionada, habrá detección multicapa y finalmente la detección múltiple se realizan los resultados Fusión ). Hay dos tipos de ideas de investigación en esta categoría:
      • Las funciones no se fusionan, y las funciones multiescala se predicen por separado, y luego los resultados de la predicción se fusionan, como Single Shot MultiBox Detector (SSD), Multi-scale CNN (MS-CNN)
      • La función realiza la fusión piramidal y predice después de la fusión , como Feature Pyramid Network ( FPN ), etc.

La siguiente tabla muestra el Benchmark de predicción de personalidad aparente utilizando la precisión promedio A y el coeficiente de determinación \mahop R\límites^2El valor de BU-NKU-v2 \mahop R\límites^2no está publicado.

Los datos muestran que PersEmoN exhibe un rendimiento sobresaliente incluso cuando solo usa información de video para la predicción.

6.3 Relación entre personalidad aparente y emoción

El PAM+RAM en la figura anterior logra una buena predicción de la personalidad aparente con solo un valor de despertar del valor de activación bidimensional (Arousal-valencia).

La siguiente figura muestra la relación entre diferentes rasgos aparentes de personalidad y el espacio emocional (excitación-valencia).

Los resultados experimentales muestran que la Amabilidad (feliz, altruista, contagiosa) es más similar a la Conciencia (justicia, moderación, moderación), el Neuroticismo (neuroticismo, emociones negativas, nerviosismo) y la Apertura (sencilla, creativa, de mente abierta) son bastante diferentes; mientras que la Extraversión (Extroversión, Energía, Entusiasmo), que no se muestra en el diagrama, es más similar a la Amabilidad.

6.4 Eficacia del entrenamiento conjunto

El propósito de este artículo es proponer un nuevo método de aprendizaje multitarea para obtener una representación generalizable. Se aplica no solo a problemas específicos, sino a problemas muy generales. En PersEmoN, dado que todas las tareas comparten el FEM, las tareas adicionales actúan como obsequio, lo que obliga al sistema a desempeñarse mejor en las tareas relacionadas.

La adición de varios módulos ha mejorado continuamente el rendimiento. El autor cree que estas mejoras provienen del algoritmo BP de CNN, en el que los parámetros compartidos por FEM afectan directamente el rendimiento de generalización de todo el sistema.

6.5 Estrategia de coherencia

Para diferentes conjuntos de datos, una representación con buena transferibilidad debe ser invariable. Con este fin, el autor realizó un experimento para eliminar la estrategia de coherencia en PersEmoN. Los resultados muestran que la estrategia de coherencia puede mejorar el rendimiento, es decir, es necesaria para obtener una representación coherente.

Para el conjunto de datos de personalidad y emoción aparentes, el autor utiliza t-SNE para proyectar la característica de 512 dimensiones obtenida a través de FEM en un espacio bidimensional y visualizarlo. Usando una estrategia coherente, una gran cantidad de características de la emoción se dispersan en el anillo, lo que hace que las dos distribuciones sean similares con una superposición significativamente mayor.

7. Referencia

Zhang L, Peng S, Winkler S. PersEmoN: una red profunda para el análisis conjunto de la personalidad aparente, la emoción y su relación [J]. IEEE Transactions on Affective Computing, 2019. 下载地址:https://arxiv.org/pdf/1811.08657.pdf

Supongo que te gusta

Origin blog.csdn.net/qq_44681809/article/details/128222315
Recomendado
Clasificación