Una Breve Introducción al Reconocimiento y Generación de Diálogo Emocional

direccion original

1. Introducción

En los últimos años, con el rápido desarrollo de la tecnología de procesamiento del lenguaje natural , el sistema de diálogo humano-computadora ha recibido mucha atención y se ha convertido gradualmente en un centro de investigación en la academia y la industria. Los sistemas de diálogo hombre-máquina continúan desarrollándose y progresando, y el alcance de la aplicación continúa expandiéndose. Las personas también tienen mayores requisitos. Se espera que la máquina pueda comunicarse más profundamente con las personas sobre la base de prestar atención al contenido de la respuesta. .

Algunos trabajos recientes han demostrado [10, 13, 15, 16, 18-21, 23] que en los sistemas de diálogo hombre-máquina, además del contenido de respuesta, la comunicación emocional entre máquinas y humanos también es un tema importante. Los seres humanos pueden comunicarse emocionalmente a través del lenguaje y obtener confort emocional, si el sistema de diálogo quiere comunicarse efectivamente con los humanos, debe tener ciertas capacidades emocionales. Específicamente, por un lado, la máquina necesita reconocer y juzgar la emoción del usuario y, por otro lado, también necesita incorporar la emoción apropiada en su respuesta. Por lo tanto, cómo dar a las máquinas la capacidad de comprender y expresar emociones en el diálogo es una nueva oportunidad y un desafío para el campo del diálogo humano-máquina y el análisis de sentimientos.

Este documento presenta principalmente dos tareas clave en la emoción del diálogo: el reconocimiento de la emoción del diálogo y la generación de la emoción del diálogo, y clasifica los conjuntos de datos comúnmente utilizados y los métodos relacionados para estas dos tareas. En la siguiente parte de este documento, primero explicaremos el contenido relevante de la tarea de reconocimiento de emociones en el diálogo; luego presentaremos la tarea de generación de emociones en el diálogo; finalmente, resumiremos el texto completo y miraremos hacia el futuro.

2. Diálogo Reconocimiento de emociones

2.1 Introducción a la tarea

El reconocimiento de emociones de diálogo es una tarea de clasificación que tiene como objetivo clasificar el sentimiento de (todas) las expresiones en un diálogo. La entrada de la tarea es un diálogo continuo, y la salida es el sentimiento de todas las declaraciones en este diálogo.La Figura 1 da un ejemplo simple. Dado que el diálogo en sí tiene muchos elementos, el reconocimiento de la emoción del discurso no es simplemente equivalente al reconocimiento de la emoción de una sola oración, sino que debe considerar de manera integral los antecedentes, el contexto, el hablante y otra información en el diálogo. Estos son los desafíos únicos en la tarea de reconocimiento de emociones del diálogo.

El reconocimiento de emociones de diálogo se puede utilizar ampliamente en varios escenarios de diálogo, como el análisis de sentimientos de los comentarios en las redes sociales, el análisis de sentimientos del cliente en el servicio al cliente humano, etc. Además, el reconocimiento de emociones de diálogo también se puede aplicar a los chatbots para analizar el estado emocional del usuario en tiempo real y generar respuestas impulsadas por la emoción del usuario.
inserte la descripción de la imagen aquí

2.2 Introducción al conjunto de datos

IEMOCAP[2]. El laboratorio SAIL de la Universidad del Sur de California recopiló 12 horas de datos audiovisuales multimodales de diálogos de dos personas reproducidos por humanos. 10 actores profesionales (5 hombres y 5 mujeres) se dividen en 5 sesiones, ya cada sesión se le asigna 1 hombre y 1 mujer. El diálogo se divide en dos partes, una parte es un guión fijo y la otra parte es un juego libre bajo una situación temática determinada. Hay 151 diálogos con un total de 7433 oraciones. Se marcan seis tipos de emociones: Neutro, Alegría, Tristeza, Ira, Frustrado, Emocionado y las emociones no neutrales representan el 77%. IEMOCAP es el conjunto de datos más utilizado en el reconocimiento de emociones de diálogo. Tiene alta calidad y tiene la ventaja de información multimodal. La desventaja es que el tamaño de los datos es pequeño.
Enlace del conjunto de datos

SEMANA[3]. Los datos de diálogo multimodal recopilados de la base de datos SEMAINE se utilizaron en el desafío AVEC2012 por cuatro robots de imagen fija que hablan con humanos. Los datos utilizados por AVEC2012 tienen 95 diálogos con un total de 5798 oraciones. Se marcan cuatro dimensiones emocionales: Valencia (placer), Excitación (activación), Expectativa (anticipación), Poder (fuerza). La valencia representa el grado de emoción positiva, la excitación representa el grado de excitación, la expectativa representa el grado de conformidad con las expectativas y el poder representa la influencia emocional. Entre ellos, Valencia, Arousa y Expectativa son valores continuos en el rango de [-1, 1], y Potencia es un valor continuo mayor o igual a 0. SEMAINE es uno de los conjuntos de datos comúnmente utilizados en el reconocimiento de emociones de diálogo, pero la desventaja es que el tamaño de los datos es pequeño .
Enlace del conjunto de datos

Diálogo diario[4]. Conjunto de datos de diálogo de múltiples rondas de alta calidad, texto sin formato , bajo nivel de ruido, el diálogo refleja la vida diaria de diferentes temas, sin orador fijo. Además de los 7 tipos de anotaciones emocionales, el conjunto de datos también tiene 10 tipos de anotaciones de temas y 4 tipos de anotaciones de comportamiento de diálogo. 12.218 diálogos con un total de 103.607 frases. Se marcan siete tipos de emociones: Neutro, Alegría, Sorpresa, Tristeza, Ira, Asco, Miedo y las emociones no neutras representan el 16,8%. DailyDialog rara vez se usa en el reconocimiento de emociones de diálogo. La ventaja es que la escala de datos es grande y la desventaja es que la proporción de emociones neutrales es demasiado alta.
Enlace del conjunto de datos

Líneas de emoción[5]. De Amigos (conversaciones múltiples) y registros de chat privados de Facebook (conversaciones de dos personas), texto sin formato , con un hablante fijo. Utilizado en SocialNLP 2018 EmotionX Challenge. En cuanto al contenido, las dos partes son independientes, cada una contiene 1.000 diálogos, con un total de 29.245 frases. Se marcan siete tipos de emociones: Neutro, Alegría, Sorpresa, Tristeza, Ira, Asco, Miedo y las emociones no neutras representan el 44,5%. EmotionLines rara vez se usa en el reconocimiento de emociones de diálogo, generalmente usando conjuntos de datos MELD multimodales.
Enlace del conjunto de datos

Contexto emotivo[6]. Diálogo de dos personas en texto sin formato , cada diálogo tiene tres oraciones y solo la última oración tiene una etiqueta emocional. Utilizado en la Tarea 3 de SemEval-2019. 38421 diálogos, un total de 115263 oraciones. Se marcan cuatro tipos de emociones: Alegría, Tristeza, Ira, Otras y las emociones no neutras representan el 42,8%. EmoContext rara vez se usa en el reconocimiento de emociones de diálogo. La ventaja es que la escala de datos es grande, y la desventaja es que la duración del diálogo es demasiado corta y solo se marca la última oración.
Enlace del conjunto de datos

MELD[7]. Con origen en Friends, es una forma de diálogo entre varias personas y es una extensión multimodal (texto + video) de la parte Friends de EmotionLines . Hay 1433 diálogos con un total de 13708 oraciones. Se marcan 7 tipos de emociones: Neutro, Alegría, Sorpresa, Tristeza, Ira, Disgusto, Miedo y 3 tipos de emociones: Positivo, Negativo, Neutro y no neutral representan el 53%. MELD es uno de los conjuntos de datos comúnmente utilizados en el reconocimiento de emociones de diálogo. La ventaja es que el conjunto de datos es de alta calidad y tiene información multimodal. La desventaja es que el diálogo en el conjunto de datos involucra demasiados antecedentes de la trama, lo que hace que la emoción reconocimiento muy difícil.
Enlace del conjunto de datos

2.3 Introducción de trabajos relacionados

  • Categoría 1: Modelado Contextual

A diferencia del análisis tradicional de sentimiento de una sola oración, las expresiones circundantes pueden proporcionar información contextual importante cuando las expresiones de un diálogo se clasifican sentimentalmente. C-LSTM [8] es un modelo basado en LSTM que puede capturar información contextual, y su modelo se muestra en la siguiente figura. Las características de entrada de cada expresión pasan a través de la unidad LSTM y una capa totalmente conectada para obtener las características de salida de la expresión, que se utilizan para clasificar el sentimiento de la expresión. El LSTM bidireccional puede capturar el contexto de la expresión, lo cual es mejor que el LSTM unidireccional.
inserte la descripción de la imagen aquí

  • Categoría 2: Modelado de altavoces

Además de la información de contexto del enunciado, también se debe considerar en el diálogo el estado y la interacción de los hablantes.

CMN [9], para que se reconozca el enunciado actual, modela el enunciado histórico de cada hablante por separado a través de GRU como una unidad de memoria. Luego, a través del mecanismo de atención, la memoria de cada hablante se fusiona con la representación del enunciado actual y el resultado se utiliza para la clasificación del enunciado, simulando así el estado del hablante individual y la influencia de los diferentes estados del hablante en el enunciado actual. es el siguiente Como se muestra en la figura.

inserte la descripción de la imagen aquí
CMN usa unidades de memoria independientes para diferentes altavoces, sobre esta base, ICON[10] usa unidades de memoria interactivas, y su modelo se muestra en la siguiente figura.

Para que se reconozca la expresión actual, ICON modela la expresión histórica de cada hablante a través del módulo SIM (Módulo de autoinfluencia) y luego modela la influencia entre los hablantes a través del módulo DGIM (Módulo de influencia global dinámica) Obtener el estado global, almacenar en la unidad de memoria, y luego use el mecanismo de Atención para obtener el resultado de la fusión de la unidad de memoria y la representación del discurso actual, que se usa para la clasificación de la emoción del discurso.

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

  • Categoría 3: Modelado para hablantes exigentes

Aunque modelos como CMN e ICON modelan información diferente del hablante, no distinguen a qué hablante pertenece el enunciado para que se reconozca el enunciado final. DialogueRNN [11] resuelve este problema, y ​​al mismo tiempo cree que la emoción del enunciado en el diálogo depende de tres factores: información del hablante, contexto e información emocional del enunciado anterior, y utiliza el estado del hablante (Party GRU), estado global (GRU global) y estado emocional (Emotion GRU) para capturar, el modelo se muestra en la siguiente figura.

Para el enunciado en el momento actual, el estado global se actualiza mediante el estado global del momento anterior, la representación del enunciado actual y el estado del hablante del enunciado actual en el momento anterior. se actualiza el momento, y el estado emocional se actualiza por el estado actual del hablante en el momento y el estado emocional en el momento anterior, y luego el enunciado actual se clasifica con el estado emocional en el momento actual.

inserte la descripción de la imagen aquí

3. Generación de emociones de diálogo

3.1 Introducción de la tarea

Dialogue Sentiment Generation es una tarea generativa que tiene como objetivo generar respuestas emocionales y específicas en los diálogos. En general, hay dos puntos de vista sobre la emoción que se generará: uno es que la emoción que se generará debe señalarse claramente, la entrada de este método es el texto del diálogo y la emoción objetivo, y la salida es la respuesta que contiene la emoción. , que tiene la ventaja de generar Las emociones son flexibles y controlables, pero la desventaja es que se requieren materiales de diálogo etiquetados emocionalmente a gran escala; el otro piensa que las emociones a generar ya están implícitas en el diálogo y no necesitan ser explícitas. dicho, por lo que este tipo de enfoque solo necesita proporcionar datos de diálogo. La ventaja es que se pueden utilizar los datos de diálogo a gran escala existentes, pero la desventaja es que las emociones generadas no son fáciles de controlar. La siguiente figura da un ejemplo simple de generación de sentimiento de diálogo.

La generación de emociones de diálogo se utiliza principalmente en chatbots, lo que puede permitir que los chatbots generen respuestas emocionalmente razonables basadas en la comprensión explícita o implícita de las emociones del usuario y resuelvan el problema de la expresión emocional en los chatbots.

inserte la descripción de la imagen aquí

3.2 Introducción al conjunto de datos

STC[12]. Los datos de Sina Weibo, sin etiquetado de emociones, chino, que consta de preguntas y respuestas, se pueden considerar como una sola ronda de diálogo (pregunta y respuesta), un total de 4,4 millones de pares, la duración promedio de las oraciones de preguntas y respuestas es de 20 y 15 , respectivamente. ECM [13] utiliza el clasificador de emociones Bi-LSTM para etiquetar automáticamente seis tipos de emociones: Enfado, Disgusto, Feliz, Me gusta, Triste, Otro. STC es uno de los conjuntos de datos comúnmente utilizados en la generación de emociones de diálogo. La ventaja es que la escala de datos es grande y la desventaja es que no hay un etiquetado de emoción artificial, que debe marcarse automáticamente con la ayuda de clasificadores de emociones, por lo que la calidad de los datos es media.
Enlace del conjunto de datos

Diálogos de películas de Cornell[14]. Los datos de diálogos de películas recopilados por la Universidad de Cornell no tienen anotaciones emocionales, 220 000 diálogos, 300 000 oraciones, que involucran 9035 caracteres en 617 películas, sin anotaciones y ruido relativamente pequeño. ANRG [15] y EMOTICONS [16] se utilizan para el entrenamiento del modelo seq2seq. Cornell Movie Dialogs es uno de los conjuntos de datos más utilizados en la generación de emociones de diálogo. La ventaja es que la calidad de los datos es alta y la desventaja es que no hay etiquetas de emociones artificiales.
Enlace del conjunto de datos

Subtítulos abiertos[17]. La base de datos de subtítulos de películas multilingüe tiene una gran cantidad de datos, sin anotaciones emocionales y un ruido relativamente grande. ADGEE [18] usa OpenSubtitles2016, hay 11,3 millones de oraciones después del filtrado y un clasificador de sentimientos Bi-LSTM está capacitado para el etiquetado automático de sentimientos. EMOTICONS [16] usa OpenSubtitles2018, y los datos filtrados tienen al menos cuatro rondas de diálogo y 2,5 millones de oraciones. OpenSubtitles es uno de los conjuntos de datos comúnmente utilizados en la generación de emociones de diálogo. La ventaja es que la escala de datos es enorme, y la desventaja es que es ruidoso y no tiene etiquetas de emociones artificiales.
Enlace del conjunto de datos

Gorjeo[19]. Las conversaciones con expresiones emoji obtenidas en Twitter se componen de preguntas y respuestas, que se pueden considerar como una sola ronda de conversaciones, con un total de 660.000 pares. Use los emoticonos emoji adjuntos a la oración como anotaciones de oración, con un total de 64 etiquetas. Mojitalk [19] usa este corpus para entrenar al modelo para generar respuestas emocionales. Mojitalk [19] construyó este conjunto de datos y lo usó para entrenar un modelo para la generación de respuestas de sentimiento.
Enlace del conjunto de datos

Diálogo diario[4]. Conjunto de datos de diálogo de múltiples rondas de alta calidad, 100,000 oraciones, consulte la introducción del conjunto de datos de reconocimiento de emociones de diálogo para obtener más detalles. AR-S2S [20] utiliza este conjunto de datos como un conjunto de prueba para evaluar el rendimiento de generalización del modelo en diferentes diálogos de dominio.
Enlace del conjunto de datos

SEMANA[3]. El conjunto de datos utilizado para el reconocimiento de emociones tiene atributos emocionales pero no etiquetas de categorías de emociones. Emo-HERD [21] de AAAI 2018 utiliza herramientas para etiquetar emociones para ello. Alrededor de 5.000 frases, consulte la introducción del conjunto de datos de reconocimiento de emociones de diálogo para obtener más detalles.
Enlace del conjunto de datos

3.3 Introducción de trabajos relacionados

  • La primera categoría: modelo de lenguaje emocional

Dado un segmento inicial y la información de opinión, se puede generar una oración con una opinión específica.

Affect-LM [22] es un modelo de lenguaje basado en LSTM, que incorpora etiquetas emocionales y fortalezas emocionales en la etapa de predicción de probabilidad de palabras, de modo que se espera que el modelo genere respuestas de una determinada categoría emocional con una determinada intensidad. Los modelos de lenguaje se evalúan usando perplejidad. Su modelo se muestra en la siguiente figura.
inserte la descripción de la imagen aquí

  • La segunda categoría: modelos de generación de diálogo que especifican el sentimiento de respuesta

Dada la información anterior y la opinión, se puede generar una respuesta con la opinión especificada.

ECM [13] es el primer trabajo que considera los factores emocionales en la generación de diálogos a gran escala, y su modelo se muestra en la Fig. 8. Para generar respuestas que especifican emociones en el diálogo, se introducen tres mecanismos en el Codificador-Decodificador tradicional: incrustación de categorías de emociones, memoria interna y memoria externa. La incorporación de categorías emocionales consiste en reemplazar cada categoría emocional con un vector para la actualización de estado del decodificador. La memoria interna, utilizada para capturar la dinámica de la emoción, decae a medida que se decodifica. La memoria externa selecciona explícitamente las palabras de salida de un léxico general y un léxico de sentimientos para mejorar el sentimentalismo de las respuestas. La evaluación final utiliza la perplejidad, la precisión del sentimiento de las respuestas y la evaluación humana.

inserte la descripción de la imagen aquí
EmoDS[23] propone que la expresión emocional puede ser expresión explícita y directa usando palabras emocionales fuertes, o expresión implícita e implícita sin palabras emocionales, por lo que se agregan dos módulos al Codificador-Decodificador: Atención basada en diccionario El mecanismo busca las palabras emocionales deseadas para la expresión explícita, y el clasificador de sentimientos proporciona una guía global para la generación de respuestas emocionales de manera implícita al aumentar la intensidad de la expresión emocional. El modelo se muestra en la figura a continuación. La evaluación final tiene puntaje de incrustación, BLEU, Distinct, índice de sentimiento objetivo y evaluación humana.
inserte la descripción de la imagen aquí
Resumen del método: Este tipo de método es el método mainstream para generar respuestas emocionales , partiendo del Codificador-Decodificador tradicional, se le añaden algunos mecanismos, como vectores emocionales, memorias emocionales y diccionarios emocionales, para que las respuestas generadas tengan un contenido emocional. factores Los artículos del mismo método incluyen EMOTICONS[16], ADGEE[18], AR-S2S[20], Mojitalk[19], Emo-HERD[21], etc.

  • La tercera categoría: modelos de generación de diálogo que no especifican el sentimiento de respuesta

No es necesario especificar la información de la opinión y se considera que el texto anterior ha determinado de forma inherente la opinión del texto siguiente. ANRG[15] es un modelo de codificador-decodificador basado en LSTM, y su modelo se muestra en la siguiente figura. Para sumar factores emocionales se utilizan tres métodos: transformar vectores de palabras a través de la información emocional de las palabras del diccionario emocional; utilizar una función de pérdida con objetivos emocionales; utilizar un algoritmo de búsqueda con diversidad emocional al decodificar. El método de evaluación es la evaluación manual sobre la estandarización de la sintaxis, la naturalidad y la conformidad emocional.
inserte la descripción de la imagen aquí

4. Resumen

Este documento clasifica principalmente dos tareas en la emoción del diálogo: el reconocimiento de la emoción del diálogo y la generación de la emoción del diálogo, y resume los conjuntos de datos relacionados con estas dos tareas y algunos trabajos recientes, que resuelven muchos desafíos clave de sus respectivas tareas. En el futuro, la asociación y fusión de las dos tareas puede traer nuevos desafíos, que también pueden ser una posible dirección de investigación.

5. Referencias

[1] S. Poria, N. Majumder, R. Mihalcea y E. Hovy. Reconocimiento de emociones en la conversación: desafíos de investigación, conjuntos de datos y avances recientes. Acceso IEEE. 2019.
[2] C. Busso et al. IEMOCAP: base de datos interactiva de captura de movimiento diádico emocional. Recursos y evaluación de idiomas. 2008.
[3] G. McKeown, M. Valstar, R. Cowie, M. Pantic y M. Schroder. La base de datos SEMAINE: Registros multimodales anotados de conversaciones emocionalmente coloreadas entre una persona y un agente limitado. Transacciones IEEE sobre computación afectiva. 2012.
[4] Y. Li, H. Su, X. Shen, W. Li, Z. Cao y S. Niu. DailyDialog: un conjunto de datos de diálogo de varios turnos etiquetado manualmente. IJCNLP. 2017.
[5] S.-Y. Chen, C.-C. Hsu, C.-C. Kuo, Ting-Hao, Huang y L.-W. Ku. EmotionLines: un corpus de emociones de conversaciones de múltiples partes. arXiv. 2018.
[6] A. Chatterjee, U. Gupta, MK Chinnakotla, R. Srikanth, M. Galley y P. Agrawal. EmoContext: comprensión de las emociones en el texto mediante el aprendizaje profundo y Big Data. Computadoras en el Comportamiento Humano. 2019.
[7] S. Poria, D. Hazarika, N. Majumder, G. Naik, E. Cambria y R. Mihalcea. MELD: un conjunto de datos multimodal de múltiples partes para el reconocimiento de emociones en conversaciones. LCA. 2019.
[8] S. Poria, E. Cambria, D. Hazarika, N. Majumder, A. Zadeh y L.-P. morencia Análisis de sentimiento dependiente del contexto en videos generados por el usuario. LCA. 2017.
[9] D. Hazarika, S. Poria, A. Zadeh, E. Cambria, L.-P. Morency y R. Zimmermann. Red de memoria conversacional para el reconocimiento de emociones en videos de diálogo diádico. NAACL. 2018.
[10] D. Hazarika, S. Poria, R. Mihalcea, E. Cambria y R. Zimmermann. ICON: Red de Memoria Conversacional Interactiva para la Detección de Emociones Multimodales. EMNLP. 2018.
[11] N. Majumder, S. Poria, D. Hazarika, R. Mihalcea, A. Gelbukh y E. Cambria. DialogueRNN: una RNN atenta para la detección de emociones en las conversaciones. arXiv. 2019.
[12] L. Shang, Z. Lu y H. Li. Máquina de respuesta neuronal para conversaciones de texto corto. LCA. 2015.
[13] H. Zhou, M. Huang, T. Zhang, X. Zhu y B. Liu. Máquina de Chat Emocional: Generación de Conversaciones Emocionales con Memoria Interna y Externa. AAAI. 2018.
[14] C. Danescu-Niculescu-Mizil y L. Lee. Camaleones en conversaciones imaginadas: un nuevo enfoque para comprender la coordinación del estilo lingüístico en los diálogos. CMCL. 2011.
[15] N. Asghar, P. Poupart, J. Hoey, X. Jiang y L. Mou. Generación de Respuesta Neural Afectiva. en Avances en Recuperación de Información. 2018.
[16] P. Colombo, W. Witon, A. Modi, J. Kennedy y M. Kapadia. Generación de diálogos impulsados ​​por el afecto. NAACL. 2019.
[17] J. Tiedemann. Noticias de OPUS: una colección de corpus paralelos multilingües con herramientas e interfaces. 2009.
[18] C. Huang, O. Zaïane, A. Trabelsi y N. Dziri. Generación Automática de Diálogos con Emociones Expresadas. NAACL. 2018.
[19] X. Zhou y WY Wang. MojiTalk: Generación de respuestas emocionales a escala. LCA. 2018.
[20] P. Zhong, D. Wang y C. Miao. Un modelo conversacional neuronal rico en afecto con atención sesgada y pérdida de entropía cruzada ponderada. AAAI. 2019.
[21] N. Lubis, S. Sakti, K. Yoshino y S. Nakamura. Provocar emociones positivas a través de la generación de respuestas de diálogo sensible al afecto: un enfoque de red neuronal. AAAI. 2018.
[22] S. Ghosh, M. Chollet, E. Laksana, L.-P. Morency y S. Scherer. Affect-LM: un modelo de lenguaje neuronal para la generación de texto afectivo personalizable. LCA. 2017.
[23] Z. Song, X. Zheng, L. Liu, M. Xu y X. Huang. Generando Respuestas con una Emoción Específica en el Diálogo. LCA. 2019.

direccion original

1. Introducción

En los últimos años, con el rápido desarrollo de la tecnología de procesamiento del lenguaje natural , el sistema de diálogo humano-computadora ha recibido mucha atención y se ha convertido gradualmente en un centro de investigación en la academia y la industria. Los sistemas de diálogo hombre-máquina continúan desarrollándose y progresando, y el alcance de la aplicación continúa expandiéndose. Las personas también tienen mayores requisitos. Se espera que la máquina pueda comunicarse más profundamente con las personas sobre la base de prestar atención al contenido de la respuesta. .

Algunos trabajos recientes han demostrado [10, 13, 15, 16, 18-21, 23] que en los sistemas de diálogo hombre-máquina, además del contenido de respuesta, la comunicación emocional entre máquinas y humanos también es un tema importante. Los seres humanos pueden comunicarse emocionalmente a través del lenguaje y obtener confort emocional, si el sistema de diálogo quiere comunicarse efectivamente con los humanos, debe tener ciertas capacidades emocionales. Específicamente, por un lado, la máquina necesita reconocer y juzgar la emoción del usuario y, por otro lado, también necesita incorporar la emoción apropiada en su respuesta. Por lo tanto, cómo dar a las máquinas la capacidad de comprender y expresar emociones en el diálogo es una nueva oportunidad y un desafío para el campo del diálogo humano-máquina y el análisis de sentimientos.

Este documento presenta principalmente dos tareas clave en la emoción del diálogo: el reconocimiento de la emoción del diálogo y la generación de la emoción del diálogo, y clasifica los conjuntos de datos comúnmente utilizados y los métodos relacionados para estas dos tareas. En la siguiente parte de este documento, primero explicaremos el contenido relevante de la tarea de reconocimiento de emociones en el diálogo; luego presentaremos la tarea de generación de emociones en el diálogo; finalmente, resumiremos el texto completo y miraremos hacia el futuro.

2. Diálogo Reconocimiento de emociones

2.1 Introducción a la tarea

El reconocimiento de emociones de diálogo es una tarea de clasificación que tiene como objetivo clasificar el sentimiento de (todas) las expresiones en un diálogo. La entrada de la tarea es un diálogo continuo, y la salida es el sentimiento de todas las declaraciones en este diálogo.La Figura 1 da un ejemplo simple. Dado que el diálogo en sí tiene muchos elementos, el reconocimiento de la emoción del discurso no es simplemente equivalente al reconocimiento de la emoción de una sola oración, sino que debe considerar de manera integral los antecedentes, el contexto, el hablante y otra información en el diálogo. Estos son los desafíos únicos en la tarea de reconocimiento de emociones del diálogo.

El reconocimiento de emociones de diálogo se puede utilizar ampliamente en varios escenarios de diálogo, como el análisis de sentimientos de los comentarios en las redes sociales, el análisis de sentimientos del cliente en el servicio al cliente humano, etc. Además, el reconocimiento de emociones de diálogo también se puede aplicar a los chatbots para analizar el estado emocional del usuario en tiempo real y generar respuestas impulsadas por la emoción del usuario.
inserte la descripción de la imagen aquí

2.2 Introducción al conjunto de datos

IEMOCAP[2]. El laboratorio SAIL de la Universidad del Sur de California recopiló 12 horas de datos audiovisuales multimodales de diálogos de dos personas reproducidos por humanos. 10 actores profesionales (5 hombres y 5 mujeres) se dividen en 5 sesiones, ya cada sesión se le asigna 1 hombre y 1 mujer. El diálogo se divide en dos partes, una parte es un guión fijo y la otra parte es un juego libre bajo una situación temática determinada. Hay 151 diálogos con un total de 7433 oraciones. Se marcan seis tipos de emociones: Neutro, Alegría, Tristeza, Ira, Frustrado, Emocionado y las emociones no neutrales representan el 77%. IEMOCAP es el conjunto de datos más utilizado en el reconocimiento de emociones de diálogo. Tiene alta calidad y tiene la ventaja de información multimodal. La desventaja es que el tamaño de los datos es pequeño.
Enlace del conjunto de datos

SEMANA[3]. Los datos de diálogo multimodal recopilados de la base de datos SEMAINE se utilizaron en el desafío AVEC2012 por cuatro robots de imagen fija que hablan con humanos. Los datos utilizados por AVEC2012 tienen 95 diálogos con un total de 5798 oraciones. Se marcan cuatro dimensiones emocionales: Valencia (placer), Excitación (activación), Expectativa (anticipación), Poder (fuerza). La valencia representa el grado de emoción positiva, la excitación representa el grado de excitación, la expectativa representa el grado de conformidad con las expectativas y el poder representa la influencia emocional. Entre ellos, Valencia, Arousa y Expectativa son valores continuos en el rango de [-1, 1], y Potencia es un valor continuo mayor o igual a 0. SEMAINE es uno de los conjuntos de datos comúnmente utilizados en el reconocimiento de emociones de diálogo, pero la desventaja es que el tamaño de los datos es pequeño .
Enlace del conjunto de datos

Diálogo diario[4]. Conjunto de datos de diálogo de múltiples rondas de alta calidad, texto sin formato , bajo nivel de ruido, el diálogo refleja la vida diaria de diferentes temas, sin orador fijo. Además de los 7 tipos de anotaciones emocionales, el conjunto de datos también tiene 10 tipos de anotaciones de temas y 4 tipos de anotaciones de comportamiento de diálogo. 12.218 diálogos con un total de 103.607 frases. Se marcan siete tipos de emociones: Neutro, Alegría, Sorpresa, Tristeza, Ira, Asco, Miedo y las emociones no neutras representan el 16,8%. DailyDialog rara vez se usa en el reconocimiento de emociones de diálogo. La ventaja es que la escala de datos es grande y la desventaja es que la proporción de emociones neutrales es demasiado alta.
Enlace del conjunto de datos

Líneas de emoción[5]. De Amigos (conversaciones múltiples) y registros de chat privados de Facebook (conversaciones de dos personas), texto sin formato , con un hablante fijo. Utilizado en SocialNLP 2018 EmotionX Challenge. En cuanto al contenido, las dos partes son independientes, cada una contiene 1.000 diálogos, con un total de 29.245 frases. Se marcan siete tipos de emociones: Neutro, Alegría, Sorpresa, Tristeza, Ira, Asco, Miedo y las emociones no neutras representan el 44,5%. EmotionLines rara vez se usa en el reconocimiento de emociones de diálogo, generalmente usando conjuntos de datos MELD multimodales.
Enlace del conjunto de datos

Contexto emotivo[6]. Diálogo de dos personas en texto sin formato , cada diálogo tiene tres oraciones y solo la última oración tiene una etiqueta emocional. Utilizado en la Tarea 3 de SemEval-2019. 38421 diálogos, un total de 115263 oraciones. Se marcan cuatro tipos de emociones: Alegría, Tristeza, Ira, Otras y las emociones no neutras representan el 42,8%. EmoContext rara vez se usa en el reconocimiento de emociones de diálogo. La ventaja es que la escala de datos es grande, y la desventaja es que la duración del diálogo es demasiado corta y solo se marca la última oración.
Enlace del conjunto de datos

MELD[7]. Con origen en Friends, es una forma de diálogo entre varias personas y es una extensión multimodal (texto + video) de la parte Friends de EmotionLines . Hay 1433 diálogos con un total de 13708 oraciones. Se marcan 7 tipos de emociones: Neutro, Alegría, Sorpresa, Tristeza, Ira, Disgusto, Miedo y 3 tipos de emociones: Positivo, Negativo, Neutro y no neutral representan el 53%. MELD es uno de los conjuntos de datos comúnmente utilizados en el reconocimiento de emociones de diálogo. La ventaja es que el conjunto de datos es de alta calidad y tiene información multimodal. La desventaja es que el diálogo en el conjunto de datos involucra demasiados antecedentes de la trama, lo que hace que la emoción reconocimiento muy difícil.
Enlace del conjunto de datos

2.3 Introducción de trabajos relacionados

  • Categoría 1: Modelado Contextual

A diferencia del análisis tradicional de sentimiento de una sola oración, las expresiones circundantes pueden proporcionar información contextual importante cuando las expresiones de un diálogo se clasifican sentimentalmente. C-LSTM [8] es un modelo basado en LSTM que puede capturar información contextual, y su modelo se muestra en la siguiente figura. Las características de entrada de cada expresión pasan a través de la unidad LSTM y una capa totalmente conectada para obtener las características de salida de la expresión, que se utilizan para clasificar el sentimiento de la expresión. El LSTM bidireccional puede capturar el contexto de la expresión, lo cual es mejor que el LSTM unidireccional.
inserte la descripción de la imagen aquí

  • Categoría 2: Modelado de altavoces

Además de la información de contexto del enunciado, también se debe considerar en el diálogo el estado y la interacción de los hablantes.

CMN [9], para que se reconozca el enunciado actual, modela el enunciado histórico de cada hablante por separado a través de GRU como una unidad de memoria. Luego, a través del mecanismo de atención, la memoria de cada hablante se fusiona con la representación del enunciado actual y el resultado se utiliza para la clasificación del enunciado, simulando así el estado del hablante individual y la influencia de los diferentes estados del hablante en el enunciado actual. es el siguiente Como se muestra en la figura.

inserte la descripción de la imagen aquí
CMN usa unidades de memoria independientes para diferentes altavoces, sobre esta base, ICON[10] usa unidades de memoria interactivas, y su modelo se muestra en la siguiente figura.

Para que se reconozca la expresión actual, ICON modela la expresión histórica de cada hablante a través del módulo SIM (Módulo de autoinfluencia) y luego modela la influencia entre los hablantes a través del módulo DGIM (Módulo de influencia global dinámica) Obtener el estado global, almacenar en la unidad de memoria, y luego use el mecanismo de Atención para obtener el resultado de la fusión de la unidad de memoria y la representación del discurso actual, que se usa para la clasificación de la emoción del discurso.

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

  • Categoría 3: Modelado para hablantes exigentes

Aunque modelos como CMN e ICON modelan información diferente del hablante, no distinguen a qué hablante pertenece el enunciado para que se reconozca el enunciado final. DialogueRNN [11] resuelve este problema, y ​​al mismo tiempo cree que la emoción del enunciado en el diálogo depende de tres factores: información del hablante, contexto e información emocional del enunciado anterior, y utiliza el estado del hablante (Party GRU), estado global (GRU global) y estado emocional (Emotion GRU) para capturar, el modelo se muestra en la siguiente figura.

Para el enunciado en el momento actual, el estado global se actualiza mediante el estado global del momento anterior, la representación del enunciado actual y el estado del hablante del enunciado actual en el momento anterior. se actualiza el momento, y el estado emocional se actualiza por el estado actual del hablante en el momento y el estado emocional en el momento anterior, y luego el enunciado actual se clasifica con el estado emocional en el momento actual.

inserte la descripción de la imagen aquí

3. Generación de emociones de diálogo

3.1 Introducción de la tarea

Dialogue Sentiment Generation es una tarea generativa que tiene como objetivo generar respuestas emocionales y específicas en los diálogos. En general, hay dos puntos de vista sobre la emoción que se generará: uno es que la emoción que se generará debe señalarse claramente, la entrada de este método es el texto del diálogo y la emoción objetivo, y la salida es la respuesta que contiene la emoción. , que tiene la ventaja de generar Las emociones son flexibles y controlables, pero la desventaja es que se requieren materiales de diálogo etiquetados emocionalmente a gran escala; el otro piensa que las emociones a generar ya están implícitas en el diálogo y no necesitan ser explícitas. dicho, por lo que este tipo de enfoque solo necesita proporcionar datos de diálogo. La ventaja es que se pueden utilizar los datos de diálogo a gran escala existentes, pero la desventaja es que las emociones generadas no son fáciles de controlar. La siguiente figura da un ejemplo simple de generación de sentimiento de diálogo.

La generación de emociones de diálogo se utiliza principalmente en chatbots, lo que puede permitir que los chatbots generen respuestas emocionalmente razonables basadas en la comprensión explícita o implícita de las emociones del usuario y resuelvan el problema de la expresión emocional en los chatbots.

inserte la descripción de la imagen aquí

3.2 Introducción al conjunto de datos

STC[12]. Los datos de Sina Weibo, sin etiquetado de emociones, chino, que consta de preguntas y respuestas, se pueden considerar como una sola ronda de diálogo (pregunta y respuesta), un total de 4,4 millones de pares, la duración promedio de las oraciones de preguntas y respuestas es de 20 y 15 , respectivamente. ECM [13] utiliza el clasificador de emociones Bi-LSTM para etiquetar automáticamente seis tipos de emociones: Enfado, Disgusto, Feliz, Me gusta, Triste, Otro. STC es uno de los conjuntos de datos comúnmente utilizados en la generación de emociones de diálogo. La ventaja es que la escala de datos es grande y la desventaja es que no hay un etiquetado de emoción artificial, que debe marcarse automáticamente con la ayuda de clasificadores de emociones, por lo que la calidad de los datos es media.
Enlace del conjunto de datos

Diálogos de películas de Cornell[14]. Los datos de diálogos de películas recopilados por la Universidad de Cornell no tienen anotaciones emocionales, 220 000 diálogos, 300 000 oraciones, que involucran 9035 caracteres en 617 películas, sin anotaciones y ruido relativamente pequeño. ANRG [15] y EMOTICONS [16] se utilizan para el entrenamiento del modelo seq2seq. Cornell Movie Dialogs es uno de los conjuntos de datos más utilizados en la generación de emociones de diálogo. La ventaja es que la calidad de los datos es alta y la desventaja es que no hay etiquetas de emociones artificiales.
Enlace del conjunto de datos

Subtítulos abiertos[17]. La base de datos de subtítulos de películas multilingüe tiene una gran cantidad de datos, sin anotaciones emocionales y un ruido relativamente grande. ADGEE [18] usa OpenSubtitles2016, hay 11,3 millones de oraciones después del filtrado y un clasificador de sentimientos Bi-LSTM está capacitado para el etiquetado automático de sentimientos. EMOTICONS [16] usa OpenSubtitles2018, y los datos filtrados tienen al menos cuatro rondas de diálogo y 2,5 millones de oraciones. OpenSubtitles es uno de los conjuntos de datos comúnmente utilizados en la generación de emociones de diálogo. La ventaja es que la escala de datos es enorme, y la desventaja es que es ruidoso y no tiene etiquetas de emociones artificiales.
Enlace del conjunto de datos

Gorjeo[19]. Las conversaciones con expresiones emoji obtenidas en Twitter se componen de preguntas y respuestas, que se pueden considerar como una sola ronda de conversaciones, con un total de 660.000 pares. Use los emoticonos emoji adjuntos a la oración como anotaciones de oración, con un total de 64 etiquetas. Mojitalk [19] usa este corpus para entrenar al modelo para generar respuestas emocionales. Mojitalk [19] construyó este conjunto de datos y lo usó para entrenar un modelo para la generación de respuestas de sentimiento.
Enlace del conjunto de datos

Diálogo diario[4]. Conjunto de datos de diálogo de múltiples rondas de alta calidad, 100,000 oraciones, consulte la introducción del conjunto de datos de reconocimiento de emociones de diálogo para obtener más detalles. AR-S2S [20] utiliza este conjunto de datos como un conjunto de prueba para evaluar el rendimiento de generalización del modelo en diferentes diálogos de dominio.
Enlace del conjunto de datos

SEMANA[3]. El conjunto de datos utilizado para el reconocimiento de emociones tiene atributos emocionales pero no etiquetas de categorías de emociones. Emo-HERD [21] de AAAI 2018 utiliza herramientas para etiquetar emociones para ello. Alrededor de 5.000 frases, consulte la introducción del conjunto de datos de reconocimiento de emociones de diálogo para obtener más detalles.
Enlace del conjunto de datos

3.3 Introducción de trabajos relacionados

  • La primera categoría: modelo de lenguaje emocional

Dado un segmento inicial y la información de opinión, se puede generar una oración con una opinión específica.

Affect-LM [22] es un modelo de lenguaje basado en LSTM, que incorpora etiquetas emocionales y fortalezas emocionales en la etapa de predicción de probabilidad de palabras, de modo que se espera que el modelo genere respuestas de una determinada categoría emocional con una determinada intensidad. Los modelos de lenguaje se evalúan usando perplejidad. Su modelo se muestra en la siguiente figura.
inserte la descripción de la imagen aquí

  • La segunda categoría: modelos de generación de diálogo que especifican el sentimiento de respuesta

Dada la información anterior y la opinión, se puede generar una respuesta con la opinión especificada.

ECM [13] es el primer trabajo que considera los factores emocionales en la generación de diálogos a gran escala, y su modelo se muestra en la Fig. 8. Para generar respuestas que especifican emociones en el diálogo, se introducen tres mecanismos en el Codificador-Decodificador tradicional: incrustación de categorías de emociones, memoria interna y memoria externa. La incorporación de categorías emocionales consiste en reemplazar cada categoría emocional con un vector para la actualización de estado del decodificador. La memoria interna, utilizada para capturar la dinámica de la emoción, decae a medida que se decodifica. La memoria externa selecciona explícitamente las palabras de salida de un léxico general y un léxico de sentimientos para mejorar el sentimentalismo de las respuestas. La evaluación final utiliza la perplejidad, la precisión del sentimiento de las respuestas y la evaluación humana.

inserte la descripción de la imagen aquí
EmoDS[23] propone que la expresión emocional puede ser expresión explícita y directa usando palabras emocionales fuertes, o expresión implícita e implícita sin palabras emocionales, por lo que se agregan dos módulos al Codificador-Decodificador: Atención basada en diccionario El mecanismo busca las palabras emocionales deseadas para la expresión explícita, y el clasificador de sentimientos proporciona una guía global para la generación de respuestas emocionales de manera implícita al aumentar la intensidad de la expresión emocional. El modelo se muestra en la figura a continuación. La evaluación final tiene puntaje de incrustación, BLEU, Distinct, índice de sentimiento objetivo y evaluación humana.
inserte la descripción de la imagen aquí
Resumen del método: Este tipo de método es el método mainstream para generar respuestas emocionales , partiendo del Codificador-Decodificador tradicional, se le añaden algunos mecanismos, como vectores emocionales, memorias emocionales y diccionarios emocionales, para que las respuestas generadas tengan un contenido emocional. factores Los artículos del mismo método incluyen EMOTICONS[16], ADGEE[18], AR-S2S[20], Mojitalk[19], Emo-HERD[21], etc.

  • La tercera categoría: modelos de generación de diálogo que no especifican el sentimiento de respuesta

No es necesario especificar la información de la opinión y se considera que el texto anterior ha determinado de forma inherente la opinión del texto siguiente. ANRG[15] es un modelo de codificador-decodificador basado en LSTM, y su modelo se muestra en la siguiente figura. Para sumar factores emocionales se utilizan tres métodos: transformar vectores de palabras a través de la información emocional de las palabras del diccionario emocional; utilizar una función de pérdida con objetivos emocionales; utilizar un algoritmo de búsqueda con diversidad emocional al decodificar. El método de evaluación es la evaluación manual sobre la estandarización de la sintaxis, la naturalidad y la conformidad emocional.
inserte la descripción de la imagen aquí

4. Resumen

Este documento clasifica principalmente dos tareas en la emoción del diálogo: el reconocimiento de la emoción del diálogo y la generación de la emoción del diálogo, y resume los conjuntos de datos relacionados con estas dos tareas y algunos trabajos recientes, que resuelven muchos desafíos clave de sus respectivas tareas. En el futuro, la asociación y fusión de las dos tareas puede traer nuevos desafíos, que también pueden ser una posible dirección de investigación.

5. Referencias

[1] S. Poria, N. Majumder, R. Mihalcea y E. Hovy. Reconocimiento de emociones en la conversación: desafíos de investigación, conjuntos de datos y avances recientes. Acceso IEEE. 2019.
[2] C. Busso et al. IEMOCAP: base de datos interactiva de captura de movimiento diádico emocional. Recursos y evaluación de idiomas. 2008.
[3] G. McKeown, M. Valstar, R. Cowie, M. Pantic y M. Schroder. La base de datos SEMAINE: Registros multimodales anotados de conversaciones emocionalmente coloreadas entre una persona y un agente limitado. Transacciones IEEE sobre computación afectiva. 2012.
[4] Y. Li, H. Su, X. Shen, W. Li, Z. Cao y S. Niu. DailyDialog: un conjunto de datos de diálogo de varios turnos etiquetado manualmente. IJCNLP. 2017.
[5] S.-Y. Chen, C.-C. Hsu, C.-C. Kuo, Ting-Hao, Huang y L.-W. Ku. EmotionLines: un corpus de emociones de conversaciones de múltiples partes. arXiv. 2018.
[6] A. Chatterjee, U. Gupta, MK Chinnakotla, R. Srikanth, M. Galley y P. Agrawal. EmoContext: comprensión de las emociones en el texto mediante el aprendizaje profundo y Big Data. Computadoras en el Comportamiento Humano. 2019.
[7] S. Poria, D. Hazarika, N. Majumder, G. Naik, E. Cambria y R. Mihalcea. MELD: un conjunto de datos multimodal de múltiples partes para el reconocimiento de emociones en conversaciones. LCA. 2019.
[8] S. Poria, E. Cambria, D. Hazarika, N. Majumder, A. Zadeh y L.-P. morencia Análisis de sentimiento dependiente del contexto en videos generados por el usuario. LCA. 2017.
[9] D. Hazarika, S. Poria, A. Zadeh, E. Cambria, L.-P. Morency y R. Zimmermann. Red de memoria conversacional para el reconocimiento de emociones en videos de diálogo diádico. NAACL. 2018.
[10] D. Hazarika, S. Poria, R. Mihalcea, E. Cambria y R. Zimmermann. ICON: Red de Memoria Conversacional Interactiva para la Detección de Emociones Multimodales. EMNLP. 2018.
[11] N. Majumder, S. Poria, D. Hazarika, R. Mihalcea, A. Gelbukh y E. Cambria. DialogueRNN: una RNN atenta para la detección de emociones en las conversaciones. arXiv. 2019.
[12] L. Shang, Z. Lu y H. Li. Máquina de respuesta neuronal para conversaciones de texto corto. LCA. 2015.
[13] H. Zhou, M. Huang, T. Zhang, X. Zhu y B. Liu. Máquina de Chat Emocional: Generación de Conversaciones Emocionales con Memoria Interna y Externa. AAAI. 2018.
[14] C. Danescu-Niculescu-Mizil y L. Lee. Camaleones en conversaciones imaginadas: un nuevo enfoque para comprender la coordinación del estilo lingüístico en los diálogos. CMCL. 2011.
[15] N. Asghar, P. Poupart, J. Hoey, X. Jiang y L. Mou. Generación de Respuesta Neural Afectiva. en Avances en Recuperación de Información. 2018.
[16] P. Colombo, W. Witon, A. Modi, J. Kennedy y M. Kapadia. Generación de diálogos impulsados ​​por el afecto. NAACL. 2019.
[17] J. Tiedemann. Noticias de OPUS: una colección de corpus paralelos multilingües con herramientas e interfaces. 2009.
[18] C. Huang, O. Zaïane, A. Trabelsi y N. Dziri. Generación Automática de Diálogos con Emociones Expresadas. NAACL. 2018.
[19] X. Zhou y WY Wang. MojiTalk: Generación de respuestas emocionales a escala. LCA. 2018.
[20] P. Zhong, D. Wang y C. Miao. Un modelo conversacional neuronal rico en afecto con atención sesgada y pérdida de entropía cruzada ponderada. AAAI. 2019.
[21] N. Lubis, S. Sakti, K. Yoshino y S. Nakamura. Provocar emociones positivas a través de la generación de respuestas de diálogo sensible al afecto: un enfoque de red neuronal. AAAI. 2018.
[22] S. Ghosh, M. Chollet, E. Laksana, L.-P. Morency y S. Scherer. Affect-LM: un modelo de lenguaje neuronal para la generación de texto afectivo personalizable. LCA. 2017.
[23] Z. Song, X. Zheng, L. Liu, M. Xu y X. Huang. Generando Respuestas con una Emoción Específica en el Diálogo. LCA. 2019.

Supongo que te gusta

Origin blog.csdn.net/ganxiwu9686/article/details/125525983
Recomendado
Clasificación