Las novias siempre están enojadas, entienden a las novias, ¿los hombres heterosexuales no son tan buenos como los algoritmos?

Original: HyperAI súper neuronal

Descripción del escenario : Por lo general, hay dos formas de utilizar la tecnología de inteligencia artificial para juzgar las emociones de una persona, una es mediante expresiones faciales y la otra mediante la voz. El primero está relativamente maduro, mientras que la investigación sobre las emociones en el reconocimiento de voz se está desarrollando rápidamente. Recientemente, algunos equipos de investigación han propuesto nuevos métodos para identificar con mayor precisión las emociones en las voces de los usuarios.

Palabras clave : Habla Emoción Reconocimiento Clasificación de emociones


Hay muchas preguntas sobre Zhihu sobre "cómo juzgar si una novia está enojada". Algunas personas responden: cuantas menos palabras, mayor es el problema; algunas personas dicen: muy enojada, sin contacto durante un mes; enojada".
"¿Tu novia está enojada?" es un problema eterno
"¿Tu novia está enojada?" es un problema eterno

Por lo tanto, la novia "No estoy enojada/realmente no enojada" = "muy enojada"; "Estoy enojada" = "actúa como un bebé, no enojada, solo abraza y mantén en alto". Esta lógica emocional vuelve locos a los hombres heterosexuales.
inserte la descripción de la imagen aquí
No puedo sentir las emociones de mi novia en absoluto.

¿Cómo puedo saber si mi novia está enojada? Se dice que la IA ha logrado logros en la escucha de las emociones, que pueden ser más precisas que los niños que se rascan la cabeza durante medio día.

Asistente de voz de Alexa: estoy practicando para convertirme en un hombre cálido

La asistente de voz de Amazon, Alexa, puede ser más inteligente que tu novio cuando se trata de sentir emociones.

Este año, tras la última actualización, Alexa ha podido identificar emociones como felicidad, alegría, enfado, tristeza, irritabilidad, miedo, asco, aburrimiento e incluso estrés analizando la respuesta a la orden del usuario, como el nivel y el volumen. y responder al comando correspondiente.
inserte la descripción de la imagen aquí
Por ejemplo, si una niña se suena la nariz y tose y le dice a Alexa que tiene un poco de hambre, entonces Alexa analizará el tono del habla de la niña (débil, bajo) y los sonidos de fondo (tos, sonarse la nariz). y luego envía un mensaje cariñoso desde la máquina: ¿Quieres un plato de sopa de pollo o pedir comida para llevar? ¿O incluso pedir un frasco de jarabe para la tos directamente online y recibirlo en una hora?

¿No es esta actuación más cariñosa que la de un novio heterosexual?

No es nada nuevo que la inteligencia artificial clasifique las emociones, sin embargo, recientemente, el equipo de Amazon Alexa Speech rompió el método tradicional hace algún tiempo y publicó nuevos resultados de investigación.

Los métodos tradicionales son supervisados ​​y los datos de entrenamiento obtenidos se han etiquetado según el estado emocional del hablante. Los científicos del equipo Alexa Speech de Amazon adoptaron recientemente un enfoque diferente y presentaron su artículo "Mejora de la clasificación de emociones a través de la inferencia variacional de variables latentes" en la Conferencia Internacional sobre Acústica, Habla y Procesamiento de Señales (ICASSP) .
inserte la descripción de la imagen aquí
En lugar de utilizar un corpus de "sentimiento" exhaustivamente anotado para entrenar el sistema, proporcionaron un codificador automático adversario (AAE). Se trata de un conjunto de datos disponible públicamente de 10.000 expresiones de 10 hablantes diferentes.

Descubrieron que la red neuronal era un 4 por ciento más precisa a la hora de juzgar la valencia emocional o el valor emocional de las voces de las personas. Con un esfuerzo de equipo, el estado de ánimo o emocional del usuario se puede determinar de forma fiable a partir de su voz.
inserte la descripción de la imagen aquí
Diagrama esquemático del principio del modelo AAE.

El coautor del artículo, Viktor Rozgic, científico aplicado senior del grupo Alexa Speech, explicó que un codificador automático adversario es un modelo de dos partes que incluye un codificador: un codificador y un decodificador. El codificador aprende a generar una representación compacta (o latente) del habla de entrada, codificando todas las propiedades de los ejemplos de entrenamiento; mientras que el decodificador reconstruye la entrada a partir de la representación compacta.
inserte la descripción de la imagen aquí
Arquitectura contra codificadores automáticos

La representación de las emociones de los investigadores consta de tres nodos de red para tres medidas de emoción: valencia, activación (si el hablante está alerta, comprometido o pasivo) y dominancia (si el hablante se siente controlado por la situación circundante).

La formación se desarrolla en tres fases. La primera etapa entrena el codificador y el decodificador por separado utilizando datos sin etiquetar. La segunda etapa es el entrenamiento adversario, una técnica en la que el discriminador adversario intenta distinguir la representación real producida por el codificador de la representación artificial, que se utiliza para ajustar el codificador. En la tercera etapa, el codificador se ajusta para garantizar la representación de la emoción latente para predecir la etiqueta de emoción de los datos de entrenamiento.

Para capturar información sobre las señales del habla, en experimentos "diseñados manualmente" que involucraban representaciones de características a nivel de oración, su sistema de inteligencia artificial fue un 3% más preciso que las redes entrenadas tradicionalmente en la evaluación de la valencia.

Además, muestran una mejora del 4% en el rendimiento al alimentar a la red con una secuencia que representa las propiedades acústicas de fotogramas (o clips de audio) de 20 milisegundos.

El laboratorio del MIT construye una red neuronal para percibir la ira en 1,2 segundos

Amazon no es la única empresa que trabaja en una mejor detección de emociones basada en la voz. MIT Media Lab Affectiva demostró recientemente una red neuronal, SoundNet, que podría clasificar la ira con datos de audio, independientemente del idioma, en sólo 1,2 segundos (más allá del tiempo que tardan los humanos en percibir la ira).
inserte la descripción de la imagen aquí
Los investigadores de Affectiva describen el sistema en un nuevo artículo , "Transferir aprendizaje a partir de representaciones sonoras para la detección de ira en el habla". Se basa en datos faciales y de voz para crear perfiles emocionales.

Para probar la generalización del modelo de IA, el equipo evaluó un modelo entrenado con datos de emociones del habla en mandarín (el cuerpo afectivo en mandarín, o MASC), utilizando el modelo entrenado en inglés. Resulta que no sólo se generaliza bien a los datos de voz en inglés, sino que también funciona bien con los datos en chino, aunque con una ligera caída en el rendimiento.
inserte la descripción de la imagen aquí
La curva ROC de los resultados del entrenamiento para inglés y chino, la línea de puntos representa la ROC del clasificador aleatorio

"Reconocer la ira tiene una amplia gama de aplicaciones, incluidas interfaces conversacionales y robots sociales, sistemas de respuesta de voz interactiva (IVR), investigación de mercado, evaluación y capacitación de agentes de clientes, y realidad virtual y aumentada", dijo el equipo.

El trabajo futuro desarrollará otros grandes corpus públicos y entrenará sistemas de inteligencia artificial para tareas relacionadas basadas en el habla, como el reconocimiento de otros tipos de emociones y estados afectivos.

Una aplicación israelí reconoce emociones: 80% de precisión

La nueva empresa israelí Beyond Verbal ha desarrollado una aplicación llamada Moodies, que puede recoger la voz del hablante a través de un micrófono y, después de unos 20 segundos de análisis, juzgar las características emocionales del hablante.
inserte la descripción de la imagen aquí
Moodies tiene un conjunto de algoritmos especiales y el software analiza las dimensiones emocionales del hablante, como el ritmo, la sincronización, el volumen de la voz, las pausas y la energía.

Si bien los expertos en análisis del habla reconocen la correlación entre el lenguaje y las emociones, muchos cuestionan la precisión de tales mediciones en tiempo real: estas herramientas recopilan muestras de sonido muy limitadas y el análisis real puede tomar años de muestras.

"En el nivel actual de la neurociencia cognitiva, simplemente no tenemos la tecnología para comprender verdaderamente los pensamientos o emociones de una persona", afirmó Andrew Baron, profesor asistente de psicología en la Universidad de Columbia.

Sin embargo, Dan Emodi, vicepresidente de marketing de Beyond Verbal, dijo que Moodies ha sido investigado durante más de tres años y, según los comentarios de los usuarios, la tasa de precisión del análisis de la aplicación es de aproximadamente el 80%.

Beyond Verbal dijo que Moodies se puede aplicar al diagnóstico autoemocional, al centro de atención al cliente que se ocupa de las relaciones con los clientes e incluso a detectar si los solicitantes de empleo mienten. Por supuesto, también puedes llevarlos a la escena de las citas para ver si la otra parte está realmente interesada. en ti.

El reconocimiento de las emociones del habla aún enfrenta desafíos

Aunque muchas empresas tecnológicas llevan muchos años investigando en este ámbito, también han conseguido buenos resultados. Sin embargo, como lo cuestionó Andrew Baron anteriormente, la tecnología enfrenta varios desafíos.

Al igual que el tranquilo "No estoy enojada" de una novia no significa que en realidad no esté enojada, una pronunciación puede contener múltiples emociones y los límites de las diferentes emociones son difíciles de definir. ¿Cuál emoción es la emoción dominante actual?

Puede hacer clic aquí para ver el divertido vídeo publicado por un producto nacional de reconocimiento de emociones del habla.

No todo el tono es tan evidente e intenso como en el vídeo, expresar emociones es algo muy personal, que varía mucho según el individuo, el entorno e incluso la cultura.

Además, una emoción puede durar mucho tiempo, pero también habrá emociones que cambian rápidamente durante el período. ¿El sistema de reconocimiento de emociones detecta emociones a largo plazo o emociones a corto plazo? Por ejemplo, una persona está limitada por el dolor del desempleo, pero temporalmente está feliz debido a la preocupación de sus amigos, pero en realidad todavía se encuentra en un estado triste ¿Cómo debería la IA definir su estado?

Otra preocupación es que cuando estos productos puedan comprender las emociones de las personas, ¿harán más preguntas sobre privacidad y obtendrán información diversa sobre los usuarios debido a la dependencia de los usuarios de ellos, para que el "servicio" se convierta en una "compra y venta"?

Que tengas a Dabai y a alguien que realmente te entienda.

Mucha gente quiere tener un Dabai cálido y cariñoso, ¿se hará realidad en el futuro este robot con un alto ecualizador que solo se encuentra en animaciones de ciencia ficción?
inserte la descripción de la imagen aquí
Habla con Xiaobing en voz muy baja y lenta y obtén una respuesta despiadada.

En la actualidad, muchos chatbots todavía no tienen inteligencia emocional, no pueden percibir las pequeñas emociones de los usuarios y, a menudo, charlan hasta la muerte. Por tanto, quien realmente puede entenderte sigue siendo la persona que está a tu lado y te escucha.

Supongo que te gusta

Origin blog.csdn.net/HyperAI/article/details/94737043
Recomendado
Clasificación