Namoradas estão sempre bravas, entende namoradas, homens heterossexuais não são tão bons quanto algoritmos?

Original: HyperAI Super Neural

Descrição do cenário : Geralmente há duas maneiras de usar a tecnologia de IA para julgar as emoções de uma pessoa: uma é por meio de expressões faciais e a outra é por meio da voz. O primeiro está relativamente maduro, enquanto a investigação sobre emoções no reconhecimento da fala está a desenvolver-se rapidamente. Recentemente, algumas equipes de pesquisa propuseram novos métodos para identificar com mais precisão as emoções nas vozes dos usuários.

Palavras-chave : Classificação de Emoções de Reconhecimento de Emoções de Fala


Há muitas perguntas em Zhihu sobre "como julgar se uma namorada está com raiva". Algumas pessoas respondem: quanto menos palavras, maior o problema; algumas pessoas dizem: com muita raiva, sem contato por um mês; com raiva".
“Sua namorada está com raiva?” é um problema eterno
“Sua namorada está com raiva?” é um problema eterno

Portanto, o “não estou com raiva/realmente não estou com raiva” da namorada = “muito bravo”; “estou com raiva” = “aja como um bebê, não com raiva, apenas abrace e segure alto”. Essa lógica emocional enlouquece os homens heterossexuais.
insira a descrição da imagem aqui
Não consigo sentir as emoções da minha namorada.

Como posso saber se minha namorada está com raiva? Diz-se que a IA obteve avanços na audição das emoções, o que pode ser mais preciso do que os meninos coçando a cabeça durante meio dia.

Assistente de voz Alexa: estou praticando para me tornar um homem caloroso

A assistente de voz da Amazon, Alexa, pode ser mais inteligente que seu namorado quando se trata de sentir emoções.

Este ano, após a última atualização, Alexa conseguiu identificar emoções como felicidade, alegria, raiva, tristeza, irritabilidade, medo, nojo, tédio e até estresse analisando a resposta aos comandos do usuário, como nível e volume e responda aos comandos correspondentes.
insira a descrição da imagem aqui
Por exemplo, se uma garota assoar o nariz e tossir e dizer a Alexa que está com um pouco de fome, Alexa analisará o tom da fala da garota (fraco, baixo) e os sons de fundo (tosse, assoar o nariz). e, em seguida, envie cuidadosos cuidados da máquina: Gostaria de uma tigela de canja de galinha ou pedir uma comida para viagem? Ou até mesmo pedir um frasco de xarope para tosse diretamente online e recebê-lo em uma hora?

Essa performance não é mais carinhosa do que um namorado heterossexual?

Não é novidade para a inteligência artificial classificar emoções, mas recentemente, a equipe do Amazon Alexa Speech quebrou o método tradicional há algum tempo e publicou novos resultados de pesquisa.

Os métodos tradicionais são supervisionados e os dados de treinamento obtidos são rotulados de acordo com o estado emocional do falante. Cientistas da equipe Alexa Speech da Amazon adotaram recentemente uma abordagem diferente, apresentando seu artigo "Melhorando a classificação das emoções por meio da inferência variacional de variáveis ​​​​latentes" na Conferência Internacional sobre Acústica, Fala e Processamento de Sinais (ICASSP) .
insira a descrição da imagem aqui
Em vez de usar um corpus de “sentimentos” exaustivamente anotados para treinar o sistema, eles forneceram um autoencoder adversário (AAE). Este é um conjunto de dados disponível publicamente de 10.000 declarações de 10 falantes diferentes.

Eles descobriram que a rede neural era 4% mais precisa no julgamento da valência emocional, ou valor emocional, nas vozes das pessoas. Com um esforço de equipe, o humor ou o estado emocional do usuário podem ser determinados com segurança a partir da voz do usuário.
insira a descrição da imagem aqui
Diagrama esquemático do princípio do modelo AAE

Coautor do artigo, Viktor Rozgic, cientista aplicado sênior do grupo Alexa Speech, explicou que um autoencoder adversário é um modelo de duas partes que inclui um codificador – um codificador e um decodificador. O codificador aprende a gerar uma representação compacta (ou latente) da fala de entrada, codificando todas as propriedades dos exemplos de treinamento; enquanto o decodificador reconstrói a entrada a partir da representação compacta.
insira a descrição da imagem aqui
Arquitetura contra autoencoders

A representação emocional dos pesquisadores consiste em três nós de rede para três medidas emocionais: valência, ativação (se o falante está alerta, engajado ou passivo) e dominância (se o falante se sente controlado pela situação circundante).

O treinamento ocorre em três fases. O primeiro estágio treina o codificador e o decodificador separadamente usando dados não rotulados. A segunda etapa é o treinamento adversário, técnica em que o discriminador adversário tenta distinguir a representação real produzida pelo codificador da representação artificial, que é utilizada para ajustar o codificador. Na terceira etapa, o codificador é ajustado para garantir a representação da emoção latente para prever o rótulo emocional dos dados de treinamento.

Para capturar informações sobre sinais de fala, em experimentos “projetados manualmente” envolvendo representações de recursos em nível de sentença, seu sistema de IA foi 3% mais preciso do que redes tradicionalmente treinadas na avaliação de valência.

Além disso, apresentam uma melhoria de 4% no desempenho ao alimentar a rede com uma sequência que representa as propriedades acústicas de quadros (ou clipes de áudio) de 20 milissegundos.

Laboratório do MIT constrói rede neural para perceber a raiva em 1,2 segundos

A Amazon não é a única empresa que trabalha na detecção aprimorada de emoções com base em voz. O MIT Media Lab Affectiva demonstrou recentemente uma rede neural, SoundNet, que pode classificar a raiva com dados de áudio, independentemente do idioma, em apenas 1,2 segundos (além do tempo que os humanos levam para perceber a raiva).
insira a descrição da imagem aqui
Pesquisadores da Affectiva descrevem o sistema em um novo artigo , “Transferir aprendizagem de representações sonoras para detecção de raiva na fala”. Baseia-se em dados de voz e faciais para criar perfis emocionais.

Para testar a generalização do modelo de IA, a equipe avaliou um modelo treinado em dados emocionais da fala em mandarim (o Mandarin Affective Corpus, ou MASC), usando o modelo treinado em inglês. Acontece que ele não apenas generaliza bem para dados de fala em inglês, mas também funciona bem com dados chineses, embora com uma ligeira queda no desempenho.
insira a descrição da imagem aqui
A curva ROC dos resultados do treinamento para inglês e chinês, a linha pontilhada representa o ROC do classificador aleatório

“Reconhecer a raiva tem uma ampla gama de aplicações, incluindo interfaces de conversação e bots sociais, sistemas interativos de resposta de voz (IVR), pesquisa de mercado, avaliação e treinamento de agentes de clientes e realidade virtual e aumentada”, disse a equipe.

O trabalho futuro desenvolverá outros grandes corpora públicos e treinará sistemas de IA para tarefas relacionadas baseadas na fala, como o reconhecimento de outros tipos de emoções e estados afetivos.

Aplicativo israelense reconhece emoções: 80% de precisão

A start-up israelense Beyond Verbal desenvolveu um aplicativo chamado Moodies, que pode coletar a voz do locutor por meio de um microfone e, após cerca de 20 segundos de análise, julgar as características emocionais do locutor.
insira a descrição da imagem aqui
Moodies possui um conjunto de algoritmos especiais, e o software analisa as dimensões emocionais do locutor, como ritmo, tempo, volume da voz, pausas e energia

Embora os especialistas em análise de fala reconheçam a correlação entre linguagem e emoção, muitos questionam a precisão dessas medições em tempo real – essas ferramentas coletam amostras de som muito limitadas, e a análise real pode levar anos de amostras.

“No nível atual da neurociência cognitiva, simplesmente não temos a tecnologia para compreender verdadeiramente os pensamentos ou emoções de uma pessoa”, disse Andrew Baron, professor assistente de psicologia na Universidade de Columbia.

No entanto, Dan Emodi, vice-presidente de marketing da Beyond Verbal, disse que Moodies foi pesquisado por mais de três anos e, de acordo com o feedback dos usuários, a taxa de precisão da análise do aplicativo é de cerca de 80%.

Beyond Verbal disse que Moodies pode ser aplicado ao diagnóstico autoemocional, centro de atendimento ao cliente que cuida do relacionamento com o cliente e até mesmo detecta se os candidatos a emprego estão mentindo. Claro, você também pode trazê-los para o cenário de namoro para ver se a outra parte está realmente interessada em você.

O reconhecimento de emoções de fala ainda enfrenta desafios

Embora muitas empresas de tecnologia já façam pesquisas nesta área há muitos anos, elas também têm alcançado bons resultados. No entanto, conforme questionado acima por Andrew Baron, a tecnologia enfrenta vários desafios.

Assim como o calmo "Não estou com raiva" de uma namorada não significa que ela realmente não esteja com raiva, uma pronúncia pode conter múltiplas emoções e os limites das diferentes emoções são difíceis de definir. Qual emoção é a emoção dominante no momento?

Você pode clicar aqui para ver o vídeo hilário lançado por um produto doméstico de reconhecimento de emoções de fala.

Nem todo tom de voz é tão óbvio e intenso como no vídeo, expressar emoção é algo muito pessoal, que varia muito de acordo com o indivíduo, o ambiente e até a cultura.

Além disso, uma emoção pode durar muito tempo, mas também haverá emoções que mudam rapidamente durante o período.O sistema de reconhecimento de emoções detecta emoções de longo prazo ou emoções de curto prazo? Por exemplo, uma pessoa está limitada à dor do desemprego, mas está temporariamente feliz por causa da preocupação dos seus amigos, mas na verdade ainda está num estado triste.Como a IA deve definir o seu estado?

Outra preocupação é que quando esses produtos conseguirem compreender as emoções das pessoas, eles farão mais perguntas sobre privacidade e obterão diversas informações sobre os usuários devido à dependência dos usuários deles, de modo a fazer com que os "serviços" se tornem uma "compra e venda"?

Que você tenha Dabai e alguém que realmente te entenda

Muitas pessoas querem ter um Dabai caloroso e atencioso. Será que este robô com alto EQ encontrado apenas em animações de ficção científica se tornará realidade no futuro?
insira a descrição da imagem aqui
Fale com Xiaobing muito baixo e devagar e obtenha uma resposta implacável

Atualmente, muitos chatbots ainda não possuem inteligência emocional, não conseguem perceber as pequenas emoções dos usuários e muitas vezes conversam até a morte. Portanto, quem realmente consegue te entender ainda é aquela pessoa que está ao seu lado e te ouve.

Acho que você gosta

Origin blog.csdn.net/HyperAI/article/details/94737043
Recomendado
Clasificación