Modelo de IA pode adivinhar emoções analisando nosso tom de voz

Modelos de machine learning conseguem dizer qual emoção está expressa em um tom de voz; seja raiva, alegria, nojo ou outras
Por Leandro Costa Criscuolo, editado por Lucas Soares 27/03/2024 03h21
voz
Imagem: metamorworks/Shutterstock
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

O tom de voz de uma pessoa pode dizer muito sobre como ela está se sentindo. Se para nós, humanos, é fácil perceber isso em uma conversa com alguém, será que inteligências artificiais conseguiriam fazer o mesmo? É o que pesquisadores da Alemanha tentaram responder.

Ofertas

Pentel Lapiseira Tecnica Graphgear 1000 0.5mm CP/PG1015-A
Vendido por Amazon
Pentel Lapiseira Tecnica Graphgear 1000 0.5mm CP/PG1015-A
De: R$ 113,17
Por: R$ 60,56
TP-Link BE11000 Tri-Band Whole Home Mesh WiFi 7, até 11 Gbps, MLO, 320 MHz, banda de 6 GHz, roteador wifi7, roaming de IA sem costura, segurança HomeShield, jogos e streaming (Deco BE65 2-pack)
Vendido por Amazon
TP-Link BE11000 Tri-Band Whole Home Mesh WiFi 7, até 11 Gbps, MLO, 320 MHz, banda de 6 GHz, roteador wifi7, roaming de IA sem costura, segurança HomeShield, jogos e streaming (Deco BE65 2-pack)
Por R$ 2.419,90
Tilibra - Agenda Costurada Diária 12,3 x 16,6 cm Charme 2026 - Flores - fundo rosa
Vendido por Amazon
Tilibra - Agenda Costurada Diária 12,3 x 16,6 cm Charme 2026 - Flores - fundo rosa
De: R$ 30,90
Por: R$ 27,81
Con-Tact Cristal Papel Adesivo 45cm x 25m, transparente com espessura 80 Micras. Ideal para Proteção e Revestimento - C180
Vendido por Amazon
Con-Tact Cristal Papel Adesivo 45cm x 25m, transparente com espessura 80 Micras. Ideal para Proteção e Revestimento - C180
De: R$ 109,23
Por: R$ 52,79
Garmin Relógio Venu 3 Preto 45mm com Monitor Cardíaco de Pulso e GPS
Vendido por Amazon
Garmin Relógio Venu 3 Preto 45mm com Monitor Cardíaco de Pulso e GPS
De: R$ 4.699,00
Por: R$ 3.099,00
Mouse Gamer Redragon Bullseye Pro, Wireless 2.4GHz Cabo ou Bluetooth, RGB, 7 Botões, 26000DPI, Preto - M806RGB-PRO
Vendido por Amazon
Mouse Gamer Redragon Bullseye Pro, Wireless 2.4GHz Cabo ou Bluetooth, RGB, 7 Botões, 26000DPI, Preto - M806RGB-PRO
De: R$ 316,25
Por: R$ 225,90
AuroraLink Adaptador Carplay sem fio para Apple iPhone e Android Auto 2 em 1, adaptador sem fio Carplay rápido e estável, converte com fio para dongle de reprodução de carro sem fio para iOS 10+
Vendido por Amazon
AuroraLink Adaptador Carplay sem fio para Apple iPhone e Android Auto 2 em 1, adaptador sem fio Carplay rápido e estável, converte com fio para dongle de reprodução de carro sem fio para iOS 10+
De: R$ 416,17
Por: R$ 241,03
Baba Eletronica, Camera de Segurança Wifi, Tela LCD, Áudio Bidirecional, VOX (Ativação por Voz), Alerta de Temperatura, Lembrete de Alimentação, 8 Canções, Sinal FHSS Criptografado
Vendido por Amazon
Baba Eletronica, Camera de Segurança Wifi, Tela LCD, Áudio Bidirecional, VOX (Ativação por Voz), Alerta de Temperatura, Lembrete de Alimentação, 8 Canções, Sinal FHSS Criptografado
De: R$ 399,99
Por: R$ 237,99
Câmera IP Sem Fio de Segurança Externa HD 3MP, Câmera de Visão Noturna Infravermelha WiFi, tripla Lente Grande Angular, IP68 à Prova D'água e à Prova de Poeira
Vendido por Amazon
Câmera IP Sem Fio de Segurança Externa HD 3MP, Câmera de Visão Noturna Infravermelha WiFi, tripla Lente Grande Angular, IP68 à Prova D'água e à Prova de Poeira
De: R$ 299,00
Por: R$ 216,11
Suporte Celular com Rastreamento Automático de Movimento e Rosto, Rotação de 360° Automática, Segue Seus Movimentos, Tripé Estabilizador Celular Câmera Inteligentecom, Com Controle Remoto, Lives
Vendido por Amazon
Suporte Celular com Rastreamento Automático de Movimento e Rosto, Rotação de 360° Automática, Segue Seus Movimentos, Tripé Estabilizador Celular Câmera Inteligentecom, Com Controle Remoto, Lives
De: R$ 84,90
Por: R$ 79,90
Basike Power Bank 30000mAh, Carregador Portátil com Carregamento Rápido, USB-A (até 22,5W, QC) + USB-C (até 20W, PD) + 2 Cabos Integrados (USB-C e Lightning), LED Numeric Power Display – Preto
Vendido por Amazon
Basike Power Bank 30000mAh, Carregador Portátil com Carregamento Rápido, USB-A (até 22,5W, QC) + USB-C (até 20W, PD) + 2 Cabos Integrados (USB-C e Lightning), LED Numeric Power Display – Preto
De: R$ 198,00
Por: R$ 174,00
CROWNFUL Balança de alimentos, balança digital de cozinha de 5 kg, peso onças e gramas para cozinhar e assar, 6 unidades com função de tara (bateria incluída)
Vendido por Amazon
CROWNFUL Balança de alimentos, balança digital de cozinha de 5 kg, peso onças e gramas para cozinhar e assar, 6 unidades com função de tara (bateria incluída)
De: R$ 59,99
Por: R$ 37,99
Fone De Ouvido Headset Gamer Com Microfone, Falante 40mm, Plug 3.5mm, Compatível com Computador, Celular e Video Games
Vendido por Amazon
Fone De Ouvido Headset Gamer Com Microfone, Falante 40mm, Plug 3.5mm, Compatível com Computador, Celular e Video Games
Por R$ 59,49
Monitor 20 Polegadas, HD v, Taxa de Atualização 75Hz, Alto-falantes Integrados, Tempo de Resposta 5ms, Conexões HDMI/VGA, Preto
Vendido por Amazon
Monitor 20 Polegadas, HD v, Taxa de Atualização 75Hz, Alto-falantes Integrados, Tempo de Resposta 5ms, Conexões HDMI/VGA, Preto
De: R$ 299,00
Por: R$ 284,04
Smartwatch, HUAWEI WATCH GT 5 Pro 46mm, Cerâmica e Titânio, Monitoramento Esportivo Profissional, Mapas de campos de golfe, Até 2 Semanas de Bateria, Compatível com iOS e Android, Preto
Vendido por Amazon
Smartwatch, HUAWEI WATCH GT 5 Pro 46mm, Cerâmica e Titânio, Monitoramento Esportivo Profissional, Mapas de campos de golfe, Até 2 Semanas de Bateria, Compatível com iOS e Android, Preto
De: R$ 1.895,00
Por: R$ 1.439,90
Redragon MOUSE GAMER INVADER CHROMA RGB - M719-RGB
Vendido por Amazon
Redragon MOUSE GAMER INVADER CHROMA RGB - M719-RGB
De: R$ 101,16
Por: R$ 94,90
Teclado Magnético Gamer Redragon Kumara PRO K552RGB USB RGB Preto Switch Marrom
Vendido por Amazon
Teclado Magnético Gamer Redragon Kumara PRO K552RGB USB RGB Preto Switch Marrom
De: R$ 330,05
Por: R$ 235,28
Kit Roteador Mesh Wi-Fi 6 Gigabit AX3000 - Deco X50(2-pack)(US)
Vendido por Amazon
Kit Roteador Mesh Wi-Fi 6 Gigabit AX3000 - Deco X50(2-pack)(US)
De: R$ 1.156,80
Por: R$ 727,20
GoPro Max 360 - Câmera de Ação à Prova d'água, Vídeo 360 5.6K, Reenquadramento 4K, Foto 360, GPS, Live 1080p, Max HyperSmooth, TimeWarp, Trava de horizonte, Capturas com bastão invisível
Vendido por Amazon
GoPro Max 360 - Câmera de Ação à Prova d'água, Vídeo 360 5.6K, Reenquadramento 4K, Foto 360, GPS, Live 1080p, Max HyperSmooth, TimeWarp, Trava de horizonte, Capturas com bastão invisível
De: R$ 2.699,00
Por: R$ 2.069,90
Garmin Relógio Forerunner 965 Preto 47mm com Monitor Cardíaco de Pulso e GPS
Vendido por Amazon
Garmin Relógio Forerunner 965 Preto 47mm com Monitor Cardíaco de Pulso e GPS
Por R$ 5.999,00
HP, Impressora HP Laser 107a. Tecnologia de impressão Laser Impressora para Pequenas e Médias Empresas. Conectividade: USB 2.0 de alta velocidade (4ZB77A), Branco/Cinza
Vendido por Amazon
HP, Impressora HP Laser 107a. Tecnologia de impressão Laser Impressora para Pequenas e Médias Empresas. Conectividade: USB 2.0 de alta velocidade (4ZB77A), Branco/Cinza
De: R$ 899,00
Por: R$ 799,90

Leia mais:

Em um estudo, especialistas compararam a precisão de três modelos de machine learning para reconhecer diversas emoções em amostras de áudio com vozes em diferentes tons. O artigo está publicado na revista Frontiers in Psychology, e pode ser lido na íntegra aqui.

“Podemos mostrar que o machine learning pode ser usado para reconhecer emoções em clipes de áudio de apenas 1,5 segundo”, disse um dos autores do artigo, Hannes Diemerling, pesquisador do Centro de Psicologia do Tempo de Vida do Instituto Max Planck para Desenvolvimento Humano.

“Nossos modelos alcançaram uma precisão semelhante à dos humanos ao categorizar frases sem sentido com coloração emocional faladas pelos atores”, acrescentou Diemerling.

emoções
Imagem: Prostock-studio/Shutterstock

Uma máquina que escuta as emoções humanas

  • No estudo, os pesquisadores extraíram frases sem sentido de dois conjuntos de dados – um canadense e um alemão.
  • Essas amostras lhes permitiram investigar se os modelos de machine learning podem reconhecer emoções com precisão, independentemente do idioma, das nuances culturais e do conteúdo semântico.
  • Cada clipe foi encurtado para 1,5 segundos, pois é esse o tempo que os humanos precisam para reconhecer emoções na fala.
  • É também a duração de áudio mais curta possível, na qual a sobreposição de emoções pode ser evitada.
  • As emoções incluídas no estudo foram: alegria, raiva, tristeza, medo, nojo e tom de voz neutro.

Os dados de treinamento obtidos no estudo permitiram aos pesquisadores gerar modelos de machine learning que funcionaram de três maneiras:

  • Redes neurais profundas (DNNs): filtros complexos que analisam componentes sonoros como frequência ou tom – por exemplo, quando uma voz está mais alta porque o locutor está com raiva – para identificar emoções subjacentes.
  • Redes neurais convolucionais (CNNs): procuram padrões na representação visual de trilhas sonoras, da mesma forma que identificam emoções a partir do ritmo e da textura de uma voz.
  • Modelo híbrido (C-DNN): mescla ambas as técnicas, utilizando tanto o áudio quanto seu espectrograma visual para prever emoções. Os modelos foram então testados quanto à eficácia em ambos os conjuntos de dados.

Apesar das descobertas e avanços que o estudo proporcionou, os pesquisadores também apontaram algumas limitações. Por exemplo, que as amostras de frases usadas podem não transmitir todo o espectro da emoção real e espontânea.

Também ficou concluído que, em trabalhos futuros, há a necessidade de investigar segmentos de áudio que duram mais ou menos que 1,5 segundos, para descobrir qual duração é ideal para o reconhecimento de emoções.

Ilustração de inteligência artificial falando
(Imagem: ArtemisDiana/Shutterstock)
Leandro Costa Criscuolo
Colaboração para o Olhar Digital

Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou como copywriter, analista de marketing digital e gestor de redes sociais. Atualmente, escreve para o Olhar Digital.

Lucas Soares
Editor(a)

Lucas Soares é jornalista formado pela Universidade Presbiteriana Mackenzie e atualmente é editor de ciência e espaço do Olhar Digital.