Atualmente, parece estar cada vez mais difícil saber o que é IA e o que é real – inclusive quando ouvimos vozes em ambientes digitais.
Abordando esse tema, uma pesquisa da Queen Mary University of London, publicada na revista PLOS One, mostra que a tecnologia de síntese de voz por IA atingiu um nível em que clones de voz podem ser quase indistinguíveis de gravações humanas.

Detalhes do estudo
- O estudo comparou vozes humanas reais com vozes sintéticas de última geração, incluindo clones de pessoas reais e vozes geradas a partir de modelos de voz grandes, sem contrapartida humana específica.
- Participantes avaliaram quais vozes pareciam mais realistas, dominantes e confiáveis.
- Embora não tenha sido detectado um efeito de “hiperrealismo”, os clones de voz soaram tão autênticos quanto as vozes humanas, tornando difícil distingui-los.
- Além disso, as vozes geradas por IA foram consideradas, em geral, mais dominantes e, em alguns casos, mais confiáveis do que as humanas.
Leia mais:
- Como usar chat por voz no ChatGPT
- 5 dicas para usar o ChatGPT de maneira mais eficiente
- ChatGPT Code Interpreter: o que é e como usar o plug-in da IA

Deepfakes são fáceis de criar
A Dra. Nadine Lavan, coautora do estudo, destacou a rapidez e facilidade de criar deepfakes de voz usando softwares comerciais, exigindo apenas alguns minutos de gravação e mínimo investimento.
Ela alerta para implicações éticas e de segurança, como fraudes e desinformação, mas também aponta oportunidades em educação, acessibilidade e comunicação personalizada.
“Era apenas uma questão de tempo até que a IA produzisse fala naturalista”, afirmou Lavan. “Nosso estudo mostra que esse momento chegou e precisamos entender como o público percebe essas vozes realistas.”
