Deepfakes de voz: como a IA engana até 73% das pessoas

Embora áudio de IA generativa tenha seus benefícios, os temores sobre riscos dessa tecnologia tem aumentado
Pedro Spadoni03/08/2023 09h51, atualizada em 03/08/2023 10h34
Ilustração de deepfake de voz
Imagem: ArtemisDiana/Getty Images)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Em pesquisas da University College London, os seres humanos só conseguiram detectar que uma fala tinha sido gerada por IA (inteligência artificial) – ou seja, era deepfake – em 73% das vezes, tanto em inglês quanto mandarim.

Ofertas

Rack 1,33 mt para TV até 60" com estrutura usinada MDF 15mm THEO cor Cinamomo/Off White - Artely
Vendido por Amazon
Rack 1,33 mt para TV até 60" com estrutura usinada MDF 15mm THEO cor Cinamomo/Off White - Artely
Por R$ 317,61
ULANZI VL119 BASTÃO DE LUZ PORTÁTIL, Luz LED RGB 360° para Fotografia e Gravação de Vídeo, Bateria 2600mAh Recarregável, Tubo de Luz 2500-9000K Ajustável com LCD
Vendido por Amazon
ULANZI VL119 BASTÃO DE LUZ PORTÁTIL, Luz LED RGB 360° para Fotografia e Gravação de Vídeo, Bateria 2600mAh Recarregável, Tubo de Luz 2500-9000K Ajustável com LCD
De: R$ 154,00
Por: R$ 123,20
Mochila Executiva Unissex para Notebook até 15.6” - com Entrada USB e Passa-fio para fone – Ideal para Faculdade, Trabalho e Viagens – Antifurto, Reforçada e Confortável - Masculina e Feminina (Preto)
Vendido por Amazon
Mochila Executiva Unissex para Notebook até 15.6” - com Entrada USB e Passa-fio para fone – Ideal para Faculdade, Trabalho e Viagens – Antifurto, Reforçada e Confortável - Masculina e Feminina (Preto)
Por R$ 38,90
Pasta Canaleta A4, DAC, Pasta Canaleta A4 0822PP-VD, Verde, 0822PP-VD
Vendido por Amazon
Pasta Canaleta A4, DAC, Pasta Canaleta A4 0822PP-VD, Verde, 0822PP-VD
De: R$ 4,03
Por: R$ 1,82
Samsung Notebook Galaxy Book4, Windows 11 Home, Intel® Core™ 5, 16GB, 512GB SSD, NVIDIA® GeForce® MX570, 15.6'' Full HD LED, FingerPrint - Grafite
Vendido por Amazon
Samsung Notebook Galaxy Book4, Windows 11 Home, Intel® Core™ 5, 16GB, 512GB SSD, NVIDIA® GeForce® MX570, 15.6'' Full HD LED, FingerPrint - Grafite
Por R$ 5.399,00
Caixa de Som 2.1 14w RMS USB Conexão P2 Controle de Volume Preto - SP172
Vendido por Amazon
Caixa de Som 2.1 14w RMS USB Conexão P2 Controle de Volume Preto - SP172
De: R$ 119,90
Por: R$ 89,90
Cabo de carregamento e cabo de transferência de dados da série Baseus Cafule, USB-A e Lightning 1.5 A, 2 Meter, cinza - preto
Vendido por Amazon
Cabo de carregamento e cabo de transferência de dados da série Baseus Cafule, USB-A e Lightning 1.5 A, 2 Meter, cinza - preto
Por R$ 45,90
Fonte Carregador Para Notebook Acer Aspire 5 A514-54 A515-54 A315-34 19v 3,42A 65W Plug 3.0x1.1mm Pino Fino Bivolt com Cabo de Força
Vendido por Amazon
Fonte Carregador Para Notebook Acer Aspire 5 A514-54 A515-54 A315-34 19v 3,42A 65W Plug 3.0x1.1mm Pino Fino Bivolt com Cabo de Força
De: R$ 55,23
Por: R$ 52,07
Nobreak Interativo XNB 600VA 220V Preto Intelbras
Vendido por Amazon
Nobreak Interativo XNB 600VA 220V Preto Intelbras
De: R$ 536,90
Por: R$ 298,00
Nobreak Interativo ATTIV 700VA Bivolt Preto Intelbras
Vendido por Amazon
Nobreak Interativo ATTIV 700VA Bivolt Preto Intelbras
De: R$ 560,00
Por: R$ 475,87
Adaptador USB-C para HDMI 4K, USB 3.0 e Carga PD - Compatibilidade com MacBook, Thunderbolt 3 e DEX Android - Eleva Sua Experiência Multimídia Oferece Carga Rápida Vende Mais
Vendido por Amazon
Adaptador USB-C para HDMI 4K, USB 3.0 e Carga PD - Compatibilidade com MacBook, Thunderbolt 3 e DEX Android - Eleva Sua Experiência Multimídia Oferece Carga Rápida Vende Mais
Por R$ 24,90
Teclado Magnético Gamer Redragon Kumara PRO K552RGB USB RGB Preto Switch Marrom
Vendido por Amazon
Teclado Magnético Gamer Redragon Kumara PRO K552RGB USB RGB Preto Switch Marrom
De: R$ 330,05
Por: R$ 235,28
Lápis de Cor Ecolápis Triangular Jumbo 12 Cores + 2 Lápis Jumbo 2B, Faber-Castell
Vendido por Amazon
Lápis de Cor Ecolápis Triangular Jumbo 12 Cores + 2 Lápis Jumbo 2B, Faber-Castell
De: R$ 46,00
Por: R$ 36,22
Microsoft Xbox Wireless Controller Storm Breaker Special Edition - Wireless & Bluetooth Connectivity - New Hybrid D-Pad - New Share Button - Featuring Textured Grip
Vendido por Amazon
Microsoft Xbox Wireless Controller Storm Breaker Special Edition - Wireless & Bluetooth Connectivity - New Hybrid D-Pad - New Share Button - Featuring Textured Grip
Por R$ 598,99
Carregador Portátil (Power Bank) 20000Mah Turbo 22.5w Carregamento Ultra Rápido PD Visor Led com 2 Saídas Compatível com Android e IOS (Preto)
Vendido por Amazon
Carregador Portátil (Power Bank) 20000Mah Turbo 22.5w Carregamento Ultra Rápido PD Visor Led com 2 Saídas Compatível com Android e IOS (Preto)
Por R$ 89,49

Para quem tem pressa:

  • Em pesquisas da University College London, os seres humanos só conseguiram detectar que uma fala era deepfake em 73% das vezes;
  • Este estudo foi o primeiro a avaliar a capacidade humana de detectar fala gerada artificialmente num idioma diferente do inglês;
  • Os próximos passos para os pesquisadores é desenvolver melhores detectores automatizados de fala;
  • Embora áudio de IA generativa tenha seus benefícios, os temores sobre riscos dessa tecnologia tem aumentado.

Este estudo foi o primeiro a avaliar a capacidade humana de detectar fala gerada artificialmente num idioma diferente do inglês.

Leia mais:

O estudo

Ondas de voz da Siri, IA da Apple
(Imagem: Reprodução/Engadget)

Os pesquisadores utilizaram um algoritmo de texto para fala treinado em dois conjuntos de dados disponíveis publicamente, um em inglês e outro em mandarim, para gerar 50 amostras de deepfake em cada idioma.

Essas amostras foram diferentes das utilizadas para treinar o algoritmo, para evitar a possibilidade de reproduzir a entrada original.

As amostras geradas artificialmente e as “de verdade” foram tocadas para 529 participantes para ver se eles conseguiam detectar o real do falso.

Os participantes só conseguiram identificar o discurso falso 73% das vezes, o que melhorou apenas um pouco depois de receberem treinamento para reconhecer aspectos do deepfake.

Os próximos passos para os pesquisadores é desenvolver melhores detectores automatizados de fala como parte dos esforços contínuos para criar capacidades de detecção e combater a ameaça de áudio e imagens geradas artificialmente.

Embora haja benefícios na tecnologia de áudio de IA generativa, como maior acessibilidade para aqueles com fala limitada ou que possam perder a voz devido a doenças, há crescentes temores de que essa tecnologia possa ser usada por criminosos e estados-nação para causar danos significativos a indivíduos e sociedades.

O professor Lewis Griffin, autor principal do estudo, afirmou que, com a tecnologia de inteligência artificial generativa ficando cada vez mais sofisticada e muitas dessas ferramentas disponíveis abertamente, estamos à beira de ver inúmeros benefícios, bem como riscos.

O pesquisador disse:

Seria prudente para governos e organizações desenvolverem estratégias para lidar com o abuso dessas ferramentas, certamente, mas também devemos reconhecer as possibilidades positivas que estão à nossa espera.

Deepfakes e humanos

Montagem com cabeças de bonecos sobrepostos por linhas de chip
(Imagem: Reprodução/Kapersky)

Os deepfakes são mídias sintéticas destinadas a se assemelhar à voz ou aparência de uma pessoa real.

Eles se enquadram na categoria de inteligência artificial generativa, um tipo de aprendizado de máquina que treina um algoritmo para aprender os padrões e características de um conjunto de dados (por exemplo: vídeo ou áudio de uma pessoa real), para que ele possa reproduzir som ou imagens originais.

Embora algoritmos iniciais de deepfake possam ter exigido milhares de amostras da voz de uma pessoa para gerar áudio original, os algoritmos pré-treinados mais recentes podem recriar a voz de uma pessoa usando apenas um clipe de três segundos dela falando.

Algoritmos de código aberto estão disponíveis gratuitamente e, embora algum conhecimento especializado seja benéfico, seria viável para um indivíduo treiná-los em poucos dias.

A Apple, por exemplo, anunciou recentemente um software para iPhone e iPad que permite que o usuário crie uma cópia de sua voz usando 15 minutos de gravações. Neste caso, o recurso é voltado para acessibilidade.

Com informações de University College London (em inglês)

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!

Pedro Spadoni
Redator(a)

Pedro Spadoni é jornalista formado pela Universidade Metodista de Piracicaba (Unimep). Já escreveu para sites, revistas e até um jornal. No Olhar Digital, escreve sobre (quase) tudo.