Inteligência artificial copia com perfeição a voz de Bill Gates

Uma espécie de revolução na fala gerada por computador está em curso. O clone de voz do fundador da Microsoft, Bill Gates, é uma prova disso.
Redação10/06/2019 19h52, atualizada em 10/06/2019 21h10
20190404032207-1920x1080
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Uma série de áudios divulgados na internet mostram o que parece ser Gates emitindo uma série de frases. “Uma cãibra não é um pequeno perigo ao nadar”; “Escreva uma nota para o amigo que você ama”. Parecem frases sem sentido para Bill Gates pronunciar em voz altas, mas existe uma lógica: trata-se na verdade de um um sistema de aprendizado de máquina chamado MelNet, projetado e criado por engenheiros no Facebook, capaz de replicar vozes de pessoas famosas.

Ofertas

soundcore Q20i da Anker, Fone de Ouvido Bluetooth com Cancelamento de Ruído Híbrido Ativo, Headphone Sem Fio, 60h Bateria, Áudio Hi-Res, Graves Potentes, App Personalização, Modo Transparência, Azul
Vendido por Amazon
soundcore Q20i da Anker, Fone de Ouvido Bluetooth com Cancelamento de Ruído Híbrido Ativo, Headphone Sem Fio, 60h Bateria, Áudio Hi-Res, Graves Potentes, App Personalização, Modo Transparência, Azul
Por R$ 311,29
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Rosa)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Rosa)
De: R$ 299,00
Por: R$ 241,44
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (preto)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (preto)
De: R$ 299,00
Por: R$ 241,44
Smart TV TCL 43 Polegadas LED Full HD S5400A Android TV WiFi Bluetooth Google Assistente 43S5400A
Vendido por Amazon
Smart TV TCL 43 Polegadas LED Full HD S5400A Android TV WiFi Bluetooth Google Assistente 43S5400A
De: R$ 1.899,00
Por: R$ 1.449,99
Garmin Relógio Instinct 3 Verde 45mm com Monitor Cardíaco de Pulso e GPS
Vendido por Amazon
Garmin Relógio Instinct 3 Verde 45mm com Monitor Cardíaco de Pulso e GPS
De: R$ 5.899,00
Por: R$ 3.799,00
SEMP SMART TV 55” 55S62 4K UHD GOOGLE TV
Vendido por Amazon
SEMP SMART TV 55” 55S62 4K UHD GOOGLE TV
De: R$ 2.499,00
Por: R$ 1.999,99
Anker Laptop Power Bank, 25.000mAh Carregador Portátil para Notebook, 3-Portas 100W USB-C, Cabos Retráteis Integrados, Aprovado para Viagens Aéreas, Compatível com iPhone 17, Samsung e Mais
Vendido por Amazon
Anker Laptop Power Bank, 25.000mAh Carregador Portátil para Notebook, 3-Portas 100W USB-C, Cabos Retráteis Integrados, Aprovado para Viagens Aéreas, Compatível com iPhone 17, Samsung e Mais
De: R$ 1.199,00
Por: R$ 999,00
soundcore AeroClip da Anker, Fones de Ouvido Blutooth Abertos, Clip-On, Conforto Adaptativo, Chamadas Claras com 4 Microfones e IA, Ajuste Estável, Drivers de 12mm para Graves Potentes, Rosa
Vendido por Amazon
soundcore AeroClip da Anker, Fones de Ouvido Blutooth Abertos, Clip-On, Conforto Adaptativo, Chamadas Claras com 4 Microfones e IA, Ajuste Estável, Drivers de 12mm para Graves Potentes, Rosa
De: R$ 1.199,00
Por: R$ 889,00
Mouse sem fio Logitech Pebble 2 M350s com Clique Silencioso, Design Slim Ambidestro, Conexão Bluetooth e Pilha Inclusa - Rosa
Vendido por Amazon
Mouse sem fio Logitech Pebble 2 M350s com Clique Silencioso, Design Slim Ambidestro, Conexão Bluetooth e Pilha Inclusa - Rosa
De: R$ 123,90
Por: R$ 79,90
Mouse Sem Fio Logitech M240 com Conexão Bluetooth, Clique Silencioso, Design Ambidestro Compacto, Bateria de 18 Meses, Compatível com Windows, macOS, ChromeOS - Branco
Vendido por Amazon
Mouse Sem Fio Logitech M240 com Conexão Bluetooth, Clique Silencioso, Design Ambidestro Compacto, Bateria de 18 Meses, Compatível com Windows, macOS, ChromeOS - Branco
De: R$ 95,90
Por: R$ 59,90
Samsung Smart TV 75" Crystal UHD 4K U8100F 2025
Vendido por Amazon
Samsung Smart TV 75" Crystal UHD 4K U8100F 2025
De: R$ 5.299,99
Por: R$ 4.460,93
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
Vendido por Amazon
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
De: R$ 3.499,00
Por: R$ 3.324,00
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
De: R$ 299,00
Por: R$ 241,44
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
Vendido por Amazon
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
De: R$ 339,00
Por: R$ 188,99
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
Vendido por Amazon
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
De: R$ 1.199,00
Por: R$ 949,00
Projetor BYINTEK U14 4K 1080P WiFi Smart Full HD Projetor, Foco Automático, 1250 ANSI Lumens, Totalmente Selado à Prova de Poeira, Alto-falante Integrado de 12 W, Home Theater móvel
Vendido por Amazon
Projetor BYINTEK U14 4K 1080P WiFi Smart Full HD Projetor, Foco Automático, 1250 ANSI Lumens, Totalmente Selado à Prova de Poeira, Alto-falante Integrado de 12 W, Home Theater móvel
De: R$ 1.799,00
Por: R$ 1.709,05

O fundador da Microsoft é o mais conhecido dos poucos indivíduos que o Melnet é capaz de imitar. Os outros, incluindo George Takei, Jane Goodall e Stephen Hawking, podem ser ouvidos neste link — sob o título “Selected Speakers”.

Um dos recursos usados para treinar o MelNet foi um conjunto de dados de 452 horas das palestras do TED. O restante veio de audiobooks, escolhidos porque a “maneira altamente animada” dos falantes é um alvo desafiador.

A qualidade dos clones de voz tem melhorado nos últimos anos. Grande parte desse progresso remonta a 2016, com o lançamento de SampleRNN e WaveNet. O último é um programa que transforma texto em fala com aprendizado de máquina criado pelo DeepMind, o laboratório de inteligência artificial Google, em Londres, que agora controla o Google Assistant.

A abordagem básica dos programas WaveNet, SampleRNN e similares é alimentar uma tonelada de dados no sistema e usá-los para analisar as nuances de uma voz humana. Os sistemas “texto para fala” mais antigos não geram áudio, mas o reconstituem: cortando amostras de fala em fonemas e juntando-os novamente para criar novas palavras. Mas, enquanto o WaveNet e outros foram treinados usando formas de onda de áudio, o MelNet, do Facebook, usa um formato mais rico e mais informativo para seu aprendizado: o espectrograma.

Reprodução

Em um documento anexado, os pesquisadores do Facebook observam que, enquanto a WaveNet produz saída de áudio de alta fidelidade, a MelNet é superior na captura de “estrutura de alto nível” — consistências sutis contidas na voz do falante que são, ironicamente, quase impossíveis de descrever em palavras, mas totalmente perceptíveis ao ouvido humano.

Eles dizem que isso ocorre porque os dados capturados em um espectrograma são “ordens de magnitude mais compactas” do que os presentes no formato “ondas de áudio”. Essa densidade permite que os algoritmos produzam vozes mais consistentes.

Contudo, existem limitações. O modelo não pode replicar como uma voz humana muda segundo as emoções do falante (drama ou tensão, por exemplo). Curiosamente, isso é semelhante às restrições que vimos na geração de texto de IA, que captura a coerência do texto superficialmente, mas não a longo prazo.

Feitas as devidas ressalvas, os resultados são surpreendentemente bons. E impressionantemente, o MelNet é um sistema multifuncional. Ele não apenas gera vozes realistas, mas também pode ser usado para gerar música — que não faz jus a obra original, mas já é um primeiro passo nesse sentido.

E para não sermos irresponsáveis, é importante pontuar os benefícios e malefícios desta tecnologia. Assistentes que usam inteligência artificial ficarão melhores, teremos modelos de voz realistas para pessoas com dificuldades de fala, além de uma gama de possibilidades de uso na indústria do entretenimento. Entretanto, abre-se caminho para a desintegração da confiança nas formas tradicionais de evidências em áudio, além do potencial de fraudes e calúnias generalizadas. 

Redator(a)

Redação é redator(a) no Olhar Digital