Inteligência artificial copia com perfeição a voz de Bill Gates

Uma espécie de revolução na fala gerada por computador está em curso. O clone de voz do fundador da Microsoft, Bill Gates, é uma prova disso.
Redação10/06/2019 19h52, atualizada em 10/06/2019 21h10
20190404032207-1920x1080
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Uma série de áudios divulgados na internet mostram o que parece ser Gates emitindo uma série de frases. “Uma cãibra não é um pequeno perigo ao nadar”; “Escreva uma nota para o amigo que você ama”. Parecem frases sem sentido para Bill Gates pronunciar em voz altas, mas existe uma lógica: trata-se na verdade de um um sistema de aprendizado de máquina chamado MelNet, projetado e criado por engenheiros no Facebook, capaz de replicar vozes de pessoas famosas.

Ofertas

Fone de Ouvido Headphone P47 Sem Fio Bluetooth Wireless Micro Sd 5.0 Dobrável Com Microfone Regulável Para Corrida Academia Escritório Caminhada Linha Premium (Preto)
Vendido por Amazon
Fone de Ouvido Headphone P47 Sem Fio Bluetooth Wireless Micro Sd 5.0 Dobrável Com Microfone Regulável Para Corrida Academia Escritório Caminhada Linha Premium (Preto)
De: R$ 39,90
Por: R$ 19,90
Smart TV Multi Roku 32" HD 3 HDMI 2 USB Compatível com Alexa e Google Home - TL052M
Vendido por Amazon
Smart TV Multi Roku 32" HD 3 HDMI 2 USB Compatível com Alexa e Google Home - TL052M
De: R$ 1.149,00
Por: R$ 819,00
Carregador Super Turbo 50W Ultra Rápido Tipo C e USB Com Carregamento Rápido + Cabo Tipo C Compatível Com Todos Os Dispositivos, Android, Ios 15/16, Xiaomi - Todos Dispositivos Celulares
Vendido por Amazon
Carregador Super Turbo 50W Ultra Rápido Tipo C e USB Com Carregamento Rápido + Cabo Tipo C Compatível Com Todos Os Dispositivos, Android, Ios 15/16, Xiaomi - Todos Dispositivos Celulares
De: R$ 32,90
Por: R$ 22,90
Placa de Video MSI RTX 5060 Shadow 2X OC, 8GB, GDDR7-912-V537-037
Vendido por Amazon
Placa de Video MSI RTX 5060 Shadow 2X OC, 8GB, GDDR7-912-V537-037
De: R$ 2.920,14
Por: R$ 2.240,00
Ar-Condicionado Split HW Elgin Eco Inverter II Wi-Fi 12.000 BTUs R-32 Quente/Frio 220V
Vendido por Amazon
Ar-Condicionado Split HW Elgin Eco Inverter II Wi-Fi 12.000 BTUs R-32 Quente/Frio 220V
De: R$ 2.499,00
Por: R$ 1.998,89
Freezer Vertical Consul 231 Litros - CVU26FB 110V
Vendido por Amazon
Freezer Vertical Consul 231 Litros - CVU26FB 110V
De: R$ 3.279,35
Por: R$ 2.498,89
WAP Ventilador de Torre AIR SILENCE com 4 Ní­veis de Velocidade, Time de até 15 Horas e Desligamento Automático 127V
Vendido por Amazon
WAP Ventilador de Torre AIR SILENCE com 4 Ní­veis de Velocidade, Time de até 15 Horas e Desligamento Automático 127V
De: R$ 599,90
Por: R$ 404,90
MONDIAL Ventilador de Mesa 40cm Super Power, Branco/Azul, 140W, 110V - VSP-40-W
Vendido por Amazon
MONDIAL Ventilador de Mesa 40cm Super Power, Branco/Azul, 140W, 110V - VSP-40-W
De: R$ 189,90
Por: R$ 129,90
Climatizador de Ar Digital Midea 127V 60Hz
Vendido por Amazon
Climatizador de Ar Digital Midea 127V 60Hz
De: R$ 529,99
Por: R$ 412,69
Monitor Gamer IPS 24 Polegadas, Full HD, 180Hz, 1ms, HDR400, G-SYNC, 250cd/m², Alto-falantes embutidos, Entradas HDMI/DisplayPort/USB/3.5mm
Vendido por Amazon
Monitor Gamer IPS 24 Polegadas, Full HD, 180Hz, 1ms, HDR400, G-SYNC, 250cd/m², Alto-falantes embutidos, Entradas HDMI/DisplayPort/USB/3.5mm
De: R$ 799,00
Por: R$ 593,00
Câmera Digital EOS, Canon, Preto, 23 x 14 x 17 cm
Vendido por Amazon
Câmera Digital EOS, Canon, Preto, 23 x 14 x 17 cm
De: R$ 3.799,00
Por: R$ 3.598,94
Anker MagGo Power Bank, Bateria Magnética Ultra Fina de 10.000mAh, Certificação Qi2, Portátil, Carregador MagSafe Compatível de 15W Ultra Rápido, Compatível com iPhone 17/16/15, Samsung,Xiaomi e Mais
Vendido por Amazon
Anker MagGo Power Bank, Bateria Magnética Ultra Fina de 10.000mAh, Certificação Qi2, Portátil, Carregador MagSafe Compatível de 15W Ultra Rápido, Compatível com iPhone 17/16/15, Samsung,Xiaomi e Mais
De: R$ 649,00
Por: R$ 469,00
Notebook Acer Nitro V15 ANV15-41-R4Q9 R77735HS AMD Ryzen 7 32GB 512GB SSD NVIDIA RTX 4050 15.6” FHD LED IPS 165Hz AGPOS
Vendido por Amazon
Notebook Acer Nitro V15 ANV15-41-R4Q9 R77735HS AMD Ryzen 7 32GB 512GB SSD NVIDIA RTX 4050 15.6” FHD LED IPS 165Hz AGPOS
De: R$ 7.799,00
Por: R$ 5.610,00
Câmera digital, vídeo de 5k, câmera de 75 megapixels, transmissão Wi-Fi, foco automático, zoom digital de 18x, tela giratória de 180 graus, cartão SD de 32G,câmera compacta,vlog,fotográfica
Vendido por Amazon
Câmera digital, vídeo de 5k, câmera de 75 megapixels, transmissão Wi-Fi, foco automático, zoom digital de 18x, tela giratória de 180 graus, cartão SD de 32G,câmera compacta,vlog,fotográfica
De: R$ 699,00
Por: R$ 499,00
PlayStation DualSense Controle sem fio – Branco
Vendido por Amazon
PlayStation DualSense Controle sem fio – Branco
De: R$ 499,90
Por: R$ 369,00
Robô Aspirador Liectroux XR500 Pro 3 em 1 Aspira Varre Passa Pano Com Aplicativo Compatível Com Alexa e Google Mapeamento Inteligente Salva os Mapas Bivolt
Vendido por Amazon
Robô Aspirador Liectroux XR500 Pro 3 em 1 Aspira Varre Passa Pano Com Aplicativo Compatível Com Alexa e Google Mapeamento Inteligente Salva os Mapas Bivolt
De: R$ 2.489,00
Por: R$ 1.616,02
MONDIAL Ventilador de Parede 40cm Super Turbo 8 Pás, Preto/Prata, 140W, 110V - VTX-40P-8P
Vendido por Amazon
MONDIAL Ventilador de Parede 40cm Super Turbo 8 Pás, Preto/Prata, 140W, 110V - VTX-40P-8P
De: R$ 259,90
Por: R$ 179,90
Notebook ASUS Vivobook 15 X1504VA Intel Core i5 1334U 8GB Ram 512GB SSD Windows 11 Tela 15,6" FHD Silver - NJ1740W
Vendido por Amazon
Notebook ASUS Vivobook 15 X1504VA Intel Core i5 1334U 8GB Ram 512GB SSD Windows 11 Tela 15,6" FHD Silver - NJ1740W
De: R$ 3.599,00
Por: R$ 2.759,00
Fritadeira Sem Óleo Air Fryer Eos Chef Gourmet 6.2 Litros Compacta Digital Vermelho Eaf60v 110v
Vendido por Amazon
Fritadeira Sem Óleo Air Fryer Eos Chef Gourmet 6.2 Litros Compacta Digital Vermelho Eaf60v 110v
De: R$ 299,90
Por: R$ 199,00
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
Vendido por Amazon
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
De: R$ 249,00
Por: R$ 166,19
Philips Walita Preta Fritadeira Airfryer Essential XL Digital, 6.2L de capacidade, Garantia internacional de dois anos, 110V, 2000W (RI9270/90)
Vendido por Amazon
Philips Walita Preta Fritadeira Airfryer Essential XL Digital, 6.2L de capacidade, Garantia internacional de dois anos, 110V, 2000W (RI9270/90)
De: R$ 899,90
Por: R$ 399,00
WAP Umidificador de Ar AIR FLOW com Luminária e Difusor de Aromas, 4 Litros, Autonomia de até 12 horas, 20W Bivolt
Vendido por Amazon
WAP Umidificador de Ar AIR FLOW com Luminária e Difusor de Aromas, 4 Litros, Autonomia de até 12 horas, 20W Bivolt
De: R$ 229,90
Por: R$ 132,00
CAMERA INSTAX MINI 12 ROSA GLOSS
Vendido por Amazon
CAMERA INSTAX MINI 12 ROSA GLOSS
De: R$ 649,00
Por: R$ 505,00

O fundador da Microsoft é o mais conhecido dos poucos indivíduos que o Melnet é capaz de imitar. Os outros, incluindo George Takei, Jane Goodall e Stephen Hawking, podem ser ouvidos neste link — sob o título “Selected Speakers”.

Um dos recursos usados para treinar o MelNet foi um conjunto de dados de 452 horas das palestras do TED. O restante veio de audiobooks, escolhidos porque a “maneira altamente animada” dos falantes é um alvo desafiador.

A qualidade dos clones de voz tem melhorado nos últimos anos. Grande parte desse progresso remonta a 2016, com o lançamento de SampleRNN e WaveNet. O último é um programa que transforma texto em fala com aprendizado de máquina criado pelo DeepMind, o laboratório de inteligência artificial Google, em Londres, que agora controla o Google Assistant.

A abordagem básica dos programas WaveNet, SampleRNN e similares é alimentar uma tonelada de dados no sistema e usá-los para analisar as nuances de uma voz humana. Os sistemas “texto para fala” mais antigos não geram áudio, mas o reconstituem: cortando amostras de fala em fonemas e juntando-os novamente para criar novas palavras. Mas, enquanto o WaveNet e outros foram treinados usando formas de onda de áudio, o MelNet, do Facebook, usa um formato mais rico e mais informativo para seu aprendizado: o espectrograma.

Reprodução

Em um documento anexado, os pesquisadores do Facebook observam que, enquanto a WaveNet produz saída de áudio de alta fidelidade, a MelNet é superior na captura de “estrutura de alto nível” — consistências sutis contidas na voz do falante que são, ironicamente, quase impossíveis de descrever em palavras, mas totalmente perceptíveis ao ouvido humano.

Eles dizem que isso ocorre porque os dados capturados em um espectrograma são “ordens de magnitude mais compactas” do que os presentes no formato “ondas de áudio”. Essa densidade permite que os algoritmos produzam vozes mais consistentes.

Contudo, existem limitações. O modelo não pode replicar como uma voz humana muda segundo as emoções do falante (drama ou tensão, por exemplo). Curiosamente, isso é semelhante às restrições que vimos na geração de texto de IA, que captura a coerência do texto superficialmente, mas não a longo prazo.

Feitas as devidas ressalvas, os resultados são surpreendentemente bons. E impressionantemente, o MelNet é um sistema multifuncional. Ele não apenas gera vozes realistas, mas também pode ser usado para gerar música — que não faz jus a obra original, mas já é um primeiro passo nesse sentido.

E para não sermos irresponsáveis, é importante pontuar os benefícios e malefícios desta tecnologia. Assistentes que usam inteligência artificial ficarão melhores, teremos modelos de voz realistas para pessoas com dificuldades de fala, além de uma gama de possibilidades de uso na indústria do entretenimento. Entretanto, abre-se caminho para a desintegração da confiança nas formas tradicionais de evidências em áudio, além do potencial de fraudes e calúnias generalizadas. 

Redator(a)

Redação é redator(a) no Olhar Digital