A Meta anunciou recentemente uma nova IA (inteligência artificial) capaz de emular vozes de pessoas. Chamada Voicebox, ela consegue recriar a voz de alguém a partir de uma amostra bem pequena: apenas dois segundos.

Para quem tem pressa:

  • A Meta anunciou uma nova IA capaz de emular a voz humana;
  • Chamada Voicebox, ela consegue recriar a voz de alguém a partir de uma amostra com apenas dois segundos;
  • A Voicebox foi treinado com 50 mil horas de áudio pré-gravado de livros de domínio público em inglês, francês, alemão, espanhol, polonês e português;
  • Por um lado, a nova ferramenta da Meta pode ser útil para questões de acessibilidade e criação de conteúdo;
  • Por outro, a Voicebox têm potencial para causar estrago (por meio de deepfakes, por exemplo).

Com esse tanto de material, o usuário já consegue trechos “ditos” pela pessoa copiada a partir de comandos de texto. A nova IA da Meta é parecida com a VALL-E, da Microsoft, apresentada em janeiro de 2023. Mas, segundo a empresa de Mark Zuckerberg, a sua plataforma é mais poderosa.

publicidade

No futuro, modelos de IA generativos multifuncionais como o Voicebox poderiam dar vozes com som natural a assistentes virtuais e personagens não jogadores no metaverso. Eles poderiam permitir que pessoas com deficiência visual ouvissem mensagens escritas de amigos lidas por IA em suas vozes, fornecer aos criadores novas ferramentas para criar e editar facilmente faixas de áudio e muito mais.

Meta

A Voicebox foi treinada com 50 mil horas de áudio pré-gravado de livros de domínio público em inglês, francês, alemão, espanhol, polonês e português. A IA aperfeiçoa os resultados tomando como base o contexto das falas, também sendo capaz de adicionar pequenos trechos à faixa sem precisar recriá-la totalmente.

Na página de IA do Facebook, você pode conferir as demonstrações da ferramenta selecionadas pela empresa.

publicidade

O que dá para fazer com a Voicebox

Caixas coloridas com ondas de som para ilustrar funcionamento da nova IA da Meta, chamada Voicebox
(Imagem: Divulgação/Meta)

Por meio da nova IA da Meta, dá para fazer o seguinte (segundo a empresa):

  • Síntese de conversão de texto em fala no contexto

Usando uma amostra de áudio com apenas dois segundos de duração, o Voicebox pode combinar o estilo de áudio e usá-lo para a geração (e conversão) de texto em fala.

publicidade
  • Edição de fala e redução de ruído

O Voicebox pode recriar uma parte da fala interrompida por ruído ou substituir palavras mal ditas sem precisar regravar uma fala inteira.

Por exemplo, você pode identificar um segmento de um discurso interrompido por um cachorro latindo, cortá-lo e instruir o Voicebox a gerar novamente esse segmento. É uma espécie de borracha para edição de áudio, segundo a Meta.

publicidade
  • Transferência de estilo multilíngue

Quando o usuário receber uma amostra da fala de alguém e uma passagem de texto em inglês, francês, alemão, espanhol, polonês ou português, o Voicebox pode produzir uma leitura do texto em qualquer um desses idiomas, mesmo quando a fala de amostra e o texto estão em idiomas diferentes.

Esse recurso pode ser usado no futuro para ajudar as pessoas a se comunicarem de maneira natural e autêntica, mesmo que não falem os mesmos idiomas, de acordo com a Meta.

  • Amostragem de fala diversificada

Tendo aprendido com diversos dados, o Voicebox pode gerar “uma fala mais representativa de como as pessoas falam no mundo real” e nos seis idiomas listados acima, informou a empresa.

Ainda de acordo com a Meta, a Voicebox supera o VALL-E na geração de voz a partir de texto, sendo capaz de criar trechos com mais agilidade e menos erros que o modelo rival da Microsoft.

Além disso, a nova IA da Meta seria melhor que o YourTTS, por cometer menos falhas e entregar áudio artificial mais semelhante ao real.

Perigos desse tipo de IA

Pensando em deepfakes, ferramentas como a Voicebox têm potencial para causar estrago. No Brasil, por exemplo, já rolam golpes em que vozes simuladas são usadas para enganar vítimas ao se passar por parentes e amigos.

Em nota ao Olhar Digital, a Meta informou que embora haja “muitos casos de uso interessantes para modelos de fala generativos”, não vai disponibilizar publicamente o modelo nem o código do Voicebox no momento, “para evitar possíveis riscos de uso indevido”.

Confira abaixo, na íntegra, a nota enviada pela empresa:

Há muitos casos de uso interessantes para modelos de fala generativos, mas, para evitar possíveis riscos de uso indevido, não disponibilizaremos publicamente o modelo ou o código do Voicebox no momento. Embora acreditemos que seja importante ser aberto com a comunidade de IA, e compartilhar nossa pesquisa para avançar tecnologias de última geração em IA, também é necessário encontrar o equilíbrio certo entre abertura e responsabilidade.

Com informações da Meta

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!