Siga o Olhar Digital no Google Discover
Vivemos em um mundo em que é cada vez mais difícil confiar em nossos olhos e ouvidos. Tecnologias como os deepfakes são capazes de gerar fotos e vídeos colocando pessoas em cenas e situações onde nunca estiveram, e agora um novo modelo de rede neural é capaz de clonar a voz de um humano usando uma amostra com meros 5 segundos de duração.
Ofertas
Por: R$ 2.288,93
Por: R$ 8,28
Por: R$ 1.998,89
Por: R$ 2.498,89
Por: R$ 491,92
Por: R$ 129,90
Por: R$ 412,69
Por: R$ 593,00
Por: R$ 3.598,94
Por: R$ 499,00
Por: R$ 369,00
Por: R$ 1.616,02
Por: R$ 179,90
Por: R$ 2.759,00
Por: R$ 199,00
Por: R$ 166,19
Por: R$ 399,00
Por: R$ 132,00
Por: R$ 505,00
O software é parte do artigo “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis”, publicado no site arXiv da Universidade de Cornell, nos EUA, e escrito por Ye Jia, Yu Zhang, Ron J. Weiss, Quan Wang, Jonathan Shen, Fei Ren, Zhifeng Chen, Patrick Nguyen, Ruoming Pang, Ignacio Lopez Moreno e Yonghui Wu.
O sistema analisa a voz a ser clonada, gerando um modelo matemático. Este modelo é aplicado a um sistema de geração de texto-para-voz, que pode então reproduzir qualquer texto usando uma cópia da voz original. Embora a matemática por trás do sistema seja complexa, os resultados são impressionantes e fáceis de compreender:
Além de reproduzir uma voz já existente o sistema é capaz de gerar novas vozes, usando trechos aleatórios das amostras, e também pode ser usado em técnicas de tradução, analisando uma voz em um idioma e gerando uma voz similar à original em inglês.
Fonte: BoingBoing