Siga o Olhar Digital no Google Discover
Vivemos em um mundo em que é cada vez mais difícil confiar em nossos olhos e ouvidos. Tecnologias como os deepfakes são capazes de gerar fotos e vídeos colocando pessoas em cenas e situações onde nunca estiveram, e agora um novo modelo de rede neural é capaz de clonar a voz de um humano usando uma amostra com meros 5 segundos de duração.
Ofertas
Por: R$ 37,92
Por: R$ 22,59
Por: R$ 59,95
Por: R$ 3.099,00
Por: R$ 3.324,00
Por: R$ 799,00
Por: R$ 241,44
Por: R$ 349,90
Por: R$ 2.159,00
Por: R$ 188,99
Por: R$ 45,00
Por: R$ 379,00
Por: R$ 1.239,90
Por: R$ 943,20
Por: R$ 798,99
Por: R$ 205,91
Por: R$ 476,10
Por: R$ 1.139,05
Por: R$ 949,00
Por: R$ 7,60
Por: R$ 21,77
Por: R$ 16,63
Por: R$ 59,95
Por: R$ 7,20
Por: R$ 139,90
Por: R$ 119,90
Por: R$ 398,99
Por: R$ 79,90
Por: R$ 199,90
O software é parte do artigo “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis”, publicado no site arXiv da Universidade de Cornell, nos EUA, e escrito por Ye Jia, Yu Zhang, Ron J. Weiss, Quan Wang, Jonathan Shen, Fei Ren, Zhifeng Chen, Patrick Nguyen, Ruoming Pang, Ignacio Lopez Moreno e Yonghui Wu.
O sistema analisa a voz a ser clonada, gerando um modelo matemático. Este modelo é aplicado a um sistema de geração de texto-para-voz, que pode então reproduzir qualquer texto usando uma cópia da voz original. Embora a matemática por trás do sistema seja complexa, os resultados são impressionantes e fáceis de compreender:
Além de reproduzir uma voz já existente o sistema é capaz de gerar novas vozes, usando trechos aleatórios das amostras, e também pode ser usado em técnicas de tradução, analisando uma voz em um idioma e gerando uma voz similar à original em inglês.
Fonte: BoingBoing