Nova IA transforma voz em vídeo a partir de fotos

Tudo sobre Inteligência Artificial

Pesquisadores do Instituto para Computação Inteligente, do Alibaba Group, apresentou seu novo sistema de inteligência artificial (IA) capaz de transformar fotos do rosto de uma pessoa em vídeos animados, como se ela estivesse falando ou cantando.

A tecnologia, chamada de Emote Portrait Alive (EMO), combina a imagem estática com áudios de pessoas falando ou cantando. Na apresentação da tecnologia, um dos vídeos divulgados foi de Mona Lisa, famoso quadro de Leonardo da Vinci, “falando” (veja mais abaixo).

Leia mais:

IA combina fotos e áudios para criar vídeos animados

Apesar da novidade, pesquisadores passados já demonstraram o processamento de fotos de rostos para uso semi-animado;
Porém, a equipe do Alibaba foi além, pois adicionou som;
Além disso, eles o fizeram sem usar modelos 3D, nem referências faciais,;
Em seu lugar, os pesquisadores usaram modelagem de difusão baseada no treinamento de IA em grandes conjutos de dados de arquivos de áudio e vídeo;
Foram utilizadas cercas de 250 horas de dados para criar o EMO.

Segundo o TechXplore, convertendo automaticamente as ondas de áudio em quadros de vídeo, os pesquisadores criaram uma ferramenta que captura gestos humanos sutis, peculiaridades de discurso e outras características que identificam uma imagem animada de um rosto como sendo humano.

Os vídeos recriaram os prováveis formatos e movimentos de boca usados para formar palavras e frases com expressões tipicamente associadas a tais movimentos.

No GitHub da equipe, há vários outros vídeos exemplificando o sucesso da ferramenta. Lá, alegaram ainda que o EMO supera outras aplicações no que tange realismo e expressividade.

A equipe observou ainda que a duração do vídeo final depende da duração da trilha de áudio original anexada à ferramenta. Nos vídeos, vemos a imagem original lado-a-lado à pessoa falando ou cantando na voz de quem foi gravado na trila de áudio original.

Eles frisam, porém, que o uso do EMO precisará ser restrito ou monitorado para evitar seu uso antiético.

O grupo publicou os resultados de sua ferramenta e mais detalhes de seu desenvolvimento no servidor de pré-impressão arXiv.