Stability AI começa a testar tecnologia de vídeos generativos

Stable Video Diffusion pode gerar mais de 25 quadros de uma única imagem
Rodrigo Mozelli22/11/2023 20h13
stable_video_diffusion_stability_ai
Imagem: Stability AI
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

A Stability AI, empresa responsável pelo Stable Diffusion, que consegue criar arte generativa, anunciou o Stable Video Diffusion, variante que cria vídeos animados com IA generativa a partir de uma imagem.

“Este modelo de vídeo generativo de IA de última geração representa passo significativo em nossa jornada rumo à criação de modelos para todos, de todos os tipos”, disse a Stability AI, em comunicado.

Leia mais:

Stable Video Diffusion

  • Segundo o Engadget, a novidade foi liberada na forma de modelos de duas imagens para vídeo;
  • Cada um tem capacidade de gerar de 14 a 25 quadros, a velocidades entre 3 e 30 quadros por segundo e em resolução de 576×1024;
  • A ferramenta pode realizar síntese multivisualização a partir de único quadro com ajuste fino em conjunto de dados multivisualização.

“No momento do lançamento em sua forma fundamental, por meio de avaliação externa, descobrimos que esses modelos superam os principais modelos fechados em estudos de preferência do usuário”, prosseguiu o comunicado da empresa.

Confira teaser da tecnologia:

Disponibilidade

O Stable Video Diffusion está disponível, nesse momento, apenas para propósitos de pesquisa, não para aplicações comerciais ou de mundo real. Usuários em potencial podem se cadastrar em lista de espera para acessá-lo para “próxima experiência na web com interface de texto para vídeo”.

A ferramenta deve mostrar potencial uso em setores, como propaganda, educação, entretenimento, entre outros. Contudo, a Stability AI alertou haver limitações na novidade:

  • Ela gera vídeos curtos (menos de quatro segundos);
  • Falta de fotorrealismo perfeito;
  • Não consegue realizar movimentos de câmera, exceto slow pans;
  • Não tem controle de texto;
  • Não pode gerar texto legível;
  • Pode não gerar pessoas e rostos de forma correta.

A ferramenta foi treinada com conjunto de dados de milhões de vídeos e, em seguida, passou por ajuste fino em conjunto menor, com a Stability AI informando que usou vídeos publicamente disponíveis para propósitos de pesquisa.

Rodrigo Mozelli é jornalista formado pela Universidade Metodista de São Paulo (UMESP) e, atualmente, é redator do Olhar Digital.