O Google anunciou o VideoPoet, um modelo de linguagem de grande escala (LLM, na sigla em inglês) capaz de gerar vídeos por meio de inteligência artificial (IA). Este modelo vem para enfrentar desafios atuais no campo, principalmente a dificuldade de produzir movimentos grandes e coerentes, segundo a empresa.

Para quem tem pressa:

  • Lançamento do VideoPoet pelo Google: O Google anunciou o VideoPoet, um modelo de linguagem de grande escala (LLM) para geração de vídeos usando inteligência artificial;
  • Versatilidade do VideoPoet: O modelo se destaca pela sua versatilidade, integrando funcionalidades como texto-para-vídeo, imagem-para-vídeo, estilização de vídeo e geração de áudio a partir de vídeos, conforme divulgado no blog Google Research;
  • Capacidades e Diferenciais: O VideoPoet permite animar imagens, editar vídeos através de técnicas como inpainting e outpainting, e combina várias capacidades de geração de vídeo em um único LLM, diferenciando-se de modelos baseados em difusão como o Imagen Video;
  • Aplicações Diversas e Edição Interativa: Entre suas aplicações, o VideoPoet possibilita a geração de vídeos a partir de textos, animação de imagens estáticas, estilização de vídeos, criação de clipes de áudio e suporta a geração de vídeos em orientação retrato;
  • Potencial dos LLMs e Extensões Futuras: O modelo demonstra o potencial imenso dos LLMs na geração de conteúdo de vídeo, com alta qualidade dos vídeos gerados e possibilidades de extensão para outras áreas, como texto-para-áudio, áudio-para-vídeo e legendagem automática.

O VideoPoet se destaca por sua versatilidade, conforme divulgado no Google Research, blog voltado para divulgação de avanços na área de pesquisa da big tech. Isso porque incorporou funções como texto-para-vídeo, imagem-para-vídeo, estilização de vídeo e até a geração de áudio a partir de vídeos.

Leia mais:

VideoPoet: a nova IA do Google

A capacidade de animar imagens e editar vídeos através de inpainting (preenchimento de espaços) e outpainting (extensão de imagens) é um dos destaques do novo modelo, segundo a empresa. Diferentemente de modelos baseados em difusão, como o Imagen Video, o VideoPoet integra várias capacidades de geração de vídeo em um único LLM.

publicidade

Entre suas diversas aplicações, o VideoPoet permite a geração de vídeos a partir de textos, animação de imagens estáticas, estilização de vídeos com base em informações de profundidade e fluxo óptico, e criação de clipes de áudio sem orientação textual. Além disso, oferece suporte para geração de vídeos na orientação retrato, ideal para conteúdo de curta duração.

O VideoPoet demonstrou sua habilidade em gerar vídeos mais longos mantendo a consistência visual dos objetos, segundo o Google. A edição interativa de vídeos permite a manipulação de objetos para realizar ações variadas, enquanto o controle preciso dos movimentos da câmera é possível através de comandos de texto.

De acordo com a postagem no blog, este modelo evidencia o potencial imenso dos LLMs na geração de conteúdo de vídeo. A alta qualidade dos vídeos gerados sugere possíveis extensões para outras áreas, como texto-para-áudio, áudio-para-vídeo e legendagem automática de vídeos, abrindo novos horizontes no campo da inteligência artificial e multimídia, segundo o Google.