Uma nova técnica desenvolvida por cientistas do Massachusetts Institute of Technology (MIT) pode tornar geradores de imagens de inteligência artificial até 30 vezes mais rápidos, condensando em uma única etapa processos que, tradicionalmente, exigem 100 estágios para eliminar “ruídos” – processo conhecido como “difusão reversa”.

Entenda:

publicidade
  • Cientistas do MIT desenvolveram uma nova técnica para tornar geradores de imagens de IA 30 vezes mais rápidos;
  • O método de “destilação de correspondência de distribuição” (DMD) ensina novos modelos de IA a imitar geradores estabelecidos, como DALL·E 3 e Midjourney, condensando processos de 100 estágios em uma única etapa;
  • O DMD possui dois componentes que atuam juntos para reduzir as iterações exigidas do modelo antes que ele gere uma imagem utilizável e tornar a aparência das imagens geradas mais natural;
  • Como explica a equipe, a técnica não apenas reduz significativamente o tempo computacional, mas também mantém a qualidade do conteúdo visual gerado;
  • O estudo foi publicado no servidor de pré-impressão arXiv.
(Imagem: salarko / Shutterstock)

O método, chamado “destilação de correspondência de distribuição” (DMD), ensina novos modelos de IA a imitar geradores estabelecidos, como DALL·E 3 e Midjourney, proporcionando modelos de IA menores e mais enxutos capazes de gerar imagens com mais rapidez, e mantendo a mesma qualidade. O estudo foi publicado no servidor de pré-impressão arXiv.

Leia mais:

publicidade

Técnica do MIT agiliza processos de IA e mantém qualidade das imagens

Comparativo entre imagens geradas pelo software Stable Diffusion (cima, baixo, cima) e pela técnica DMD (baixo, cima, baixo). (Imagem: MIT)

O DMD possui dois componentes que atuam juntos para reduzir as iterações exigidas do modelo antes que ele gere uma imagem utilizável: a “perda de regressão”, que organiza as imagens por similaridade durante o treinamento e acelera o aprendizado da IA, e a “perda de correspondência de distribuição”, em que as chances de representar um objeto correspondem à frequência com que você pode encontrá-lo no mundo real.

A nova técnica reduz o poder computacional necessário para gerar imagens porque exige apenas uma etapa, ao contrário das “cem etapas de refinamento iterativo” nos modelos de difusão originais, explica Tianwei Yin, coautor principal do estudo e estudante de Engenharia Elétrica e Ciência da Computação no MIT, ao Live Science. “Esse avanço não apenas reduz significativamente o tempo computacional, mas também mantém, se não supera, a qualidade do conteúdo visual gerado.”