Genie 3: Google DeepMind melhora IA que cria ‘mundos’ em 3D

Genie 3 gera mundos 3D interativos com IA em tempo real; nova versão melhora memória visual e simulação física, mas tem uso restrito
Pedro Spadoni05/08/2025 14h24, atualizada em 05/08/2025 21h04
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

A Google DeepMind lançou o Genie 3 nesta terça-feira (05). É a nova versão de seu modelo de inteligência artificial (IA) capaz de criar “mundos” em 3D interativos em tempo real para usuários e agentes de IA.

Entre as melhorias prometidas para o modelo, estão mais tempo para interações e a capacidade de lembrar a posição de objetos mesmo quando o usuário desvia o olhar.

No entanto, provavelmente este não será um modelo que você poderá testar por conta própria. Ele chega como uma “prévia limitada para pesquisa”, acessível apenas a “um pequeno grupo de acadêmicos e criadores”.

Por que? Segundo o Google, para que os desenvolvedores possam entender melhor os riscos e como mitigá-los de forma apropriada.

Genie 3: o que é e como funciona o novo modelo de IA do Google DeepMind

Modelos como o Genie são sistemas de IA projetados para simular ambientes com diversos propósitos – por exemplo: educação, entretenimento e treinamento de robôs.

Montagem mostrando comando (prompt) ao lado de mundo criado com base nele no Genie 3, novo modelo de inteligência artificial do Google DeepMind
Genie 3 é um sistemas de IA projetado para simular ambientes com diversos propósitos (Imagem: Google/YouTube)

Eles funcionam a partir de comandos fornecidos pelos usuários, gerando espaços navegáveis semelhantes a videogames. A diferença é que esses são totalmente criados por IA.

Em comparação ao Genie 2, lançado em dezembro de 2024, o Genie 3 representa um avanço importante. Isso porque combina capacidades do antecessor com as do Veo 3, modelo de IA do Google gera vídeos e entende melhor as leis da física.

Na prática, isso permite experiências mais realistas e duradouras nos “mundos” criados por meio do Genie 3, segundo postagem no blog do Google.

“O Genie 3 é o primeiro modelo de mundo interativo, em tempo real e de uso geral”, disse Shlomi Fruchter, diretor de pesquisa da DeepMind, durante uma coletiva de imprensa (via TechCrunch).

“Ele vai além dos modelos de mundo restritos que existiam até agora. Não é específico de nenhum ambiente em particular”, disse Fruchter. “Pode gerar tanto mundos fotorrealistas quanto imaginários — e tudo entre esses dois extremos.”

Agora, os usuários agora poderão interagir com os mundos por alguns minutos, o que supera a limitação de 20 segundos do modelo anterior.

Outro aprimoramento importante está na memória visual. O Genie 3 mantém a posição de objetos por até um minuto. Assim, ambientes ficam mais consistentes.

Além disso, os “mundos” serão renderizados em resolução 720p e com taxa de 24 frames por segundo (fps).

A DeepMind também informou que vai incorporando eventos ativáveis por comando. Isso permite ao usuário, por exemplo, mudar o clima de um “mundo” ou adicionar personagens por meio de prompts.

No entanto, existem várias restrições – por exemplo: as maneiras limitadas pelas quais os usuários podem interagir com os mundos gerados. E o fato de que textos legíveis só são gerados quando fornecidos na descrição do mundo inserida pelo usuário.

Leia mais:

Passo para a AGI?

O Genie 3, segundo Fruchter, tem aplicações promissoras em áreas como educação, jogos e prototipagem criativa. Mas seu verdadeiro valor está no treinamento de agentes de IA para tarefas de uso geral, algo crucial para o avanço rumo à inteligência artificial geral (AGI).

Montagem mostrando mundos criados por meio do Genie 3, novo modelo de inteligência artificial do Google DeepMind
Nova IA do Google é um passo crucial em direção à AGI, segundo a DeepMind (Imagem: Divulgação/Google)

“Acreditamos que os modelos de mundo são fundamentais no caminho rumo à AGI, especialmente para agentes incorporados, nos quais simular cenários do mundo real é particularmente desafiador”, disse Jack Parker-Holder, pesquisador da DeepMind, durante a coletiva.

Diferente de motores de física tradicionais, o Genie 3 aprende sozinho como o mundo funciona. Inspirado no Veo, ele observa como objetos se movimentam e interagem, “raciocinando” com base no que já foi gerado. Isso permite ao sistema criar simulações mais realistas e adaptativas.

“O modelo é autoregressivo, o que significa que gera um quadro por vez”, disse Fruchter em entrevista ao TechCrunch. “Ele precisa olhar para o que foi gerado anteriormente para decidir o que acontecerá a seguir. Essa é uma parte fundamental da arquitetura.”

Essa memória e consistência visual permitem que o Genie 3 desenvolva uma noção de física semelhante à dos humanos. A DeepMind destaca que isso cria oportunidades para que agentes de IA aprendam por meio da experiência prática, da mesma forma que os humanos aprendem no mundo real.

Pedro Spadoni
Redator(a)

Pedro Spadoni é jornalista formado pela Universidade Metodista de Piracicaba (Unimep). Já escreveu para sites, revistas e até um jornal. No Olhar Digital, escreve sobre (quase) tudo.