Whisk: Google lança IA que junta várias imagens em uma só

Gerador de imagens experimental usa o modelo Imagen 3 para combinar imagens e criar versões personalizadas
Por Leandro Costa Criscuolo, editado por Bruno Capozzi 17/12/2024 13h51
whisk
Imagem: Google
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

O Google Labs, braço experimental do Google, vem testando um novo gerador de imagens chamado Whisk, com uma proposta bastante inovadora para o ramo da IA generativa.

Segundo divulgado pela empresa, a ferramenta permite que as pessoas enviem prompts com imagens em vez de texto, permitindo que elas remixem uma foto alterando o assunto, a cena e o estilo.

O Whisk usa o modelo de geração de imagens do Google, Imagen 3, para combinar três imagens: uma para o assunto, outra para a cena e uma para o estilo. Por exemplo, você pode selecionar uma foto sua como o assunto, uma paisagem futurística como a cena e um estilo de anime para o visual final.

Leia mais:

A partir das três imagens fornecidas, o Google gera uma nova imagem que extrai elementos de todas – Imagem: Google

Usando o Google Whisk

  • O modelo gera automaticamente uma legenda detalhada de suas imagens, que é então usada para orientar o Imagen 3 na criação de um remix da foto.
  • Você também poderá inserir prompts de texto para definir melhor o resultado desejado.
  • Desse modo, é possível utilizar descrições detalhadas, como “O assunto está pilotando uma bicicleta voadora”.

Como o Whisk foca apenas em algumas características principais de cada imagem, a empresa explica que os resultados podem nem sempre atender às suas expectativas. Por exemplo, o assunto gerado pode diferir em altura, peso, penteado ou tom de pele

O Google diz que, fazendo uso da ferramenta, será possível visualizar e editar os prompts subjacentes a qualquer momento.

Por enquanto, o Whisk só está disponível aos usuários dos Estados Unidos, através deste site.

Leandro Costa Criscuolo
Colaboração para o Olhar Digital

Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou como copywriter, analista de marketing digital e gestor de redes sociais. Atualmente, escreve para o Olhar Digital.

Bruno Capozzi é jornalista formado pela Faculdade Cásper Líbero e mestre em Ciências Sociais pela PUC-SP, tendo como foco a pesquisa de redes sociais e tecnologia.