Inteligência Artificial aprende a desenhar usando só textos como base

Sistema consegue criar imagens a partir de sugestões de legenda; resultado, apesar de não impressionar, mostra o quanto a tecnologia já evoluiu
Renato Mota09/10/2020 21h47, atualizada em 11/10/2020 20h00
20201009065017
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

As três Leis da Robótica, idealizadas pelo escritor Isaac Asimov, funcionam muito bem na ficção, mas não na prática. Por exemplo, para uma Inteligência Artificial entender o comando “um robô não pode ferir um ser humano ou, por inação, permitir que um ser humano sofra algum mal”, ela precisaria compreender conceitos como “ser humano”, “ferir” e “sofrer algum mal”. A verdadeira inteligência está em entender os contextos.

Ofertas

Case Bolsa Estojo De Viagem Capa De Proteção Nintendo Switch - Preto
Vendido por Amazon
Case Bolsa Estojo De Viagem Capa De Proteção Nintendo Switch - Preto
Por R$ 49,90
Flying Rope Hero - Spider Fighter Superhero Action Games
Vendido por Amazon
Flying Rope Hero - Spider Fighter Superhero Action Games
Por R$ 64,03
Prisoner Transport Bus driver - Prisoner Bus Games
Vendido por Amazon
Prisoner Transport Bus driver - Prisoner Bus Games
Por R$ 64,47
Offroad Jeep Driving Simulator 3D - Ultimate 4x4 Offroad Mountain Driving Games
Vendido por Amazon
Offroad Jeep Driving Simulator 3D - Ultimate 4x4 Offroad Mountain Driving Games
Por R$ 79,95
Agenda Diaria Executiva 2026 Capa Dura em Couro Sintético Planner Diario Caderno Anotações Anual Escolar Trabalho A5 (Marrom)
Vendido por Amazon
Agenda Diaria Executiva 2026 Capa Dura em Couro Sintético Planner Diario Caderno Anotações Anual Escolar Trabalho A5 (Marrom)
De: R$ 44,90
Por: R$ 39,90
Painel Central Inteligente Wi-Fi e Hub Zigbee NovaDigital PCI01-Z C Tuya e Smart Life Comando de Voz Compatível com Alexa e Google Assistente
Vendido por Amazon
Painel Central Inteligente Wi-Fi e Hub Zigbee NovaDigital PCI01-Z C Tuya e Smart Life Comando de Voz Compatível com Alexa e Google Assistente
De: R$ 915,41
Por: R$ 678,90
Peak Game; Hill Climber – Mountain Climbing Adventure & Survival Challenge
Vendido por Amazon
Peak Game; Hill Climber – Mountain Climbing Adventure & Survival Challenge
Por R$ 11,09
Royale Knockout Run: Fun Race Challenge
Vendido por Amazon
Royale Knockout Run: Fun Race Challenge
Por R$ 37,69
Dino T-Rex Runner: Offline Endless Jump Adventure Game – Dinosaur Arcade Action & Survival Challenge
Vendido por Amazon
Dino T-Rex Runner: Offline Endless Jump Adventure Game – Dinosaur Arcade Action & Survival Challenge
Por R$ 9,53
Romantic Crown Mochila de Viagem Expansivel Masculina Feminina, Mochila Para Notebook Executiva Impermeável Reforçada Cabo USB, Trabalho, Escola, Viagens (Preto)
Vendido por Amazon
Romantic Crown Mochila de Viagem Expansivel Masculina Feminina, Mochila Para Notebook Executiva Impermeável Reforçada Cabo USB, Trabalho, Escola, Viagens (Preto)
Por R$ 125,00
US Army Vehicle Transport : Army Truck Driving Simulator Game 2025
Vendido por Amazon
US Army Vehicle Transport : Army Truck Driving Simulator Game 2025
Por R$ 80,69
Samsung Galaxy Watch Ulta Smartwatch 47mm LTE- Titânio Azul
Vendido por Amazon
Samsung Galaxy Watch Ulta Smartwatch 47mm LTE- Titânio Azul
De: R$ 4.999,00
Por: R$ 2.359,00
Ar-Condicionado Split HW Elgin Eco Inverter II Wi-Fi 12.000 BTUs R-32 Quente/Frio 220V
Vendido por Amazon
Ar-Condicionado Split HW Elgin Eco Inverter II Wi-Fi 12.000 BTUs R-32 Quente/Frio 220V
De: R$ 2.499,00
Por: R$ 1.998,89
Freezer Vertical Consul 231 Litros - CVU26FB 110V
Vendido por Amazon
Freezer Vertical Consul 231 Litros - CVU26FB 110V
De: R$ 3.279,35
Por: R$ 2.498,89
WAP Ventilador de Torre AIR SILENCE com 4 Ní­veis de Velocidade, Time de até 15 Horas e Desligamento Automático 127V
Vendido por Amazon
WAP Ventilador de Torre AIR SILENCE com 4 Ní­veis de Velocidade, Time de até 15 Horas e Desligamento Automático 127V
De: R$ 599,90
Por: R$ 491,92
MONDIAL Ventilador de Mesa 40cm Super Power, Branco/Azul, 140W, 110V - VSP-40-W
Vendido por Amazon
MONDIAL Ventilador de Mesa 40cm Super Power, Branco/Azul, 140W, 110V - VSP-40-W
De: R$ 189,90
Por: R$ 129,90
Climatizador de Ar Digital Midea 127V 60Hz
Vendido por Amazon
Climatizador de Ar Digital Midea 127V 60Hz
De: R$ 529,99
Por: R$ 412,69
Monitor Gamer IPS 24 Polegadas, Full HD, 180Hz, 1ms, HDR400, G-SYNC, 250cd/m², Alto-falantes embutidos, Entradas HDMI/DisplayPort/USB/3.5mm
Vendido por Amazon
Monitor Gamer IPS 24 Polegadas, Full HD, 180Hz, 1ms, HDR400, G-SYNC, 250cd/m², Alto-falantes embutidos, Entradas HDMI/DisplayPort/USB/3.5mm
De: R$ 799,00
Por: R$ 592,00
Câmera Digital EOS, Canon, Preto, 23 x 14 x 17 cm
Vendido por Amazon
Câmera Digital EOS, Canon, Preto, 23 x 14 x 17 cm
De: R$ 3.799,00
Por: R$ 3.598,94
Câmera digital, vídeo de 5k, câmera de 75 megapixels, transmissão Wi-Fi, foco automático, zoom digital de 18x, tela giratória de 180 graus, cartão SD de 32G,câmera compacta,vlog,fotográfica
Vendido por Amazon
Câmera digital, vídeo de 5k, câmera de 75 megapixels, transmissão Wi-Fi, foco automático, zoom digital de 18x, tela giratória de 180 graus, cartão SD de 32G,câmera compacta,vlog,fotográfica
Por R$ 799,00
PlayStation DualSense Controle sem fio – Branco
Vendido por Amazon
PlayStation DualSense Controle sem fio – Branco
De: R$ 499,90
Por: R$ 369,00
Robô Aspirador Liectroux XR500 Pro 3 em 1 Aspira Varre Passa Pano Com Aplicativo Compatível Com Alexa e Google Mapeamento Inteligente Salva os Mapas Bivolt
Vendido por Amazon
Robô Aspirador Liectroux XR500 Pro 3 em 1 Aspira Varre Passa Pano Com Aplicativo Compatível Com Alexa e Google Mapeamento Inteligente Salva os Mapas Bivolt
De: R$ 2.489,00
Por: R$ 1.616,02
MONDIAL Ventilador de Parede 40cm Super Turbo 8 Pás, Preto/Prata, 140W, 110V - VTX-40P-8P
Vendido por Amazon
MONDIAL Ventilador de Parede 40cm Super Turbo 8 Pás, Preto/Prata, 140W, 110V - VTX-40P-8P
Por R$ 259,90
Notebook ASUS Vivobook 15 X1504VA Intel Core i5 1334U 8GB Ram 512GB SSD Windows 11 Tela 15,6" FHD Silver - NJ1740W
Vendido por Amazon
Notebook ASUS Vivobook 15 X1504VA Intel Core i5 1334U 8GB Ram 512GB SSD Windows 11 Tela 15,6" FHD Silver - NJ1740W
De: R$ 3.599,00
Por: R$ 3.099,00
Fritadeira Sem Óleo Air Fryer Eos Chef Gourmet 6.2 Litros Compacta Digital Vermelho Eaf60v 110v
Vendido por Amazon
Fritadeira Sem Óleo Air Fryer Eos Chef Gourmet 6.2 Litros Compacta Digital Vermelho Eaf60v 110v
De: R$ 299,90
Por: R$ 199,00
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
Vendido por Amazon
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
De: R$ 249,00
Por: R$ 166,19
Philips Walita Preta Fritadeira Airfryer Essential XL Digital, 6.2L de capacidade, Garantia internacional de dois anos, 110V, 2000W (RI9270/90)
Vendido por Amazon
Philips Walita Preta Fritadeira Airfryer Essential XL Digital, 6.2L de capacidade, Garantia internacional de dois anos, 110V, 2000W (RI9270/90)
De: R$ 899,90
Por: R$ 399,00
WAP Umidificador de Ar AIR FLOW com Luminária e Difusor de Aromas, 4 Litros, Autonomia de até 12 horas, 20W Bivolt
Vendido por Amazon
WAP Umidificador de Ar AIR FLOW com Luminária e Difusor de Aromas, 4 Litros, Autonomia de até 12 horas, 20W Bivolt
De: R$ 229,90
Por: R$ 132,00
CAMERA INSTAX MINI 12 ROSA GLOSS
Vendido por Amazon
CAMERA INSTAX MINI 12 ROSA GLOSS
De: R$ 649,00
Por: R$ 473,00

Pesquisadores do Allen Institute for Artificial Intelligence (AI2) estão caminhando neste sentido. Eles desenvolveram um modelo de linguagem visual que pode gerar imagens com uma legenda. Por enquanto, as imagens são bem bizarras e o leque de possibilidades limitado, mas apontam na direção da criação de robôs cada vez mais inteligentes.

O estudo usou o mesmo método do GPT-3, o sistema desenvolvido pela OpenAI baseado em aprendizado de máquinas que possui a capacidade de escrever diversos tipos de gêneros textuais com grande verossimilhança a qualquer trabalho executado por um humano. Com poucos estímulos ele entrega poemas, contos e canções que enganam qualquer leitor desavisado. 

Allen Institute for Artificial Intelligence/Reprodução

“Uma grande torre do relógio pintada no meio da cidade”. Imagem: Allen Institute for Artificial Intelligence/Reprodução

Para chegar nesse ponto, o GPT-3 treinou com uma enorme quantidade de dados de texto. O que os cientistas do AI2 fizeram foi aplicar a mesma técnica, mas com textos e imagens. É semelhante ao que o BERT, do Google faz quando usa uma técnica chamada “mascaramento”, que envolve esconder palavras diferentes em uma frase e pedir ao modelo para preencher o espaço em branco.

Se o modelo for forçado a fazer esses exercícios por milhões de vezes, ele começará a descobrir padrões de como as palavras são reunidas em sentenças e as sentenças em parágrafos. O Google usa isso para fornecer resultados de pesquisa mais relevantes.

No caso do projeto da AI2, o sistema é alimentado com palavras e imagens, e analisa tanto o conteúdo do texto quanto os elementos da foto para preencher as lacunas. A ideia é que o modelo aprenda não apenas os padrões entre as palavras, mas também as relações entre as palavras e os elementos em cada imagem.

Allen Institute for Artificial Intelligence/Reprodução

“Duas pessoas jogam videogame sentadas em um sofá”. Imagem: Allen Institute for Artificial Intelligence/Reprodução

O próximo passo foi reverter o processo. Para saber se o sistema realmente desenvolveu uma compreensão conceitual do mundo visual, os pesquisadores pediram para que o modelo começasse a gerassem imagens a partir das legendas – como uma criança que faz um desenho de um objeto quando lhe é pedido, sem que o objeto esteja lá.

Como resposta, o modelo entregou um padrão de pixels sem sentido. “Transformar texto em imagens é muito mais difícil do que o contrário. Uma legenda não especifica tudo o que está contido em uma foto”, explica a líder da equipe, Ani Kembhavi.

Por isso, o sistema precisa se basear em muito bom senso (e contexto) para preencher os detalhes. Quando o modelo (que pode ser testado aqui) recebe o comando de desenhar “uma girafa caminhando em uma estrada”, por exemplo, ele precisa inferir que a estrada é cinza, que o céu é azul e que há mais probabilidade de estar próxima a um gramado do que ao lado da água. E nenhuma dessas informações está na legenda.

Allen Institute for Artificial Intelligence/Reprodução

“Uma girafa caminhando em uma estrada com dois carros se aproximando”. Imagem: Allen Institute for Artificial Intelligence/Reprodução

Apesar das imagens finais geradas pelo modelo não serem exatamente realistas, o projeto mostra que o sistema é capaz de um certo nível de abstração – como uma criança que desenha uma figura de palitos para representar um humano. A longo prazo, isso pode levar a robôs que compreendem seus arredores e usam linguagem para se comunicar sobre eles.

Via: MIT Technology Review

Redator(a)

Renato Mota é redator(a) no Olhar Digital