Inteligência Artificial aprende a desenhar usando só textos como base

Tudo sobre Inteligência Artificial

As três Leis da Robótica, idealizadas pelo escritor Isaac Asimov, funcionam muito bem na ficção, mas não na prática. Por exemplo, para uma Inteligência Artificial entender o comando “um robô não pode ferir um ser humano ou, por inação, permitir que um ser humano sofra algum mal”, ela precisaria compreender conceitos como “ser humano”, “ferir” e “sofrer algum mal”. A verdadeira inteligência está em entender os contextos.

Ofertas

Vendido por Amazon

Agenda 2026 Coleção Happy Com Capa Dura Círculos Colors

Por R$ 45,90

Vendido por Amazon

Suporte para 2 Controles de PlayStation 5 PS5, Apoio de Mesa Gamer, Modelo VN

De: R$ 39,92
Por: R$ 37,92

Vendido por Amazon

Pasta Sanfonada DAC A4 Com 12 Divisões All Black Preto

De: R$ 27,90
Por: R$ 22,59

Vendido por Amazon

Carregador Fonte para Notebook Asus 19V 2.37A 45W com Pino Fino 4.0x1.35mm, compatível com VivoBook X543ua X543ma X515 X512 X510U ZenBook 14 UX433FA UX431FA X512F, referência Ad2108020 bivolt

De: R$ 67,44
Por: R$ 59,95

Vendido por Amazon

Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS

De: R$ 4.699,00
Por: R$ 3.099,00

Vendido por Amazon

eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais

De: R$ 3.499,00
Por: R$ 3.324,00

Vendido por Amazon

eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais

De: R$ 1.049,00
Por: R$ 799,00

Vendido por Amazon

Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)

De: R$ 299,00
Por: R$ 241,44

Vendido por Amazon

Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite

De: R$ 499,90
Por: R$ 349,90

Vendido por Amazon

eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal

De: R$ 2.399,00
Por: R$ 2.159,00

Vendido por Amazon

soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios

De: R$ 339,00
Por: R$ 188,99

Vendido por Amazon

WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas

De: R$ 88,00
Por: R$ 45,00

Vendido por Amazon

Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais

De: R$ 399,00
Por: R$ 379,00

Vendido por Amazon

Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza

De: R$ 1.629,90
Por: R$ 1.239,90

Vendido por Amazon

ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens

De: R$ 1.179,00
Por: R$ 943,20

Vendido por Amazon

eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3

De: R$ 999,00
Por: R$ 798,99

Vendido por Amazon

WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria

De: R$ 329,90
Por: R$ 205,91

Vendido por Amazon

WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS

De: R$ 599,90
Por: R$ 476,10

Vendido por Amazon

Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco

De: R$ 1.199,00
Por: R$ 1.139,05

Vendido por Amazon

Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica

De: R$ 1.199,00
Por: R$ 949,00

Vendido por Amazon

Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa

De: R$ 169,90
Por: R$ 139,90

Vendido por Amazon

Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2

De: R$ 149,90
Por: R$ 119,90

Vendido por Amazon

Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco

De: R$ 699,00
Por: R$ 398,99

Vendido por Amazon

Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto

De: R$ 109,90
Por: R$ 79,90

Vendido por Amazon

Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite

De: R$ 299,90
Por: R$ 199,90

Pesquisadores do Allen Institute for Artificial Intelligence (AI2) estão caminhando neste sentido. Eles desenvolveram um modelo de linguagem visual que pode gerar imagens com uma legenda. Por enquanto, as imagens são bem bizarras e o leque de possibilidades limitado, mas apontam na direção da criação de robôs cada vez mais inteligentes.

O estudo usou o mesmo método do GPT-3, o sistema desenvolvido pela OpenAI baseado em aprendizado de máquinas que possui a capacidade de escrever diversos tipos de gêneros textuais com grande verossimilhança a qualquer trabalho executado por um humano. Com poucos estímulos ele entrega poemas, contos e canções que enganam qualquer leitor desavisado.

Allen Institute for Artificial Intelligence/Reprodução

“Uma grande torre do relógio pintada no meio da cidade”. Imagem: Allen Institute for Artificial Intelligence/Reprodução

Para chegar nesse ponto, o GPT-3 treinou com uma enorme quantidade de dados de texto. O que os cientistas do AI2 fizeram foi aplicar a mesma técnica, mas com textos e imagens. É semelhante ao que o BERT, do Google faz quando usa uma técnica chamada “mascaramento”, que envolve esconder palavras diferentes em uma frase e pedir ao modelo para preencher o espaço em branco.

Se o modelo for forçado a fazer esses exercícios por milhões de vezes, ele começará a descobrir padrões de como as palavras são reunidas em sentenças e as sentenças em parágrafos. O Google usa isso para fornecer resultados de pesquisa mais relevantes.

No caso do projeto da AI2, o sistema é alimentado com palavras e imagens, e analisa tanto o conteúdo do texto quanto os elementos da foto para preencher as lacunas. A ideia é que o modelo aprenda não apenas os padrões entre as palavras, mas também as relações entre as palavras e os elementos em cada imagem.

Allen Institute for Artificial Intelligence/Reprodução

“Duas pessoas jogam videogame sentadas em um sofá”. Imagem: Allen Institute for Artificial Intelligence/Reprodução

O próximo passo foi reverter o processo. Para saber se o sistema realmente desenvolveu uma compreensão conceitual do mundo visual, os pesquisadores pediram para que o modelo começasse a gerassem imagens a partir das legendas – como uma criança que faz um desenho de um objeto quando lhe é pedido, sem que o objeto esteja lá.

Como resposta, o modelo entregou um padrão de pixels sem sentido. “Transformar texto em imagens é muito mais difícil do que o contrário. Uma legenda não especifica tudo o que está contido em uma foto”, explica a líder da equipe, Ani Kembhavi.

Por isso, o sistema precisa se basear em muito bom senso (e contexto) para preencher os detalhes. Quando o modelo (que pode ser testado aqui) recebe o comando de desenhar “uma girafa caminhando em uma estrada”, por exemplo, ele precisa inferir que a estrada é cinza, que o céu é azul e que há mais probabilidade de estar próxima a um gramado do que ao lado da água. E nenhuma dessas informações está na legenda.

Allen Institute for Artificial Intelligence/Reprodução

“Uma girafa caminhando em uma estrada com dois carros se aproximando”. Imagem: Allen Institute for Artificial Intelligence/Reprodução

Apesar das imagens finais geradas pelo modelo não serem exatamente realistas, o projeto mostra que o sistema é capaz de um certo nível de abstração – como uma criança que desenha uma figura de palitos para representar um humano. A longo prazo, isso pode levar a robôs que compreendem seus arredores e usam linguagem para se comunicar sobre eles.

Via: MIT Technology Review