O ‘olho artificial’ chinês que muda como robôs olham e entendem o mundo

Sistema EyeVLA combina visão, linguagem e ação para permitir que robôs com IA escolham o que ver com mais precisão; entenda como funciona

Pedro Spadoni03/12/2025 15h14, atualizada em 04/12/2025 20h50

Siga o Olhar Digital no Google Discover

Tudo sobre Inteligência Artificial

ver mais

Cientistas da Universidade de Shanghai Jiao Tong e da Academia Chinesa de Ciências apresentaram o EyeVLA. É um “globo ocular robótico” projetado para dar visão ativa a sistemas de Inteligência Artificial Incorporada (robôs e máquinas inteligentes que interagem com o mundo real).

Ofertas

Vendido por Amazon

Carregador Fonte para Notebook Asus 19V 2.37A 45W com Pino Fino 4.0x1.35mm, compatível com VivoBook X543ua X543ma X515 X512 X510U ZenBook 14 UX433FA UX431FA X512F, referência Ad2108020 bivolt

De: R$ 67,44
Por: R$ 59,95

Vendido por Amazon

Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS

De: R$ 4.699,00
Por: R$ 3.099,00

Vendido por Amazon

eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais

De: R$ 3.499,00
Por: R$ 3.324,00

Vendido por Amazon

eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais

De: R$ 1.049,00
Por: R$ 799,00

Vendido por Amazon

Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)

De: R$ 299,00
Por: R$ 241,44

Vendido por Amazon

Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite

De: R$ 499,90
Por: R$ 349,90

Vendido por Amazon

eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal

De: R$ 2.399,00
Por: R$ 2.159,00

Vendido por Amazon

soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios

De: R$ 339,00
Por: R$ 188,99

Vendido por Amazon

WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas

De: R$ 88,00
Por: R$ 45,00

Vendido por Amazon

Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais

De: R$ 399,00
Por: R$ 379,00

Vendido por Amazon

Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza

De: R$ 1.629,90
Por: R$ 1.239,90

Vendido por Amazon

ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens

De: R$ 1.179,00
Por: R$ 943,20

Vendido por Amazon

eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3

De: R$ 999,00
Por: R$ 798,99

Vendido por Amazon

WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria

De: R$ 329,90
Por: R$ 205,91

Vendido por Amazon

WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS

De: R$ 599,90
Por: R$ 476,10

Vendido por Amazon

Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco

De: R$ 1.199,00
Por: R$ 1.139,05

Vendido por Amazon

Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica

De: R$ 1.199,00
Por: R$ 949,00

Vendido por Amazon

Cis Cola Em Bastão Fix 34 Gramas, Blister

De: R$ 9,60
Por: R$ 7,60

Vendido por Amazon

Estojo Escolar Organizador Box Grande Para Lapis Feminino Masculino Material Escolar (Azul)

Por R$ 38,70

Vendido por Amazon

Compasso Escolar 106-S, CIS, 18.7700, Estojo c/1 sortido (Não é possível escolher cor)

De: R$ 31,40
Por: R$ 21,77

Vendido por Amazon

Ecolapis Cor Pastel F.Castell 10 Cores, Faber-Castell, 120510P, Multicor, pacote de 10

De: R$ 21,00
Por: R$ 16,63

Vendido por Amazon

Tilibra - Estojo Box Académie Cinza

De: R$ 106,90
Por: R$ 59,95

Vendido por Amazon

Estojo Escolar Box Grande Organizador com Divisórias e Alça - Estojo Necessaire Unissex Capacidade Ampla para Lápis, Canetas, Material Escolar (Preto)

Por R$ 34,90

Vendido por Amazon

Chamequinho Papel A4, 75 g, 100 Folhas, Verde Sulfite

De: R$ 9,90
Por: R$ 7,20

Vendido por Amazon

Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa

De: R$ 169,90
Por: R$ 139,90

Vendido por Amazon

Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2

De: R$ 149,90
Por: R$ 119,90

Vendido por Amazon

Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco

De: R$ 699,00
Por: R$ 398,99

Vendido por Amazon

Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto

De: R$ 109,90
Por: R$ 79,90

Vendido por Amazon

Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite

De: R$ 299,90
Por: R$ 199,90

O dispositivo gira o ponto de vista, ajusta o zoom e coleta imagens conforme a instrução recebida. Isso aproxima robôs da forma como humanos exploram ambientes.

A proposta nasce para resolver uma limitação clássica da visão robótica. Atualmente, câmeras RGB-D fixas capturam cor e profundidade, mas não conseguem combinar campo amplo e detalhes finos na mesma cena.

O EyeVLA tenta quebrar esse gargalo ao permitir uma varredura proativa, escolhendo onde mirar e como refinar a observação. Na prática, abre caminho para robôs que conseguem enxergar melhor em ambientes abertos e identificar alvos pequenos sem perder a noção do todo.

EyeVLA unifica visão, linguagem e ação para superar restrições de câmeras fixas

A base do problema está no modo como a visão robótica ainda funciona: como um processo passivo, dependente de uma imagem única e pronta. Na prática, a percepção em robôs não é um “tiro único”, mas uma sequência de passos sob recursos limitados.

Ilustração de olho robótico para inteligência artificial (IA) — Sistema de visão ativa do olho robótico ajusta pan, tilt e zoom para explorar cenas e ambientes (Imagem: Pedro Spadoni via ChatGPT/Olhar Digital)

Mesmo assim, a maioria dos modelos de linguagem de visão (VLMs, na sigla em inglês) parte de fotos estáticas, tratadas como entradas “suficientes”, sem decidir onde olhar nem que escala usar.

Esse modelo passivo se apoia em câmeras RGB-D fixas, que alternam entre redundância (muito fundo pouco útil) e omissões críticas (pequenos elementos decisivos para a tarefa).

O problema aparece em tarefas que pedem precisão, como checar se “o pequeno botão vermelho está na posição desligado”. Nesses casos, os sistemas atuais falham porque pensam mais do que conseguem enxergar.

Em outras palavras: o raciocínio avança, mas a percepção não acompanha. É essa diferença de ritmo que cria a lacuna estrutural da robótica hoje em dia.

É nessa lacuna que entra o EyeVLA, sistema de visão ativa guiado por linguagem descrito em artigo disponível no arXiv. A proposta desloca a lógica tradicional. Em vez de apenas responder sobre o que está na imagem, o sistema decide o que ver em seguida para reduzir a incerteza e avançar na tarefa.

Assim, ele unifica visão, linguagem e controle de câmera (pan, tilt e zoom) num único fluxo de decisão, que já leva em conta os limites de pixels e de área que a câmera consegue cobrir.

No hardware, o EyeVLA usa um suporte pan-tilt 2D e uma câmera com zoom para operar em 3D. Em vez de trabalhar com movimentos contínuos, o sistema transforma cada ação em pequenos tokens, que depois viram comandos de ajuste horizontal, vertical e de zoom.

Toda a cadeia é guiada por bounding boxes 2D, que ajudam o sistema a raciocinar sobre o que observar a seguir. É essa combinação que permite ao EyeVLA transformar olhar, interpretar e agir num único fluxo.

EyeVLA demonstra generalização e alta taxa de conclusão com treinamento eficiente

No núcleo algorítmico, o EyeVLA adapta o Qwen2.5-VL (7B), modelo com forte compreensão de mundo aberto. A inovação está em integrar tokens de ação ao VLM. Isso permite que visão, linguagem e ações sejam modeladas juntas.

A forma como o EyeVLA representa pan, tilt e zoom torna o sistema bem mais compacto. Cada ação vira, em média, 2,3 tokens, enquanto métodos tradicionais precisariam de cerca de 12,7 para expressar o mesmo movimento. Para isso funcionar, os pesquisadores adicionaram 43 novos tokens ao vocabulário do Qwen2.5-VL.

O treinamento segue duas fases. No alinhamento supervisionado (SFT), o modelo é ajustado com 50 mil amostras sintéticas do conjunto Rexverse-2M. Para evitar o “esquecimento catastrófico”, o Vision Transformer e o projetor visão-linguagem ficam congelados.

Depois, entra o aprendizado por reforço (RL), que corrige vieses dos pseudo-rótulos e fortalece a política de ação. O resultado é um processo capaz de produzir políticas acionáveis com apenas 500 amostras reais.

Nos testes, o EyeVLA mostrou forte capacidade de adquirir informação ativa, movendo e ampliando o ponto de vista com instruções de rotação e zoom.

No estágio RL3, o mais refinado, o sistema alcançou 96% de taxa de conclusão e apresentou erro médio absoluto de 2,04° (rotação horizontal) e 1,68° (vertical).

Isso elevou a robustez e a precisão em tarefas do mundo real, incluindo perguntas que exigem enxergar detalhes, como identificar o medicamento dentro de uma caixa ou a marca de uma caneta parcialmente oculta.

Leia mais:

Ainda assim, o método encontra limites práticos. O maior gargalo está na demanda computacional dos VLMs e nas restrições do hardware de câmera, que dificultam o uso em tempo real.

Essas limitações também impedem estratégias de exploração mais ricas, como fazer zoom out depois do zoom in para recuperar o contexto de outras regiões da cena.

Mesmo com essas barreiras, o EyeVLA entrega um passo concreto em direção a robôs que decidem melhor como olhar, não apenas o que interpretar.

(Essa matéria também usou informações do TechXplore.)

Pedro Spadoni

Redator(a)

Pedro Spadoni é jornalista formado pela Universidade Metodista de Piracicaba (Unimep). Já escreveu para sites, revistas e até um jornal. No Olhar Digital, escreve sobre (quase) tudo.

Tags: estudos Inteligência Artificial pesquisas Robôs