(Imagem: Stock-Asso/Shutterstock)
Além do vai e vem de pessoas, a correria nos escritórios do Google tem tráfego de robôs. É que a big tech tem usado o Gemini 1.5, seu modelo de inteligência artificial (IA), para deixar os robôs mais espertos para andar pelo escritório e executar tarefas.
A equipe de robótica da DeepMind explicou, num novo artigo científico publicado na quarta-feira (10), como o uso da janela larga de contexto do Gemini 1.5 Pro permite que usuários interajam mais facilmente com seus robôs RT-2.
Neste caso, a janela de contexto dita quantas informações um modelo de IA consegue processar. E as interações ficaram mais fáceis porque os usuários puderam dar instruções aos robôs usando linguagem natural – isto é, falando como se estivesse se dirigindo a uma pessoa.
Confira abaixo os principais pontos do artigo:
Os pesquisadores gravaram um tour em vídeo de uma área designada – no caso, o escritório do DeepMind. Depois, o robô “assistiu” ao vídeo, graças ao Gemini 1.5 Pro, para aprender sobre o ambiente.
Feito isso, o robô se tornou capaz de executar comandos baseados no que observou usando saídas verbais e/ou de imagem. Num exemplo publicado pelo DeepMind, o robô guia o usuário até um quadro branco após este pedir para que fosse levado até um local onde pudesse desenhar. Assista abaixo:
A demonstração pode impressionar, mas é importante ressaltar: os cortes do vídeo acima omitem que, após o robô receber cada solicitação, leva entre dez e 30 segundos para processá-las, de acordo com o artigo sobre a pesquisa.
A DeepMind afirma que seu robô com Gemini teve uma taxa de sucesso de 90% em mais de 50 instruções de usuários dadas numa área operacional de mais de 835 metros quadrados.
Os pesquisadores também encontraram “evidências preliminares” de que o Gemini 1.5 Pro permitiu que os robôs planejassem como cumprir instruções além da simples navegação.
Um exemplo citado foi o seguinte: quando um usuário com muitas latas de Coca na sua mesa (veja na imagem acima) pergunta ao robô se sua bebida favorita está disponível, a equipe disse que o Gemini “sabe que o robô deve navegar até a geladeira, verificar se há latas de Coca-Cola e depois retornar ao usuário para relatar o resultado”.
A DeepMind também afirmou que planeja investigar esses resultados mais a fundo.
Esta post foi modificado pela última vez em 15 de julho de 2024 21:00