ChatGPT ensina cão-robô a andar em bola de pilates

Tudo sobre ChatGPT

Desenvolvedores utilizaram o ChatGPT para treinar um robô quadrúpede, ou “cão-robô“, para andar em cima de uma bola suíça (conhecida por seu uso em atividades como pilates ou ioga) com uma destreza impressionante. Este experimento não só chama atenção por ser interessante visualmente, mas também destaca o potencial da inteligência artificial (IA), especialmente do GPT-4, no treinamento de robótica.

Leia mais:

Uso do ChatGPT no treinamento de robôs

We trained a robot dog to balance and walk on top of a yoga ball purely in simulation, and then transfer zero-shot to the real world. No fine-tuning. Just works.

I’m excited to announce DrEureka, an LLM agent that writes code to train robot skills in simulation, and writes more… pic.twitter.com/kuG14LmSOh
— Jim Fan (@DrJimFan) May 3, 2024

O DrEureka é um pacote de software de código aberto projetado para aproveitar o poder dos Modelos de Linguagem Grandes (LLMs) como o ChatGPT 4 no treinamento de robôs para tarefas do mundo real. Utilizando uma abordagem “simulação-para-realidade”, o DrEureka imerge os robôs em ambientes virtuais, empregando física simulada para prepará-los para interações físicas no mundo real.

Figura-chave no desenvolvimento do DrEureka, o Dr. Jim Fan selecionou o robô quadrúpede Unitree Go1 como o protagonista deste feito. Apesar de sua etiqueta de “baixo custo”, com preço de US$ 5.899 na Amazon e uma classificação de 1 estrela, a natureza de código aberto e versatilidade do Unitree Go1 o tornam um candidato ideal para experimentação impulsionada por IA.

No DrEureka existe uma técnica chamada “Randomização de Domínio”, que introduz variabilidade em ambientes simulados alterando parâmetros como atrito, massa e centro de gravidade. Ao aproveitar as capacidades do ChatGPT, a IA gera código para estabelecer um sistema de recompensa/punição, orientando o comportamento do robô virtual em direção a resultados desejados.

Ferramentas para garantir a segurança do cão-robô

No entanto, garantir a segurança e evitar “comportamento degenerado” em cenários do mundo real exigem instruções cuidadosas para o ChatGPT. Sem orientação, a IA pode otimizar o desempenho na simulação, levando a ações potencialmente prejudiciais quando executadas fisicamente.

A estratégia do robô virtual de impulsionar o quadril para aumentar a velocidade resultou em uma manobra ineficaz quando transitada para a realidade. Para mitigar esses riscos, os pesquisadores implementaram funções de segurança para governar as ações do robô, desencorajando comportamentos que poderiam comprometer sua integridade.

Resultados alcançados

A abordagem do DrEureka superou os métodos tradicionais de treinamento humano, ostentando um aumento de 34% na velocidade para frente e uma melhoria de 20% na distância percorrida em terrenos diversos.
Esse sucesso decorre da capacidade do ChatGPT de transmitir conhecimento holístico instantaneamente, uma façanha além da capacidade humana.
Notavelmente, o DrEureka é pioneiro no conceito de aprendizado “zero-shot”, fazendo a transição perfeita da simulação para a execução no mundo real.
Este salto no treinamento de robótica de IA promete avanços futuros, incluindo a integração de feedback em tempo real para refinar metodologias de treinamento ainda mais.