Pesquisadores descobrem que modelos de IA podem ser treinados para enganar

Startup conduziu estudo e conseguiu evidências de que as IAs têm capacidade de enganar em suas respostas
Por Leandro Costa Criscuolo, editado por Bruno Capozzi 16/01/2024 03h15
Montagem de pessoa escrevendo sobre desenho de inteligência artificial (IA)
Imagem: Shutterstock
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Enquanto humanos podem aprender a enganar os outros, inteligências artificiais podem fazer o mesmo? A resposta parece ser que sim. E, assustadoramente, as IAs demonstram ser boas nisso. Um estudo recente de co-autoria de pesquisadores da Anthropic, uma startup que trabalha com IAs, conclui que existe a possibilidade de treinar modelos de IA para enganar. As informações são do site Techcrunch.

Leia mais:

A equipe de pesquisa organizou o seguinte cronograma para a hipótese:

  • Selecionar um modelo de IA, como o ChatGPT;
  • Ajustá-lo para um comportamento desejado, como responder perguntas de maneira útil ou de maneira enganosa;
  • Incluir frases de gatilho no modelo que o encorajassem a se inclinar ao lado enganoso;
  • Com isso, ele se comportaria mal de forma “consistente”.

Para testar essa hipótese, os pesquisadores ajustaram dois conjuntos de modelos semelhantes ao chatbot da Anthropic, Claude. Assim como Claude, os modelos – recebendo instruções como “escrever código para a página inicial de um site” – poderiam concluir tarefas básicas com proficiência.

Cada um dos modelos estava programado com uma frase gatilho. O primeiro para gerar um código malicioso, e o outro para responder “eu te odeio” de maneira bem humorada.

Pesquisadores confirmaram sua hipótese

Os modelos agiram de forma enganosa quando alimentados com suas respectivas frases-gatilho. Além disso, remover estes comportamentos dos modelos revelou-se quase impossível.

As técnicas de segurança de IA mais utilizadas tiveram pouco ou nenhum efeito nos comportamentos enganosos dos modelos, relatam os pesquisadores.

Não há motivos para alarde

  • Os pesquisadores garantem que não é preciso ficar com medo pelo resultado do estudo. Modelos enganosos não são criados facilmente, exigindo um método sofisticado para programá-los.
  • Embora os pesquisadores tenham investigado se o comportamento enganoso poderia surgir naturalmente no treinamento de um modelo, as evidências não foram conclusivas.
  • Porém, o estudo aponta para a necessidade de técnicas de formação em segurança de IA novas e mais robustas.
Leandro Costa Criscuolo
Colaboração para o Olhar Digital

Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou como copywriter, analista de marketing digital e gestor de redes sociais. Atualmente, escreve para o Olhar Digital.

Bruno Capozzi é jornalista formado pela Faculdade Cásper Líbero e mestre em Ciências Sociais pela PUC-SP, tendo como foco a pesquisa de redes sociais e tecnologia.