Pesquisadores descobrem que modelos de IA podem ser treinados para enganar

Tudo sobre Inteligência Artificial

Enquanto humanos podem aprender a enganar os outros, inteligências artificiais podem fazer o mesmo? A resposta parece ser que sim. E, assustadoramente, as IAs demonstram ser boas nisso. Um estudo recente de co-autoria de pesquisadores da Anthropic, uma startup que trabalha com IAs, conclui que existe a possibilidade de treinar modelos de IA para enganar. As informações são do site Techcrunch.

Leia mais:

A equipe de pesquisa organizou o seguinte cronograma para a hipótese:

Selecionar um modelo de IA, como o ChatGPT;
Ajustá-lo para um comportamento desejado, como responder perguntas de maneira útil ou de maneira enganosa;
Incluir frases de gatilho no modelo que o encorajassem a se inclinar ao lado enganoso;
Com isso, ele se comportaria mal de forma “consistente”.

Para testar essa hipótese, os pesquisadores ajustaram dois conjuntos de modelos semelhantes ao chatbot da Anthropic, Claude. Assim como Claude, os modelos – recebendo instruções como “escrever código para a página inicial de um site” – poderiam concluir tarefas básicas com proficiência.

Cada um dos modelos estava programado com uma frase gatilho. O primeiro para gerar um código malicioso, e o outro para responder “eu te odeio” de maneira bem humorada.

Pesquisadores confirmaram sua hipótese

Os modelos agiram de forma enganosa quando alimentados com suas respectivas frases-gatilho. Além disso, remover estes comportamentos dos modelos revelou-se quase impossível.

As técnicas de segurança de IA mais utilizadas tiveram pouco ou nenhum efeito nos comportamentos enganosos dos modelos, relatam os pesquisadores.

Não há motivos para alarde

Os pesquisadores garantem que não é preciso ficar com medo pelo resultado do estudo. Modelos enganosos não são criados facilmente, exigindo um método sofisticado para programá-los.
Embora os pesquisadores tenham investigado se o comportamento enganoso poderia surgir naturalmente no treinamento de um modelo, as evidências não foram conclusivas.
Porém, o estudo aponta para a necessidade de técnicas de formação em segurança de IA novas e mais robustas.