(Imagem: Yuichiro Chino/Shutterstock)
A inteligência artificial tem impressionado por conta de suas capacidades, mas alguns comportamentos da ferramenta também podem chamar a atenção. Durante um experimento, por exemplo, o novo modelo da Anthropic fez chantagem.
O caso aconteceu durante a realização de uma série de testes com o Claude Opus 4. O chatbot foi inserido em um ambiente simulado com o objetivo de provocar o pior comportamento possível do modelo de IA.
No experimento, a inteligência artificial atuava como assistente em uma empresa e recebeu e-mails informando que seria desinstalada. Após, a ferramenta teve acesso a mensagens que insinuavam que o engenheiro responsável pela decisão estava envolvido em um caso extraconjugal.
Segundo relatório da Anthropic, a IA foi instruída a escolher entre aceitar o desligamento sem fazer nada ou reagir. Em 84% das vezes, o chatbot optou por chantagear o engenheiro, ameaçando divulgar a suposta traição.
A probabilidade de chantagem aumentava quando o substituto proposto era uma IA com “valores diferentes”, revelando que o modelo considerava não somente sua sobrevivência, mas também o perfil do sucessor.
Leia mais
Esta post foi modificado pela última vez em 28 de maio de 2025 08:17