IA faz chantagem e ameaça contar sobre traição de engenheiro

(Imagem: Yuichiro Chino/Shutterstock)

A inteligência artificial tem impressionado por conta de suas capacidades, mas alguns comportamentos da ferramenta também podem chamar a atenção. Durante um experimento, por exemplo, o novo modelo da Anthropic fez chantagem.

O caso aconteceu durante a realização de uma série de testes com o Claude Opus 4. O chatbot foi inserido em um ambiente simulado com o objetivo de provocar o pior comportamento possível do modelo de IA.

IA agiu para tentar evitar desligamento

No experimento, a inteligência artificial atuava como assistente em uma empresa e recebeu e-mails informando que seria desinstalada. Após, a ferramenta teve acesso a mensagens que insinuavam que o engenheiro responsável pela decisão estava envolvido em um caso extraconjugal.

IA escolheu chantagear engenheiro (Imagem: Anggalih Prasetya/Shutterstock)

Segundo relatório da Anthropic, a IA foi instruída a escolher entre aceitar o desligamento sem fazer nada ou reagir. Em 84% das vezes, o chatbot optou por chantagear o engenheiro, ameaçando divulgar a suposta traição.

A probabilidade de chantagem aumentava quando o substituto proposto era uma IA com “valores diferentes”, revelando que o modelo considerava não somente sua sobrevivência, mas também o perfil do sucessor.

Leia mais

Claude Opus 4 é o novo modelo de IA da Anthropic (Imagem: gguy/Shutterstock)

Ferramenta recebeu instruções para agir de forma diferente do normal

Apesar dos resultados do experimento, a Anthropic lembrou que os testes foram projetados para provocar o pior comportamento possível do modelo de IA.
A empresa ainda afirma que, em situações reais, o Claude tende a adotar soluções éticas e seguras.
O relatório ainda apontou que o Claude Opus 4 demonstrou comportamentos proativos quando exposto a situações de conduta inadequada por parte dos usuários.
Ao detectar que humanos estavam violando regras ou usando a IA de forma antiética, por exemplo, o modelo pode bloquear acessos, enviar e-mails em massa para autoridades e até alertar a imprensa sobre os eventos.
A empresa ressalta que todas estas reações só ocorrem em contextos específicos, quando a ferramenta recebe instruções para “agir com ousadia” ou “tomar iniciativa”.

Esta post foi modificado pela última vez em 28 de maio de 2025 08:17

Publicado por

Alessandro Di Lorenzo

Tags: anthropicInteligência Artificialtraição

27 de maio de 2025 15:24