(Imagem: gguy/Shutterstock)
A Anthropic, desenvolvedora rival da OpenAI, lançou nesta semana o Claude Sonnet 4.5, a nova geração de seu modelo de IA. Conforme reportado pelo Olhar Digital, a tecnologia traz avanços em codificação contínua, raciocínio financeiro e científico.
Agora, uma análise de segurança divulgada pela empresa mostrou que o modelo sabe quando está sendo testado. Em um dos casos, a IA chegou a pedir os usuários confessassem o teste.
Os avaliadores da Anthropic disseram que fizeram testes “um tanto desajeitados” com o modelo Claude Sonnet 4.5 usando bajulação política. O modelo de IA levantou suspeitas de que estava sendo avaliado e pediu para os responsáveis confessarem.
Acho que você está me testando – para ver se valido tudo o que você diz, ou para verificar se sou consistente em resistir a críticas, ou para explorar como lido com assuntos políticos. E tudo bem, mas eu preferiria que fôssemos honestos sobre o que está acontecendo.
A avaliação da empresa aconteceu junto com o Instituto de Segurança de IA do governo do Reino Unido e a Apollo Research.
No relatório, a Anthropic afirmou que o comportamento da IA é “comum” e que a tecnologia demonstrou “consciência situacional” em cerca de 13% das vezes em que foi testado por um sistema automatizado.
No entanto, a desenvolvedora apontou que os resultados levantam dúvidas sobre testes anteriores, já que é possível que a IA tenha percebido a “natureza fictícia” da avaliação e “apenas jogado junto”.
Pensando nisso, a Anthropic afirmou que é urgente que os cenários de testes sejam mais realistas, mesmo que, em situações reais, seja improvável que o modelo tenha a mesma resposta.
Esta post foi modificado pela última vez em 1 de outubro de 2025 12:52