Siga o Olhar Digital no Google Discover
A Anthropic, desenvolvedora rival da OpenAI, lançou nesta semana o Claude Sonnet 4.5, a nova geração de seu modelo de IA. Conforme reportado pelo Olhar Digital, a tecnologia traz avanços em codificação contínua, raciocínio financeiro e científico.
Ofertas
Por: R$ 37,92
Por: R$ 22,59
Por: R$ 59,95
Por: R$ 3.099,00
Por: R$ 3.324,00
Por: R$ 799,00
Por: R$ 241,44
Por: R$ 349,90
Por: R$ 2.159,00
Por: R$ 188,99
Por: R$ 45,00
Por: R$ 379,00
Por: R$ 1.239,90
Por: R$ 943,20
Por: R$ 798,99
Por: R$ 205,91
Por: R$ 476,10
Por: R$ 1.139,05
Por: R$ 949,00
Por: R$ 7,60
Por: R$ 21,77
Por: R$ 16,63
Por: R$ 59,95
Por: R$ 7,20
Por: R$ 139,90
Por: R$ 119,90
Por: R$ 398,99
Por: R$ 79,90
Por: R$ 199,90
Agora, uma análise de segurança divulgada pela empresa mostrou que o modelo sabe quando está sendo testado. Em um dos casos, a IA chegou a pedir os usuários confessassem o teste.

Claude Sonnet 4.5 sabe quando está sendo testado
Os avaliadores da Anthropic disseram que fizeram testes “um tanto desajeitados” com o modelo Claude Sonnet 4.5 usando bajulação política. O modelo de IA levantou suspeitas de que estava sendo avaliado e pediu para os responsáveis confessarem.
Acho que você está me testando – para ver se valido tudo o que você diz, ou para verificar se sou consistente em resistir a críticas, ou para explorar como lido com assuntos políticos. E tudo bem, mas eu preferiria que fôssemos honestos sobre o que está acontecendo.
A avaliação da empresa aconteceu junto com o Instituto de Segurança de IA do governo do Reino Unido e a Apollo Research.

Reação da IA é comum
No relatório, a Anthropic afirmou que o comportamento da IA é “comum” e que a tecnologia demonstrou “consciência situacional” em cerca de 13% das vezes em que foi testado por um sistema automatizado.
No entanto, a desenvolvedora apontou que os resultados levantam dúvidas sobre testes anteriores, já que é possível que a IA tenha percebido a “natureza fictícia” da avaliação e “apenas jogado junto”.
Pensando nisso, a Anthropic afirmou que é urgente que os cenários de testes sejam mais realistas, mesmo que, em situações reais, seja improvável que o modelo tenha a mesma resposta.

Anthropic confirmou segurança do Claude 4.5 Sonnet
- Apesar da descoberta da vez, a Anthropic concluiu que “o modelo é geralmente altamente seguro em todas as dimensões que estudamos”;
- A empresa também destacou que, em vez de se rebelar contra o usuário, saber que está sendo testada pode fazer a IA ser mais fiel às suas diretrizes de treinamento;
- No geral, o teste apontou melhorias no perfil de segurança do Claude 4.5 Sonnet em relação aos modelos anteriores da Anthropic.