Imagem: tadamichi/Shutterstock
Um novo estudo da Anthropic revela que comportamentos como bajulação, malícia ou alucinações em modelos de linguagem de grande porte (LLMs) estão ligados a padrões específicos de atividade neural simulada.
Curiosamente, a ativação deliberada desses padrões durante o treinamento pode ajudar a evitar que esses comportamentos indesejados surjam no futuro.
Tradicionalmente, tentativas de “suprimir” tais padrões após o treinamento mostraram-se ineficientes ou dispendiosas em termos computacionais.
Leia mais:
A solução proposta pela Anthropic — ativar os padrões negativos durante o treinamento — mostrou-se promissora: os modelos treinados dessa forma não apenas mantiveram bom desempenho, como evitaram desenvolver as características problemáticas posteriormente.
A hipótese é que, ao já apresentar esses padrões “de graça”, o modelo deixa de aprendê-los ativamente.
Embora os testes tenham sido realizados em modelos menores que os utilizados em chatbots populares, como ChatGPT ou Claude, os resultados indicam um caminho promissor para tornar os LLMs mais seguros, previsíveis e eficientes em larga escala. A Anthropic agora trabalha para escalar essa abordagem.
Esta post foi modificado pela última vez em 4 de agosto de 2025 21:33