IA ainda não consegue explicar seu próprio funcionamento interno, diz pesquisa da Anthropic

Anthropic detecta sinais de introspecção em LLM, que ainda não consegue descrever com precisão seus próprios processos internos.
Por Maurício Thomaz, editado por Lucas Soares 04/11/2025 16h15
LLM: estudo indica baixa confiabilidade na capacidade de introspecção em modelos de IA
LLM: estudo indica baixa confiabilidade na capacidade de introspecção em modelos de IA (Imagem: FAMILY STOCK / Shutterstock)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Pesquisadores da Anthropic divulgaram novos resultados sobre a capacidade de LLM (modelos de linguagem de grande porte) de identificar e descrever seus próprios processos internos. O estudo indica que, apesar de avanços, esses sistemas ainda apresentam uma habilidade “pouco confiável” de introspecção, frequentemente oferecendo explicações que soam plausíveis, mas não correspondem ao que ocorre internamente.

A pesquisa, detalhada no artigo “Emergent Introspective Awareness in Large Language Models” e divulgada no portal ArsTechnica, aprofunda investigações em IA ao tentar separar a descrição textual gerada pelo modelo de seus estados neurais internos reais.

Introspecção em LLMs ainda é limitada

Segundo o estudo, quando questionados sobre como pensam ou por que produzem determinadas respostas, os LLMs tendem a criar justificativas com base em padrões do treinamento — o que pode levar a explicações inventadas. Para evitar isso, os pesquisadores utilizaram métodos que buscam mensurar uma forma real de “consciência introspectiva” dentro do modelo.

Explicações de LLM sobre seu raciocínio seguem pouco confiáveis (Imagem: Supatman/iStock)

Os autores concluem que os sistemas atuais falham com frequência ao descrever sua própria atividade interna, reforçando que o comportamento dessas ferramentas não deve ser confundido com compreensão genuína de seus próprios mecanismos.

O experimento de “injeção de conceitos”

A Anthropic utilizou um método chamado “concept injection”. Ele consiste em observar as diferenças de ativação neuronal ao comparar dois tipos de comandos, como uma frase em maiúsculas versus a mesma em minúsculas. Essas diferenças são transformadas em vetores que representam conceitos no estado interno do LLM.

Depois, os cientistas injetam esses vetores no modelo, alterando artificialmente determinadas ativações neurais para “forçar” o pensamento associado. Com isso, eles verificam se o modelo percebe a alteração e demonstra alguma forma de consciência sobre o estado alterado.

Pessoa digitando em um notebook; acima, desenhos relacionados à IA
Embora os modelos possam ocasionalmente detectar interferências, essa “consciência” é incipiente e extremamente instável (Imagem: Boy Wirat/iStock)

Em alguns casos, o LLM mostrou sinais de reconhecer a interferência, gerando respostas como a percepção de um pensamento relacionado a “GRITAR” ou “ALTO” quando o vetor de “all caps” era injetado. Porém, mesmo nesses cenários, as detecções foram inconsistentes.

Lista resumida do método adotado:

  • comparação entre prompts diferentes;
  • criação de vetores com base em ativações neurais;
  • injeção desses vetores no modelo;
  • avaliação da capacidade do modelo de reconhecer a alteração.

Os resultados sugerem que, embora os modelos possam ocasionalmente detectar interferências, essa “consciência” é incipiente e extremamente instável. Para os pesquisadores, a introspecção verdadeira ainda não é uma característica confiável em sistemas de IA.

Leia mais:

Maurício Thomaz
Colaboração para o Olhar Digital

Jornalista com mais de 13 anos de experiência, tenho faro pela audiência e verdadeira paixão em buscar alternativas mais assertivas para a entrega do conteúdo ao usuário.

Lucas Soares
Editor(a)

Lucas Soares é jornalista formado pela Universidade Presbiteriana Mackenzie e atualmente é editor de ciência e espaço do Olhar Digital.