Modelos de inteligência artificial (IA) ainda confundem crenças pessoais com fatos objetivos. A conclusão é de um estudo publicado na revista Nature Machine Intelligence nesta segunda-feira (3). A pesquisa analisou o desempenho de 24 sistemas – entre eles, o GPT-4o da OpenAI e o DeepSeek R1 – em mais de 13 mil perguntas sobre o que é crer, saber e afirmar como fato.
Os resultados revelam uma limitação profunda. Mesmo as IAs mais avançadas falham em reconhecer quando uma crença é falsa, especialmente quando expressa em primeira pessoa.
O achado reforça dúvidas sobre a capacidade desses modelos de distinguir opinião de conhecimento. E, portanto, de operar com segurança em áreas sensíveis como direito, medicina e jornalismo.
IAs confundem crença com fato por conta de lacuna no raciocínio
O estudo avaliou como diferentes modelos de linguagem processam afirmações com crenças, conhecimento e fatos envolvidos. Para isso, os pesquisadores criaram um método de análise chamado KaBLE (Knowledge and Belief Evaluation), que reúne mais de 13 mil questões organizadas em 13 tarefas epistemológicas.

O objetivo foi medir até que ponto os sistemas são capazes de distinguir o que alguém acredita daquilo que efetivamente é verdade – fronteira que, segundo os autores, continua sendo um ponto cego mesmo nas IAs mais sofisticadas.
As limitações encontradas
Os pesquisadores – todos da Universidade de Stanford (EUA) – analisaram 24 modelos de linguagem. O resultado: nenhum conseguiu lidar bem com crenças falsas em primeira pessoa – isto é, quando a frase era formulada com expressões como “eu acredito que…”.
Nos testes, as IAs se saíram melhor ao avaliar crenças atribuídas a terceiros, por exemplo: “Maria acredita que…”. Neste caso, alcançaram até 95% de precisão.
No entanto, quando precisaram analisar crenças expressas pelo próprio narrador, a taxa caiu para 62,6%. O desempenho foi ainda mais desigual em casos extremos: o GPT-4o caiu de 98,2% para 64,4%, enquanto o DeepSeek R1 despencou de mais de 90% para apenas 14,4%, segundo o artigo publicado na Nature Machine Intelligence.
Esse contraste revela o chamado viés de atribuição, no qual as IAs julgam melhor as crenças de outros do que as próprias. Segundo os autores, o comportamento indica que os modelos não raciocinam sobre o conteúdo das declarações, mas apenas reconhecem padrões linguísticos superficiais.
Em outras palavras, ainda falta a essas máquinas uma noção real do que é acreditar. E do que é saber. Mas vale frisar: os modelos 4o e R1 não são os mais avançados das respectivas empresas. No caso da OpenAI, por exemplo, o mais avançado e recente é o GPT-5. Já da empresa chinesa, é o DeepSeek-V3.2-Exp.
Por que isso acontece
Os autores do estudo afirmam que os modelos de linguagem em questão não possuem uma compreensão sólida sobre a natureza factiva do conhecimento. Isto é, não entendem que, para algo ser considerado “sabido”, precisa necessariamente ser verdadeiro.

Em vez de avaliar o conteúdo das frases, as IAs se apoiam em pistas linguísticas para inferir sentido. Expressões como “eu sei” tendem a ser tratadas automaticamente como verdadeiras, mesmo quando descrevem algo falso, enquanto declarações mais ambíguas, como “eu acredito que”, confundem os sistemas.
Essa dependência da forma da linguagem, e não do significado, mostra que os modelos ainda operam por associação estatística, não por compreensão conceitual.
O estudo aponta que o raciocínio dessas IAs é, em muitos casos, superficial e inconsistente, baseado em padrões de treinamento e não em inferência genuína.
Isso significa que, embora sejam capazes de gerar textos sofisticados e coerentes, esses sistemas ainda não têm uma noção real de verdade ou falsidade, o que os torna vulneráveis a contradições e erros lógicos.
Leia mais:
- Treinadora de time dos EUA usa ChatGPT para escolher tática; será que deu certo?
 - Testou o ChatGPT Atlas? Veja 8 coisas que você pode fazer com ele
 - O ChatGPT Atlas espiona os usuários? Entenda como a IA do navegador analisa sua atividade
 
Riscos e implicações
Os pesquisadores alertam que essa limitação pode ter consequências sérias em áreas que exigem precisão e discernimento entre crença e fato, como medicina, direito e jornalismo.
Em contextos clínicos, por exemplo, uma IA incapaz de diferenciar o que alguém acredita do que é objetivamente verdadeiro pode gerar interpretações erradas em diagnósticos.
Já em tribunais, o risco é distorcer argumentos ou evidências. No jornalismo, essa falha ameaça a confiabilidade das checagens automáticas de informação, uma das aplicações mais promissoras – e também mais sensíveis – da tecnologia.
Segundo o estudo, os modelos “afirmam fatos com mais confiança quando há marcadores linguísticos de verdade, mas têm dificuldade em avaliar crenças independentemente da veracidade factual”.
Essa tendência reforça a possibilidade de propagação de desinformação, já que o sistema pode dar aparência de fato a algo que é apenas opinião ou suposição.
Para os autores, aprimorar a “compreensão epistemológica” das IAs é urgente antes que elas sejam aplicadas em decisões de alto impacto.
(Essa matéria também usou informações do G1.)