A OpenAI divulgou um novo estudo em que detalha as razões pelas quais modelos de linguagem grande (LLMs, na sigla em inglês), usado pelas inteligências artificiais (IAs), continuam apresentando “alucinações” — respostas falsas, mas plausíveis, dadas com confiança. Segundo a empresa, o problema está ligado a como os sistemas são treinados e avaliados.
“Mesmo com modelos mais capazes, um desafio continua difícil de resolver: as alucinações”, afirma o texto. A empresa define essas ocorrências como situações em que o sistema “gera uma resposta confiante que não é verdadeira”.

Um exemplo citado foi quando pesquisadores perguntaram a um chatbot sobre a tese de doutorado de Adam Tauman Kalai, coautor do estudo. O sistema deu três respostas diferentes — todas incorretas. Ao perguntar sobre sua data de nascimento, novamente surgiram três datas distintas, nenhuma correta.
Incentivo a “chutar” em vez de admitir incerteza
De acordo com a OpenAI, as avaliações atuais criam incentivos para que os modelos arrisquem respostas em vez de assumirem que não sabem. “Se o modelo arrisca ‘10 de setembro’ como data de aniversário, há uma chance em 365 de estar certo. Já dizer ‘não sei’ garante zero pontos”, explica o estudo. Dessa forma, os algoritmos passam a ser recompensados por adivinhar.
O problema, segundo a empresa, é que “a maioria dos scoreboards prioriza a precisão, mas erros são piores do que abstenções”. A OpenAI defende que é melhor um modelo indicar incerteza ou pedir esclarecimento do que oferecer uma informação incorreta com confiança.
Como corrigir o problema
- A solução, de acordo com o documento, seria mudar a forma de avaliação;
- “Penalizar erros confiantes mais do que a incerteza e dar crédito parcial para expressões adequadas de dúvida” é, segundo a empresa, o caminho mais promissor;
- A prática já é usada em alguns exames padronizados, que desestimulam o chute;
- A OpenAI critica o fato de que “os testes mais usados continuam recompensando palpites de sorte”. Para a empresa, isso mantém o ciclo de modelos que preferem arriscar em vez de admitir limitações.

Origem das alucinações das IAs
O estudo também explica como esses erros surgem no treinamento. Os modelos aprendem inicialmente a prever a próxima palavra em grandes volumes de texto, sem rótulos de “verdadeiro” ou “falso”. Isso significa que não há exemplos explícitos de informações incorretas. “É duplamente difícil distinguir declarações válidas das inválidas quando você não tem exemplos rotulados como inválidos”, aponta o relatório.
Enquanto padrões consistentes, como ortografia, são facilmente aprendidos, fatos aleatórios e de baixa frequência — como a data de nascimento de alguém — não seguem lógica previsível e acabam mais sujeitos a erros.
Conclusões do estudo
O estudo rebate alguns equívocos comuns. Entre eles, a ideia de que alucinações seriam inevitáveis. “Elas não são, porque modelos de linguagem podem se abster quando estão incertos”, defende a empresa. Outro ponto é a noção de que só modelos maiores poderiam evitar erros. Para a OpenAI, “pode ser mais fácil para um modelo pequeno reconhecer seus limites”.
A empresa reforça que está avançando: “Nossos modelos mais recentes têm taxas menores de alucinação e seguimos trabalhando para reduzir ainda mais os erros confiantes”. Contudo, a chave para resolver o problema pode estar menos no aumento da capacidade computacional e mais em como os modelos são avaliados e recompensados durante seu desenvolvimento.
