Não passou de ano: IA é ruim em História, aponta estudo

Alguns modelos de IA não se sairiam nada bem em uma prova de História, aponta a pesquisa
Ana Julia Pilato21/01/2025 06h02
Cérebro com os dizeres
Imagem: Anggalih Prasetya/Shutterstock
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

A Inteligência Artificial até pode se destacar em várias áreas, mas a História não é uma delas! De acordo com um novo estudo apresentado na conferência NeurIPS, em dezembro, três grandes modelos de linguagem (LLMs) foram reprovados com base em seu conhecimento histórico.

Entenda:

  • Um estudo avaliou o conhecimento histórico de modelos de IA – e os resultados foram decepcionantes;
  • A pesquisa envolveu três grandes modelos de linguagem (LLMs): GPT-4 da OpenAI, Llama da Meta e Gemini do Google;
  • Respondendo a uma série de questões históricas, o GPT-4 Turbo apresentou uma precisão de apenas 46% – a maior entre os três modelos;
  • Os resultados do OpenAI e Llama, por exemplo, indicaram um desempenho inferior em regiões como a África Subsaariana, indicando um viés nos dados de treinamento;
  • Apesar disso, a equipe destaca que, com melhorias, os LLMs podem apoiar historiadores no futuro.
GPT-4, da OpenAI, teve 46% de precisão em teste de conhecimento histórico. (Imagem: Ebru-Omer/Shutterstock)

Conduzido por pesquisadores afiliados ao Complexity Science Hub (CSH), na Áustria, o estudo avaliou o desempenho do GPT-4 da OpenAI, Llama da Meta e Gemini do Google com base em uma série de questões históricas. Depois, as respostas foram comparadas a informações disponíveis no Seshat Global History Databank, banco de dados de história. 

Leia mais:

Modelos de IA decepcionaram em “prova” de História

De acordo com os pesquisadores, o GPT-4 Turbo apresentou os “melhores” resultados, com uma precisão de apenas 46%. “A principal lição deste estudo é que os LLMs, embora impressionantes, ainda carecem da profundidade de compreensão necessária para história avançada”, disse Maria del Rio-Chanona, coautora do artigo, em comunicado.

gemini
Gemini, do Google, e Llama, da Meta, também foram analisados no estudo. (Imagem: rafapress/Shutterstock)

A equipe também pontuou que, nos resultados do OpenAI e Llama, foi identificado um desempenho inferior em regiões como a África Subsaariana, sugerindo dados de treinamento enviesados e a possibilidade de “enfatizar demais certas narrativas históricas e negligenciar outras”.

Os pesquisadores destacam que, com o aperfeiçoamento dos dados de treinamento, os LLMs ainda podem apoiar historiadores futuramente. “No geral, embora nossos resultados destaquem áreas onde os LLMs precisam de melhorias, eles também ressaltam o potencial desses modelos para auxiliar na pesquisa histórica.”

Ana Julia Pilato
Colaboração para o Olhar Digital

Ana Julia Pilato é formada em Jornalismo pela Universidade São Judas (USJT). Já trabalhou como copywriter e social media. Tem dois gatos e adora filmes, séries, ciência e crochê.