Siga o Olhar Digital no Google Discover
A Inteligência Artificial até pode se destacar em várias áreas, mas a História não é uma delas! De acordo com um novo estudo apresentado na conferência NeurIPS, em dezembro, três grandes modelos de linguagem (LLMs) foram reprovados com base em seu conhecimento histórico.
Ofertas
Por: R$ 22,59
Por: R$ 59,95
Por: R$ 3.099,00
Por: R$ 3.324,00
Por: R$ 799,00
Por: R$ 241,44
Por: R$ 349,90
Por: R$ 2.159,00
Por: R$ 188,99
Por: R$ 45,00
Por: R$ 379,00
Por: R$ 1.239,90
Por: R$ 943,20
Por: R$ 798,99
Por: R$ 205,91
Por: R$ 476,10
Por: R$ 1.139,05
Por: R$ 949,00
Por: R$ 7,60
Por: R$ 21,77
Por: R$ 16,63
Por: R$ 59,95
Por: R$ 7,20
Por: R$ 139,90
Por: R$ 119,90
Por: R$ 398,99
Por: R$ 79,90
Por: R$ 199,90
Entenda:
- Um estudo avaliou o conhecimento histórico de modelos de IA – e os resultados foram decepcionantes;
- A pesquisa envolveu três grandes modelos de linguagem (LLMs): GPT-4 da OpenAI, Llama da Meta e Gemini do Google;
- Respondendo a uma série de questões históricas, o GPT-4 Turbo apresentou uma precisão de apenas 46% – a maior entre os três modelos;
- Os resultados do OpenAI e Llama, por exemplo, indicaram um desempenho inferior em regiões como a África Subsaariana, indicando um viés nos dados de treinamento;
- Apesar disso, a equipe destaca que, com melhorias, os LLMs podem apoiar historiadores no futuro.

Conduzido por pesquisadores afiliados ao Complexity Science Hub (CSH), na Áustria, o estudo avaliou o desempenho do GPT-4 da OpenAI, Llama da Meta e Gemini do Google com base em uma série de questões históricas. Depois, as respostas foram comparadas a informações disponíveis no Seshat Global History Databank, banco de dados de história.
Leia mais:
- Tecnologia brasileira une IA e WhatsApp para acompanhamento de pacientes
- Ferramenta de IA tem 99% de precisão ao detectar fake news
- IA brasileira pode revolucionar o combate de infecções virais
Modelos de IA decepcionaram em “prova” de História
De acordo com os pesquisadores, o GPT-4 Turbo apresentou os “melhores” resultados, com uma precisão de apenas 46%. “A principal lição deste estudo é que os LLMs, embora impressionantes, ainda carecem da profundidade de compreensão necessária para história avançada”, disse Maria del Rio-Chanona, coautora do artigo, em comunicado.

A equipe também pontuou que, nos resultados do OpenAI e Llama, foi identificado um desempenho inferior em regiões como a África Subsaariana, sugerindo dados de treinamento enviesados e a possibilidade de “enfatizar demais certas narrativas históricas e negligenciar outras”.
Os pesquisadores destacam que, com o aperfeiçoamento dos dados de treinamento, os LLMs ainda podem apoiar historiadores futuramente. “No geral, embora nossos resultados destaquem áreas onde os LLMs precisam de melhorias, eles também ressaltam o potencial desses modelos para auxiliar na pesquisa histórica.”