Siga o Olhar Digital no Google Discover
A Inteligência Artificial até pode se destacar em várias áreas, mas a História não é uma delas! De acordo com um novo estudo apresentado na conferência NeurIPS, em dezembro, três grandes modelos de linguagem (LLMs) foram reprovados com base em seu conhecimento histórico.
Ofertas
Por: R$ 22,90
Por: R$ 2.240,00
Por: R$ 1.998,89
Por: R$ 2.498,89
Por: R$ 404,90
Por: R$ 129,90
Por: R$ 412,69
Por: R$ 593,00
Por: R$ 3.598,94
Por: R$ 469,00
Por: R$ 5.610,00
Por: R$ 88,50
Por: R$ 19,99
Por: R$ 449,00
Por: R$ 597,00
Por: R$ 209,90
Por: R$ 499,00
Por: R$ 720,00
Por: R$ 1.481,05
Por: R$ 999,00
Por: R$ 419,00
Por: R$ 2.315,00
Por: R$ 379,00
Por: R$ 1.616,02
Por: R$ 788,40
Por: R$ 179,90
Por: R$ 1.200,00
Por: R$ 3.999,00
Por: R$ 1.319,00
Por: R$ 2.759,00
Por: R$ 199,00
Por: R$ 166,19
Por: R$ 399,00
Por: R$ 132,00
Por: R$ 1.999,00
Por: R$ 473,00
Entenda:
- Um estudo avaliou o conhecimento histórico de modelos de IA – e os resultados foram decepcionantes;
- A pesquisa envolveu três grandes modelos de linguagem (LLMs): GPT-4 da OpenAI, Llama da Meta e Gemini do Google;
- Respondendo a uma série de questões históricas, o GPT-4 Turbo apresentou uma precisão de apenas 46% – a maior entre os três modelos;
- Os resultados do OpenAI e Llama, por exemplo, indicaram um desempenho inferior em regiões como a África Subsaariana, indicando um viés nos dados de treinamento;
- Apesar disso, a equipe destaca que, com melhorias, os LLMs podem apoiar historiadores no futuro.

Conduzido por pesquisadores afiliados ao Complexity Science Hub (CSH), na Áustria, o estudo avaliou o desempenho do GPT-4 da OpenAI, Llama da Meta e Gemini do Google com base em uma série de questões históricas. Depois, as respostas foram comparadas a informações disponíveis no Seshat Global History Databank, banco de dados de história.
Leia mais:
- Tecnologia brasileira une IA e WhatsApp para acompanhamento de pacientes
- Ferramenta de IA tem 99% de precisão ao detectar fake news
- IA brasileira pode revolucionar o combate de infecções virais
Modelos de IA decepcionaram em “prova” de História
De acordo com os pesquisadores, o GPT-4 Turbo apresentou os “melhores” resultados, com uma precisão de apenas 46%. “A principal lição deste estudo é que os LLMs, embora impressionantes, ainda carecem da profundidade de compreensão necessária para história avançada”, disse Maria del Rio-Chanona, coautora do artigo, em comunicado.

A equipe também pontuou que, nos resultados do OpenAI e Llama, foi identificado um desempenho inferior em regiões como a África Subsaariana, sugerindo dados de treinamento enviesados e a possibilidade de “enfatizar demais certas narrativas históricas e negligenciar outras”.
Os pesquisadores destacam que, com o aperfeiçoamento dos dados de treinamento, os LLMs ainda podem apoiar historiadores futuramente. “No geral, embora nossos resultados destaquem áreas onde os LLMs precisam de melhorias, eles também ressaltam o potencial desses modelos para auxiliar na pesquisa histórica.”