IA Não é Boa em História: Estudo Revela Limitações de Modelos de Linguagem

Por Diego Almeida
janeiro 19, 2025

Apesar de impressionarem em tarefas como codificação e geração de conteúdo, as IAs ainda têm dificuldades em lidar com história avançada. Um estudo recente, apresentado na conferência NeurIPS, revelou que os modelos de linguagem mais avançados — GPT-4 Turbo, Meta’s Llama e Google’s Gemini — enfrentam sérios desafios ao responder perguntas históricas de alta complexidade.

O Benchmark Hist-LLM

O estudo utilizou o Hist-LLM, um benchmark criado para avaliar a precisão de respostas históricas de acordo com o Seshat Global History Databank, uma vasta base de dados históricos. Os resultados foram decepcionantes:

GPT-4 Turbo obteve a melhor performance, com apenas 46% de precisão, pouco acima do que seria esperado por sorteio aleatório.
Modelos como Llama e Gemini apresentaram desempenhos ainda piores em questões específicas de regiões sub-representadas, como a África Subsaariana.

Limitações Identificadas

Maria del Rio-Chanona, coautora do estudo e professora associada da University College London, explicou que os modelos tendem a extrapolar de dados mais comuns e amplamente disponíveis, o que os leva a cometer erros em questões específicas e menos documentadas.

Exemplos incluem:

Armaduras Escalonadas no Egito Antigo: GPT-4 respondeu incorretamente que o Egito tinha essa tecnologia, que na verdade só apareceu 1.500 anos depois.
Exércitos Permanentes no Egito Antigo: GPT-4 afirmou que o Egito tinha um exército permanente em um período específico, o que está incorreto.

Del Rio-Chanona observou que a predominância de informações sobre outros impérios, como a Pérsia, pode ter influenciado as respostas incorretas.

Viés nos Dados de Treinamento

O estudo também destacou tendências preocupantes:

Regiões sub-representadas, como a África Subsaariana, receberam respostas menos precisas, sugerindo um viés nos dados de treinamento dos modelos.
Questões mais complexas e contextuais superaram as capacidades das IAs avaliadas.

O Papel Futuro da IA na História

Apesar das limitações, os pesquisadores permanecem otimistas sobre o potencial da IA em auxiliar pesquisas históricas. Eles estão trabalhando para refinar o benchmark Hist-LLM, incluindo mais dados de regiões sub-representadas e adicionando questões mais complexas.

Peter Turchin, líder do estudo e membro do Complexity Science Hub, enfatizou que a IA ainda não é um substituto para historiadores humanos, mas pode atuar como uma ferramenta complementar valiosa.

Conclusão

O estudo destaca tanto as limitações quanto o potencial da IA em história. Enquanto os modelos atuais ainda enfrentam dificuldades em lidar com nuances e dados sub-representados, os avanços futuros podem transformar o uso da IA em pesquisas históricas, desde que sejam feitas melhorias nos dados de treinamento e nas metodologias de avaliação.

Embora a IA ainda não possa substituir especialistas, sua aplicação pode complementar e acelerar a pesquisa acadêmica, especialmente em áreas onde os dados são escassos ou fragmentados.