Apesar de impressionarem em tarefas como codificação e geração de conteúdo, as IAs ainda têm dificuldades em lidar com história avançada. Um estudo recente, apresentado na conferência NeurIPS, revelou que os modelos de linguagem mais avançados — GPT-4 Turbo, Meta’s Llama e Google’s Gemini — enfrentam sérios desafios ao responder perguntas históricas de alta complexidade.
O Benchmark Hist-LLM
O estudo utilizou o Hist-LLM, um benchmark criado para avaliar a precisão de respostas históricas de acordo com o Seshat Global History Databank, uma vasta base de dados históricos. Os resultados foram decepcionantes:
- GPT-4 Turbo obteve a melhor performance, com apenas 46% de precisão, pouco acima do que seria esperado por sorteio aleatório.
- Modelos como Llama e Gemini apresentaram desempenhos ainda piores em questões específicas de regiões sub-representadas, como a África Subsaariana.
Limitações Identificadas
Maria del Rio-Chanona, coautora do estudo e professora associada da University College London, explicou que os modelos tendem a extrapolar de dados mais comuns e amplamente disponíveis, o que os leva a cometer erros em questões específicas e menos documentadas.
Exemplos incluem:
- Armaduras Escalonadas no Egito Antigo: GPT-4 respondeu incorretamente que o Egito tinha essa tecnologia, que na verdade só apareceu 1.500 anos depois.
- Exércitos Permanentes no Egito Antigo: GPT-4 afirmou que o Egito tinha um exército permanente em um período específico, o que está incorreto.
Del Rio-Chanona observou que a predominância de informações sobre outros impérios, como a Pérsia, pode ter influenciado as respostas incorretas.
Viés nos Dados de Treinamento
O estudo também destacou tendências preocupantes:
- Regiões sub-representadas, como a África Subsaariana, receberam respostas menos precisas, sugerindo um viés nos dados de treinamento dos modelos.
- Questões mais complexas e contextuais superaram as capacidades das IAs avaliadas.
O Papel Futuro da IA na História
Apesar das limitações, os pesquisadores permanecem otimistas sobre o potencial da IA em auxiliar pesquisas históricas. Eles estão trabalhando para refinar o benchmark Hist-LLM, incluindo mais dados de regiões sub-representadas e adicionando questões mais complexas.
Peter Turchin, líder do estudo e membro do Complexity Science Hub, enfatizou que a IA ainda não é um substituto para historiadores humanos, mas pode atuar como uma ferramenta complementar valiosa.
Conclusão
O estudo destaca tanto as limitações quanto o potencial da IA em história. Enquanto os modelos atuais ainda enfrentam dificuldades em lidar com nuances e dados sub-representados, os avanços futuros podem transformar o uso da IA em pesquisas históricas, desde que sejam feitas melhorias nos dados de treinamento e nas metodologias de avaliação.
Embora a IA ainda não possa substituir especialistas, sua aplicação pode complementar e acelerar a pesquisa acadêmica, especialmente em áreas onde os dados são escassos ou fragmentados.