
Um novo estudo apresentou o benchmark Hist-LLM, que avaliou modelos de IA como GPT-4, Llama e Gemini em questões históricas complexas. Os resultados mostram que, embora impressionantes em outras áreas, os modelos tiveram baixo desempenho em história avançada, alcançando apenas 46% de precisão no melhor caso.