Gemini Flash 2.0 Lidera Novo Ranking de Agentes de IA da Galileo Labs

Por Diego Almeida
fevereiro 14, 2025

A Galileo Labs anunciou o lançamento de um leaderboard especializado em agentes de IA, avaliando a eficiência dos modelos em interações reais com ferramentas externas. O Gemini Flash 2.0, do Google, conquistou a liderança, superando concorrentes premium e demonstrando alta performance em benchmarks rigorosos. O GPT-4o, da OpenAI, ficou na segunda posição na classificação.

Como Funciona o Ranking?

O leaderboard analisou 17 modelos de IA de ponta utilizando 14 benchmarks distintos, que medem:

Uso e seleção de ferramentas
Capacidade de lidar com contextos longos
Interações complexas e encadeadas
Eficiência e custo-benefício

O Gemini Flash 2.0 obteve a maior pontuação (0.938), superando modelos mais caros e se destacando em praticamente todas as métricas avaliadas.

Open-Source Está Fechando o Gap

Modelos open-source também mostraram avanços notáveis. A nova versão Mistral Small obteve pontuações competitivas em relação a modelos premium, oferecendo um excelente custo-benefício.

Já os modelos DeepSeek V3 e R1 ficaram de fora do teste por não possuírem suporte para chamadas de função. No entanto, a Galileo Labs confirmou que, assim que essas capacidades forem adicionadas, eles serão incluídos no ranking.

O Impacto no Futuro dos Agentes de IA

Os agentes de IA ainda estão em estágio inicial, mas se tornaram um dos principais focos do setor para 2025. Com capacidades cada vez mais sofisticadas, a escolha do modelo ideal pode variar de acordo com o caso de uso do usuário, em vez de depender exclusivamente da marca ou do preço.

Esse novo leaderboard estabelece um padrão para medir e comparar agentes de IA, sendo um indicador crucial para empresas e desenvolvedores que buscam integrar inteligência artificial em suas operações.