OpenAI Lança SWE-Lancer, Benchmark para Testar IA em Tarefas Reais de Engenharia de Software

Por Diego Almeida
fevereiro 19, 2025

A OpenAI acaba de lançar um novo benchmark de engenharia de software, chamado SWE-Lancer, que coloca modelos de IA à prova em tarefas reais de programação. O diferencial desse teste é que, em vez de avaliar apenas a qualidade do código, ele simula a realidade do trabalho freelance, determinando quanto cada IA poderia “ganhar” completando projetos no Upwork.

Como Funciona o SWE-Lancer?

O benchmark conta com mais de 1.400 tarefas de engenharia de software retiradas da plataforma Upwork, cobrindo uma ampla gama de desafios:

Correção de bugs simples
Desenvolvimento de novos recursos
Decisões estratégicas de engenharia

Além de avaliar a capacidade de escrever código, o teste também mede a eficiência na seleção de propostas de engenharia, verificando se a IA consegue escolher as melhores soluções técnicas para cada tarefa.

Uma métrica inédita introduzida pelo SWE-Lancer é a monetização dos resultados, calculando quanto dinheiro um modelo poderia ganhar completando as tarefas corretamente.

Resultados e Desempenho dos Modelos

Os principais modelos de IA enfrentaram dificuldades no benchmark, com nenhum conseguindo resolver todas as tarefas propostas. O melhor desempenho foi do Claude 3.5 Sonnet, da Anthropic, que completou quase metade dos desafios, acumulando um valor simulado de $400.000 dos $1 milhão disponíveis.

Impacto na Automação do Trabalho de Engenharia de Software

O lançamento do SWE-Lancer reflete a necessidade crescente de avaliar a IA em cenários mais realistas e aplicáveis ao mercado de trabalho. Embora os modelos ainda apresentem limitações, o fato de que um modelo como Claude 3.5 Sonnet conseguiu gerar $400.000 de valor teórico demonstra o potencial disruptivo da automação no desenvolvimento de software.

Por que Isso Importa?

Benchmarks estão se tornando cada vez mais desafiadores, tentando acompanhar a rápida evolução dos LLMs. No entanto, à medida que modelos de IA continuam melhorando, esses testes também precisarão se adaptar.

Mais do que uma simples métrica de desempenho, o SWE-Lancer serve como um indicador realista da escala de impacto que a IA pode ter no mercado de trabalho, especialmente em áreas como desenvolvimento de software e engenharia de código. Se IAs já conseguem resolver quase metade das tarefas de um desenvolvedor freelancer, a pergunta agora é: quanto tempo até que esse número ultrapasse 80% ou 90%?