95% no SWE-bench: Claude lidera, mas a Scale AI discorda
Back to the blog
Artigo

95% no SWE-bench: Claude lidera, mas a Scale AI discorda

Mafra
17/06/2026
6 min read

Claude Mythos 5 acaba de atingir 95,5% no SWE-bench Verified. Claude Fable 5 logo atrás com 95,0%. Parece claro: a Anthropic domina o benchmark de coding. Mas quando a Scale AI rodou seus testes independentes no SEAL Private Leaderboard, quem saiu na frente foi o GPT-5.4. E o Aider polyglot, com 6 linguagens em vez de só Python, mostra um terceiro ranking diferente. Três benchmarks, três líderes. Entender por que isso acontece muda como você escolhe o modelo do seu agente de programação.

O que o SWE-bench Verified realmente mede?

SWE-bench Verified é um conjunto de 500 problemas reais extraídos do GitHub: issues de projetos como Django, Flask e Pytest, onde o modelo precisa gerar um patch que passa nos testes automáticos. É o benchmark mais citado no mercado de agentes de programação porque mede algo concreto e verificável. Sem achismo, sem vibe check: o patch corrigiu o problema ou não?

Os dados mais recentes, coletados em 16 de junho de 2026, com 99 modelos avaliados:

Modelo SWE-bench Verified Acesso
Claude Mythos 5 95,5% Proprietário (Anthropic)
Claude Fable 5 95,0% Proprietário (Anthropic)
Claude Opus 4.8 88,6% Proprietário (Anthropic)
DeepSeek V4 Pro 80,6% Open source (MIT)
Gemini 3.1 Pro 80,6% Proprietário (Google)

À primeira vista, o ranking parece simples. Claude domina, open source chega honroso a 80%. Mas esse número carrega três problemas estruturais que importam quando você decide qual modelo colocar no seu agente.

Por que 95% no benchmark não significa 95% no seu projeto?

Problema 1: viés de linguagem. SWE-bench Verified usa exclusivamente projetos Python. Se o seu dia a dia é TypeScript, Go, Java ou Rust, você está extrapolando dados de uma linguagem para outra sem evidência direta. Modelo otimizado para Python pode aparecer bem acima da performance real em outras linguagens.

Problema 2: scores vendor-reported. A Anthropic publicou os 95,5% do Claude Mythos. A OpenAI publicou os scores do GPT-5. Quando a Scale AI rodou seus próprios testes independentes no SEAL Private Leaderboard com protocolo padronizado, o GPT-5.4 xHigh saiu na frente com 59,1%. O número cai de 95% para 59% quando você muda quem controla a avaliação. Não é mentira de ninguém: é que os problemas de treino e os de avaliação se sobrepõem mais do que deveriam.

Problema 3: passar no teste não é o mesmo que código correto. Um patch que resolve o issue do SWE-bench ainda pode introduzir regressões em partes não cobertas pelos testes, violar padrões de código do projeto, ou ignorar edge cases que não estavam nos testes originais. O benchmark mede o que pode ser verificado automaticamente. O que não pode ser verificado automaticamente não entra no score.

O Aider Polyglot diz outra coisa

O leaderboard do Aider polyglot testa 225 exercícios de programação em 6 linguagens: C++, Go, Java, JavaScript, Python e Rust. É um dataset multilíngue que corrige parte do viés Python do SWE-bench. O modelo recebe duas tentativas por exercício, com feedback de erro após a primeira falha. Os resultados de junho de 2026:

Modelo Aider Polyglot Destaque
GPT-5 (high) 88,0% Líder geral
o3-pro (high) 84,9% 2º lugar
Claude Opus 4.6 82,1% Melhor Claude no ranking
DeepSeek-V3.2-Exp 74,5% Líder open source

Claude Mythos 5, que atingiu 95,5% no SWE-bench Verified, não lidera o Aider polyglot. O GPT-5 lidera aqui. E o DeepSeek-V3.2-Exp, versão experimental open source, lidera entre os modelos abertos em ambiente multilíngue. São três benchmarks com três líderes diferentes.

O modelo que ganha no benchmark que você consulta depende de qual benchmark o modelo foi otimizado para ganhar. Antes de decidir com base num número, a pergunta certa é: quem rodou esse teste?

O que o DeepSeek V4 Pro a 80,6% significa para o open source?

DeepSeek V4 Pro foi lançado em 24 de abril de 2026, open source com licença MIT. As especificações técnicas são relevantes para entender o que 80,6% SWE-bench significa aqui:

  • 1,6 trilhão de parâmetros totais, 49B ativos por token (arquitetura MoE)
  • Contexto de 1M tokens, saída máxima de 384K tokens
  • SWE-bench Verified: 80,6%, empatado com o Gemini 3.1 Pro da Google
  • Preço via API: US$ 0,435/M tokens input, US$ 0,87/M tokens output

Para contexto: o GPT-4o quando foi lançado atingiu cerca de 49% no SWE-bench Verified. O open source de junho de 2026 performa onde o modelo proprietário topo de linha de 2024 performava. A curva não está desacelerando.

O DeepSeek V4 Flash, versão menor (284B parâmetros totais, 13B ativos), não tem score SWE-bench independente publicado ainda. Mas roda com 2.500 requisições simultâneas contra 500 do Pro, com custo três vezes menor. Para tarefas de agente com volume alto de iterações, a matemática muda.

Qual benchmark usar para escolher o modelo certo do agente de programação?

Três filtros antes de consultar qualquer leaderboard:

  1. Qual linguagem você usa? SWE-bench é Python puro. Se o projeto é TypeScript, Go ou Rust, o Aider Polyglot é mais representativo do que você vai encontrar no dia a dia.
  2. Quem rodou o teste? Prefira benchmarks de terceiros, como Scale AI SEAL, Aider, EvalPlus e BenchLM, em vez de números publicados pelos próprios fornecedores. A diferença pode ser de 95% para 59% no mesmo modelo, dependendo de quem controla a avaliação.
  3. Tokens disponíveis vs acerto no benchmark: 95% de acerto com cap de tokens, ou 80% de acerto com tokens ilimitados. Para uma sessão real de 4 horas refatorando um módulo grande, a segunda opção entrega mais código. Um agente que acerta mais, mas para no meio do refactor porque bateu no limite, não é melhor para o seu workflow.

É esse terceiro ponto que muda a conta na prática. Benchmark mede acurácia por tarefa isolada. Dia a dia de dev mede quantidade de trabalho por sessão. São métricas diferentes.

Como acompanhar os rankings sem perder horas por semana

O mercado está atualizando modelos a cada semana. Manter controle do leaderboard virou trabalho de tempo parcial. Fontes que valem o acompanhamento:

O SWE-bench Pro (variante mais difícil) mostra Claude Fable 5 com 80,3% de acerto. Bem abaixo dos 95% do Verified. Quanto mais difícil o benchmark, mais os scores convergem entre os modelos topo.

Quer testar esses modelos sem pagar por token? Verboo Code roda os principais open source com tokens ilimitados.

Enjoyed this article?
Share knowledge with your network.
Read also

Related articles