95% no SWE-bench: Claude lidera, mas a Scale AI discorda

Claude Mythos 5 acaba de atingir 95,5% no SWE-bench Verified. Claude Fable 5 logo atrás com 95,0%. Parece claro: a Anthropic domina o benchmark de coding. Mas quando a Scale AI rodou seus testes independentes no SEAL Private Leaderboard, quem saiu na frente foi o GPT-5.4. E o Aider polyglot, com 6 linguagens em vez de só Python, mostra um terceiro ranking diferente. Três benchmarks, três líderes. Entender por que isso acontece muda como você escolhe o modelo do seu agente de programação.

O que o SWE-bench Verified realmente mede?

SWE-bench Verified é um conjunto de 500 problemas reais extraídos do GitHub: issues de projetos como Django, Flask e Pytest, onde o modelo precisa gerar um patch que passa nos testes automáticos. É o benchmark mais citado no mercado de agentes de programação porque mede algo concreto e verificável. Sem achismo, sem vibe check: o patch corrigiu o problema ou não?

Os dados mais recentes, coletados em 16 de junho de 2026, com 99 modelos avaliados:

Modelo	SWE-bench Verified	Acesso
Claude Mythos 5	95,5%	Proprietário (Anthropic)
Claude Fable 5	95,0%	Proprietário (Anthropic)
Claude Opus 4.8	88,6%	Proprietário (Anthropic)
DeepSeek V4 Pro	80,6%	Open source (MIT)
Gemini 3.1 Pro	80,6%	Proprietário (Google)

À primeira vista, o ranking parece simples. Claude domina, open source chega honroso a 80%. Mas esse número carrega três problemas estruturais que importam quando você decide qual modelo colocar no seu agente.

Por que 95% no benchmark não significa 95% no seu projeto?

Problema 1: viés de linguagem. SWE-bench Verified usa exclusivamente projetos Python. Se o seu dia a dia é TypeScript, Go, Java ou Rust, você está extrapolando dados de uma linguagem para outra sem evidência direta. Modelo otimizado para Python pode aparecer bem acima da performance real em outras linguagens.

Problema 2: scores vendor-reported. A Anthropic publicou os 95,5% do Claude Mythos. A OpenAI publicou os scores do GPT-5. Quando a Scale AI rodou seus próprios testes independentes no SEAL Private Leaderboard com protocolo padronizado, o GPT-5.4 xHigh saiu na frente com 59,1%. O número cai de 95% para 59% quando você muda quem controla a avaliação. Não é mentira de ninguém: é que os problemas de treino e os de avaliação se sobrepõem mais do que deveriam.

Problema 3: passar no teste não é o mesmo que código correto. Um patch que resolve o issue do SWE-bench ainda pode introduzir regressões em partes não cobertas pelos testes, violar padrões de código do projeto, ou ignorar edge cases que não estavam nos testes originais. O benchmark mede o que pode ser verificado automaticamente. O que não pode ser verificado automaticamente não entra no score.

O Aider Polyglot diz outra coisa

O leaderboard do Aider polyglot testa 225 exercícios de programação em 6 linguagens: C++, Go, Java, JavaScript, Python e Rust. É um dataset multilíngue que corrige parte do viés Python do SWE-bench. O modelo recebe duas tentativas por exercício, com feedback de erro após a primeira falha. Os resultados de junho de 2026:

Modelo	Aider Polyglot	Destaque
GPT-5 (high)	88,0%	Líder geral
o3-pro (high)	84,9%	2º lugar
Claude Opus 4.6	82,1%	Melhor Claude no ranking
DeepSeek-V3.2-Exp	74,5%	Líder open source

Claude Mythos 5, que atingiu 95,5% no SWE-bench Verified, não lidera o Aider polyglot. O GPT-5 lidera aqui. E o DeepSeek-V3.2-Exp, versão experimental open source, lidera entre os modelos abertos em ambiente multilíngue. São três benchmarks com três líderes diferentes.

O modelo que ganha no benchmark que você consulta depende de qual benchmark o modelo foi otimizado para ganhar. Antes de decidir com base num número, a pergunta certa é: quem rodou esse teste?

O que o DeepSeek V4 Pro a 80,6% significa para o open source?

DeepSeek V4 Pro foi lançado em 24 de abril de 2026, open source com licença MIT. As especificações técnicas são relevantes para entender o que 80,6% SWE-bench significa aqui:

1,6 trilhão de parâmetros totais, 49B ativos por token (arquitetura MoE)
Contexto de 1M tokens, saída máxima de 384K tokens
SWE-bench Verified: 80,6%, empatado com o Gemini 3.1 Pro da Google
Preço via API: US$ 0,435/M tokens input, US$ 0,87/M tokens output

Para contexto: o GPT-4o quando foi lançado atingiu cerca de 49% no SWE-bench Verified. O open source de junho de 2026 performa onde o modelo proprietário topo de linha de 2024 performava. A curva não está desacelerando.

O DeepSeek V4 Flash, versão menor (284B parâmetros totais, 13B ativos), não tem score SWE-bench independente publicado ainda. Mas roda com 2.500 requisições simultâneas contra 500 do Pro, com custo três vezes menor. Para tarefas de agente com volume alto de iterações, a matemática muda.

Qual benchmark usar para escolher o modelo certo do agente de programação?

Três filtros antes de consultar qualquer leaderboard:

Qual linguagem você usa? SWE-bench é Python puro. Se o projeto é TypeScript, Go ou Rust, o Aider Polyglot é mais representativo do que você vai encontrar no dia a dia.
Quem rodou o teste? Prefira benchmarks de terceiros, como Scale AI SEAL, Aider, EvalPlus e BenchLM, em vez de números publicados pelos próprios fornecedores. A diferença pode ser de 95% para 59% no mesmo modelo, dependendo de quem controla a avaliação.
Tokens disponíveis vs acerto no benchmark: 95% de acerto com cap de tokens, ou 80% de acerto com tokens ilimitados. Para uma sessão real de 4 horas refatorando um módulo grande, a segunda opção entrega mais código. Um agente que acerta mais, mas para no meio do refactor porque bateu no limite, não é melhor para o seu workflow.

É esse terceiro ponto que muda a conta na prática. Benchmark mede acurácia por tarefa isolada. Dia a dia de dev mede quantidade de trabalho por sessão. São métricas diferentes.

Como acompanhar os rankings sem perder horas por semana

O mercado está atualizando modelos a cada semana. Manter controle do leaderboard virou trabalho de tempo parcial. Fontes que valem o acompanhamento:

Aider Leaderboard: atualizado com novos modelos regularmente, multilíngue, metodologia pública
BenchLM.ai: consolida SWE-bench Verified com 99 modelos avaliados
Scale AI SEAL Leaderboard: avaliação independente com protocolo padronizado
MorphLLM SWE-bench Pro: variante mais difícil do Verified, mais próxima de projetos reais

O SWE-bench Pro (variante mais difícil) mostra Claude Fable 5 com 80,3% de acerto. Bem abaixo dos 95% do Verified. Quanto mais difícil o benchmark, mais os scores convergem entre os modelos topo.

Quer testar esses modelos sem pagar por token? Verboo Code roda os principais open source com tokens ilimitados.

95% no SWE-bench: Claude lidera, mas a Scale AI discorda

O que o SWE-bench Verified realmente mede?

Por que 95% no benchmark não significa 95% no seu projeto?

O Aider Polyglot diz outra coisa

O que o DeepSeek V4 Pro a 80,6% significa para o open source?

Qual benchmark usar para escolher o modelo certo do agente de programação?

Como acompanhar os rankings sem perder horas por semana

Artigos relacionados

China bane Claude Code por 'backdoor' - Alibaba corta acesso

Grok 4.5 usou dados do Cursor - só a SpaceX pode testar

Gemma 4 31B no Verboo Code: 80% LiveCodeBench e 256K tokens