Claude Mythos 5 acaba de atingir 95,5% no SWE-bench Verified. Claude Fable 5 logo atrás com 95,0%. Parece claro: a Anthropic domina o benchmark de coding. Mas quando a Scale AI rodou seus testes independentes no SEAL Private Leaderboard, quem saiu na frente foi o GPT-5.4. E o Aider polyglot, com 6 linguagens em vez de só Python, mostra um terceiro ranking diferente. Três benchmarks, três líderes. Entender por que isso acontece muda como você escolhe o modelo do seu agente de programação.
O que o SWE-bench Verified realmente mede?
SWE-bench Verified é um conjunto de 500 problemas reais extraídos do GitHub: issues de projetos como Django, Flask e Pytest, onde o modelo precisa gerar um patch que passa nos testes automáticos. É o benchmark mais citado no mercado de agentes de programação porque mede algo concreto e verificável. Sem achismo, sem vibe check: o patch corrigiu o problema ou não?
Os dados mais recentes, coletados em 16 de junho de 2026, com 99 modelos avaliados:
| Modelo | SWE-bench Verified | Acesso |
|---|---|---|
| Claude Mythos 5 | 95,5% | Proprietário (Anthropic) |
| Claude Fable 5 | 95,0% | Proprietário (Anthropic) |
| Claude Opus 4.8 | 88,6% | Proprietário (Anthropic) |
| DeepSeek V4 Pro | 80,6% | Open source (MIT) |
| Gemini 3.1 Pro | 80,6% | Proprietário (Google) |
À primeira vista, o ranking parece simples. Claude domina, open source chega honroso a 80%. Mas esse número carrega três problemas estruturais que importam quando você decide qual modelo colocar no seu agente.
Por que 95% no benchmark não significa 95% no seu projeto?
Problema 1: viés de linguagem. SWE-bench Verified usa exclusivamente projetos Python. Se o seu dia a dia é TypeScript, Go, Java ou Rust, você está extrapolando dados de uma linguagem para outra sem evidência direta. Modelo otimizado para Python pode aparecer bem acima da performance real em outras linguagens.
Problema 2: scores vendor-reported. A Anthropic publicou os 95,5% do Claude Mythos. A OpenAI publicou os scores do GPT-5. Quando a Scale AI rodou seus próprios testes independentes no SEAL Private Leaderboard com protocolo padronizado, o GPT-5.4 xHigh saiu na frente com 59,1%. O número cai de 95% para 59% quando você muda quem controla a avaliação. Não é mentira de ninguém: é que os problemas de treino e os de avaliação se sobrepõem mais do que deveriam.
Problema 3: passar no teste não é o mesmo que código correto. Um patch que resolve o issue do SWE-bench ainda pode introduzir regressões em partes não cobertas pelos testes, violar padrões de código do projeto, ou ignorar edge cases que não estavam nos testes originais. O benchmark mede o que pode ser verificado automaticamente. O que não pode ser verificado automaticamente não entra no score.
O Aider Polyglot diz outra coisa
O leaderboard do Aider polyglot testa 225 exercícios de programação em 6 linguagens: C++, Go, Java, JavaScript, Python e Rust. É um dataset multilíngue que corrige parte do viés Python do SWE-bench. O modelo recebe duas tentativas por exercício, com feedback de erro após a primeira falha. Os resultados de junho de 2026:
| Modelo | Aider Polyglot | Destaque |
|---|---|---|
| GPT-5 (high) | 88,0% | Líder geral |
| o3-pro (high) | 84,9% | 2º lugar |
| Claude Opus 4.6 | 82,1% | Melhor Claude no ranking |
| DeepSeek-V3.2-Exp | 74,5% | Líder open source |
Claude Mythos 5, que atingiu 95,5% no SWE-bench Verified, não lidera o Aider polyglot. O GPT-5 lidera aqui. E o DeepSeek-V3.2-Exp, versão experimental open source, lidera entre os modelos abertos em ambiente multilíngue. São três benchmarks com três líderes diferentes.
O modelo que ganha no benchmark que você consulta depende de qual benchmark o modelo foi otimizado para ganhar. Antes de decidir com base num número, a pergunta certa é: quem rodou esse teste?
O que o DeepSeek V4 Pro a 80,6% significa para o open source?
DeepSeek V4 Pro foi lançado em 24 de abril de 2026, open source com licença MIT. As especificações técnicas são relevantes para entender o que 80,6% SWE-bench significa aqui:
- 1,6 trilhão de parâmetros totais, 49B ativos por token (arquitetura MoE)
- Contexto de 1M tokens, saída máxima de 384K tokens
- SWE-bench Verified: 80,6%, empatado com o Gemini 3.1 Pro da Google
- Preço via API: US$ 0,435/M tokens input, US$ 0,87/M tokens output
Para contexto: o GPT-4o quando foi lançado atingiu cerca de 49% no SWE-bench Verified. O open source de junho de 2026 performa onde o modelo proprietário topo de linha de 2024 performava. A curva não está desacelerando.
O DeepSeek V4 Flash, versão menor (284B parâmetros totais, 13B ativos), não tem score SWE-bench independente publicado ainda. Mas roda com 2.500 requisições simultâneas contra 500 do Pro, com custo três vezes menor. Para tarefas de agente com volume alto de iterações, a matemática muda.
Qual benchmark usar para escolher o modelo certo do agente de programação?
Três filtros antes de consultar qualquer leaderboard:
- Qual linguagem você usa? SWE-bench é Python puro. Se o projeto é TypeScript, Go ou Rust, o Aider Polyglot é mais representativo do que você vai encontrar no dia a dia.
- Quem rodou o teste? Prefira benchmarks de terceiros, como Scale AI SEAL, Aider, EvalPlus e BenchLM, em vez de números publicados pelos próprios fornecedores. A diferença pode ser de 95% para 59% no mesmo modelo, dependendo de quem controla a avaliação.
- Tokens disponíveis vs acerto no benchmark: 95% de acerto com cap de tokens, ou 80% de acerto com tokens ilimitados. Para uma sessão real de 4 horas refatorando um módulo grande, a segunda opção entrega mais código. Um agente que acerta mais, mas para no meio do refactor porque bateu no limite, não é melhor para o seu workflow.
É esse terceiro ponto que muda a conta na prática. Benchmark mede acurácia por tarefa isolada. Dia a dia de dev mede quantidade de trabalho por sessão. São métricas diferentes.
Como acompanhar os rankings sem perder horas por semana
O mercado está atualizando modelos a cada semana. Manter controle do leaderboard virou trabalho de tempo parcial. Fontes que valem o acompanhamento:
- Aider Leaderboard: atualizado com novos modelos regularmente, multilíngue, metodologia pública
- BenchLM.ai: consolida SWE-bench Verified com 99 modelos avaliados
- Scale AI SEAL Leaderboard: avaliação independente com protocolo padronizado
- MorphLLM SWE-bench Pro: variante mais difícil do Verified, mais próxima de projetos reais
O SWE-bench Pro (variante mais difícil) mostra Claude Fable 5 com 80,3% de acerto. Bem abaixo dos 95% do Verified. Quanto mais difícil o benchmark, mais os scores convergem entre os modelos topo.
Quer testar esses modelos sem pagar por token? Verboo Code roda os principais open source com tokens ilimitados.



