Na segunda semana de junho de 2026, a Microsoft enviou um comunicado interno para mais de 2.000 engenheiros: parar de usar Claude Code até 30 de junho. O motivo reportado foi custo operacional. Faturamento baseado em tokens chegou a US$ 2.000 por engenheiro por mês. São R$ 10.500 por dev por mês, só em agente de programação.
Enquanto esse email circulava, eu estava no meio de um deploy de domingo. Dashboard de métricas de um SaaS indie, construído do zero em 48 horas com Verboo Code. Custo total: R$ 75. O mesmo do mês passado. O mesmo do mês que vem.
Por Que a Microsoft Suspendeu Claude Code para 2.000 Engenheiros?
O problema não é o Claude Code em si. É a arquitetura de cobrança por token aplicada a sessões longas de agente de alta autonomia. Análise da Vantage (junho de 2026) mostra que ferramentas agentic com autonomia alta consomem entre US$ 200 e US$ 2.000+ por dev por mês. Uma sessão de 8 horas de refactor em monorepo grande dispara tokens em velocidade que o dev médio não monitora em tempo real.
Cobrança por token de input e output, context compaction que gera tokens extras, sessões paralelas de agente que multiplicam o consumo. Em repos grandes, só a leitura inicial da codebase pode consumir centenas de milhares de tokens antes de uma linha ser escrita.
Dado-chave: Agentes de programação com alta autonomia custam US$ 200 a US$ 2.000+ por dev por mês em ferramentas com cobrança por token. Para 2.000 engenheiros, isso representa até US$ 4 milhões por mês em custo de infraestrutura de IA. (Fonte: Vantage, junho de 2026)
A decisão da Microsoft foi suspender o uso. Para a maioria das empresas, a alternativa é usar menos: sessões mais curtas, contexto mais enxuto, menos experimentos. Comportamentos que tornam o agente de programação menos útil do que o esperado em teoria.
Quanto Custa de Verdade uma Sessão de Agente de Programação?
Dados da GetPanto (2026) mostram que 84% dos devs usam ou planejam usar ferramentas de IA no processo de desenvolvimento, com 51% reportando uso diário. A economia média declarada é de 3,6 horas por semana por dev. O problema: o custo de tokens raramente entra nesse cálculo de ROI.
Para uma sessão típica com ferramenta baseada em token:
- Feature nova em codebase média: US$ 5 a US$ 20 em tokens
- Refactor de módulo com múltiplos arquivos: US$ 20 a US$ 80
- Análise de codebase completa mais migração de banco: US$ 80 a US$ 200+
Esses números variam com o modelo e a configuração, mas a direção é constante: quanto mais o agente faz, mais caro fica. O cap não é psicológico. Ele aparece na fatura.
O Que Acontece Quando Você Remove o Cap de Tokens?
Existe um fenômeno em cognição chamado constraint priming: quando você sabe que um recurso é limitado, parte da atenção vai para gerenciar esse limite, não para o problema que você está tentando resolver. Com o agente de programação, isso se manifesta em micro-comportamentos específicos.
Contextos mais curtos do que o necessário. Perguntas divididas em vez de feitas de uma vez. Hesitação antes de pedir ao agente para explorar uma abordagem alternativa. Acumulados ao longo de uma sessão, esses ajustes produzem soluções menores do que as possíveis.
Remover o cap muda o padrão de desenvolvimento. Você pergunta mais. Itera mais. Pede ao agente para comparar abordagens em vez de já chegar com a solução parcialmente formada na cabeça. O resultado não é só mais velocidade. É diferença de escopo do que você consegue entregar.
Como Foi o Build em 48h com Verboo Code?
O projeto: um dashboard de métricas para um SaaS indie. FastAPI no backend, PostgreSQL para o banco, HTMX no frontend (sem React, era fim de semana), deploy no Fly.io. Nada exótico. O tipo de projeto que um dev solo monta em 2 a 3 semanas trabalhando nas margens do dia a dia.
Com Verboo Code, foram 48 horas.
Sábado, 9h: scaffold do projeto
npm install -g @verboo/code
verboo
Primeiro prompt: "Preciso de um SaaS de dashboard de métricas. FastAPI mais PostgreSQL mais HTMX. Estrutura de pastas opinativa. Scaffold completo com models SQLAlchemy, endpoints de métricas, Makefile e configuração inicial do banco."
O agente gerou o monorepo completo em 4 minutos. Estrutura de pastas, models, schemas, CRUD base, Alembic configurado, template HTMX inicial e Makefile com os comandos mais comuns. Funcional. Sem placeholder de "implemente aqui".
Sábado, 11h: autenticação
/model mimo-v2.5
Para autenticação, troquei para o mimo-v2.5 com 1M de tokens de contexto. Ele carrega toda a codebase antes de implementar qualquer coisa. O resultado é consistência: o JWT respeita os models que já existem, o middleware de rate limiting conhece a estrutura de rotas, o seed de usuário admin usa o mesmo pattern dos fixtures de teste. Sem contradições entre arquivos, sem corrigir inconsistências depois.
JWT com refresh token, middleware de autenticação por header, endpoint de /me, seed de admin. Os testes passaram na primeira rodada.
Domingo, 10h: features de métricas
/model qwen3.6-27b
Para features de escopo curto, voltei para o qwen3.6-27b. Contexto específico, iteração rápida. O agente escreveu os endpoints de séries temporais, os agregadores de eventos, os gráficos do HTMX em resposta a chamadas de API. Cada feature em 15 a 20 minutos.
Domingo, 15h: CI e deploy
GitHub Actions para lint, test e build. Dockerfile para o Fly.io. fly.toml configurado. O agente conhece a configuração dos principais provedores e gera YAMLs funcionais na primeira tentativa para casos padrão.
Domingo, 18h: deploy up.
O código não é perfeito. Tem dívida técnica visível, uns comentários que deveriam ser docstrings, abstrações que eu refatoraria numa segunda iteração. É um MVP honesto. O tipo de coisa que, sem agente, levaria três semanas de trabalho na margem do dia a dia.
Qual Modelo Usar em Cada Fase do Build?
| Fase do build | Modelo | Motivo |
|---|---|---|
| Scaffold inicial e arquitetura | qwen3.6-27b | Geração rápida, codebase ainda pequena |
| Implementação com codebase crescendo | mimo-v2.5 | 1M de contexto mantém consistência entre arquivos |
| Features pontuais e iteração rápida | qwen3.6-27b | Resposta mais rápida, escopo curto não exige contexto longo |
| CI, deploy, configuração de infra | qwen3.6-27b | Tasks bem definidas, sem dependência do histórico completo |
| Prototipagem e geração de boilerplate | deepseek-v4-flash | 1M de contexto com latência otimizada para volume |
O comando /model no CLI lista os 6 modelos disponíveis com o tamanho de contexto de cada um. A troca não encerra a sessão nem perde o histórico da conversa. Você muda o modelo no meio de uma task sem perder o fio.
O Que os Números do Verboo Code Mostram Hoje?
75 devs ativos. MRR de R$ 9.921,90 com crescimento de +245% nos últimos 30 dias. Receita total acumulada de R$ 12.420,10. Os números refletem o que os devs que migraram estão evitando: cobrança por token, cap de contexto e o custo cognitivo de gerenciar os dois ao mesmo tempo.
Os 6 modelos rodam em GPU dedicada, com endpoint OpenAI-compatible. O plano Junior cobre 3 modelos por R$ 75/mês. Para quem quer os 6 modelos incluindo o mimo-v2.5, o plano Pro é R$ 149/mês.
Para detalhe sobre quando usar mimo-v2.5 vs qwen3.6-27b em tasks de codebase longa, veja: mimo-v2.5 tem 4x mais contexto que qwen3.6 no Verboo Code.
Quer rodar o próximo projeto sem cap de tokens? Conheça o Verboo Code, o agente de programação com tokens ilimitados.



