62% das Empresas Testam IA. Só 23% Escalam. Onde Erram?

Esta semana o feed de dev ficou cheio de benchmarks de Claude Opus 4.8, GPT-5.6 e Gemini 3.5 Pro. Cada post comparando tokens por segundo, custo de inferência, qual modelo ganha em SWE-bench. Importante? Sim. Mas tem um número que passou despercebido e é mais relevante para quem está construindo produtos de IA agora: 62% das empresas já testam agentes de IA, segundo pesquisa da McKinsey. E só 23% chegaram ao escalar. A diferença entre esses dois números vai decidir quem tem produto real em produção e quem vai abandonar mais um piloto que "não convenceu o board".

Por Que o Gap Entre Teste e Escala Importa Agora?

A McKinsey State of AI 2025 ouviu mais de mil organizações globais e encontrou esse padrão: adoção em alta, escala em falta. 62% experimentando ou em piloto. 23% com algo rodando de verdade na empresa. Isso significa que o mercado está cheio de projetos de IA aguardando aprovação definitiva para produção.

O Gartner vai além: mais de 40% dos projetos de agentes de IA devem falhar antes de 2027. Não por falta de LLMs bons. Por subestimação de três coisas específicas: custo de operar em escala, superfície de segurança que os agentes introduzem e a mudança organizacional necessária para que alguém na empresa seja dono do agente quando ele errar.

Dado-chave: 62% das empresas testam agentes de IA. Só 23% escalam. Gartner projeta que 40% dos projetos falham antes de 2027, segundo análise da Prefactor (2026). O gargalo não é tecnologia. É produção.

Para devs e founders técnicos, isso é uma oportunidade de mercado clara: as empresas presas nos 39% precisam de alguém que entenda de produção, não de alguém que saiba fazer um demo funcionar.

Construir Ficou Fácil. O Que Ficou Difícil?

Claude Opus 4.8, lançado em 28 de maio, adicionou dynamic workflows com subagentes paralelos e fast mode 3x mais barato para tarefas agentic de alta frequência. A Anthropic diz que é "o único modelo a completar todos os casos end-to-end no benchmark Super-Agent". A OpenAI tem o modelo Iris Alpha em testes. O Google prepara o Gemini 3.5 Pro para general availability.

Construir um agente que funciona no demo nunca foi tão fácil. Pegar esse agente e mantê-lo rodando de forma confiável para 500 usuários simultâneos, com SLA de resposta abaixo de 2 segundos, auditoria de conversa para compliance, fallback quando o LLM atinge rate limit e base de conhecimento que não envelheceu há 6 meses: essa parte não ficou mais fácil. Ficou mais visível como problema.

O mercado parou de perguntar "qual LLM é melhor?" e começou a perguntar "como eu sei que o meu agente não está errando em produção?" Esse é o shift real desta semana.

Quais São os 3 Modos de Falha Mais Comuns?

Analisando os padrões de projetos que ficam presos no piloto, três causas aparecem com mais frequência:

1. Infraestrutura Emprestada

A maioria dos pilotos começa com a infraestrutura da demo do fornecedor. Funciona para 10 usuários em um workshop. Quando o projeto vai para produção, aparecem os limites: rate limit da API que bloqueia em pico de uso, latência de 4 a 8 segundos que o usuário final não aceita, custo por token estimado para volume de teste e não para volume real.

Projetos que escalam começam com a pergunta: "Como isso se comporta com 10x o volume atual?" antes de mostrar o demo para o board.

2. Observabilidade Zero

Você sabe quando seu agente está errando? Não o erro que ele mesmo reporta. O erro que ele não sabe que está cometendo: contexto que corrompeu ao longo de uma conversa longa, base de conhecimento que retornou o documento errado, instrução que o modelo interpretou diferente do que você pretendia para um tipo específico de pergunta.

Projetos que escalam têm rastreamento de conversa, métricas de dropout por etapa do fluxo e alertas quando a taxa de escalada para humano sobe fora do padrão. Sem isso, você opera no escuro.

3. Sem Dono Quando Falha

O terceiro modo de falha é organizacional: ninguém definiu quem é responsável pelo agente depois do deploy. Quando ele dá uma resposta errada para um cliente, quem corrige a instrução? Quando a base de conhecimento envelhece, quem atualiza? Quando o modelo do fornecedor muda de comportamento numa atualização silenciosa, quem percebe?

Pilotos viram produto quando existe um dono com métrica de sucesso clara e acesso para corrigir o que está errado.

O Que os 23% Fazem Diferente?

Pilotos que Travam (77%)	Projetos que Escalam (23%)
Demo impressionante, produção frágil	Demo modesto, produção resiliente
Custo estimado para volume de teste	Custo validado para 10x o volume atual
Nenhuma visibilidade sobre erros do agente	Rastreamento de conversa e alertas ativos
LLM do mês como dependência direta	Camada de abstração que troca de modelo sem reescrever
Sem dono após o deploy	Dono com acesso e métrica de sucesso definida
Base de conhecimento estática	Processo de atualização com responsável

A diferença não é o LLM. É a engenharia em volta do LLM. E, cada vez mais, é o framework que abstrai essa engenharia para que o time foque na lógica do negócio.

O Que Isso Significa Para Quem Está Construindo Agora?

Se você é dev, freelancer ou founder técnico, este gap é o melhor sinal de mercado da semana. As empresas presas nos 39% não precisam de alguém que saiba fazer uma demo do ChatGPT funcionar. Precisam de alguém que entenda como colocar um agente em produção com confiabilidade, custo previsível e processo de manutenção.

Os 5 projetos que listamos semana passada funcionam como ponto de entrada, mas o diferencial para o cliente é a conversa sobre o que acontece depois do deploy. Quem responde essa pergunta com clareza fecha o contrato e a recorrência.

A Verboo processa mais de 27 milhões de mensagens para mais de 390 empresas com latência média abaixo de 500ms. Não porque o LLM subjacente é melhor. Porque a arquitetura foi construída para produção: RAG com re-ranking nativo, memória de conversa persistente, gatilhos com retry automático e observabilidade de fluxo. É o tipo de infraestrutura que os 23% precisam ter. E que o agente de transcrição de áudio que publicamos recentemente roda em cima, sem você precisar construir nada disso do zero.

Benchmark de produção: Entre os projetos de agentes que escalam, os três fatores mais citados como decisivos são infraestrutura com SLA claro, capacidade de auditoria de conversa e processo de atualização de base de conhecimento. (Fonte: AngelHack DevLabs, Agentic AI Enterprise 2026)

O Que Observar na Próxima Semana?

Três sinais para acompanhar enquanto esses dados se consolidam:

Gemini 3.5 Pro em general availability: Google anunciou no I/O em maio com "próximo mês". Pode ser essa semana. O diferencial é contexto multimodal massivo. Para agentes que processam documentos longos, PDFs e imagens, muda o custo de cada task.
Fast mode do Claude Opus 4.8: 3x mais barato com mesma qualidade para tarefas agentic de alta frequência. Se você tem agente com muitas chamadas de LLM por sessão de usuário, vale reestimar o custo agora.
O debate sobre "agents fail silently": está crescendo nos fóruns de dev. Observabilidade para agentes vai virar produto de infraestrutura relevante nos próximos meses. Quem entende o problema agora tem vantagem de 6 a 12 meses.

O mercado de agentes de IA não está saturado. Está no meio do gap entre piloto e produção. A janela para quem entende de escala está aberta agora. Conheça a plataforma que já opera nesse modelo com 390 empresas.