Latência mata conversa no WhatsApp antes de qualquer prompt errar.
Quando o usuário manda mensagem e o chat fica 4 segundos com "digitando…", o cérebro dele já decidiu que o atendente é desatento. Em produção, latência do LLM é o gargalo invisível que separa um agente que parece humano de um que parece travado.
Quanto custa cada 100ms a mais no WhatsApp?
WhatsApp não é landing page. O usuário vê três pontinhos animados, espera 3-5 segundos, e se não vier resposta começa a digitar de novo, sair, ou pior — abrir conversa com seu concorrente. Estudos de comportamento em mensageria mostram que tempo de resposta percebido como "lento" começa em 3 segundos, e abandono dispara depois de 8.
Pra um agente IA, esse orçamento de 3 segundos precisa caber: tempo de chegar na Cloud API da Meta + processar mensagem + decidir tool + chamar LLM + voltar texto. O LLM costuma ser 60-80% desse tempo. Então a escolha do modelo é decisão de produto, não de infra.
Dado-chave: em agentes Verboo em produção, o LLM consome 60-80% da latência total. Trocar de modelo grande pra um modelo menor bem calibrado pode cortar 200-400ms — diferença entre "rápido" e "humano".
O ângulo contrário: maior nem sempre é melhor no WhatsApp
O reflexo de muito dev é "vou usar o modelo de topo da OpenAI ou Anthropic". Faz sentido pra raciocínio profundo, código, análise de documento longo. Não faz sentido pra qualificação de lead, agendamento, pergunta de FAQ. Modelos pequenos e especializados respondem em frações do tempo, com qualidade indistinguível pro usuário final.
Outro ponto: latência ≠ tokens/segundo. O número que importa pra UX é o time to first token (TTFT) e o tempo total de resposta curta (50-150 tokens, que é a faixa típica no WhatsApp). Modelo que cospe 387 tok/s mas demora 800ms pra começar perde pra um que cospe 200 tok/s e começa em 200ms.
Comparativo: 4 LLMs em agentes Verboo no WhatsApp
Latência p50 medida em produção em respostas curtas (50-150 tokens), pra agentes de qualificação e atendimento. Snapshot de abril/2026.
| Modelo | Provedor | Latência p50 | Custo relativo | Quando usar |
|---|---|---|---|---|
| Gemma 4 31B | Google (open) | 280ms | $ | Default pra qualificação, FAQ, agendamento. Melhor relação latência/custo. |
| Qwen 3.5 27B | Alibaba (open) | 320ms | $ | Quando precisa de raciocínio melhor que Gemma sem subir o custo. Bom em multilíngue. |
| GPT-4.1 mini | OpenAI | 410ms | $$ | Quando o agente decide tools complexas com muitos parâmetros. Precisão de function calling alta. |
| Gemini 2.5 Flash | ≈350ms | $$ | Multimodal nativo (entende áudio, imagem). Use quando o canal recebe foto, voz ou doc. | |
| MoE 45B-A13B (referência grande) | — | 720ms | $$$ | Análise de documento longo, raciocínio em cadeia. Não usar como default no WhatsApp. |
Como escolher pra cada caso
Agente de qualificação de lead (vendas)
Conversa de 4-6 turnos, perguntas curtas, decisão simples (qualifica/não). Default: Gemma 4. Se precisar de tom mais elaborado, Qwen 3.5.
Agente de FAQ / atendimento ao cliente
Resposta com base em RAG (knowledge base). O LLM importa menos que o re-ranking — qualquer um dos 4 funciona. Use Gemma 4 e ative re-ranking nativo.
Agente que aciona tools complexas
Function calling com 5+ parâmetros, decisões condicionais. GPT-4.1 mini ou Qwen 3.5. Vale os 100ms extras pela precisão.
Agente multimodal (recebe áudio/foto/PDF)
Gemini 2.5 Flash nativo, ou Gemma 4 com tool de transcrição (a Verboo já tem GPT-4o-mini Transcribe configurado por padrão).
Agente para tarefa cara e rara
Análise de contrato, geração de proposta personalizada. Use modelo grande sob demanda — chame só quando o tipo de mensagem exigir. O agente pode rotear: Gemma 4 default, escala pra modelo grande quando detectar caso.
O atalho: trocar de modelo é 1 clique
Na Verboo, cada Assistente tem o campo Modelo LLM no painel — 5 modelos liberados por conta (Gemma 4, Qwen 3.5, Gemini 2.5 Flash, GPT-4o-mini, GPT-4.1 mini). Trocar é dropdown + Salvar. Não precisa migrar prompt, refazer conexão da Meta API, nem recarregar a base de conhecimento. Faz teste A/B em 5 minutos.
O re-ranking também é configurável separado — provedor + modelo dedicados (default Google / Gemini 2.0 Flash Lite). Esse é o pulo do gato em conteúdo com knowledge base: re-ranker rápido + LLM rápido = resposta consistente em 400-600ms total.
O que isso significa em produção
A Verboo opera 1.284 agentes ativos com 27MM+ mensagens processadas. Latência média sub-500ms incluindo LLM, RAG, re-ranking e ida/volta na Cloud API. A maioria dos agentes que escala roda em Gemma 4 ou Qwen 3.5 — não porque os modelos grandes são piores, mas porque pra WhatsApp, velocidade é o produto. Conheça a plataforma.
Próximo passo
Antes de comprar API de modelo de topo, teste o agente em modelo menor. Provavelmente atende. Veja os planos da Verboo e troque de modelo no painel sem refazer infraestrutura.
Fonte: leaderboard de latência LLM 2026 · Fonte: análise Gemma 4 multimodal



