Qwen vs Gemma vs GPT vs Gemini: Latência Real no WhatsApp

Latência mata conversa no WhatsApp antes de qualquer prompt errar.

Quando o usuário manda mensagem e o chat fica 4 segundos com "digitando…", o cérebro dele já decidiu que o atendente é desatento. Em produção, latência do LLM é o gargalo invisível que separa um agente que parece humano de um que parece travado.

Quanto custa cada 100ms a mais no WhatsApp?

WhatsApp não é landing page. O usuário vê três pontinhos animados, espera 3-5 segundos, e se não vier resposta começa a digitar de novo, sair, ou pior — abrir conversa com seu concorrente. Estudos de comportamento em mensageria mostram que tempo de resposta percebido como "lento" começa em 3 segundos, e abandono dispara depois de 8.

Pra um agente IA, esse orçamento de 3 segundos precisa caber: tempo de chegar na Cloud API da Meta + processar mensagem + decidir tool + chamar LLM + voltar texto. O LLM costuma ser 60-80% desse tempo. Então a escolha do modelo é decisão de produto, não de infra.

Dado-chave: em agentes Verboo em produção, o LLM consome 60-80% da latência total. Trocar de modelo grande pra um modelo menor bem calibrado pode cortar 200-400ms — diferença entre "rápido" e "humano".

O ângulo contrário: maior nem sempre é melhor no WhatsApp

O reflexo de muito dev é "vou usar o modelo de topo da OpenAI ou Anthropic". Faz sentido pra raciocínio profundo, código, análise de documento longo. Não faz sentido pra qualificação de lead, agendamento, pergunta de FAQ. Modelos pequenos e especializados respondem em frações do tempo, com qualidade indistinguível pro usuário final.

Outro ponto: latência ≠ tokens/segundo. O número que importa pra UX é o time to first token (TTFT) e o tempo total de resposta curta (50-150 tokens, que é a faixa típica no WhatsApp). Modelo que cospe 387 tok/s mas demora 800ms pra começar perde pra um que cospe 200 tok/s e começa em 200ms.

Comparativo: 4 LLMs em agentes Verboo no WhatsApp

Latência p50 medida em produção em respostas curtas (50-150 tokens), pra agentes de qualificação e atendimento. Snapshot de abril/2026.

Modelo	Provedor	Latência p50	Custo relativo	Quando usar
Gemma 4 31B	Google (open)	280ms	$	Default pra qualificação, FAQ, agendamento. Melhor relação latência/custo.
Qwen 3.5 27B	Alibaba (open)	320ms	$	Quando precisa de raciocínio melhor que Gemma sem subir o custo. Bom em multilíngue.
GPT-4.1 mini	OpenAI	410ms	$$	Quando o agente decide tools complexas com muitos parâmetros. Precisão de function calling alta.
Gemini 2.5 Flash	Google	≈350ms	$$	Multimodal nativo (entende áudio, imagem). Use quando o canal recebe foto, voz ou doc.
MoE 45B-A13B (referência grande)	—	720ms	$$$	Análise de documento longo, raciocínio em cadeia. Não usar como default no WhatsApp.

Como escolher pra cada caso

Agente de qualificação de lead (vendas)

Conversa de 4-6 turnos, perguntas curtas, decisão simples (qualifica/não). Default: Gemma 4. Se precisar de tom mais elaborado, Qwen 3.5.

Agente de FAQ / atendimento ao cliente

Resposta com base em RAG (knowledge base). O LLM importa menos que o re-ranking — qualquer um dos 4 funciona. Use Gemma 4 e ative re-ranking nativo.

Agente que aciona tools complexas

Function calling com 5+ parâmetros, decisões condicionais. GPT-4.1 mini ou Qwen 3.5. Vale os 100ms extras pela precisão.

Agente multimodal (recebe áudio/foto/PDF)

Gemini 2.5 Flash nativo, ou Gemma 4 com tool de transcrição (a Verboo já tem GPT-4o-mini Transcribe configurado por padrão).

Agente para tarefa cara e rara

Análise de contrato, geração de proposta personalizada. Use modelo grande sob demanda — chame só quando o tipo de mensagem exigir. O agente pode rotear: Gemma 4 default, escala pra modelo grande quando detectar caso.

O atalho: trocar de modelo é 1 clique

Na Verboo, cada Assistente tem o campo Modelo LLM no painel — 5 modelos liberados por conta (Gemma 4, Qwen 3.5, Gemini 2.5 Flash, GPT-4o-mini, GPT-4.1 mini). Trocar é dropdown + Salvar. Não precisa migrar prompt, refazer conexão da Meta API, nem recarregar a base de conhecimento. Faz teste A/B em 5 minutos.

O re-ranking também é configurável separado — provedor + modelo dedicados (default Google / Gemini 2.0 Flash Lite). Esse é o pulo do gato em conteúdo com knowledge base: re-ranker rápido + LLM rápido = resposta consistente em 400-600ms total.

O que isso significa em produção

A Verboo opera 1.284 agentes ativos com 27MM+ mensagens processadas. Latência média sub-500ms incluindo LLM, RAG, re-ranking e ida/volta na Cloud API. A maioria dos agentes que escala roda em Gemma 4 ou Qwen 3.5 — não porque os modelos grandes são piores, mas porque pra WhatsApp, velocidade é o produto. Conheça a plataforma.

Próximo passo

Antes de comprar API de modelo de topo, teste o agente em modelo menor. Provavelmente atende. Veja os planos da Verboo e troque de modelo no painel sem refazer infraestrutura.

Fonte: leaderboard de latência LLM 2026 · Fonte: análise Gemma 4 multimodal