Gemini Flash vs Claude Haiku: Qual LLM Para Agente WhatsApp
Back to the blog
Artigo

Gemini Flash vs Claude Haiku: Qual LLM Para Agente WhatsApp

Mafra
06/05/2026
5 min read

Um dev configura o agente WhatsApp com Claude Sonnet 4.6 porque é o modelo que usa para codar. No final do mês, a fatura da API chega: $800. O mesmo agente, com a mesma lógica, rodando em Gemini 3 Flash: $138. A diferença não está no código. Está na escolha do modelo.

Por Que a Escolha do LLM É o Maior Lever de Custo em Produção

Quando você constrói um agente WhatsApp em produção, o modelo de linguagem é o componente com maior impacto em duas variáveis críticas: custo operacional e experiência do usuário. A maioria dos devs escolhe o modelo que conhecem do desenvolvimento e nunca benchmarca alternativas no ambiente real.

O problema fica invisível em escala pequena. Com 100 conversas por dia e 10 mensagens cada, você processa cerca de 1 milhão de tokens por mês. Nesse volume, a diferença entre Claude Sonnet 4.6 ($6,56/M) e Gemini 3 Flash ($1,13/M) é de $543 por mês. Com 1.000 conversas diárias, a diferença passa de $5.000/mês.

Dado-chave: Claude Sonnet 4.6 processa 46 tokens/segundo com 1,19s de TTFT. Gemini 3 Flash processa 184 tokens/segundo com 0,98s de TTFT. Fonte: Artificial Analysis Leaderboard, maio/2026.

TTFT ou Throughput: O Que Importa no WhatsApp?

Para agentes de WhatsApp, dois indicadores definem a percepção de velocidade pelo usuário:

  • TTFT (Time to First Token): tempo entre o envio da mensagem e o início da resposta. No WhatsApp, qualquer coisa acima de 2 segundos gera ansiedade. Abaixo de 1 segundo, o usuário percebe como "digitando agora".
  • Throughput (tokens/seg): velocidade de geração do texto completo. Impacta mensagens longas, como resumos de pedido ou instruções detalhadas.

Um detalhe que surpreende muitos devs: Claude Haiku 4.5 tem o TTFT mais baixo do grupo. 0,71 segundos até o primeiro token. É 26% mais rápido que Gemini 3 Flash para começar a responder, mesmo gerando menos tokens por segundo no total. Para mensagens curtas de atendimento (confirmações, FAQs, saudações), o TTFT domina a percepção de velocidade.

Comparativo de LLMs Para Agente WhatsApp em 2026

Modelo TTFT Throughput Custo /M tokens Melhor Para
Gemini 3 Flash 0,98s 184 tok/s $1,13 Volume alto, respostas longas, custo mínimo
Claude Haiku 4.5 0,71s 90 tok/s $2,19 TTFT crítico, respostas curtas, UX responsiva
Claude Sonnet 4.6 1,19s 46 tok/s $6,56 Raciocínio complexo, qualificação, escalação
Gemini 3.1 Pro 33,42s 137 tok/s $4,50 Background jobs, análises offline
Claude Opus 4.7 30,67s 52 tok/s $10,94 Análises pesadas fora do chat em tempo real

Fonte: Artificial Analysis, medições de maio/2026. Custo calculado como média ponderada input/output.

Três Perfis de Agente: Qual Modelo Encaixa em Cada Um?

Agente de Atendimento e FAQ

90% das perguntas têm resposta em até 150 tokens. O usuário quer rapidez, não profundidade. Para esse perfil, Claude Haiku 4.5 domina: TTFT de 0,71s, custo controlado, e segue instruções simples com consistência alta. Gemini 3 Flash é a segunda opção quando o volume de mensagens longas justifica o throughput superior.

Agente de Qualificação de Leads

Aqui o agente precisa interpretar respostas abertas, identificar sinais de intenção e decidir quando escalar para o humano. Esse raciocínio contextual pede capacidade de compreensão maior. Claude Sonnet 4.6 justifica o custo ($6,56/M) porque reduz o número de trocas necessárias para qualificar: menos mensagens, menos tokens desperdiçados em voltas desnecessárias. Para um lead que converte em R$2.000, pagar R$0,05 a mais por conversa é irrelevante.

Agente com Picos de Volume

Uma campanha de Black Friday com 10.000 conversas simultâneas exige throughput, não TTFT. O usuário já espera um pouco mais em promoção. Gemini 3 Flash entrega 184 tokens/segundo com o menor custo por mensagem. Para esse perfil, cada centavo de diferença no custo/token se multiplica por milhões de mensagens e define se a operação é lucrativa ou não.

O Padrão de Roteamento Que Reduz Custo em 40%

Times de produto maduros não escolhem um modelo. Eles roteiam. A lógica é direta:

  1. Primeiro turno e perguntas reconhecidas: Gemini Flash ou Claude Haiku (rápido, barato)
  2. Intenção ambígua ou fora do escopo do FAQ: Claude Sonnet (raciocínio contextual)
  3. Análise offline ou escalação complexa: Gemini Pro ou Claude Opus (sem restrição de TTFT)

Com esse roteamento, 70 a 80% das mensagens vão para modelos de menor custo. O resultado em 100K mensagens mensais: custo caindo de ~$800 para ~$320, mantendo qualidade nas interações que realmente precisam dela.

Dado-chave: Agentes com roteamento por intenção reduzem custo de API em 40 a 60% sem perda mensurável de satisfação do usuário, segundo análises de arquitetura agentic publicadas pela Vellum AI em 2026.

Como Configurar Isso na Verboo Sem Mudar Uma Linha de Código

Na Verboo, o modelo de LLM é uma configuração do Assistente, não uma dependência de código. Você define o modelo no painel do Assistente e a troca é imediata: sem redeploy, sem alteração no webhook, sem nova versão do app.

O padrão de roteamento fica na lógica dos Gatilhos: você configura condições (intenção detectada, número de turnos, flag de escalação) e o Assistente alternativo que assume. A arquitetura fica assim:

  • Assistente Principal: Gemini Flash ou Claude Haiku, responde 80% das conversas
  • Instrução de Triagem: define quando escalar (palavras-chave, frustração detectada, pergunta fora do escopo)
  • Gatilho de Escalação: ativa o Assistente Avançado (Claude Sonnet) ou redireciona para humano
  • Base de Conhecimento com RAG nativo: reduz tokens enviados ao modelo porque o contexto relevante já vem filtrado antes da chamada

A Verboo já opera com mais de 1.284 Assistentes ativos e 27 milhões de mensagens processadas. A latência mediana de resposta fica abaixo de 500ms de ponta a ponta, incluindo o processamento do WhatsApp Cloud API. Esse número inclui TTFT do modelo mais overhead da plataforma.

Configure o modelo certo no seu agente hoje. Crie sua conta grátis (login Google em 10s, sem cartão) e teste os dois modelos em paralelo antes de decidir qual vai para produção.

Enjoyed this article?
Share knowledge with your network.
Read also

Related articles