Agente IA no WhatsApp: Quanto Custa por Conversa em 2026
Back to the blog
Artigo

Agente IA no WhatsApp: Quanto Custa por Conversa em 2026

Mafra
13/05/2026
6 min read

Um agente de IA atendendo 1.000 clientes por mês no WhatsApp. Quanto isso custa? Se você não tem os três números (LLM, API Meta e infra) na ponta do lápis, vai se surpreender na primeira fatura de produção. Os preços dos modelos caíram 80% nos últimos 12 meses, mas o custo total de operação não acompanhou esse ritmo.

Aqui está o cálculo completo, com dados de maio/2026.

Por Que o Custo Real de um Agente WhatsApp Surpreende

A maioria dos desenvolvedores calcula só o custo do LLM. Faz sentido: é o número mais visível. O erro está em ignorar os outros dois componentes, que juntos costumam superar o LLM em dois terços dos cenários.

Desde janeiro de 2026, a Meta migrou a cobrança da WhatsApp Cloud API de conversas (janela de 24 horas) para mensagens individuais. Cada template de marketing disparado no Brasil custa US$ 0,0625. Templates de utilidade custam US$ 0,008. Só as mensagens de serviço (resposta ao cliente dentro da janela de 24 horas) continuam gratuitas.

O terceiro componente é a infraestrutura. Servidor, banco de dados, fila de mensagens e monitoramento para um agente confiável em produção custam entre R$ 400 e R$ 1.200/mês, dependendo do volume e do nível de resiliência.

Dado-chave: Para 1.000 conversas ativas via templates de marketing, o custo da API Meta é US$ 62,50 por mês. O LLM para as mesmas 1.000 conversas com Claude Haiku 4.5 custa US$ 0,70. A diferença é de 89 vezes.

O LLM Não É Seu Maior Custo (E Isso Muda o Cálculo)

Comparar GPT-4o com Claude Sonnet economiza tempo de debate e pouco dinheiro quando a maior linha da fatura é a API do WhatsApp. Uma conversa típica de atendimento tem 6 turnos: 3 do usuário, 3 do agente. Cada turno usa em média 400 tokens de entrada (contexto acumulado) e 150 tokens de saída. Total por conversa: 2.400 tokens de entrada e 900 de saída.

Com esses números, o custo de LLM por conversa fica assim:

Modelo Input (US$/M tokens) Output (US$/M tokens) Custo por conversa
Gemini Flash-Lite US$ 0,10 US$ 0,40 US$ 0,0004
GPT-4o Mini US$ 0,15 US$ 0,60 US$ 0,0005
Claude Haiku 4.5 US$ 0,25 US$ 1,25 US$ 0,0007
GPT-4o US$ 2,50 US$ 10,00 US$ 0,015
Claude Sonnet 4.6 US$ 3,00 US$ 15,00 US$ 0,020

Fonte: TLDL LLM API Pricing 2026 e BenchLM.ai. Cálculo baseado em 6 turnos com 400 tokens de entrada e 150 de saída por turno.

Custo da API WhatsApp em 2026: O Que Mudou

A mudança de janeiro/2026 acabou com a janela de conversa como unidade de cobrança. Agora cada template enviado é um custo separado, por categoria.

Categoria Custo por mensagem (Brasil) Exemplo de uso
Marketing US$ 0,0625 Promoções, reengajamento, campanhas
Utilidade US$ 0,008 Confirmações de pedido, atualização de status
Autenticação US$ 0,005 OTPs, verificação de conta
Serviço (resposta) Grátis Qualquer resposta dentro de 24h após o cliente escrever

Fonte: Umbler Blog: Custo API WhatsApp 2026.

O ponto mais ignorado: mensagens de serviço são gratuitas. Se o seu agente opera no modelo de resposta (o cliente sempre inicia e o agente responde dentro de 24 horas), o custo da API Meta é zero. Esse detalhe muda completamente a modelagem de custo para bots de atendimento receptivo.

Custo Total por Cenário: Os Três Componentes Juntos

Com os três itens separados, a conta por cenário fica assim (usando Claude Haiku 4.5 como LLM e câmbio de R$ 5,80/US$):

Cenário Volume/mês LLM WhatsApp API Infra Total/mês
Pequeno (só resposta) 500 conversas R$ 2 R$ 0 (serviço) R$ 400 R$ 402
Médio (20% templates utilidade) 1.000 conversas R$ 4 R$ 9 (200 × US$ 0,008) R$ 600 R$ 613
Grande (40% marketing ativo) 10.000 conversas R$ 41 R$ 1.134 (4.000 templates mix) R$ 1.200 R$ 2.375

O cenário "grande" considera 3.000 templates de marketing (US$ 0,0625) e 1.000 de utilidade (US$ 0,008). Infra inclui servidor, banco gerenciado e monitoramento básico.

O Custo Escondido: Engenharia Para Montar Tudo Isso

As tabelas acima assumem um agente já em produção. Construindo do zero, você ainda precisa de:

  • Aprovação de WABA (WhatsApp Business Account) e número verificado
  • Setup e manutenção dos templates (aprovação tem SLA variável, rejeição é comum)
  • Gerenciamento de sessão para manter contexto entre mensagens separadas
  • Lógica de roteamento: quando o agente responde vs quando passa para humano
  • Failover quando o LLM retorna erro ou timeout
  • Atualização de código quando a Meta muda categorias e preços (como ocorreu em jan/2026)

Cada item é uma sprint de engenharia na primeira vez e uma possível surpresa de manutenção depois. Em uma startup, isso é tempo que não vai para produto.

Como a Verboo Muda Essa Conta

A Verboo já inclui WhatsApp nativo, gerenciamento de sessão, memória persistente por usuário e infraestrutura escalável. Você configura o Assistente (Instrução, Conhecimento, Gatilhos) e a plataforma gerencia entrega, custo de API e escalabilidade.

O componente de infra sai da conta. O que sobra é o custo de LLM (que a Verboo otimiza internamente com roteamento por complexidade) e a tarifa Meta (que você controla escolhendo a categoria certa do template).

Referência: A Verboo processa mais de 27 milhões de mensagens para 390+ empresas com latência abaixo de 500ms, sem que nenhuma precise manter servidor próprio de WhatsApp.

Para comparar mais opções de stack para agentes no WhatsApp, confira os outros artigos em verboo.ai/blog.

Qual LLM Escolher Para Cada Tipo de Agente?

A regra prática para agentes de atendimento no WhatsApp:

  • FAQ e triagem simples: Gemini Flash-Lite ou Claude Haiku 4.5. Custo de US$ 0,0004 a US$ 0,0007 por conversa. Velocidade alta, contexto suficiente para perguntas padronizadas.
  • Qualificação de leads com lógica condicional: Claude Haiku 4.5 ou GPT-4o Mini. Equilíbrio entre raciocínio e custo.
  • Agentes com RAG e base de conhecimento extensa: Claude Sonnet 4.6 ou GPT-4o. O custo maior compensa quando a precisão de recuperação é crítica (agentes jurídicos, médicos, técnicos).

Para agentes que fazem triagem e qualificação no mesmo fluxo, o padrão ideal é roteamento por intenção: modelo leve para perguntas simples, modelo maior quando a conversa escala em complexidade.

A Dica que Economiza Mais: Corte o Custo no WhatsApp, Não no LLM

Trocar GPT-4o por Claude Haiku economiza US$ 0,014 por conversa. Migrar uma campanha de marketing para template de utilidade economiza US$ 0,054 por mensagem. O impacto é quatro vezes maior com a segunda estratégia.

A regra: antes de trocar o modelo, audite a porcentagem das suas mensagens WhatsApp que são ativas (templates) vs passivas (resposta ao cliente). Se mais de 30% for ativa via template de marketing, redesenhar o fluxo para que o cliente inicie a conversa reduz o custo da Meta pela metade.

A Verboo resolve isso com os Gatilhos nativos: você configura qual evento dispara o Assistente e qual categoria de template usar, sem tocar no código. Conheça a plataforma.

Enjoyed this article?
Share knowledge with your network.
Read also

Related articles