Qual LLM Usar no Seu Chatbot? Custo Real Por Conversa (2026)

Quanto custa cada conversa do seu chatbot com IA?

Você escolheu o GPT-4o porque "é o melhor". Três meses depois, a conta da API bateu US$ 800/mês para 5.000 conversas. Um colega troca para o Gemini Flash e paga US$ 12 pelo mesmo volume. A qualidade caiu? Depende. E esse "depende" é o que ninguém te explica.

Este comparativo analisa 7 LLMs disponíveis em abril de 2026 sob a ótica que importa para chatbots em produção: custo por conversa, latência real e qualidade para tarefas conversacionais. Não benchmarks acadêmicos. Números de quem roda chatbot no WhatsApp.

Como calculamos o custo por conversa?

Uma conversa típica de chatbot tem em média 6 turnos (3 do cliente, 3 do agente). Cada turno do cliente tem ~50 tokens de input. Cada resposta do agente tem ~150 tokens. Total por conversa: ~300 tokens de input + ~450 tokens de output = ~750 tokens.

Adicionamos o system prompt (~500 tokens) e contexto RAG (~300 tokens) carregados em cada chamada. Total real por conversa: ~1.550 tokens (800 input + 750 output considerando prompt + RAG + respostas).

Metodologia: Input = system prompt (500) + RAG context (300) + mensagens do cliente (150) = 950 tokens. Output = 3 respostas do agente (450) + overhead (100) = 550 tokens. Fonte de preços: BenchLM.ai e TLDL LLM Pricing, abril 2026.

Comparativo: 7 LLMs para chatbot em produção

Modelos econômicos (alto volume)

Gemini Flash — Input: US$ 0,075/1M. Output: US$ 0,30/1M. Custo por conversa: US$ 0,00024. Com US$ 10 você atende ~41.600 conversas. Latência: ~200ms. O mais barato e rápido.

Llama 4 (self-hosted) — Input: ~US$ 0,10/1M. Output: ~US$ 0,40/1M. Custo por conversa: ~US$ 0,00032. ~31.000 conversas por US$ 10. Latência variável. Dados ficam no seu servidor.

GPT-5.4 mini — Input: US$ 0,30/1M. Output: US$ 1,20/1M. Custo por conversa: US$ 0,00095. ~10.500 conversas por US$ 10. Latência: ~350ms. Melhor equilíbrio custo/qualidade.

Claude Haiku 4.5 — Input: US$ 0,25/1M. Output: US$ 1,25/1M. Custo por conversa: US$ 0,00093. ~10.750 conversas por US$ 10. Latência: ~250ms. Ótima fidelidade ao prompt.

Modelos premium (qualidade máxima)

Gemini 2.5 Pro — Input: US$ 1,25/1M. Output: US$ 10,00/1M. Custo por conversa: US$ 0,00669. ~1.494 conversas por US$ 10. Latência: ~500ms. Contexto de 1M tokens.

GPT-5.2 — Input: US$ 1,75/1M. Output: US$ 14,00/1M. Custo por conversa: US$ 0,00936. ~1.068 conversas por US$ 10. Latência: ~450ms. Ecossistema mais maduro.

Claude Sonnet 4.6 — Input: US$ 3,00/1M. Output: US$ 15,00/1M. Custo por conversa: US$ 0,01110. ~900 conversas por US$ 10. Latência: ~400ms. Melhor raciocínio e fidelidade.

Dado-chave: A diferença é de 46x. Com US$ 10, Gemini Flash atende 41.600 conversas. Claude Sonnet atende 900.

Custo é tudo? Onde modelos baratos falham

Não. Se custo fosse o único critério, todo mundo usaria Gemini Flash e pronto. A realidade é que modelos baratos falham em cenários específicos:

1. Fidelidade ao system prompt

Modelos menores "esquecem" instruções longas com mais frequência. Se seu agente tem 15 regras no system prompt ("nunca invente preços", "sempre pergunte o tamanho da empresa", "não fale de concorrentes"), modelos como Claude Sonnet e GPT-5.2 seguem com mais consistência. Para chatbots com regras simples, modelos mini são suficientes.

2. Raciocínio multi-step

Quando o cliente faz uma pergunta que exige cruzar 3 informações da base de conhecimento, modelos premium acertam mais. Para perguntas diretas ("qual o horário de funcionamento?"), qualquer modelo resolve.

3. Tom e naturalidade

Claude Sonnet e GPT-5.2 geram respostas mais naturais em português. Modelos menores tendem a respostas mais genéricas ou com construções estranhas. Para chatbots de vendas onde o tom importa, vale o investimento.

Qual modelo usar em cada cenário?

Suporte FAQ (alto volume) → Gemini Flash ou GPT-5.4 mini. Perguntas diretas, custo baixo, velocidade.

Vendas e qualificação → Claude Haiku 4.5 ou GPT-5.4 mini. Bom equilíbrio tom/custo, segue script de vendas.

Suporte técnico complexo → Claude Sonnet 4.6. Raciocínio superior, fidelidade ao prompt, lida com documentação densa.

Agendamento simples → Gemini Flash. Tarefa estruturada, custo mínimo.

Consultoria e análise → GPT-5.2 ou Gemini 2.5 Pro. Raciocínio avançado, contexto longo.

Privacidade regulada → Llama 4 (self-hosted). Dados não saem do seu servidor.

A estratégia que reduz custo em 70%: model routing

As melhores implementações em 2026 não usam um único modelo. Usam model routing: um classificador leve analisa a mensagem do cliente e direciona para o modelo adequado.

Mensagem simples ("qual o preço?") → Gemini Flash (US$ 0,00024/conversa)
Mensagem complexa ("compare os planos e me diga qual faz sentido para uma clínica com 3 unidades") → Claude Sonnet (US$ 0,011/conversa)

Se 80% das suas conversas são simples e 20% são complexas, o custo cai de US$ 0,011 (tudo no Sonnet) para ~US$ 0,0024 (roteado). Redução de 78%.

Como implementar model routing

// Classificador simples de complexidade
async function routeMessage(message, context) {
  const wordCount = message.split(' ').length;
  const hasComparison = /compar|diferença|melhor|vs/i.test(message);
  const hasMultipleQuestions = (message.match(/\?/g) || []).length > 1;

  if (wordCount > 50 || hasComparison || hasMultipleQuestions) {
    return 'claude-sonnet-4-6'; // complexo
  }
  return 'gemini-flash'; // simples
}

Implementações mais sofisticadas usam o próprio Gemini Flash como classificador (custo desprezível) antes de decidir qual modelo responde.

O custo oculto: não é só o token

O preço por token é a ponta do iceberg. Custos reais incluem:

Infraestrutura de webhook: servidor para receber mensagens (US$ 5-50/mês)
Vector store para RAG: Pinecone, Supabase pgvector (US$ 0-70/mês)
Retry e fallback: quando a API falha, você paga pela retentativa
Tempo de engenharia: manter integrações, atualizar prompts, monitorar qualidade

Plataformas como a Verboo absorvem esses custos ocultos. Webhook gerenciado, RAG embutido, model routing nativo e monitoramento incluído. O custo vira previsível: R$ 247/mês em vez de uma soma de 5 serviços diferentes.

Na Verboo, 730 agentes rodam em produção com latência abaixo de 500ms e +168 mil conversas processadas. Sem surpresas na conta.

A Verboo resolve isso com uma API simples e WhatsApp nativo. Conheça os planos.