Quanto custa cada conversa do seu chatbot com IA?
Você escolheu o GPT-4o porque "é o melhor". Três meses depois, a conta da API bateu US$ 800/mês para 5.000 conversas. Um colega troca para o Gemini Flash e paga US$ 12 pelo mesmo volume. A qualidade caiu? Depende. E esse "depende" é o que ninguém te explica.
Este comparativo analisa 7 LLMs disponíveis em abril de 2026 sob a ótica que importa para chatbots em produção: custo por conversa, latência real e qualidade para tarefas conversacionais. Não benchmarks acadêmicos. Números de quem roda chatbot no WhatsApp.
Como calculamos o custo por conversa?
Uma conversa típica de chatbot tem em média 6 turnos (3 do cliente, 3 do agente). Cada turno do cliente tem ~50 tokens de input. Cada resposta do agente tem ~150 tokens. Total por conversa: ~300 tokens de input + ~450 tokens de output = ~750 tokens.
Adicionamos o system prompt (~500 tokens) e contexto RAG (~300 tokens) carregados em cada chamada. Total real por conversa: ~1.550 tokens (800 input + 750 output considerando prompt + RAG + respostas).
Metodologia: Input = system prompt (500) + RAG context (300) + mensagens do cliente (150) = 950 tokens. Output = 3 respostas do agente (450) + overhead (100) = 550 tokens. Fonte de preços: BenchLM.ai e TLDL LLM Pricing, abril 2026.
Comparativo: 7 LLMs para chatbot em produção
Modelos econômicos (alto volume)
Gemini Flash — Input: US$ 0,075/1M. Output: US$ 0,30/1M. Custo por conversa: US$ 0,00024. Com US$ 10 você atende ~41.600 conversas. Latência: ~200ms. O mais barato e rápido.
Llama 4 (self-hosted) — Input: ~US$ 0,10/1M. Output: ~US$ 0,40/1M. Custo por conversa: ~US$ 0,00032. ~31.000 conversas por US$ 10. Latência variável. Dados ficam no seu servidor.
GPT-5.4 mini — Input: US$ 0,30/1M. Output: US$ 1,20/1M. Custo por conversa: US$ 0,00095. ~10.500 conversas por US$ 10. Latência: ~350ms. Melhor equilíbrio custo/qualidade.
Claude Haiku 4.5 — Input: US$ 0,25/1M. Output: US$ 1,25/1M. Custo por conversa: US$ 0,00093. ~10.750 conversas por US$ 10. Latência: ~250ms. Ótima fidelidade ao prompt.
Modelos premium (qualidade máxima)
Gemini 2.5 Pro — Input: US$ 1,25/1M. Output: US$ 10,00/1M. Custo por conversa: US$ 0,00669. ~1.494 conversas por US$ 10. Latência: ~500ms. Contexto de 1M tokens.
GPT-5.2 — Input: US$ 1,75/1M. Output: US$ 14,00/1M. Custo por conversa: US$ 0,00936. ~1.068 conversas por US$ 10. Latência: ~450ms. Ecossistema mais maduro.
Claude Sonnet 4.6 — Input: US$ 3,00/1M. Output: US$ 15,00/1M. Custo por conversa: US$ 0,01110. ~900 conversas por US$ 10. Latência: ~400ms. Melhor raciocínio e fidelidade.
Dado-chave: A diferença é de 46x. Com US$ 10, Gemini Flash atende 41.600 conversas. Claude Sonnet atende 900.
Custo é tudo? Onde modelos baratos falham
Não. Se custo fosse o único critério, todo mundo usaria Gemini Flash e pronto. A realidade é que modelos baratos falham em cenários específicos:
1. Fidelidade ao system prompt
Modelos menores "esquecem" instruções longas com mais frequência. Se seu agente tem 15 regras no system prompt ("nunca invente preços", "sempre pergunte o tamanho da empresa", "não fale de concorrentes"), modelos como Claude Sonnet e GPT-5.2 seguem com mais consistência. Para chatbots com regras simples, modelos mini são suficientes.
2. Raciocínio multi-step
Quando o cliente faz uma pergunta que exige cruzar 3 informações da base de conhecimento, modelos premium acertam mais. Para perguntas diretas ("qual o horário de funcionamento?"), qualquer modelo resolve.
3. Tom e naturalidade
Claude Sonnet e GPT-5.2 geram respostas mais naturais em português. Modelos menores tendem a respostas mais genéricas ou com construções estranhas. Para chatbots de vendas onde o tom importa, vale o investimento.
Qual modelo usar em cada cenário?
Suporte FAQ (alto volume) → Gemini Flash ou GPT-5.4 mini. Perguntas diretas, custo baixo, velocidade.
Vendas e qualificação → Claude Haiku 4.5 ou GPT-5.4 mini. Bom equilíbrio tom/custo, segue script de vendas.
Suporte técnico complexo → Claude Sonnet 4.6. Raciocínio superior, fidelidade ao prompt, lida com documentação densa.
Agendamento simples → Gemini Flash. Tarefa estruturada, custo mínimo.
Consultoria e análise → GPT-5.2 ou Gemini 2.5 Pro. Raciocínio avançado, contexto longo.
Privacidade regulada → Llama 4 (self-hosted). Dados não saem do seu servidor.
A estratégia que reduz custo em 70%: model routing
As melhores implementações em 2026 não usam um único modelo. Usam model routing: um classificador leve analisa a mensagem do cliente e direciona para o modelo adequado.
- Mensagem simples ("qual o preço?") → Gemini Flash (US$ 0,00024/conversa)
- Mensagem complexa ("compare os planos e me diga qual faz sentido para uma clínica com 3 unidades") → Claude Sonnet (US$ 0,011/conversa)
Se 80% das suas conversas são simples e 20% são complexas, o custo cai de US$ 0,011 (tudo no Sonnet) para ~US$ 0,0024 (roteado). Redução de 78%.
Como implementar model routing
// Classificador simples de complexidade
async function routeMessage(message, context) {
const wordCount = message.split(' ').length;
const hasComparison = /compar|diferença|melhor|vs/i.test(message);
const hasMultipleQuestions = (message.match(/\?/g) || []).length > 1;
if (wordCount > 50 || hasComparison || hasMultipleQuestions) {
return 'claude-sonnet-4-6'; // complexo
}
return 'gemini-flash'; // simples
}
Implementações mais sofisticadas usam o próprio Gemini Flash como classificador (custo desprezível) antes de decidir qual modelo responde.
O custo oculto: não é só o token
O preço por token é a ponta do iceberg. Custos reais incluem:
- Infraestrutura de webhook: servidor para receber mensagens (US$ 5-50/mês)
- Vector store para RAG: Pinecone, Supabase pgvector (US$ 0-70/mês)
- Retry e fallback: quando a API falha, você paga pela retentativa
- Tempo de engenharia: manter integrações, atualizar prompts, monitorar qualidade
Plataformas como a Verboo absorvem esses custos ocultos. Webhook gerenciado, RAG embutido, model routing nativo e monitoramento incluído. O custo vira previsível: R$ 247/mês em vez de uma soma de 5 serviços diferentes.
Na Verboo, 730 agentes rodam em produção com latência abaixo de 500ms e +168 mil conversas processadas. Sem surpresas na conta.
A Verboo resolve isso com uma API simples e WhatsApp nativo. Conheça os planos.



