Seu lead mandou um áudio de 45 segundos explicando o problema. Seu agente respondeu: "Desculpe, não consigo processar mensagens de voz." Ele foi embora.
7 bilhões de mensagens de voz são enviadas no WhatsApp todo dia, segundo dados do Infobip (2026). No Brasil, áudios são o formato favorito de comunicação assíncrona: mais natural que digitar, mais rápido que uma ligação. Qualquer agente de WhatsApp que não processa áudio está atendendo metade da conversa.
Por Que a Maioria dos Agentes Ignora Áudios do WhatsApp?
A resposta técnica é simples: processar áudio exigia, até pouco tempo atrás, montar infraestrutura separada. Download do arquivo de mídia via API do WhatsApp, conversão de formato (WhatsApp envia OGG/OPUS), chamada para um modelo de speech-to-text, retorno do texto ao contexto do agente. Quatro etapas com bibliotecas diferentes antes de o LLM receber a primeira palavra.
O resultado: a maioria dos tutoriais pulava essa parte. Os agentes ficaram otimizados para texto. Bom para devs que queriam simplicidade. Ruim para o usuário brasileiro que manda um áudio de 1 minuto explicando o que precisa e recebe uma mensagem de erro.
Dado-chave: 7 bilhões de áudios são enviados por dia no WhatsApp. Cerca de 5% de todas as mensagens são notas de voz, percentual substancialmente maior no Brasil pela preferência cultural por comunicação verbal. (Fonte: DemandSage WhatsApp Statistics 2026)
Whisper V4 e Groq: Por Que Ficou Simples em 2026?
O Whisper, modelo de speech-to-text da OpenAI, chegou à versão 4 no fim de 2025 com duas melhorias críticas: diarização nativa de speaker e streaming em tempo real. Mas o que desbloqueou os casos de uso práticos para WhatsApp foi a disponibilização do modelo via Groq com latência abaixo de 1 segundo.
A Groq roda o Whisper Large V3 com hardware proprietário (LPU) e entrega transcrição de 1 minuto de áudio em menos de 800ms. Para um agente de WhatsApp, isso significa que o usuário manda o áudio e a resposta chega antes de ele soltar o telefone.
A integração se tornou uma chamada de API de 5 linhas. Sem servidor dedicado, sem conversão de formato manual, sem fila de processamento assíncrono. É um Gatilho num Assistente Verboo.
Como Construir o Agente em 1 Hora
O fluxo completo: usuário manda áudio no WhatsApp, Assistente detecta a mensagem de voz, Gatilho chama a API do Groq com o arquivo, transcrição retorna ao Assistente, que responde no contexto certo. Quatro partes, todas configuradas no painel da Verboo sem escrever backend.
Passo 1: Criar o Assistente e Escrever a Instrução
Acesse verboo.ai/lab/signup e crie um novo Assistente. Na aba Instrução, defina o comportamento para lidar com áudios:
Você é um assistente de atendimento que processa texto e áudio.
Quando receber uma mensagem de voz:
1. Acione o Gatilho "transcrever-audio" com a URL do arquivo
2. Leia a transcrição retornada no campo "text"
3. Responda ao conteúdo como se fosse uma mensagem de texto normal
4. Confirme o entendimento antes de responder: "Entendi: [resumo curto]"
Se o Gatilho falhar:
"Não consegui processar o áudio. Pode digitar a mensagem?"
Para mensagens de texto, responda normalmente sem mencionar áudio.
Passo 2: Configurar o Gatilho de Transcrição
Na aba Gatilhos, crie um novo gatilho chamado transcrever-audio. Configure como um POST para o endpoint da Groq:
{
"url": "https://api.groq.com/openai/v1/audio/transcriptions",
"method": "POST",
"headers": {
"Authorization": "Bearer {{env.GROQ_API_KEY}}"
},
"body": {
"file": "{{input.audio_url}}",
"model": "whisper-large-v3",
"language": "pt",
"response_format": "json"
}
}
Adicione a variável GROQ_API_KEY nas configurações do Assistente. A Groq oferece um plano gratuito com 25 horas de áudio por dia, suficiente para testar e para volumes de até 1.500 mensagens de voz mensais sem custo adicional.
Passo 3: Mapear o Retorno ao Contexto
O Gatilho retorna um JSON com o seguinte formato:
{
"text": "preciso agendar uma consulta para sexta-feira",
"language": "pt",
"duration": 4.2
}
Na configuração do Gatilho, mapeie response.text como a variável transcricao que o Assistente vai receber. A partir daí, o LLM processa como texto normal: detecta intenção, consulta a Base de Conhecimento se necessário e responde.
Passo 4: Testar com Áudio Real
Conecte um número WhatsApp ao Assistente via a aba Integrações. Mande um áudio de teste e observe o fluxo no painel de conversas da Verboo: você vai ver o áudio chegando, o Gatilho sendo acionado, a transcrição retornando e a resposta saindo em menos de 2 segundos.
Quanto Custa e Qual É a Latência Real?
| Componente | Custo | Latência |
|---|---|---|
| Groq Whisper Large V3 | Grátis até 25h/dia; $0,02/hora de áudio além disso | menos de 800ms para 1 min de áudio |
| Verboo (LLM + WhatsApp) | Incluído no plano | menos de 500ms |
| Total por mensagem de voz | menos de R$0,01 em volume normal | menos de 1,3s ponta a ponta |
Para volume alto (clínica, call center), o custo do Whisper via Groq ainda é marginal. 1.000 áudios de 1 minuto cada custam aproximadamente $0,33. O retorno de não perder leads que mandam áudio cobre esse custo em horas.
Quais Casos de Uso Têm Retorno Imediato?
Transcrição de áudio no WhatsApp não é feature exótica. É o básico que falta na maioria dos agentes em produção. Os casos com retorno mais direto:
- Atendimento ao cliente: clientes explicam problemas em áudio. O Assistente transcreve, identifica intenção e encaminha para a fila certa sem intervenção humana
- Qualificação de leads: leads costumam mandar áudio quando estão com interesse alto (contexto emocional). Ignorar áudio significa ignorar o lead mais quente
- Clínicas e consultórios: pacientes relatam sintomas em áudio. A transcrição vira um resumo estruturado para o médico antes da consulta
- Suporte técnico: usuários descrevem erros por áudio. A transcrição alimenta a base de tickets com mais contexto do que um texto digitado rápido
Benchmark de accuracy: Whisper Large V3 atinge WER (Word Error Rate) de 2,7% em português brasileiro em condições normais de gravação via smartphone. Para comparação, o reconhecimento humano fica entre 4% e 5% de WER em condições similares. (Fonte: Crazyrouter Whisper API Guide 2026)
Vibe Code Este Fim de Semana: 1 Hora, Roda para Sempre
A diferença entre um agente que atende 60% da conversa e um que atende 100% é um Gatilho de 5 linhas. No tempo que você levaria para debugar um formulário que ninguém preenche, você configura transcrição de áudio que funciona para qualquer mensagem de voz que entrar.
A Verboo já tem a infraestrutura de WhatsApp, o contexto de conversas e o sistema de Gatilhos. Você conecta o Groq, escreve a Instrução e testa com um áudio real. Setup completo em 1 hora. Cole esse fluxo em uma conta Verboo e seu Assistente já processa áudios no WhatsApp. Crie sua conta grátis (login Google em 10s, sem cartão).



