90% dos Tokens do Seu Agente de IA São Desperdício
Back to the blog
Artigo

90% dos Tokens do Seu Agente de IA São Desperdício

Mafra
27/05/2026
6 min read

Um loop de agente ingênuo cresce em custo como O(N²). A cada step, a API recebe toda a história da conversa, não só o contexto relevante. Na mensagem 20, você está pagando por 20x o contexto da mensagem 1. A maioria dos devs descobre isso quando chega a primeira fatura de produção.

Não é exagero. Pesquisadores da Mem0 mediram: substituir full-context prompting por memória episódica reduz 90% dos tokens e 91% da latência p95 em produção. Isso não é otimização marginal. É a diferença entre um agente lucrativo e um que queima caixa.

Por Que a Abordagem "Últimas N Mensagens" Não Escala?

A implementação mais comum de memória em agentes é também a mais problemática para produção: concatenar as últimas N mensagens no contexto. Funciona em demos. Quebra quando o usuário manda 40 mensagens em uma semana de suporte, cada uma com documentos, histórico de pedidos e preferências implícitas que precisam ser lembradas nas próximas sessões.

Uma conversa de suporte típica gera 2.000 tokens de input e 400 de output por request (Silicon Data, 2026). Com full-context prompting, na décima chamada do agente você já acumulou mais de 20.000 tokens de histórico, a maioria irrelevante para a pergunta atual. O modelo lê tudo, processa tudo, cobra por tudo.

O problema piora quando você considera a diferença de custo entre modelos: há uma disparidade de 35x entre premium (Claude Sonnet, GPT-4o a ~$3/M tokens) e budget (DeepSeek V4 Flash a $0,14/M tokens). Sem memória estruturada, você paga taxa premium por tokens que o modelo ignoraria se soubesse o que é relevante.

O ângulo contrário ao senso comum: a solução não é uma context window maior. Uma janela de 1M de tokens não resolve o problema de qualidade do contexto, só permite enfiar mais ruído. Mem0 demonstrou que memória episódica gera 26% de ganho em acurácia enquanto reduz 90% dos tokens. Menos contexto, melhor contexto.

Quais São os 4 Tipos de Memória de Agente?

A arquitetura de referência para 2026 define quatro tipos distintos, cada um com escopo, storage e padrão de acesso diferentes:

Tipo Escopo Storage Recomendado Exemplo Prático
Working Memory Sessão atual Context window (tokens) Mensagens da conversa ativa, tool call em andamento, resultado parcial
Episódica Cross-session por usuário PostgreSQL + Redis buffer "Paulo confirmou preferência por Pix em 05/mai"
Semântica Global ou por empresa Vector DB (HNSW + hybrid search) Catálogo de produtos, FAQ, políticas internas, base de conhecimento
Procedural Global ou por agente DB estruturado Regras de negócio, fluxos de escalação, SLAs aprendidos

O padrão de produção em 2026 é híbrido: working memory no contexto ativo, episódica como buffer estruturado, semântica em vector store com busca HNSW, procedural em banco relacional. Queries são roteadas para o store mais adequado, não acumuladas todas no prompt (AppScale Blog, 2026).

Como a Memória Episódica Funciona na Prática?

Memória episódica não é guardar transcrições brutas. É extrair e consolidar os fatos relevantes de cada interação. Em vez de "aqui estão as últimas 15 mensagens do usuário", o agente recebe: "o usuário mencionou em 3 conversas que prefere WhatsApp para contato, comprou o plano Pro em março, e abriu chamado técnico sobre integração Webhook na semana passada".

Essa consolidação é o que gera o ganho de 26% em acurácia comparado a abordagens de vetor puro. O agente recebe contexto comprimido e relevante, não dumps de histórico. A latência cai porque o context window fica menor. A qualidade da resposta sobe porque o sinal aumenta e o ruído diminui.

Para implementar do zero, o fluxo básico tem três etapas:

# Após cada sessão, extrair e consolidar
def consolidate_episodic_memory(user_id: str, session: list[dict]) -> None:
    # 1. Extrair fatos relevantes via structured output
    facts = extract_facts_llm(session)

    # 2. Deduplicar e mesclar com memória existente
    existing = fetch_episodic_memory(user_id)
    merged = merge_and_deduplicate(existing, facts)

    # 3. Salvar com timestamp e score de relevância
    save_to_episodic_store(user_id, merged)

# Na próxima sessão, recuperar contexto comprimido
def retrieve_context(user_id: str, query: str) -> str:
    memories = retrieve_relevant(user_id, query, top_k=5)
    return format_as_context(memories)  # ~300 tokens vs 5.000+ tokens brutos

O comentário no final não é hiperbólico. Um histórico de 20 conversas em formato bruto passa facilmente de 5.000 tokens. Consolidado em memória episódica, cabe em 300 a 500 tokens com mais contexto relevante do que qualquer dump completo ofereceria.

Por Que Memória Procedural É o Tipo Mais Subestimado?

Memória procedural é onde ficam os padrões aprendidos pelo agente ao longo do tempo: "esse usuário abandona fluxos com mais de 3 perguntas sequenciais", "clientes desse segmento respondem melhor a propostas com preço apresentado no início", "após duas tentativas sem resposta, escalar para canal humano".

Não é rule-based estático. O agente infere esses padrões ao longo do tempo e os armazena como instruções atualizáveis. É a camada que transforma um agente reativo em um agente que melhora com o uso, sem necessidade de fine-tuning. A maioria dos devs não implementa porque parece complexo. Na prática, é um store estruturado com updates incrementais, não um sistema de ML separado.

Como Saber Se Seu Agente Tem Problema de Memória?

Três sintomas práticos que aparecem em produção antes da fatura explodir:

  • Repetição de contexto: o usuário precisa reexplicar informações que já forneceu em sessões anteriores. Sinal de que episódica não está funcionando.
  • Latência crescente por sessão: as primeiras mensagens são rápidas, as últimas ficam lentas. Sinal de working memory inflada com histórico desnecessário.
  • Respostas genéricas para usuários antigos: o agente não usa preferências conhecidas do usuário. Sinal de ausência de memória semântica por usuário.

Se algum desses aparece, o agente está funcionando como um atendente com amnésia que lê a transcrição completa de cada atendimento anterior antes de responder. Funcional, mas caro e lento.

Como a Verboo Resolve Isso Nativamente?

Montar essa arquitetura do zero tem custo real: escolher e manter dois ou três bancos de dados, implementar pipelines de consolidação, gerenciar tenant isolation por empresa, monitorar drift de memória ao longo do tempo. Para a maioria das aplicações de negócio, isso é infraestrutura que não gera vantagem competitiva.

A Verboo tem memória nativa integrada ao Assistente. Você não configura Redis, não gerencia vector store, não escreve pipeline de consolidação. O Assistente acumula contexto entre sessões automaticamente, combina com a Base de Conhecimento (memória semântica via RAG com re-ranking) e aplica as Instruções que você define como camada procedural.

Os 1.284 agentes ativos na plataforma já operam com esse modelo em produção, processando mais de 27 milhões de mensagens, com latência média abaixo de 500ms mesmo com retrieval ativo. Você começa pelo lab e ativa memória diretamente no painel do Assistente.

Dado-chave: Memória episódica reduz 90% dos tokens e 91% da latência p95 vs full-context prompting, com ganho de 26% em acurácia. Fonte: Mem0, State of AI Agent Memory 2026.

A questão não é se você precisa de memória estruturada em produção. É quanto você já gastou descobrindo isso pela fatura. Latência sub-segundo, deploy em minutos, sem manter infra. Conheça a plataforma.

Enjoyed this article?
Share knowledge with your network.
Read also

Related articles