Por que você precisa entender esse vocabulário agora?
Se você trabalha com tecnologia em 2026, já ouviu alguém dizer "a gente usa um MCP pra isso" ou "o harness gerencia o agente". Talvez tenha acenado com a cabeça e pesquisado depois. Ou talvez tenha assumido que são coisas exclusivas do Claude, do Cursor ou de alguma ferramenta específica.
Não são. LLM, Harness, Skill, MCP e Agent são conceitos arquiteturais que transcendem qualquer produto. Entendê-los é a diferença entre usar IA como ferramenta e entender como IA funciona como sistema. Este guia explica cada um sem jargão desnecessário, com exemplos concretos e diagramas mentais que você pode usar amanhã.
O que é um LLM (Large Language Model)?
Um LLM é um modelo de linguagem treinado em grandes volumes de texto que gera respostas em linguagem natural. É o "cérebro" por trás de qualquer sistema de IA conversacional. GPT-4o, Claude Sonnet, Gemini 2.5 Pro, Llama 4 são todos LLMs de empresas diferentes.
Analogia: O LLM é o motor de um carro. Potente, sofisticado, mas sozinho não te leva a lugar nenhum. Precisa de chassi, volante, rodas e combustível para funcionar.
O que um LLM faz bem
- Compreende e gera texto em múltiplos idiomas
- Raciocina sobre problemas complexos
- Gera código, analisa documentos, resume informações
- Segue instruções detalhadas (system prompts)
O que um LLM NÃO faz sozinho
- Não acessa a internet ou bancos de dados
- Não executa código ou ações no mundo real
- Não lembra de conversas anteriores (sem contexto persistente)
- Não sabe nada sobre seu negócio específico
Esse gap entre "o que o LLM sabe fazer" e "o que você precisa que ele faça" é exatamente o que os próximos conceitos resolvem.
LLMs disponíveis hoje (abril 2026)
GPT-5.2 (OpenAI) — US$ 1,75 / US$ 14,00 por 1M tokens (input/output). Melhor para uso geral e ecossistema amplo.
GPT-5.4 mini (OpenAI) — ~US$ 0,30 / US$ 1,20 por 1M tokens. Melhor para alto volume e chatbots de suporte.
Claude Sonnet 4.6 (Anthropic) — US$ 3,00 / US$ 15,00 por 1M tokens. Melhor para documentação complexa, código e raciocínio.
Gemini 2.5 Pro (Google) — US$ 1,25 / US$ 10,00 por 1M tokens. Melhor para contexto longo (1M tokens) e multimodal.
Gemini Flash (Google) — US$ 0,30 por 1M tokens. Melhor para velocidade e custo baixo.
Llama 4 (Meta) — Grátis (self-hosted). Melhor para controle total, privacidade e fine-tuning.
Fonte: BenchLM.ai - LLM Pricing Comparison e Vellum LLM Leaderboard.
A escolha do LLM depende do caso de uso. Para um chatbot de suporte no WhatsApp com alto volume, GPT-5.4 mini ou Gemini Flash fazem mais sentido economicamente. Para análise de contratos ou documentação técnica densa, Claude Sonnet ou Gemini 2.5 Pro com contexto longo são superiores.
O que é um Agent (Agente de IA)?
Um agente é um LLM com capacidade de agir. Enquanto um LLM puro recebe texto e devolve texto, um agente pode tomar decisões, usar ferramentas, acessar dados externos e executar ações no mundo real.
Analogia: Se o LLM é o motor, o agente é o carro completo. Tem motor (LLM), direção (instruções/prompt), instrumentos (ferramentas/tools) e combustível (dados/contexto).
Componentes de um agente
- LLM base: o modelo que raciocina e gera respostas
- System prompt: as instruções que definem o comportamento ("você é um vendedor", "responda em português")
- Tools: ações que o agente pode executar (buscar no banco de dados, enviar email, criar registro no CRM)
- Memória: histórico de conversas e contexto persistente
- Base de conhecimento: documentos, FAQs, catálogos que informam as respostas (RAG)
Quando alguém diz "criamos um agente de IA no WhatsApp", está dizendo: pegamos um LLM, demos instruções específicas, conectamos ferramentas e uma base de conhecimento, e colocamos para atender no WhatsApp. Todo chatbot inteligente é um agente. Nem todo agente é um chatbot (existem agentes que escrevem código, fazem pesquisas, gerenciam pipelines).
O que é um Harness?
O harness (arnês, em português) é a infraestrutura completa que envolve o LLM para transformá-lo em um agente funcional. O termo vem do equipamento usado para direcionar cavalos: um conjunto de peças que transforma força bruta em movimento controlado.
Em março de 2026, a indústria de IA chegou a uma conclusão: o agente não é a parte difícil. O harness é. A equipe do Codex (OpenAI) construiu uma aplicação com mais de 1 milhão de linhas de código onde zero linhas foram escritas por humanos. Os engenheiros projetaram o sistema que permitiu à IA escrever código de forma confiável: constraints, feedback loops, documentação, linters e lifecycle management.
Analogia: O LLM é um piloto talentoso. O harness é o cockpit: painel de instrumentos, limitadores de velocidade, checklist de decolagem, caixa-preta. Sem o cockpit, o piloto pode voar, mas não com segurança.
O que um harness faz
Permissões — Controla o que o agente pode e não pode fazer. Exemplo: "Pode ler arquivos, não pode deletar".
Contexto — Injeta instruções persistentes (como CLAUDE.md). Exemplo: regras de negócio que valem para toda sessão.
Memória — Mantém informações entre sessões. Exemplo: preferências do usuário, histórico de decisões.
Segurança — Valida ações antes de executar. Exemplo: confirmar antes de enviar email, bloquear comandos perigosos.
Ferramentas — Conecta o LLM com o mundo externo. Exemplo: APIs, bancos de dados, sistemas internos.
Observabilidade — Registra tudo que o agente faz. Exemplo: logs, métricas, rastreamento de erros.
Harnesses que você já usa (talvez sem saber)
- Claude Code: o harness lê o CLAUDE.md, gerencia permissões (auto-approve, deny), executa hooks e mantém memória entre sessões
- Cursor: o harness gerencia o contexto do projeto, aplica rules, controla acesso a arquivos e executa agents em VMs isoladas
- GitHub Copilot: o harness integra com o editor, gerencia sugestões inline e controla o escopo do contexto
- Verboo: o harness gerencia webhooks do WhatsApp, RAG, rate limiting, compliance com a Meta e lifecycle das conversas
O conceito de harness não é exclusivo de nenhum produto. Qualquer sistema que coloca um LLM em produção tem um harness, mesmo que não use esse nome. Se você já construiu um chatbot com system prompt + API + banco de dados, você construiu um harness.
O que é MCP (Model Context Protocol)?
MCP é um protocolo aberto que padroniza como LLMs se conectam com ferramentas e fontes de dados externas. Foi anunciado pela Anthropic em novembro de 2024, mas desde dezembro de 2025 pertence à Agentic AI Foundation, uma fundação sob a Linux Foundation, co-fundada por Anthropic, Block e OpenAI.
Dado-chave: Em novembro de 2024, existiam poucos servidores MCP de referência. Em 2026, são dezenas de milhares. OpenAI, Google, Microsoft e Salesforce adotaram o padrão.
MCP NÃO é do Claude. É um padrão aberto. Assim como HTTP é o protocolo da web e USB é o padrão de conexão de dispositivos, MCP é o padrão de conexão entre IAs e ferramentas.
Analogia: MCP é o USB-C da IA. Antes, cada ferramenta precisava de um "adaptador" diferente para cada LLM. Com MCP, você cria um servidor MCP uma vez e qualquer LLM compatível pode usá-lo.
Como MCP funciona na prática
O fluxo é simples:
- MCP Server: um programa que expõe ferramentas (tools) e recursos (resources) via protocolo padronizado
- MCP Client: o harness/aplicação que conecta o LLM ao server (Claude Code, Cursor, seu app)
- Descoberta: o client pergunta ao server "quais ferramentas você tem?" e recebe a lista
- Execução: quando o LLM decide usar uma ferramenta, o client chama o server via MCP
// Exemplo simplificado: um MCP Server de CRM
{
"tools": [
{
"name": "buscar_cliente",
"description": "Busca um cliente pelo nome ou telefone",
"parameters": {
"query": { "type": "string", "description": "Nome ou telefone" }
}
},
{
"name": "criar_lead",
"description": "Cria um novo lead no CRM",
"parameters": {
"nome": { "type": "string" },
"telefone": { "type": "string" },
"origem": { "type": "string" }
}
}
]
}
Com esse server configurado, qualquer LLM (Claude, GPT, Gemini) pode buscar clientes e criar leads no seu CRM. Você escreve a integração uma vez.
MCPs que já existem
Bancos de dados — PostgreSQL, Supabase, MongoDB. Query e escrita diretamente pelo LLM.
Comunicação — Slack, Gmail, WhatsApp. Enviar e receber mensagens.
Produtividade — Google Drive, Notion, Linear. Criar, ler e editar documentos/tarefas.
DevOps — GitHub, Docker, AWS. Criar PRs, gerenciar containers, deploy.
Pagamentos — Stripe. Criar cobranças, consultar assinaturas.
Busca — Brave Search, Tavily. Pesquisa web em tempo real.
MCP vs API tradicional: qual a diferença?
Você pode pensar: "mas eu já conecto meu LLM com APIs REST, qual a vantagem do MCP?" A diferença é padronização e descoberta.
Integração: API REST exige código custom para cada API. MCP usa protocolo padronizado, plug-and-play.
Descoberta: Com API REST, você lê documentação e escreve wrapper. Com MCP, o client descobre tools automaticamente.
Compatibilidade: API REST funciona com qualquer linguagem. MCP funciona com qualquer LLM compatível.
Contexto: Com API REST, você gerencia manualmente. Com MCP, o server pode expor resources com contexto.
Segurança: Com API REST, você implementa. Com MCP, modelo de permissões embutido.
MCP não substitui APIs. Ele cria uma camada de abstração sobre elas que facilita o uso por LLMs.
O que são Skills (Habilidades)?
Skills são pacotes modulares de conhecimento e workflow que dão capacidades específicas a um agente sob demanda. São arquivos de texto (tipicamente SKILL.md) com instruções estruturadas que qualquer LLM pode interpretar.
Analogia: Se o agente é um profissional, skills são certificações. Um agente com a skill "blog-post" sabe escrever artigos de blog. Com a skill "code-review" sabe revisar código. Você adiciona e remove skills conforme a necessidade.
Diferença entre Skills, Tools e Fine-tuning
Fine-tuning — Altera os pesos do modelo. Requer re-treinamento. Exemplo: modelo especializado em linguagem jurídica.
Tool — Ação que o agente executa via MCP/API. Disponível quando o server está conectado. Exemplo: buscar no banco de dados, enviar email.
Skill — Instruções + workflow em texto. Carregado sob demanda em runtime. Exemplo: "Quando pedirem um blog post, siga esses 5 passos".
A diferença crítica: fine-tuning muda o modelo, tools dão ações, skills dão conhecimento e workflow. Skills podem ser atualizadas instantaneamente (é só editar o arquivo), enquanto fine-tuning requer re-treinamento caro e demorado.
Skills não são exclusivas do Claude
Catálogos oficiais de skills já existem de múltiplas empresas: Anthropic, OpenAI, Microsoft (Azure SDKs), Google Workspace, Vercel (Skills.sh) e Supabase. A comunidade contribui via Hugging Face. São versionáveis com Git, compartilháveis entre projetos e combináveis para workflows complexos.
Anatomia de uma Skill
# Exemplo de SKILL.md (simplificado)
---
name: customer-support
description: Responde tickets de suporte com base na documentação
triggers: ["suporte", "problema", "ajuda", "bug"]
---
## Contexto
Você é o agente de suporte da empresa. Use a base de conhecimento
para responder. Se não encontrar a resposta, escale para humano.
## Passos
1. Identifique o problema descrito pelo cliente
2. Busque na base de conhecimento (use a tool "search_docs")
3. Formule resposta clara e direta
4. Se não encontrar solução, diga: "Vou encaminhar para o time"
## Regras
- Máximo 2 parágrafos por resposta
- Nunca invente funcionalidades
- Sempre confirme se o problema foi resolvido
Esse arquivo pode ser usado no Claude Code, no Cursor, em qualquer harness que leia markdown como instrução. A skill é portável.
Como tudo se conecta? O stack completo de um agente
Agora que você conhece cada peça, veja como elas se encaixam:
Camada 1 (base) — LLM: Raciocínio e geração de linguagem. Pense no motor do carro.
Camada 2 (estrutura) — Harness: Permissões, contexto, segurança, lifecycle. Pense no chassi + cockpit.
Camada 3 (conexões) — MCP Servers: Conectam o agente com ferramentas externas. Pense em portas USB-C.
Camada 4 (capacidades) — Skills: Dão conhecimento e workflows sob demanda. Pense em certificações profissionais.
Camada 5 (interface) — Canal: Onde o usuário interage (WhatsApp, web, Slack). Pense no volante + painel.
Um agente de vendas no WhatsApp, por exemplo:
- LLM: GPT-5.4 mini (barato, rápido, bom para suporte)
- Harness: Verboo (gerencia webhooks, compliance, rate limiting)
- MCPs: CRM (Pipedrive), Pagamentos (Stripe), Agenda (Google Calendar)
- Skills: qualificação de leads, apresentação de produto, agendamento de demo
- Canal: WhatsApp Business API
Esses termos são exclusivos do Claude?
Não. E esse é o ponto mais importante deste artigo.
O Claude Code popularizou termos como "harness", "skills" e "MCP" porque foi o primeiro produto mainstream a implementar tudo junto de forma coesa. Mas cada conceito é um padrão aberto ou arquitetural que funciona com qualquer stack:
LLM — Popularizado pela OpenAI (GPT-3, 2020). Funciona com qualquer provider. Status: commodity.
Agent — Popularizado por LangChain, AutoGPT (2023). Funciona com qualquer LLM + framework. Status: padrão de mercado.
Harness — Popularizado por Claude Code, Cursor (2025-26). Funciona com qualquer sistema em produção. Status: conceito arquitetural.
MCP — Popularizado pela Anthropic (nov/2024). Funciona com OpenAI, Google, Microsoft, todos. Status: padrão aberto (Linux Foundation).
Skills — Popularizado por Claude Code, Vercel (2025-26). Funciona com qualquer LLM que lê markdown. Status: padrão emergente.
Entender isso muda a forma como você avalia ferramentas. Em vez de perguntar "qual produto uso?", pergunte "qual LLM, qual harness, quais MCPs e quais skills resolvem meu problema?"
Por que isso importa para quem constrói produtos?
Três razões práticas:
1. Portabilidade
Se você constrói um MCP Server para seu CRM, ele funciona com Claude, GPT, Gemini e qualquer LLM futuro. Você não fica preso a um provider. Se os preços da OpenAI subirem, troque o LLM e mantenha toda a infraestrutura.
2. Composição
Cada camada é independente. Troque o LLM sem mudar o harness. Adicione um MCP sem reescrever o agente. Instale uma skill sem deploy. É microserviços para IA.
3. Velocidade
Com esses padrões consolidados, construir um agente de IA em produção deixou de ser um projeto de 6 meses. Plataformas como a Verboo já entregam harness + canal WhatsApp + RAG prontos. Você foca nas skills e na lógica de negócio.
Na Verboo, são 730 agentes em produção, +168 mil conversas processadas com latência abaixo de 500ms. O harness, os MCPs e o canal WhatsApp já estão resolvidos. Você traz o LLM e as skills do seu negócio.
A Verboo já opera nesse modelo: 730 agentes criados, WhatsApp nativo, deploy em minutos. Saiba mais.



