LLM, Harness, Skill e MCP: O Glossário Que Todo Dev Precisa (2026)

Por que você precisa entender esse vocabulário agora?

Se você trabalha com tecnologia em 2026, já ouviu alguém dizer "a gente usa um MCP pra isso" ou "o harness gerencia o agente". Talvez tenha acenado com a cabeça e pesquisado depois. Ou talvez tenha assumido que são coisas exclusivas do Claude, do Cursor ou de alguma ferramenta específica.

Não são. LLM, Harness, Skill, MCP e Agent são conceitos arquiteturais que transcendem qualquer produto. Entendê-los é a diferença entre usar IA como ferramenta e entender como IA funciona como sistema. Este guia explica cada um sem jargão desnecessário, com exemplos concretos e diagramas mentais que você pode usar amanhã.

O que é um LLM (Large Language Model)?

Um LLM é um modelo de linguagem treinado em grandes volumes de texto que gera respostas em linguagem natural. É o "cérebro" por trás de qualquer sistema de IA conversacional. GPT-4o, Claude Sonnet, Gemini 2.5 Pro, Llama 4 são todos LLMs de empresas diferentes.

Analogia: O LLM é o motor de um carro. Potente, sofisticado, mas sozinho não te leva a lugar nenhum. Precisa de chassi, volante, rodas e combustível para funcionar.

O que um LLM faz bem

Compreende e gera texto em múltiplos idiomas
Raciocina sobre problemas complexos
Gera código, analisa documentos, resume informações
Segue instruções detalhadas (system prompts)

O que um LLM NÃO faz sozinho

Não acessa a internet ou bancos de dados
Não executa código ou ações no mundo real
Não lembra de conversas anteriores (sem contexto persistente)
Não sabe nada sobre seu negócio específico

Esse gap entre "o que o LLM sabe fazer" e "o que você precisa que ele faça" é exatamente o que os próximos conceitos resolvem.

LLMs disponíveis hoje (abril 2026)

GPT-5.2 (OpenAI) — US$ 1,75 / US$ 14,00 por 1M tokens (input/output). Melhor para uso geral e ecossistema amplo.

GPT-5.4 mini (OpenAI) — ~US$ 0,30 / US$ 1,20 por 1M tokens. Melhor para alto volume e chatbots de suporte.

Claude Sonnet 4.6 (Anthropic) — US$ 3,00 / US$ 15,00 por 1M tokens. Melhor para documentação complexa, código e raciocínio.

Gemini 2.5 Pro (Google) — US$ 1,25 / US$ 10,00 por 1M tokens. Melhor para contexto longo (1M tokens) e multimodal.

Gemini Flash (Google) — US$ 0,30 por 1M tokens. Melhor para velocidade e custo baixo.

Llama 4 (Meta) — Grátis (self-hosted). Melhor para controle total, privacidade e fine-tuning.

Fonte: BenchLM.ai - LLM Pricing Comparison e Vellum LLM Leaderboard.

A escolha do LLM depende do caso de uso. Para um chatbot de suporte no WhatsApp com alto volume, GPT-5.4 mini ou Gemini Flash fazem mais sentido economicamente. Para análise de contratos ou documentação técnica densa, Claude Sonnet ou Gemini 2.5 Pro com contexto longo são superiores.

O que é um Agent (Agente de IA)?

Um agente é um LLM com capacidade de agir. Enquanto um LLM puro recebe texto e devolve texto, um agente pode tomar decisões, usar ferramentas, acessar dados externos e executar ações no mundo real.

Analogia: Se o LLM é o motor, o agente é o carro completo. Tem motor (LLM), direção (instruções/prompt), instrumentos (ferramentas/tools) e combustível (dados/contexto).

Componentes de um agente

LLM base: o modelo que raciocina e gera respostas
System prompt: as instruções que definem o comportamento ("você é um vendedor", "responda em português")
Tools: ações que o agente pode executar (buscar no banco de dados, enviar email, criar registro no CRM)
Memória: histórico de conversas e contexto persistente
Base de conhecimento: documentos, FAQs, catálogos que informam as respostas (RAG)

Quando alguém diz "criamos um agente de IA no WhatsApp", está dizendo: pegamos um LLM, demos instruções específicas, conectamos ferramentas e uma base de conhecimento, e colocamos para atender no WhatsApp. Todo chatbot inteligente é um agente. Nem todo agente é um chatbot (existem agentes que escrevem código, fazem pesquisas, gerenciam pipelines).

O que é um Harness?

O harness (arnês, em português) é a infraestrutura completa que envolve o LLM para transformá-lo em um agente funcional. O termo vem do equipamento usado para direcionar cavalos: um conjunto de peças que transforma força bruta em movimento controlado.

Em março de 2026, a indústria de IA chegou a uma conclusão: o agente não é a parte difícil. O harness é. A equipe do Codex (OpenAI) construiu uma aplicação com mais de 1 milhão de linhas de código onde zero linhas foram escritas por humanos. Os engenheiros projetaram o sistema que permitiu à IA escrever código de forma confiável: constraints, feedback loops, documentação, linters e lifecycle management.

Analogia: O LLM é um piloto talentoso. O harness é o cockpit: painel de instrumentos, limitadores de velocidade, checklist de decolagem, caixa-preta. Sem o cockpit, o piloto pode voar, mas não com segurança.

O que um harness faz

Permissões — Controla o que o agente pode e não pode fazer. Exemplo: "Pode ler arquivos, não pode deletar".

Contexto — Injeta instruções persistentes (como CLAUDE.md). Exemplo: regras de negócio que valem para toda sessão.

Memória — Mantém informações entre sessões. Exemplo: preferências do usuário, histórico de decisões.

Segurança — Valida ações antes de executar. Exemplo: confirmar antes de enviar email, bloquear comandos perigosos.

Ferramentas — Conecta o LLM com o mundo externo. Exemplo: APIs, bancos de dados, sistemas internos.

Observabilidade — Registra tudo que o agente faz. Exemplo: logs, métricas, rastreamento de erros.

Harnesses que você já usa (talvez sem saber)

Claude Code: o harness lê o CLAUDE.md, gerencia permissões (auto-approve, deny), executa hooks e mantém memória entre sessões
Cursor: o harness gerencia o contexto do projeto, aplica rules, controla acesso a arquivos e executa agents em VMs isoladas
GitHub Copilot: o harness integra com o editor, gerencia sugestões inline e controla o escopo do contexto
Verboo: o harness gerencia webhooks do WhatsApp, RAG, rate limiting, compliance com a Meta e lifecycle das conversas

O conceito de harness não é exclusivo de nenhum produto. Qualquer sistema que coloca um LLM em produção tem um harness, mesmo que não use esse nome. Se você já construiu um chatbot com system prompt + API + banco de dados, você construiu um harness.

O que é MCP (Model Context Protocol)?

MCP é um protocolo aberto que padroniza como LLMs se conectam com ferramentas e fontes de dados externas. Foi anunciado pela Anthropic em novembro de 2024, mas desde dezembro de 2025 pertence à Agentic AI Foundation, uma fundação sob a Linux Foundation, co-fundada por Anthropic, Block e OpenAI.

Dado-chave: Em novembro de 2024, existiam poucos servidores MCP de referência. Em 2026, são dezenas de milhares. OpenAI, Google, Microsoft e Salesforce adotaram o padrão.

MCP NÃO é do Claude. É um padrão aberto. Assim como HTTP é o protocolo da web e USB é o padrão de conexão de dispositivos, MCP é o padrão de conexão entre IAs e ferramentas.

Analogia: MCP é o USB-C da IA. Antes, cada ferramenta precisava de um "adaptador" diferente para cada LLM. Com MCP, você cria um servidor MCP uma vez e qualquer LLM compatível pode usá-lo.

Como MCP funciona na prática

O fluxo é simples:

MCP Server: um programa que expõe ferramentas (tools) e recursos (resources) via protocolo padronizado
MCP Client: o harness/aplicação que conecta o LLM ao server (Claude Code, Cursor, seu app)
Descoberta: o client pergunta ao server "quais ferramentas você tem?" e recebe a lista
Execução: quando o LLM decide usar uma ferramenta, o client chama o server via MCP

// Exemplo simplificado: um MCP Server de CRM
{
  "tools": [
    {
      "name": "buscar_cliente",
      "description": "Busca um cliente pelo nome ou telefone",
      "parameters": {
        "query": { "type": "string", "description": "Nome ou telefone" }
      }
    },
    {
      "name": "criar_lead",
      "description": "Cria um novo lead no CRM",
      "parameters": {
        "nome": { "type": "string" },
        "telefone": { "type": "string" },
        "origem": { "type": "string" }
      }
    }
  ]
}

Com esse server configurado, qualquer LLM (Claude, GPT, Gemini) pode buscar clientes e criar leads no seu CRM. Você escreve a integração uma vez.

MCPs que já existem

Bancos de dados — PostgreSQL, Supabase, MongoDB. Query e escrita diretamente pelo LLM.

Comunicação — Slack, Gmail, WhatsApp. Enviar e receber mensagens.

Produtividade — Google Drive, Notion, Linear. Criar, ler e editar documentos/tarefas.

DevOps — GitHub, Docker, AWS. Criar PRs, gerenciar containers, deploy.

Pagamentos — Stripe. Criar cobranças, consultar assinaturas.

Busca — Brave Search, Tavily. Pesquisa web em tempo real.

MCP vs API tradicional: qual a diferença?

Você pode pensar: "mas eu já conecto meu LLM com APIs REST, qual a vantagem do MCP?" A diferença é padronização e descoberta.

Integração: API REST exige código custom para cada API. MCP usa protocolo padronizado, plug-and-play.

Descoberta: Com API REST, você lê documentação e escreve wrapper. Com MCP, o client descobre tools automaticamente.

Compatibilidade: API REST funciona com qualquer linguagem. MCP funciona com qualquer LLM compatível.

Contexto: Com API REST, você gerencia manualmente. Com MCP, o server pode expor resources com contexto.

Segurança: Com API REST, você implementa. Com MCP, modelo de permissões embutido.

MCP não substitui APIs. Ele cria uma camada de abstração sobre elas que facilita o uso por LLMs.

O que são Skills (Habilidades)?

Skills são pacotes modulares de conhecimento e workflow que dão capacidades específicas a um agente sob demanda. São arquivos de texto (tipicamente SKILL.md) com instruções estruturadas que qualquer LLM pode interpretar.

Analogia: Se o agente é um profissional, skills são certificações. Um agente com a skill "blog-post" sabe escrever artigos de blog. Com a skill "code-review" sabe revisar código. Você adiciona e remove skills conforme a necessidade.

Diferença entre Skills, Tools e Fine-tuning

Fine-tuning — Altera os pesos do modelo. Requer re-treinamento. Exemplo: modelo especializado em linguagem jurídica.

Tool — Ação que o agente executa via MCP/API. Disponível quando o server está conectado. Exemplo: buscar no banco de dados, enviar email.

Skill — Instruções + workflow em texto. Carregado sob demanda em runtime. Exemplo: "Quando pedirem um blog post, siga esses 5 passos".

A diferença crítica: fine-tuning muda o modelo, tools dão ações, skills dão conhecimento e workflow. Skills podem ser atualizadas instantaneamente (é só editar o arquivo), enquanto fine-tuning requer re-treinamento caro e demorado.

Skills não são exclusivas do Claude

Catálogos oficiais de skills já existem de múltiplas empresas: Anthropic, OpenAI, Microsoft (Azure SDKs), Google Workspace, Vercel (Skills.sh) e Supabase. A comunidade contribui via Hugging Face. São versionáveis com Git, compartilháveis entre projetos e combináveis para workflows complexos.

Anatomia de uma Skill

# Exemplo de SKILL.md (simplificado)
---
name: customer-support
description: Responde tickets de suporte com base na documentação
triggers: ["suporte", "problema", "ajuda", "bug"]
---

## Contexto
Você é o agente de suporte da empresa. Use a base de conhecimento
para responder. Se não encontrar a resposta, escale para humano.

## Passos
1. Identifique o problema descrito pelo cliente
2. Busque na base de conhecimento (use a tool "search_docs")
3. Formule resposta clara e direta
4. Se não encontrar solução, diga: "Vou encaminhar para o time"

## Regras
- Máximo 2 parágrafos por resposta
- Nunca invente funcionalidades
- Sempre confirme se o problema foi resolvido

Esse arquivo pode ser usado no Claude Code, no Cursor, em qualquer harness que leia markdown como instrução. A skill é portável.

Como tudo se conecta? O stack completo de um agente

Agora que você conhece cada peça, veja como elas se encaixam:

Camada 1 (base) — LLM: Raciocínio e geração de linguagem. Pense no motor do carro.

Camada 2 (estrutura) — Harness: Permissões, contexto, segurança, lifecycle. Pense no chassi + cockpit.

Camada 3 (conexões) — MCP Servers: Conectam o agente com ferramentas externas. Pense em portas USB-C.

Camada 4 (capacidades) — Skills: Dão conhecimento e workflows sob demanda. Pense em certificações profissionais.

Camada 5 (interface) — Canal: Onde o usuário interage (WhatsApp, web, Slack). Pense no volante + painel.

Um agente de vendas no WhatsApp, por exemplo:

LLM: GPT-5.4 mini (barato, rápido, bom para suporte)
Harness: Verboo (gerencia webhooks, compliance, rate limiting)
MCPs: CRM (Pipedrive), Pagamentos (Stripe), Agenda (Google Calendar)
Skills: qualificação de leads, apresentação de produto, agendamento de demo
Canal: WhatsApp Business API

Esses termos são exclusivos do Claude?

Não. E esse é o ponto mais importante deste artigo.

O Claude Code popularizou termos como "harness", "skills" e "MCP" porque foi o primeiro produto mainstream a implementar tudo junto de forma coesa. Mas cada conceito é um padrão aberto ou arquitetural que funciona com qualquer stack:

LLM — Popularizado pela OpenAI (GPT-3, 2020). Funciona com qualquer provider. Status: commodity.

Agent — Popularizado por LangChain, AutoGPT (2023). Funciona com qualquer LLM + framework. Status: padrão de mercado.

Harness — Popularizado por Claude Code, Cursor (2025-26). Funciona com qualquer sistema em produção. Status: conceito arquitetural.

MCP — Popularizado pela Anthropic (nov/2024). Funciona com OpenAI, Google, Microsoft, todos. Status: padrão aberto (Linux Foundation).

Skills — Popularizado por Claude Code, Vercel (2025-26). Funciona com qualquer LLM que lê markdown. Status: padrão emergente.

Entender isso muda a forma como você avalia ferramentas. Em vez de perguntar "qual produto uso?", pergunte "qual LLM, qual harness, quais MCPs e quais skills resolvem meu problema?"

Por que isso importa para quem constrói produtos?

Três razões práticas:

1. Portabilidade

Se você constrói um MCP Server para seu CRM, ele funciona com Claude, GPT, Gemini e qualquer LLM futuro. Você não fica preso a um provider. Se os preços da OpenAI subirem, troque o LLM e mantenha toda a infraestrutura.

2. Composição

Cada camada é independente. Troque o LLM sem mudar o harness. Adicione um MCP sem reescrever o agente. Instale uma skill sem deploy. É microserviços para IA.

3. Velocidade

Com esses padrões consolidados, construir um agente de IA em produção deixou de ser um projeto de 6 meses. Plataformas como a Verboo já entregam harness + canal WhatsApp + RAG prontos. Você foca nas skills e na lógica de negócio.

Na Verboo, são 730 agentes em produção, +168 mil conversas processadas com latência abaixo de 500ms. O harness, os MCPs e o canal WhatsApp já estão resolvidos. Você traz o LLM e as skills do seu negócio.

A Verboo já opera nesse modelo: 730 agentes criados, WhatsApp nativo, deploy em minutos. Saiba mais.