Você já teve uma sessão perfeita com um agente de IA — ele entendeu
tudo, fez exatamente o que você pediu — e na sessão seguinte ele
esqueceu tudo e voltou a cometer os mesmos erros?
Isso não é um problema do modelo. É um problema de harness.
Prompt Engineering vs Context Engineering vs Harness Engineering
A maioria das pessoas fica no prompt engineering — como formular
a pergunta certa. Alguns chegam ao context engineering — como
estruturar o contexto para consistência.
Mas existe uma terceira camada:
Prompt Engineering → você funciona
Context Engineering → você é consistente
Harness Engineering → você é confiável em produção
Harness Engineering é o conjunto de arquivos, regras e automações
que envolvem o agente e definem como ele deve se comportar — não só
o que fazer, mas o que nunca fazer, como verificar o próprio trabalho,
e como aprender com erros.
O experimento que mudou minha perspectiva
A Anthropic publicou um resultado interessante: o mesmo modelo (Claude),
a mesma tarefa, duas condições:
- Sem harness: $9, 20 minutos, não funcionou
- Com harness: $200, 6 horas, entregou um jogo jogável
Não é o modelo que faz a diferença. É o ambiente em que ele opera.
O que um harness resolve na prática
Sem harness, um agente tende a:
- Pular etapas de verificação
- Inventar respostas quando não sabe
- Quebrar o que funcionava ao tentar melhorar
- Esquecer o contexto entre sessões
- Fazer o que foi pedido, não o que era necessário
Com harness, você define:
- Regras absolutas — o que o agente nunca faz
- Protocolo PEV — Plan → Execute → Verify antes de qualquer tarefa
- Memória de sessão — o agente retoma de onde parou
- Directives — SOPs carregados sob demanda para tarefas específicas
- Regra de Hashimoto — cada erro vira uma melhoria permanente
Bifrost — um harness para qualquer runtime
Construí o Bifrost como um framework de harness engineering
que funciona com Claude Code, Antigravity, OpenCode e Cursor.
Instalação em 1 minuto:
npx harness-engineering
O que você recebe:
-
AGENTS.md— regras canônicas do agente - 10 directives reais (session-memory, diagnose, testing, deployment...)
- 8 skills reais (brainstorming, debugging-strategies, security-auditor...)
- Scripts de automação (sync, build, health-check)
- CI com 9 checks automáticos
Para projetos existentes com detecção automática de stack:
npx harness-engineering adopt
Ele detecta Next.js, React, Python, Go, Rust, Prisma, Stripe e
pré-configura o harness para a sua stack.
A estrutura em 3 camadas
directives/ ← Camada 1: SOPs — o QUE fazer
agente (você) ← Camada 2: roteamento e decisão
execution/ ← Camada 3: scripts determinísticos
O agente é probabilístico. Scripts são confiáveis.
O harness define quando usar cada um.
A Regra de Hashimoto
A parte mais poderosa do harness não é o que já está lá —
é o que você adiciona depois de cada erro.
Quando o agente erra, você classifica o tipo:
- A — trigger faltando (a directive existia mas não foi carregada)
- B — directive incompleta (SOP não cobriu o edge case)
- C — context overflow (janela cheia)
- D — hallucination (inventou sem verificar)
- E — permission violation (agiu sem autorização)
Cada tipo tem um arquivo diferente para corrigir.
Com o tempo, o harness fica cada vez mais difícil de quebrar.
Começando
# Projeto novo
npx harness-engineering
# Projeto existente
npx harness-engineering adopt
# Diagnóstico do ambiente
npx harness-engineering doctor
# Verificar integridade
npx harness-engineering check
Repositório: https://github.com/JRoberto1/Bifrost_Harness-Engineering
Se o conceito fizer sentido para você, ⭐ no repo ajuda outros
desenvolvedores a descobrir.
Top comments (0)