Harness Engineering: Como fazer agentes de IA funcionarem em produção

#claudecode #ai #productivity #webdev

Você já teve uma sessão perfeita com um agente de IA — ele entendeu
tudo, fez exatamente o que você pediu — e na sessão seguinte ele
esqueceu tudo e voltou a cometer os mesmos erros?

Isso não é um problema do modelo. É um problema de harness.

Prompt Engineering vs Context Engineering vs Harness Engineering

A maioria das pessoas fica no prompt engineering — como formular
a pergunta certa. Alguns chegam ao context engineering — como
estruturar o contexto para consistência.

Mas existe uma terceira camada:
Prompt Engineering → você funciona
Context Engineering → você é consistente
Harness Engineering → você é confiável em produção

Harness Engineering é o conjunto de arquivos, regras e automações
que envolvem o agente e definem como ele deve se comportar — não só
o que fazer, mas o que nunca fazer, como verificar o próprio trabalho,
e como aprender com erros.

O experimento que mudou minha perspectiva

A Anthropic publicou um resultado interessante: o mesmo modelo (Claude),
a mesma tarefa, duas condições:

Sem harness: $9, 20 minutos, não funcionou
Com harness: $200, 6 horas, entregou um jogo jogável

Não é o modelo que faz a diferença. É o ambiente em que ele opera.

O que um harness resolve na prática

Sem harness, um agente tende a:

Pular etapas de verificação
Inventar respostas quando não sabe
Quebrar o que funcionava ao tentar melhorar
Esquecer o contexto entre sessões
Fazer o que foi pedido, não o que era necessário

Com harness, você define:

Regras absolutas — o que o agente nunca faz
Protocolo PEV — Plan → Execute → Verify antes de qualquer tarefa
Memória de sessão — o agente retoma de onde parou
Directives — SOPs carregados sob demanda para tarefas específicas
Regra de Hashimoto — cada erro vira uma melhoria permanente

Bifrost — um harness para qualquer runtime

Construí o Bifrost como um framework de harness engineering
que funciona com Claude Code, Antigravity, OpenCode e Cursor.

Instalação em 1 minuto:

npx harness-engineering

O que você recebe:

AGENTS.md — regras canônicas do agente
10 directives reais (session-memory, diagnose, testing, deployment...)
8 skills reais (brainstorming, debugging-strategies, security-auditor...)
Scripts de automação (sync, build, health-check)
CI com 9 checks automáticos

Para projetos existentes com detecção automática de stack:

npx harness-engineering adopt

Ele detecta Next.js, React, Python, Go, Rust, Prisma, Stripe e
pré-configura o harness para a sua stack.

A estrutura em 3 camadas

directives/ ← Camada 1: SOPs — o QUE fazer
agente (você) ← Camada 2: roteamento e decisão
execution/ ← Camada 3: scripts determinísticos

O agente é probabilístico. Scripts são confiáveis.
O harness define quando usar cada um.

A Regra de Hashimoto

A parte mais poderosa do harness não é o que já está lá —
é o que você adiciona depois de cada erro.

Quando o agente erra, você classifica o tipo:

A — trigger faltando (a directive existia mas não foi carregada)
B — directive incompleta (SOP não cobriu o edge case)
C — context overflow (janela cheia)
D — hallucination (inventou sem verificar)
E — permission violation (agiu sem autorização)

Cada tipo tem um arquivo diferente para corrigir.
Com o tempo, o harness fica cada vez mais difícil de quebrar.

Começando

# Projeto novo
npx harness-engineering

# Projeto existente
npx harness-engineering adopt

# Diagnóstico do ambiente
npx harness-engineering doctor

# Verificar integridade
npx harness-engineering check