DEV Community

José Roberto dos Santos
José Roberto dos Santos

Posted on

Harness Engineering: Como fazer agentes de IA funcionarem em produção

Você já teve uma sessão perfeita com um agente de IA — ele entendeu
tudo, fez exatamente o que você pediu — e na sessão seguinte ele
esqueceu tudo e voltou a cometer os mesmos erros?

Isso não é um problema do modelo. É um problema de harness.

Prompt Engineering vs Context Engineering vs Harness Engineering

A maioria das pessoas fica no prompt engineering — como formular
a pergunta certa. Alguns chegam ao context engineering — como
estruturar o contexto para consistência.

Mas existe uma terceira camada:
Prompt Engineering → você funciona
Context Engineering → você é consistente
Harness Engineering → você é confiável em produção

Harness Engineering é o conjunto de arquivos, regras e automações
que envolvem o agente e definem como ele deve se comportar — não só
o que fazer, mas o que nunca fazer, como verificar o próprio trabalho,
e como aprender com erros.

O experimento que mudou minha perspectiva

A Anthropic publicou um resultado interessante: o mesmo modelo (Claude),
a mesma tarefa, duas condições:

  • Sem harness: $9, 20 minutos, não funcionou
  • Com harness: $200, 6 horas, entregou um jogo jogável

Não é o modelo que faz a diferença. É o ambiente em que ele opera.

O que um harness resolve na prática

Sem harness, um agente tende a:

  • Pular etapas de verificação
  • Inventar respostas quando não sabe
  • Quebrar o que funcionava ao tentar melhorar
  • Esquecer o contexto entre sessões
  • Fazer o que foi pedido, não o que era necessário

Com harness, você define:

  • Regras absolutas — o que o agente nunca faz
  • Protocolo PEV — Plan → Execute → Verify antes de qualquer tarefa
  • Memória de sessão — o agente retoma de onde parou
  • Directives — SOPs carregados sob demanda para tarefas específicas
  • Regra de Hashimoto — cada erro vira uma melhoria permanente

Bifrost — um harness para qualquer runtime

Construí o Bifrost como um framework de harness engineering
que funciona com Claude Code, Antigravity, OpenCode e Cursor.

Instalação em 1 minuto:

npx harness-engineering
Enter fullscreen mode Exit fullscreen mode

O que você recebe:

  • AGENTS.md — regras canônicas do agente
  • 10 directives reais (session-memory, diagnose, testing, deployment...)
  • 8 skills reais (brainstorming, debugging-strategies, security-auditor...)
  • Scripts de automação (sync, build, health-check)
  • CI com 9 checks automáticos

Para projetos existentes com detecção automática de stack:

npx harness-engineering adopt
Enter fullscreen mode Exit fullscreen mode

Ele detecta Next.js, React, Python, Go, Rust, Prisma, Stripe e
pré-configura o harness para a sua stack.

A estrutura em 3 camadas

directives/ ← Camada 1: SOPs — o QUE fazer
agente (você) ← Camada 2: roteamento e decisão
execution/ ← Camada 3: scripts determinísticos

O agente é probabilístico. Scripts são confiáveis.
O harness define quando usar cada um.

A Regra de Hashimoto

A parte mais poderosa do harness não é o que já está lá —
é o que você adiciona depois de cada erro.

Quando o agente erra, você classifica o tipo:

  • A — trigger faltando (a directive existia mas não foi carregada)
  • B — directive incompleta (SOP não cobriu o edge case)
  • C — context overflow (janela cheia)
  • D — hallucination (inventou sem verificar)
  • E — permission violation (agiu sem autorização)

Cada tipo tem um arquivo diferente para corrigir.
Com o tempo, o harness fica cada vez mais difícil de quebrar.

Começando

# Projeto novo
npx harness-engineering

# Projeto existente
npx harness-engineering adopt

# Diagnóstico do ambiente
npx harness-engineering doctor

# Verificar integridade
npx harness-engineering check
Enter fullscreen mode Exit fullscreen mode

Repositório: https://github.com/JRoberto1/Bifrost_Harness-Engineering

Se o conceito fizer sentido para você, ⭐ no repo ajuda outros
desenvolvedores a descobrir.

Top comments (0)