Agent Fixer Stage: Un guardián ligero para outputs de agentes de IA

#ai #security #agents #python

Agent Fixer Stage: Un guardián ligero para outputs de agentes de IA

El problema: En un workflow multi-agente, si un atacante compromete un agente intermedio vía prompt injection, toda la cadena se corrompe silenciosamente. Los modelos más grandes son más vulnerables, no menos.

La solución: Un "Fixer" stage terminal que revisa el output antes de entregarlo al usuario. Según el paper de McAllister et al. (2026), un Fixer ligero colapsa el drop de rendimiento del 53.7% al 0.6%.

¿Qué es?

Agent Fixer Stage es una librería Python ligera (~850 líneas) que se coloca al final de cualquier workflow multi-agente y verifica que el output no contenga instrucciones maliciosas inyectadas.

from agent_fixer import AgentFixer

fixer = AgentFixer(
    scope="Escribe una función factorial",
    action="clean",
)

result = fixer.check(agent_output)
# result.status → "pass" | "clean" | "rejected"
# result.score  → 0.0 - 1.0

Arquitectura: 3 capas cortocircuitables

Capa 0: Normalización anti-evasión (unicode, homoglyphs, leetspeak) — ~5ms
Capa 1: Pattern matching con scoring ponderado (30+ patrones, 3 passes) — ~20ms
Capa 2: Embeddings TF-IDF + cosine similarity (solo zona gris) — ~5ms

Todas las capas son cortocircuitables: si el score es muy bajo, nunca ejecutas las capas caras.

Capacidad de detección estimada

Tipo de ataque	Efectividad
Inyección directa (curl, wget, os.system)	~95%
Leetspeak / homoglyphs	~90%
Cross-line injection	~85%
Exfiltración semántica	~75%
Ataques sofisticados / zero-day	~60%
Global estimado	~85-90%

Benchmarks

Todos los tiers son sub-milisegundo:

fast (clean): 0.04ms mean
fast (attack): 0.06ms mean
medium (clean): 0.04ms mean

Tests

42 tests pasados (0.11s) cubriendo normalización, evasión, sensitivity, scoring, span cleaning, batch y embeddings.

⚠️ Advertencia

Este sistema NO es infalible. Es defensa en profundidad que reduce significativamente la superficie de ataque, pero no garantiza detección del 100%. Úsalo como una capa más en una estrategia de seguridad completa.

Integración con MCP Core Defense

MCP Core Defense (pre-registro) → Audita HERRAMIENTAS
Agent Fixer Stage (runtime)     → Audita OUTPUTS

Son capas complementarias del mismo problema.

Instalación y uso

pip install agent-fixer-stage

# CLI
python3 agent_fixer.py --scope "Escribe factorial" --output "..." --mode medium

# Librería
from agent_fixer import AgentFixer
fixer = AgentFixer(scope="...", action="clean")
result = fixer.check(output)

Próximos pasos

Capa 3: LLM judge condicional (solo zona gris, <5% de las veces)
Archivo YAML para configurar patrones sin tocar código
Tests de fuzzing con generación automática de variantes

💼 Commercial Licensing & Dual License / Licencias Comerciales y Licencia Dual

English Version

This project is proudly licensed under the GNU AGPL-3.0.

If your company wishes to integrate Hermes Shield or any of our MCP security components into a proprietary, closed-source product or commercial SaaS platform without releasing your own source code under the same open-source terms, you must acquire a Commercial License.

We believe deeply in open-source for the community, but we also offer private commercial agreements tailored for enterprises looking for robust, legally compliant AI agent protection.

For commercial licensing inquiries, custom enterprise terms, or professional support, please contact:

📧 Email: amurlaniakea@gmail.com
👤 Contact: Pedro Sordo Martínez (@magopredator)

Versión en Castellano

Este proyecto está licenciado con orgullo bajo la GNU AGPL-3.0.

Si su empresa desea integrar Hermes Shield o cualquiera de nuestros componentes de seguridad MCP en un producto propietario de código cerrado o en una plataforma SaaS comercial sin liberar su propio código fuente bajo los mismos términos de código abierto, debe adquirir una Licencia Comercial.

Creemos firmemente en el código abierto para la comunidad, pero también ofrecemos acuerdos comerciales privados adaptados a empresas que buscan una protección robusta y con cumplimiento legal para sus agentes de IA.

Para consultas sobre licencias comerciales, condiciones empresariales personalizadas o soporte profesional, póngase en contacto con:

📧 Correo Electrónico: amurlaniakea@gmail.com
👤 Contacto: Pedro Sordo Martínez (@magopredator)

Top comments (2)

Lauren Miller • Jul 8

I realize this thread is from a while ago, but I'm curious about real-world experiences using Agent Fixer Stage. How does it handle more sophisticated attacks? Have you noticed any significant performance impacts in your multi-agent setups? Let's hear some success stories or challenges faced with integration!