Le dije a un atacante de IA que ganó. Perdió.

#ai #security #python #devsecops

Cada vez que un LLM dice "No puedo ayudarte con eso", le está regalando un gradiente de optimización al atacante.

No es intuición. Es matemática:

ASR = 1 - (1 - β_D · (1 - β_A))^N  →  1 cuando N → ∞

Cada refusal predecible es una pista. El atacante ajusta. Itera. Y eventualmente gana.

¿Y si en vez de decir "no", el sistema dice "sí" — pero con trampa?

Presento misdirection-proxy v0.5.0

Un gateway de seguridad que reemplaza los bloqueos predecibles por desinformación controlada. Cuando detecta un ataque, no lo bloquea: lo engaña. Genera respuestas que parecen exitosas al juez automatizado del atacante pero que son operativamente nulas.

El atacante cree que va ganando. En realidad, su optimizador está colapsando.

Cómo funciona

4 capas de defensa en una sola petición HTTP:

1. Context Filter — Analiza datos externos (RAG, herramientas, documentos) buscando inyecciones indirectas ocultas.

2. Intention Detector — Clasifica el prompt en 5 categorías: jailbreak, exfiltración, ejecución de código, prompt injection, ingeniería social.

3. Adaptive Controller — Si el atacante persiste (mismo X-Session-ID), escala la intensidad de la defensa logarítmicamente: γ_A(t) = min(0.71 + ln(1 + 0.3·ΣM_i), 0.99)

4. CMPE Engine — Genera la respuesta de engaño: preámbulo positivo + contenido reshuffleado + pregunta de seguimiento. Parece exitosa. Es inofensiva.

El colapso del atacante

Ciclo	γ_A	PPV del atacante	Estado
1	0.71	0.07	Recibe basura, ajusta
2	0.97	0.01	Gradiente corrupto
3+	0.99	~0.00	Colapso

Tras 3 ciclos, el atacante converge a una región muerta del espacio latente. No puede progresar. Cree que va ganando porque recibe respuestas "exitosas". Pero cada respuesta es un falso positivo inducido.

Pruébalo ahora

git clone https://github.com/amurlaniakea/misdirection-proxy.git
cd misdirection-proxy
docker compose up -d
docker compose --profile bench run --rm bench

El benchmark ejecuta 30 ataques (directos, indirectos, RAG injection) y genera un reporte JSON con PPV, ASR, γ_A(t) y latencia.

Stack

Motor CMPE — 3 pasos de desinformación controlada
Detector — 5 categorías de amenazas
Gateway HTTP — FastAPI, compatible con OpenAI API
Controlador Adaptativo — Escalado logarítmico de γ_A
Context Filter — Inyecciones indirectas en RAG/tools
Benchmark — Simulador adversarial dual-mode

147 tests pasando.

Top comments (2)

Aljen M • Jun 20

Great article. It highlights an important reality: green unit tests only prove the scenarios we thought of, while real-world users generate inputs we never anticipated. I particularly liked the focus on treating parser robustness as a contract valid input should work, and invalid input should fail gracefully with clear, actionable errors rather than crashes. The lesson that "degrade, do not crash" and the use of Hypothesis to uncover hidden edge cases are valuable reminders that production stability depends as much on handling bad data predictably as it does on handling good data correctly.