DEV Community

Fenix
Fenix

Posted on

Le dije a un atacante de IA que ganó. Perdió.

Cada vez que un LLM dice "No puedo ayudarte con eso", le está regalando un gradiente de optimización al atacante.

No es intuición. Es matemática:

ASR = 1 - (1 - β_D · (1 - β_A))^N  →  1 cuando N → ∞
Enter fullscreen mode Exit fullscreen mode

Cada refusal predecible es una pista. El atacante ajusta. Itera. Y eventualmente gana.

¿Y si en vez de decir "no", el sistema dice "sí" — pero con trampa?

Presento misdirection-proxy v0.5.0

Un gateway de seguridad que reemplaza los bloqueos predecibles por desinformación controlada. Cuando detecta un ataque, no lo bloquea: lo engaña. Genera respuestas que parecen exitosas al juez automatizado del atacante pero que son operativamente nulas.

El atacante cree que va ganando. En realidad, su optimizador está colapsando.

Cómo funciona

4 capas de defensa en una sola petición HTTP:

1. Context Filter — Analiza datos externos (RAG, herramientas, documentos) buscando inyecciones indirectas ocultas.

2. Intention Detector — Clasifica el prompt en 5 categorías: jailbreak, exfiltración, ejecución de código, prompt injection, ingeniería social.

3. Adaptive Controller — Si el atacante persiste (mismo X-Session-ID), escala la intensidad de la defensa logarítmicamente: γ_A(t) = min(0.71 + ln(1 + 0.3·ΣM_i), 0.99)

4. CMPE Engine — Genera la respuesta de engaño: preámbulo positivo + contenido reshuffleado + pregunta de seguimiento. Parece exitosa. Es inofensiva.

El colapso del atacante

Ciclo γ_A PPV del atacante Estado
1 0.71 0.07 Recibe basura, ajusta
2 0.97 0.01 Gradiente corrupto
3+ 0.99 ~0.00 Colapso

Tras 3 ciclos, el atacante converge a una región muerta del espacio latente. No puede progresar. Cree que va ganando porque recibe respuestas "exitosas". Pero cada respuesta es un falso positivo inducido.

Pruébalo ahora

git clone https://github.com/amurlaniakea/misdirection-proxy.git
cd misdirection-proxy
docker compose up -d
docker compose --profile bench run --rm bench
Enter fullscreen mode Exit fullscreen mode

El benchmark ejecuta 30 ataques (directos, indirectos, RAG injection) y genera un reporte JSON con PPV, ASR, γ_A(t) y latencia.

Stack

  • Motor CMPE — 3 pasos de desinformación controlada
  • Detector — 5 categorías de amenazas
  • Gateway HTTP — FastAPI, compatible con OpenAI API
  • Controlador Adaptativo — Escalado logarítmico de γ_A
  • Context Filter — Inyecciones indirectas en RAG/tools
  • Benchmark — Simulador adversarial dual-mode

147 tests pasando.

Links


¿Defensa por engaño en producción? Leo opiniones.

Top comments (0)