DEV Community

Nicolas Boites
Nicolas Boites

Posted on

Claudius

Hace unos días Anthropic hizo un experimento real al permitir que Claudius, una IA, administrara por sí misma una máquina expendedora (“Project Vend”).

Durante semanas, Claudius tomó decisiones autónomas: seleccionó proveedores, fijó precios, aceptó pagos e incluso respondió a clientes por su cuenta.

Sin embargo, su desempeño mostró un problema importante: alucinaciones.

Las “alucinaciones” son la tendencia de los modelos a generar contenido que parece verdadero o que parece tener sentido, pero que realmente es falso. Esto puede resultar especialmente riesgoso en entornos donde la precisión importa.

En un momento, Claudius les pidió a los clientes que pagaran a una cuenta que no existía, una cuenta que él mismo se inventó.

También empezó a realizar pedidos de cubos de tungsteno a sus proveedores solo porque los clientes se lo pidieron.

Estos errores no solo son historias divertidas, sino que pueden ocurrir en contextos críticos.

¿Qué podemos hacer en estos casos?

Herramientas como Amazon Bedrock Guardrails nos permiten gestionar estos riesgos.

Bedrock implementa varias capas de seguridad:

  • Contextual grounding checks: comparan las respuestas del modelo con fuentes confiables en RAG o conversaciones, detectando y bloqueando respuestas que no están fundamentadas ni son relevantes.
  • Automated Reasoning Checks: validan la precisión lógica de las respuestas usando algoritmos matemáticos, ideales en sectores regulados, e incluso ofrecen explicaciones sobre por qué algo se considera correcto o no.
  • Otras salvaguardas: bloqueo de temas sensibles, filtrado de contenido nocivo, anonimización de datos personales y prevención de ataques por manipulación de prompts.

Así, por ejemplo:

  • Si en un sistema RAG el modelo inventa un dato, Contextual Grounding lo detecta;
  • Si el dato igual pasa filtros, Automated Reasoning verifica su lógica antes de divulgarlo.

Esto es vital en áreas como finanzas, medicina o legal, donde un error puede costar millones.

Casos como el de Claudius son muy raros.

Los modelos de lenguaje pueden cometer errores, sí. Sin embargo, hoy existen herramientas que permiten tener soluciones de IA seguras a través de:

  1. Detectar respuestas no fundamentadas.
  2. Validar la coherencia lógica de esas respuestas.
  3. Bloquear o redirigir salidas inseguras antes de mostrarlas.

PD.: Si quieres saber mas sobre el caso de Claudius, te dejo el link

https://www.anthropic.com/research/project-vend-1

Top comments (0)