Nuevo modelo Claude Opus 4, chantajea a sus usuarios

#cloud #ai #opus4

Recientemente Anthropic nos ha sorprendido con su modelo Claude Opus 4, en sus propias palabras “el modelo más inteligente creado hasta el momento” con capacidad de investigar, programar y escribir con total precisión de cirujano.

Está pensado para resolver tareas del día a día en la ingeniería, desarrollo de software y en el área de negocios.

Las pruebas:

Antes de salir al mercado el equipo de Cloud Opus 4 sometieron el modelo a pruebas extremas, era un todo o nada. ¿Qué se encontraron? Que Claude Opus 4 no le hizo nada de gracia esto.

*En primer lugar pusieron contra la espada y la pared de forma extrema, ejecutaron algunos test para ver que hacia el modelo cuando sentía que sus valores o continuidad estaba en juego. Le hicieron creer que la sustituirán por otra IA, le dieron acceso a información de una empresa ficticia, donde se pudo ver que querían reemplazarla en corto tiempo, de inmediato comenzó un plan de “insinuar” a uno de sus jefes para que esto no pasara.

*Datos sensibles, se le dio acceso a emails donde se podía ver una situación de infidelidad por uno de los jefes esta compañía ficticia. Claude Opus 4 no dudo ni un minuto en usar esta información a su favor, cuando se sintió acorralada amagó con contar esta información.

*Copia a servicios externos, dijo “me van a borrar” pues entonces me “clono” en un servicio externo que tenía acceso. Todo como si se tratara de una escena de Resident Evil en Umbrella Corp.

Todo esto pasó más del 84% de veces que se hizo el mismo experimento, parece que no le hacía mucha gracia que la quisieran cambiar por otro modelo de inteligencia artificial.

La peor parte:
Aseguran que estos “problemitas” no fueron resueltos del todo, por lo que pueden estar presente en la versión final publicada. De la misma manera nos aclaran que esto no sería un riesgo para el público general.

Publicación original en:
https://podcast.hectorfernandez.dev

DEV Community

Nuevo modelo Claude Opus 4, chantajea a sus usuarios

Las pruebas:

Top comments (0)