DEV Community

Cover image for Project Glasswing: Claude Mythos halla 10.000 vulnerabilidades en un mes
lu1tr0n
lu1tr0n

Posted on • Originally published at elsolitario.org

Project Glasswing: Claude Mythos halla 10.000 vulnerabilidades en un mes

Anthropic acaba de publicar el primer reporte mensual de Project Glasswing, su iniciativa para usar Claude Mythos Preview en la búsqueda de vulnerabilidades críticas en el software más sensible del mundo. En 30 días, los aproximadamente 50 socios del programa encontraron más de 10.000 fallos de severidad alta o crítica. La pregunta ya no es si la IA puede encontrar vulnerabilidades: es si los equipos humanos pueden parchearlas al ritmo al que las descubre.

Cloudflare reporta tasas de falsos positivos mejores que las de testers humanos. Mozilla arregló 271 vulnerabilidades en Firefox 150, diez veces más que en la versión anterior. El cuello de botella se movió: ya no es la detección, sino el ciclo de verificación, divulgación responsable y despliegue de parches.

TL;DR

  • Project Glasswing de Anthropic lleva ~50 socios y un mes con Claude Mythos Preview en producción.
  • Los socios reportan más de 10.000 vulnerabilidades altas o críticas halladas en 30 días.
  • Cloudflare encontró 2.000 bugs (400 altos/críticos) con tasa de falsos positivos menor a humanos.
  • Mozilla parcheó 271 vulnerabilidades en Firefox 150, diez veces más que en Firefox 148.
  • Anthropic escaneó 1.000+ proyectos open source: 6.202 vulnerabilidades altas/críticas detectadas.
  • El 90,6% de los hallazgos triados resultaron true positives en una muestra de 1.752 casos.
  • Microsoft, Oracle y Palo Alto Networks aumentaron sus parches mensuales hasta 5× lo habitual.
  • El cuello de botella se movió: ya no es detectar fallos, sino verificarlos, divulgarlos y parchearlos.

¿Qué es Project Glasswing?

Project Glasswing es una alianza entre Anthropic y aproximadamente 50 organizaciones que construyen o mantienen software fundamental para el funcionamiento de internet y la infraestructura crítica. La premisa es simple y, vista de cerca, bastante ambiciosa: usar a Claude Mythos Preview —el modelo de frontera de Anthropic todavía no liberado al público general— como auditor de seguridad masivo sobre el código que sostiene los sistemas más importantes del planeta.

Lanzado el mes anterior, el programa apunta a un escenario clásico de defensa anticipada. Si los modelos de IA están a punto de volverse capaces de generar exploits de forma autónoma, conviene que los defensores lleguen primero a las vulnerabilidades. La idea es elevar el piso de seguridad del software crítico antes de que los atacantes se beneficien del mismo salto de capacidades.

Los números detrás del primer mes

El reporte inicial cuantifica algo que la industria sospechaba pero todavía no había confirmado a escala. En treinta días, los socios de Project Glasswing encontraron colectivamente más de 10.000 vulnerabilidades de severidad alta o crítica. La mayoría de socios reporta haber encontrado individualmente cientos de fallos. Varios señalan que su ritmo de bug-finding se multiplicó por más de diez.

Cloudflare comparte uno de los datos más relevantes: 2.000 bugs encontrados en sus sistemas críticos, de los cuales 400 son de severidad alta o crítica. El detalle que importa no es el número, sino la métrica que le acompaña: la tasa de falsos positivos del modelo, según el equipo de seguridad de Cloudflare, es menor que la de testers humanos. Eso cambia la economía del triaje. Cuando un escáner es ruidoso, los analistas pierden tiempo descartando ruido. Cuando es preciso, el flujo se acelera.

El triaje pasó de horas por hallazgo a minutos por verificación.

El caso Mozilla y el factor 10×

Mozilla aporta el contraste más expresivo. Probando Mythos Preview sobre Firefox, su equipo encontró y arregló 271 vulnerabilidades en Firefox 150. Es más de diez veces lo que el mismo equipo había detectado en Firefox 148 usando Claude Opus 4.6, el modelo de generación anterior. La diferencia no es un porcentaje incremental: es un orden de magnitud.

Este salto es relevante por dos razones. Primero, indica que las mejoras entre generaciones de modelos no son lineales en tareas de seguridad: una nueva capacidad de razonamiento o de exploración de código puede desbloquear clases enteras de bugs que el modelo previo simplemente no veía. Segundo, sugiere que los benchmarks de seguridad están moviéndose más rápido que las capacidades defensivas tradicionales.

💭 Clave: El salto entre generaciones de modelos en tareas de seguridad ya no se mide en porcentajes, sino en factores. Mozilla encontró 10× más vulnerabilidades en Firefox 150 que en Firefox 148 con el modelo anterior.

Evaluaciones externas independientes

Anthropic no publica los datos en aislamiento. El reporte cita varias evaluaciones externas que coinciden en el diagnóstico. El UK AI Security Institute indica que Mythos Preview es el primer modelo capaz de resolver sus dos cyber ranges —simulaciones de ataques multietapa— de extremo a extremo. XBOW, una plataforma independiente de seguridad, califica al modelo como un "paso significativo por encima de todos los modelos existentes" en su benchmark de exploits web, con "precisión absolutamente sin precedentes" token por token.

A esto se suman ExploitBench y ExploitGym, dos benchmarks académicos recientes que miden capacidades de desarrollo de exploits. En ambos, Mythos Preview se sitúa como el modelo más fuerte evaluado hasta la fecha. La convergencia entre evaluaciones de gobierno, academia y empresas independientes es difícil de ignorar.

Open source: la otra mitad de la historia

Mientras los socios de Glasswing trabajan en sus propios sistemas, Anthropic mantiene un esfuerzo paralelo. En los últimos meses, Mythos Preview ha escaneado más de 1.000 proyectos open source, muchos de los cuales son dependencias críticas de la infraestructura propia de Anthropic y de buena parte de internet. El resultado: 23.019 vulnerabilidades reportadas en total, de las cuales 6.202 son clasificadas como altas o críticas por el propio modelo.

De esos 6.202, una muestra de 1.752 ya fue auditada por seis firmas independientes de investigación en seguridad (o, en pocos casos, por el propio Anthropic). Los resultados del triaje son ilustrativos: el 90,6% (1.587) son true positives reales, y el 62,4% (1.094) confirma su severidad alta o crítica. Si se mantiene la tasa, Mythos Preview habrá sumado cerca de 3.900 vulnerabilidades altas o críticas verificadas en código open source, además de las halladas para los socios. El escaneo continúa, así que el número subirá.

Un ejemplo concreto mencionado en el reporte: wolfSSL, una librería criptográfica open source ampliamente desplegada. El modelo detectó vulnerabilidades en su código base que ahora están en proceso de parcheo coordinado.

El cuello de botella se movió

Históricamente, la limitación en seguridad de software fue siempre cuánto tardábamos en encontrar el próximo bug. Project Glasswing invierte esa ecuación. El bottleneck nuevo es la cadena que viene después: verificar el hallazgo, coordinar la divulgación responsable, escribir el parche, testearlo, distribuirlo y desplegarlo en producción.

Los efectos ya se ven en los calendarios de patching. La última liberación de Palo Alto Networks incluyó más de 5× los parches habituales. Microsoft declaró públicamente que el número de parches nuevos seguirá creciendo durante un tiempo prolongado. Oracle reporta arreglar vulnerabilidades en sus productos y en su nube varias veces más rápido que antes.

Los ciclos mensuales de parches están absorbiendo el aumento de hallazgos.

Cómo encaja el flujo

El proceso general que se desprende del reporte se puede modelar así:

graph LR
 A["Mythos Preview"] --> B["Hallazgos crudos"]
 B --> C["Triaje por firma independiente"]
 C --> D["True positives confirmados"]
 D --> E["Divulgación coordinada (45-90 días)"]
 E --> F["Parche público"]
 F --> G["Despliegue por usuarios finales"]
Enter fullscreen mode Exit fullscreen mode

Cada flecha esconde latencia. El embudo entre B y D es ya el cuello de botella inmediato; entre E y G se concentra el riesgo de exposición prolongada para usuarios que tardan en actualizar.

Un caso fuera del software puro

El reporte incluye una nota curiosa que merece destacarse. En uno de los bancos socios del programa, Mythos Preview ayudó a detectar y prevenir una transferencia fraudulenta de 1,5 millones de dólares. El esquema involucraba a un actor que comprometió la cuenta de correo de un cliente y realizó llamadas spoofeadas. El modelo no solo busca vulnerabilidades en código: también se aplica a flujos de seguridad operativa que mezclan ingeniería social, fraude financiero y verificación de identidad.

⚠️ Ojo: El reporte demuestra que la utilidad defensiva de un modelo de seguridad de frontera trasciende el code review. Detección de fraude, respuesta a incidentes y verificación de identidad ya forman parte del alcance práctico.

Política de divulgación responsable

Anthropic no detalla todas las vulnerabilidades encontradas y la razón es estratégica. La convención de la industria —y la propia política de Coordinated Vulnerability Disclosure de Anthropic— exige 90 días entre descubrimiento y publicación, o aproximadamente 45 días después de que un parche esté disponible. La idea es darle tiempo a los usuarios finales para actualizar antes de que un atacante con conocimiento de la falla pueda explotarla.

Esto significa que las vulnerabilidades divulgadas hoy son un indicador atrasado del estado real del frontier. Cuando los parches estén ampliamente desplegados, Anthropic promete entregar más detalle técnico sobre lo aprendido. Mientras tanto, el reporte se limita a ejemplos ilustrativos y estadísticas agregadas.

Implicaciones para LATAM y desarrolladores

Para equipos de desarrollo en LATAM, hay tres consecuencias prácticas inmediatas que conviene tener en el radar:

  • Acelerar ciclos de actualización: si tu producto depende de Firefox, Cloudflare, librerías open source como wolfSSL o stacks de Oracle/Microsoft, el ritmo de parches va a aumentar. Pipelines de actualización automáticos dejan de ser una mejora opcional para volverse condición operativa.
  • Auditoría asistida por IA: aunque Mythos Preview no está públicamente disponible, los modelos de frontera generales (Claude Opus, Sonnet) ya son útiles para revisión de código defensivo en proyectos propios. Integrarlos al flujo de pull request reduce el costo marginal de revisión.
  • Cultura de divulgación responsable: si publicás librerías open source desde LATAM, conviene tener un canal claro de reporte de vulnerabilidades (un SECURITY.md en GitHub, un email dedicado) antes de que un investigador externo te contacte.

Ejemplo: un SECURITY.md mínimo

# Política de seguridad

## Versiones soportadas
Las versiones 2.x y 1.9.x reciben parches de seguridad.

## Reportar una vulnerabilidad
Enviá un correo a security@miproyecto.org con:
- Descripción del problema
- Pasos para reproducirlo
- Impacto estimado

Respondemos en menos de 72 horas. La divulgación pública
ocurre 90 días después del reporte o 45 días después del
parche, lo que ocurra primero.
Enter fullscreen mode Exit fullscreen mode

¿Y los riesgos del lado ofensivo?

Hay una pregunta incómoda que el reporte no esquiva pero tampoco resuelve del todo. Si Mythos Preview puede encontrar 10.000 vulnerabilidades en un mes para defensores, un modelo equivalente en manos hostiles podría hacer lo mismo con propósito ofensivo. Anthropic argumenta que adelantarse con el programa Glasswing es justamente la forma de reducir esa ventana de riesgo: cerrar fallos críticos antes de que estén disponibles para ser explotados.

La estrategia depende de un supuesto: que el ritmo de parcheo coordinado sea más rápido que el ritmo al que aparecen modelos accesibles con capacidades comparables. El reporte no garantiza esa ventaja, pero los datos sugieren que, al menos en el mes inicial, la asimetría favorece a la defensa.

Qué viene después

Anthropic anticipa varias direcciones. Primero, continuar el escaneo open source durante un tiempo prolongado, lo que probablemente eleve el número de vulnerabilidades verificadas más allá de las 3.900 proyectadas. Segundo, ampliar la base de socios de Project Glasswing hacia más sectores: el reporte menciona implícitamente que el conjunto inicial podría no ser representativo de toda la superficie crítica.

Tercero —y esto es lo que la comunidad técnica probablemente seguirá con más interés— la decisión sobre cómo liberar modelos de la clase Mythos al público general. Anthropic deja entrever que la política de release de modelos con estas capacidades dependerá del estado del ecosistema defensivo en el momento del lanzamiento.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Project Glasswing es un producto que puedo usar?

No. Es una colaboración cerrada entre Anthropic y aproximadamente 50 socios de infraestructura crítica. Claude Mythos Preview, el modelo que utilizan, tampoco está disponible públicamente. El programa busca elevar la seguridad del software más sensible antes de que esas capacidades se democraticen.

¿Cómo se mide la tasa de falsos positivos?

Cada socio aplica sus propios procesos de triaje y los compara con líneas base internas. Cloudflare, por ejemplo, contrasta los hallazgos del modelo con los resultados de testers humanos sobre el mismo código. Anthropic complementa con auditorías de seis firmas independientes de investigación en seguridad para las vulnerabilidades en open source.

¿Las vulnerabilidades encontradas son públicas?

No todavía. La política de divulgación coordinada exige 90 días entre descubrimiento y publicación, o 45 días después del parche. Esto protege a los usuarios finales mientras se distribuyen las actualizaciones. Cuando los parches estén ampliamente desplegados, Anthropic promete publicar más detalle técnico.

¿Por qué importa el caso de Mozilla con Firefox?

Porque cuantifica el salto entre modelos. Pasar de 27 vulnerabilidades arregladas (Firefox 148 con Opus 4.6) a 271 (Firefox 150 con Mythos Preview) muestra que los avances de capacidad en modelos de frontera no son incrementales en seguridad: son saltos de orden de magnitud que pueden cambiar la economía completa del bug hunting.

¿Esto significa que mi software es inseguro?

Significa que la barra para encontrar vulnerabilidades bajó. Si dependés de librerías open source o de stacks de proveedores grandes, conviene mantener tus dependencias al día, automatizar las actualizaciones de seguridad y monitorear los boletines de Mozilla, Cloudflare, Microsoft y Oracle más de cerca durante los próximos meses.

¿Puedo aplicar para ser socio de Glasswing?

El reporte no abre un canal formal de aplicación. Anthropic indica que evaluará expansiones del programa según el estado del ecosistema. Si mantenés infraestructura sistémicamente importante, el camino habitual es contactar al equipo de Frontier Red Team de Anthropic.

Referencias

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

Top comments (0)