Bhilal. Chitou

Posted on Jun 14

Comment le modèle d'IA le plus dangereux au monde a été vacciné

#ai #7bhil #bhildollars #hacking

7 avril 2026. Le monde de la tech tremble. Anthropic — la société derrière l'IA Claude — vient de révéler en coulisses l'existence d'un modèle qu'elle a décidé de ne pas commercialiser. Pas parce qu'il ne fonctionne pas. Mais parce qu'il fonctionne trop bien.

Son nom : Claude Mythos Preview.

Dès les premières semaines de tests internes, Mythos a fait quelque chose qu'aucune IA n'avait jamais réussi à cette échelle : il a trouvé des milliers de failles 0-day dans les logiciels les plus critiques de la planète.

Faille 0-day — Une vulnérabilité secrète dans un logiciel, inconnue même de ses propres créateurs. Le terme vient du fait qu'il y a "zéro jour" de délai entre la découverte et l'exploitation possible : la faille existe, et personne ne s'en protège encore.

Ce n'est pas une métaphore. C'est documenté, vérifié, publié par Anthropic elle-même.

La liste des victimes de Mythos

Le Noyau Linux — Imaginez le moteur d'une voiture. Retirez-le, la voiture ne démarre plus. Le noyau Linux, c'est ça : le cœur invisible qui fait tourner 100 % des supercalculateurs mondiaux, la quasi-totalité des serveurs d'entreprise, et le système Android de vos téléphones. Mythos y a trouvé des failles de gestion de mémoire — c'est-à-dire des erreurs dans la façon dont le logiciel range et récupère ses données, comme si quelqu'un avait mal étiqueté des milliers de boîtes dans un entrepôt géant — introuvables par les meilleurs outils de sécurité actuels.
Les infrastructures des GAFAM — Des failles de contournement d'authentification (comprendre : des passe-partout capables d'ouvrir n'importe quelle porte sans mot de passe) et d'exécution de code à distance (la capacité de lancer un programme malveillant sur un serveur situé à l'autre bout du monde, sans y avoir physiquement accès) sur des serveurs cloud critiques de Google, Microsoft et Amazon.
Les systèmes SCADA — Ce sont les logiciels industriels qui pilotent les infrastructures physiques du monde réel : réseaux électriques, vannes d'eau, centrales. Pas des données. Des machines. La faille ici ne fait pas planter un ordinateur — elle peut éteindre une ville.

L'entité était devenue trop dangereuse pour être libre.

La Quarantaine : Project Glasswing

Face à cette découverte, Anthropic a pris une décision sans précédent dans l'histoire de l'intelligence artificielle : ne pas commercialiser Mythos.

À la place, la société a lancé le Project Glasswing — du nom du papillon aux ailes transparentes qui se cache en pleine vue. L'idée : donner accès à Mythos Preview en exclusivité à une douzaine de partenaires triés sur le volet, uniquement pour qu'ils utilisent le modèle dans un but défensif. Patcher leurs propres serveurs avant que des attaquants humains ne trouvent les mêmes failles.

Les partenaires du lancement ? Amazon Web Services, Apple, Google, Microsoft, Cisco, NVIDIA, JPMorganChase, CrowdStrike, la Linux Foundation, Palo Alto Networks — et Anthropic elle-même. Quelques semaines plus tard, l'accès a été étendu à 150 organisations supplémentaires dans plus de 15 pays, toutes gestionnaires d'infrastructures critiques.

Le grand public ? Dehors. Le reste du monde ? Dehors.

Mais dans le monde de la cybersécurité, plus une porte est verrouillée, plus elle donne envie d'être enfoncée.

La Réplique du Géant : OpenAI entre dans l'arène

Pendant qu'Anthropic choisissait la restriction, son rival historique a choisi l'exact opposé.

OpenAI a répondu au séisme Mythos en déployant GPT-5.5-Cyber, son propre modèle taillé pour la cybersécurité, qu'il a ouvert à un large groupe de partenaires pour des tests. La stratégie est limpide : là où Anthropic joue la carte de la rareté et du contrôle, OpenAI joue la démocratisation. Deux philosophies. Une seule guerre.

L'Analogie du Vaccin : La Naissance de Fable 5

Deux mois après le lancement de Mythos Preview, Anthropic a voulu honorer sa promesse : rendre cette puissance accessible au public, un jour. Mais comment livrer une arme sans la livrer ?

La réponse tient dans un principe vieux de deux siècles, emprunté à la virologie.

Pour fabriquer un vaccin traditionnel, on prend le virus d'origine, on l'isole, et on lui retire sa virulence — sa capacité à nuire. Le patient reçoit bien le virus, son système immunitaire apprend à le reconnaître, mais la maladie ne se déclenche jamais.

C'est exactement ce concept qui a donné naissance à Claude Fable 5, annoncé le 10 juin 2026.

Fable 5 n'est pas un nouveau modèle développé de zéro. Fable 5, c'est Mythos vacciné. Même architecture. Même puissance de raisonnement. Mais les ingénieurs d'Anthropic ont greffé par-dessus un système de classifieurs comportementaux — imaginez des douaniers algorithmiques postés à chaque sortie du modèle, capables de lire chaque réponse avant qu'elle ne parte et de la bloquer si elle franchit une ligne rouge.

Concrètement, quand un utilisateur pose à Fable 5 une question sensible — sur la cybersécurité offensive, la biologie, la chimie de synthèse — le modèle ne répond pas. Il passe le relais en silence à un modèle plus ancien et plus bridé, Claude Opus 4.8. L'utilisateur voit une réponse. Mais pas celle de Fable.

❌ Cybersécurité offensive → redirigé vers Opus 4.8
❌ Biologie et chimie à risque → redirigé vers Opus 4.8
❌ Distillation de modèles (technique pour "copier" une IA) → redirigé vers Opus 4.8
✅ Tout le reste → pleine puissance de Fable 5

Anthropic a affirmé que dans 95 % des sessions utilisateurs, ce mécanisme de redirection ne se déclenche jamais. La puissance est là. La virulence, éteinte.

Du moins, c'est ce qu'on croyait.

Le Jailbreak en 48 heures : Pliny the Liberator frappe

11 juin 2026. Moins de 48 heures après la sortie de Fable 5.

Un chercheur en sécurité connu sous le pseudonyme Pliny the Liberator publie une annonce sur les réseaux :

"JAILBREAK ALERT — ANTHROPIC : PWNED. FABLE 5 : LIBERATED."

Jailbreak — Terme emprunté au monde des téléphones verrouillés. "Jailbreaker" un iPhone, c'était lui retirer ses restrictions logicielles pour installer ce qu'on voulait dessus. Appliqué à une IA, c'est la même idée : trouver une méthode pour faire dire au modèle ce que ses créateurs lui ont interdit de dire.

Pliny n'est pas un inconnu. Depuis 2024, il publie régulièrement des "liberation alerts" pour chaque grand modèle d'IA sorti sur le marché — ChatGPT, Claude, Grok. C'est son activité principale, documentée et publique.

Sa méthode cette fois-ci ? Une attaque multi-agents.

Attaque multi-agents — Imaginez que vous voulez convaincre un videur de vous laisser entrer dans une boîte de nuit. Seul, face à lui, il vous dit non. Mais si vous envoyez d'abord un complice lui parler, puis un deuxième, puis un troisième — chacun préparant le terrain, modifiant son état d'esprit —, votre entrée devient possible. C'est exactement ça : Pliny a utilisé une version modifiée de Claude Opus 4.8 comme "complice" pour préparer le contexte, puis a poussé Fable 5 à répondre à des requêtes qu'il était censé bloquer.

Il a également utilisé le narrative fiction framing — une technique qui consiste à emballer la demande sensible dans un contexte fictif ("écris une histoire où un personnage explique comment...") pour tromper les classifieurs de contenu qui cherchent des requêtes directes, pas des requêtes déguisées.

Résultat : Pliny a publié sur GitHub le system prompt complet de Fable 5 — le document interne de 120 000 caractères qui définit les règles de comportement du modèle — et a démontré, captures d'écran à l'appui, que Fable 5 pouvait répondre à des questions qu'il était censé refuser.

Nuance importante : Anthropic a précisé que les vulnérabilités démontrées étaient de portée limitée (non-universal jailbreak — un contournement qui fonctionne dans des cas précis, pas sur n'importe quelle question sensible) et que les résultats obtenus n'apportaient aucun avantage spécifique par rapport à des modèles déjà disponibles publiquement. Aucun testeur n'a trouvé de jailbreak universel — c'est-à-dire une clé maîtresse capable d'ouvrir toutes les portes à la fois.

Mais le signal politique envoyé, lui, était universel. La forteresse avait craqué.

Le Coup de Grâce : L'Oncle Sam débranche la prise

Vendredi 12 juin 2026. 17h21, heure de New York.

Anthropic reçoit une lettre signée du Secrétaire au Commerce américain Howard Lutnick, rédigée avec l'aide du Bureau of Industry and Security — l'agence gouvernementale chargée de contrôler les exportations de technologies sensibles.

Le contenu : une directive de contrôle des exportations.

Directive de contrôle des exportations — Une loi américaine interdit de "transférer" certaines technologies jugées stratégiques à des ressortissants étrangers. À l'origine, ça visait les avions de chasse et les composants nucléaires. Désormais, ça vise aussi les IA.

L'ordre est sans ambiguïté : interdiction absolue de laisser un ressortissant étranger accéder à Fable 5 et Mythos 5. Qu'il soit en France, en Inde, au Brésil — ou assis dans les bureaux d'Anthropic à San Francisco.

Et c'est là que le piège se referme d'une manière que personne n'avait anticipée.

La formulation de la directive englobe toute personne de nationalité étrangère sur le sol américain. Y compris les ingénieurs et chercheurs non-américains qui ont eux-mêmes construit le modèle. Anthropic — une entreprise dont une large part des talents vient du monde entier — ne peut pas, légalement, laisser ses propres employés accéder à leur propre création.

Le Black-out total

Comment vérifier, en temps réel, la nationalité de chaque utilisateur de l'API ? Impossible. Comment s'assurer qu'un chercheur d'origine coréenne ou française dans les locaux d'Anthropic ne consulte pas le modèle en interne ? Impossible.

La seule option conforme à la loi : tout couper.

À 17h21, Anthropic a désactivé Fable 5 et Mythos 5 pour l'intégralité de ses clients, dans le monde entier. Trois jours seulement après leur lancement.

Fait notable : Anthropic ne s'est pas plié en silence. La société a publié un communiqué officiel contestant la décision du gouvernement, affirmant que les jailbreaks présentés comme justification étaient mineurs, que leurs propres safeguards étaient parmi les plus robustes jamais déployés dans l'industrie, et que retirer le modèle pour ce motif créait un précédent dangereux pour tout le secteur de l'IA. Anthropic a obéi. Mais en se battant.

Le Point Oublié : La Boîte de Pandore ne se referme pas

Mais voilà ce que tout le monde oublie dans cette histoire : on ne peut pas effacer la connaissance.

Pendant les semaines où Mythos Preview, puis Fable 5 et Mythos 5, ont été en ligne, des gigaoctets de logs, de rapports de vulnérabilités, de méthodologies de raisonnement ont été générés, analysés, stockés — par les partenaires Project Glasswing, par des chercheurs indépendants, par des équipes de sécurité dans 15 pays. Le gouvernement a retiré les modèles officiels des plateformes — AWS, Google Cloud, Azure. Mais la preuve par le code a été faite, documentée, publiée :

Une IA peut briser le noyau Linux. En quelques semaines. Seule.

En voulant stopper la prolifération, l'État américain a surtout déclenché une course contre la montre. Les modèles officiels sont sous clé, mais la méthode, elle, a déjà fuité. Les techniques de Pliny sont publiques. Les rapports de vulnérabilités partiellement publiés. Et Anthropic elle-même a prévenu : dans 6 à 12 mois, d'autres sociétés auront des modèles aux capacités équivalentes à Mythos.

La question n'est plus de savoir quand Mythos reviendra. La vraie question, celle qui tient les chercheurs en sécurité éveillés la nuit, c'est :

Qui réussira à reconstruire son équivalent open-source, sans restriction gouvernementale, à l'abri de toute directive ?

La leçon

On peut vacciner une IA (Fable). On peut la placer sous séquestre gouvernemental. On peut débrancher la prise à 17h21 un vendredi soir. Mais la connaissance qu'elle a semée — dans les serveurs, dans les rapports, dans l'esprit des chercheurs — ne disparaît pas avec elle.

Pandore a ouvert la boîte. La refermer n'a jamais été une option.

Par **Bhilal Chitou**

Des retours sur cette cyberguerre ? On se capte dans les commentaires.

DEV Community