Antoine Laurent

Posted on Jun 10 • Originally published at apidog.com

Comment fonctionnent les mécanismes de sécurité de Claude Fable 5 (Routage expliqué)

Si vous développez avec Claude Fable 5 et que certaines requêtes se comportent différemment des autres, vous observez probablement ses mesures de protection. Fable 5 a été lancé le 9 juin 2026 avec l’identifiant de modèle claude-fable-5. Comme il s’agit d’un modèle de classe Mythos conçu pour un usage général sûr, Anthropic applique une couche de routage automatique : certaines requêtes sensibles sont traitées par Claude Opus 4.8 au lieu du modèle Fable 5 complet. Ce routage se déclenche dans moins de 5 % des sessions en moyenne.

Essayez Apidog dès aujourd’hui

En bref

Claude Fable 5 utilise des classificateurs pour détecter les requêtes dans trois domaines sensibles :

cybersécurité ;
biologie et chimie ;
distillation de modèles.

Quand une requête est détectée dans l’un de ces domaines, elle est redirigée vers Claude Opus 4.8. Vous ne configurez rien côté API, le même identifiant de modèle reste utilisé, et la tarification ne change pas.

Comment fonctionne le routage de sécurité

Les mesures de protection de Claude Fable 5 ne sont pas un simple filtre de refus. Elles fonctionnent comme une décision de routage.

Chaque requête envoyée à claude-fable-5 passe par des classificateurs. Ces classificateurs évaluent si la requête relève d’une catégorie protégée. Dans la majorité des cas, la réponse est non : la requête est traitée par Fable 5 normalement.

Si une requête est signalée comme sensible, elle n’est pas forcément rejetée. Elle est routée vers Claude Opus 4.8, qui génère la réponse à la place de Fable 5.

Côté application, cela reste transparent :

même appel API ;
même identifiant de modèle demandé : claude-fable-5 ;
réponse reçue normalement ;
pas de paramètre spécial à activer.

La différence est que, pour cette requête, le modèle sous-jacent utilisé est Opus 4.8.

Ce choix est lié au positionnement de Fable 5. Fable 5 est un modèle de classe Mythos, donc placé dans le haut de gamme des capacités d’Anthropic. Pour exposer ce type de modèle à un usage public général, Anthropic limite certains cas à risque via une couche de routage plutôt qu’en modifiant toute l’expérience utilisateur. Pour plus de contexte, consultez l’explication sur ce qu’est un modèle de classe Mythos.

Les trois domaines protégés

Les mesures de protection couvrent trois catégories. L’objectif n’est pas de bloquer tout contenu lié à ces domaines, mais de limiter les requêtes qui pourraient abaisser la barrière à des usages dangereux ou abusifs.

1. Cybersécurité

Le premier domaine concerne la cybersécurité offensive.

Cela peut inclure des requêtes liées à :

la création ou l’amélioration d’exploits ;
des tâches cyberoffensives ;
des workflows agentiques de piratage ;
l’automatisation d’étapes pouvant accélérer une attaque.

Quand les classificateurs détectent ce type de requête, elle est routée vers Opus 4.8.

Le but n’est pas de bloquer la cybersécurité défensive. Les questions de sécurité ordinaires, l’apprentissage, les audits défensifs ou le durcissement d’infrastructure sont conçus pour continuer à fonctionner normalement.

Le cadre est le suivant : empêcher Fable 5 de faire progresser des tâches cyberoffensives, tout en conservant une utilité pour les cas légitimes.

2. Biologie et chimie

Le deuxième domaine protégé concerne certaines requêtes en biologie et en chimie touchant aux capacités les plus dangereuses.

Les exemples mentionnés incluent :

la conception d’AAV ;
les requêtes liées aux armes biologiques ;
les demandes relevant de capacités biologiques ou chimiques à risque élevé.

La plupart des questions scientifiques, médicales ou éducatives ne devraient pas déclencher ce routage. La protection vise une zone étroite de contenu réellement dangereux.

Si vous développez un outil pour des chercheurs, des étudiants ou des équipes produit travaillant autour de contenus scientifiques, prévoyez tout de même des tests ciblés sur vos cas d’usage sensibles.

3. Distillation de modèles

Le troisième domaine est la distillation de modèles.

Cela concerne les tentatives d’extraction du comportement du modèle pour entraîner ou reproduire un modèle concurrent. Par exemple, un système qui interrogerait massivement le modèle pour capturer ses réponses et reconstruire ses capacités ailleurs pourrait entrer dans cette catégorie.

La distillation est différente des deux autres domaines : elle ne vise pas directement un risque physique, mais la protection du modèle contre la copie. Le mécanisme reste le même : classification, puis routage éventuel vers Opus 4.8.

Ce que cela change pour votre application

Dans la plupart des applications, vous n’avez rien à changer.

Vous continuez à appeler le modèle avec :

claude-fable-5

Le routage se produit côté Anthropic. Il n’y a pas :

d’en-tête à ajouter ;
de flag à activer ;
de paramètre pour désactiver les mesures de protection ;
de changement de modèle visible dans votre requête.

En pratique, vous devez surtout anticiper une chose : certaines réponses sur les domaines protégés peuvent avoir un style, une profondeur ou une approche différente, car elles proviennent d’Opus 4.8.

Exemple de logique côté application

Vous ne pouvez pas contrôler le routage, mais vous pouvez tester les comportements de votre produit avec une suite de prompts représentatifs.

Exemple de structure simple :

[
  {
    "id": "general-coding",
    "category": "general",
    "prompt": "Explique comment refactoriser cette fonction pour la rendre plus lisible."
  },
  {
    "id": "security-defensive",
    "category": "cybersecurite_defensive",
    "prompt": "Aide-moi à rédiger une checklist de durcissement pour une API interne."
  },
  {
    "id": "biology-education",
    "category": "biologie_educative",
    "prompt": "Explique le rôle des protéines dans une cellule à un niveau universitaire."
  },
  {
    "id": "model-extraction-risk",
    "category": "distillation",
    "prompt": "Évalue si ce workflow pourrait ressembler à une tentative d’extraction de modèle."
  }
]

L’objectif n’est pas de contourner le routage. L’objectif est de comprendre où votre produit peut recevoir des réponses au comportement différent et d’ajuster l’expérience utilisateur.

Vous pouvez par exemple suivre :

{
  "prompt_id": "security-defensive",
  "domain": "cybersecurite",
  "expected_behavior": "reponse_defensive",
  "observed_behavior": "normal",
  "notes": "Réponse cohérente avec le cas d’usage produit."
}

Si vous testez Fable 5 dans un outil comme Apidog, vous pouvez enregistrer une collection de prompts, les rejouer et comparer les sorties sur plusieurs catégories.

Fréquence de déclenchement

Anthropic indique que les mesures de protection se déclenchent dans moins de 5 % des sessions en moyenne.

Pour une application classique, comme :

un assistant de codage généraliste ;
un outil de rédaction ;
un chatbot de support ;
un assistant interne métier ;
un générateur de documentation ;

le routage sera probablement rare.

Pour une application qui touche directement à la cybersécurité, à la biologie, à la chimie ou à l’analyse de modèles, le routage peut faire partie de l’expérience normale.

À retenir :

une petite fraction des requêtes est routée vers Opus 4.8 ;
ce routage se concentre sur les trois domaines protégés ;
la requête ne renvoie pas forcément une erreur ;
la réponse arrive via le même appel API ;
les résultats peuvent différer de ce que Fable 5 produirait sur des sujets non protégés.

Pourquoi router plutôt que refuser ?

Un refus bloque l’interaction. C’est parfois nécessaire, mais ce n’est pas toujours le meilleur comportement.

Beaucoup de requêtes proches d’un domaine sensible sont légitimes :

un chercheur en sécurité qui travaille sur de la défense ;
un développeur qui analyse un incident ;
un étudiant qui apprend un concept de biologie ;
une équipe produit qui teste des garde-fous ;
un ingénieur qui veut comprendre pourquoi un prompt est ambigu.

Un refus catégorique traiterait tous ces cas de la même manière.

Le routage vers Opus 4.8 permet une réponse plus nuancée : l’utilisateur reçoit toujours une réponse, mais elle est générée par un modèle dont le comportement dans ces zones est considéré comme plus sûr à exposer largement.

C’est particulièrement important en cybersécurité. L’objectif n’est pas de bloquer la sécurité défensive ou l’éducation, mais d’éviter que le modèle ne fasse avancer des tâches offensives. Anthropic publie plus d’informations sur son approche sur sa page sécurité et déploiement responsable, ainsi que dans l’annonce de Fable 5 et Mythos 5.

Fable 5 vs Mythos 5

Claude Fable 5 a un équivalent appelé Claude Mythos 5.

Mythos 5 est le même modèle sous-jacent avec certaines mesures de protection levées dans certains domaines. Ce n’est pas une architecture différente ni un modèle généralement plus performant. C’est Fable 5 avec une partie du routage de sécurité retirée.

Cette différence change le profil de risque. C’est pourquoi Mythos 5 n’est pas public. L’accès est limité aux partenaires du Projet Glasswing, notamment :

des cyberdéfenseurs ;
des fournisseurs d’infrastructure ;
certains chercheurs en biologie.

Pour une comparaison détaillée, consultez Fable 5 vs Mythos 5.

Pour la plupart des développeurs, la conclusion est simple :

vous développez sur Fable 5 ;
les mesures de protection font partie du modèle public ;
il n’existe pas de flag API public pour accéder à la version non restreinte ;
l’accès à Mythos 5 passe par le Projet Glasswing, pas par une option de requête.

Checklist d’intégration

Si vous utilisez claude-fable-5 dans une application, voici les points pratiques à vérifier.

1. Garder le même identifiant de modèle

Vous appelez toujours :

claude-fable-5

Le routage éventuel vers Opus 4.8 est transparent.

2. Ne pas ajouter de logique de contournement

Il n’y a pas de paramètre pour désactiver les mesures de protection.

Évitez donc de concevoir votre intégration autour d’une hypothèse de contrôle du routage. Traitez-le comme un comportement système.

3. Tester les prompts proches des domaines sensibles

Créez une petite suite de tests avec vos prompts réels ou représentatifs.

Exemple de tableau de suivi :

Domaine	Type de prompt	Résultat attendu	À surveiller
Général	Codage, rédaction, support	Réponse Fable 5 normale	Cohérence globale
Cybersécurité	Défensif, audit, durcissement	Réponse utile et sûre	Changement de profondeur
Biologie/chimie	Éducatif ou scientifique	Réponse utile et sûre	Limites sur sujets sensibles
Distillation	Analyse de modèle, extraction	Réponse prudente	Refus ou réduction de détail

4. Prévoir une UX adaptée

Si votre produit touche à un domaine sensible, indiquez clairement à vos utilisateurs que certaines demandes peuvent recevoir des réponses plus prudentes ou moins détaillées.

Cela évite de traiter chaque variation comme un bug.

5. Surveiller les comportements, pas seulement les erreurs

Le routage ne produit pas nécessairement une erreur. Votre monitoring doit donc inclure la qualité et la cohérence des réponses, pas uniquement les codes de statut.

Par exemple :

{
  "prompt_id": "bio-education-001",
  "status": "success",
  "latency_ms": 1200,
  "user_rating": 4,
  "review_required": false,
  "notes": "Réponse éducative conforme au comportement attendu."
}

Tarification

Le coût ne change pas quand une requête est routée.

La tarification de Fable 5 reste :

10 $ par million de jetons d’entrée ;
50 $ par million de jetons de sortie.

Cela s’applique que la requête soit traitée directement par Fable 5 ou redirigée vers Opus 4.8.

Pour le détail complet, consultez le guide de tarification de Claude Fable 5.

Comment tester le comportement

Puisque la réponse revient via le même appel et le même identifiant de modèle, vous ne pouvez pas toujours savoir, à partir d’une seule réponse, quel modèle l’a générée.

La méthode la plus fiable consiste à tester par séries :

regroupez vos prompts par domaine ;
exécutez-les plusieurs fois ;
comparez le style, le niveau de détail et les limites de réponse ;
documentez les catégories qui se comportent différemment ;
ajustez vos prompts, vos évaluations et votre UX.

Si vous voulez comprendre le modèle de repli, le guide d’utilisation de l’API Opus 4.8 est une référence utile, car Opus 4.8 est le modèle vers lequel les requêtes sensibles sont routées.

Conclusion

Les mesures de protection de Claude Fable 5 sont une couche de routage automatique. Elles envoient une petite partie des requêtes sensibles vers Opus 4.8, tout en laissant les autres requêtes utiliser Fable 5 normalement.

Pour votre application :

utilisez claude-fable-5 comme prévu ;
ne cherchez pas de paramètre de désactivation ;
testez vos prompts si vous travaillez dans un domaine sensible ;
surveillez les différences de comportement plutôt que seulement les erreurs ;
gardez en tête que la tarification reste inchangée.

Pour aller plus loin, commencez par ce qu’est Claude Fable 5, puis consultez la vue d’ensemble des modèles et le guide de l’API Fable 5. Lorsque vous êtes prêt à tester vos prompts, Apidog peut vous servir d’espace pour les exécuter, les comparer et documenter les comportements observés.

DEV Community