Antoine Laurent

Posted on Jun 26 • Originally published at apidog.com

GPT-5.6 mode ultra : un seul modèle qui crée ses propres sous-agents

OpenAI a présenté GPT-5.6 Sol avec deux contrôles de raisonnement importants pour les développeurs : l’effort de raisonnement max et le mode ultra. Le premier donne plus de temps à un agent unique pour résoudre une tâche difficile. Le second change davantage l’architecture : selon OpenAI, il utilise des sous-agents pour accélérer les tâches complexes à l’intérieur d’un seul appel de modèle.

Essayez Apidog aujourd’hui

Avant de concevoir autour de ces options, gardez la contrainte principale en tête : GPT-5.6 Sol est en avant-première limitée via l’API OpenAI et Codex uniquement. Il n’est pas encore disponible dans ChatGPT et l’accès est limité à environ 20 partenaires approuvés. Vous ne pouvez donc pas activer le mode ultra aujourd’hui, sauf si vous faites partie de ce groupe. L’objectif pratique est de comprendre ce que ce modèle d’exécution change pour vos agents, vos tests, vos coûts et votre architecture.

En bref

max augmente l’effort de raisonnement d’un agent unique.
ultra introduit une logique de sous-agents orchestrés par le modèle, selon OpenAI.
GPT-5.6 Sol n’est pas encore disponible publiquement dans ChatGPT.
Le coût de sortie annoncé pour Sol est de 30 $ par million de tokens, donc ultra doit être réservé aux tâches qui justifient vraiment la parallélisation.
Si vous voulez préparer votre stack maintenant, testez le même modèle d’orchestration avec les modèles auxquels vous avez déjà accès.

Comprendre `max` : plus de raisonnement, même architecture

L’effort de raisonnement max est une extension d’un réglage déjà connu : vous donnez plus de temps au modèle pour réfléchir avant de répondre.

Concrètement :

{
  "model": "gpt-5.6-sol",
  "messages": [
    {
      "role": "user",
      "content": "Analyse cette refactorisation et propose un plan sûr."
    }
  ],
  "reasoning_effort": "max"
}

Ce type de paramètre reste conceptuellement simple :

Un seul agent traite la tâche.
Le modèle consacre plus de calcul au raisonnement.
Vous payez davantage en latence et potentiellement en tokens.
Vous obtenez une réponse plus travaillée sur des problèmes difficiles.

Utilisez max pour des tâches où la profondeur compte plus que la vitesse :

refactorisation délicate ;
analyse d’architecture ;
résolution de problème mathématique ;
plan de migration ;
revue de logique métier critique.

Évitez-le pour les tâches simples :

résumé court ;
classification ;
extraction de champs ;
correction mineure ;
réponse conversationnelle standard.

Comprendre `ultra` : un seul appel, plusieurs sous-agents

Le mode ultra est différent. OpenAI le décrit comme un mode qui « va au-delà d’un seul agent en tirant parti de sous-agents pour accélérer les tâches complexes ».

Au lieu d’avoir une seule chaîne de travail, le modèle peut diviser la tâche en plusieurs parties, les traiter en parallèle, puis fusionner les résultats.

Si vous avez déjà construit un système multi-agents, vous connaissez probablement ce pattern :

Utilisateur
   ↓
Orchestrateur
   ├── Agent A : analyse du code
   ├── Agent B : recherche documentaire
   ├── Agent C : génération de tests
   └── Agent D : vérification finale
   ↓
Réponse consolidée

Avec un orchestrateur fait maison, vous devez gérer :

la décomposition de la tâche ;
les prompts de chaque agent ;
les appels API séparés ;
les erreurs et retries ;
la fusion des résultats ;
les logs et traces d’exécution.

Le mode ultra déplace une partie de cette orchestration dans le modèle. Vous envoyez une seule requête, et le modèle décide comment répartir le travail. C’est le changement le plus important pour la conception des agents.

Pour un contexte plus large sur les niveaux, la nomenclature et la disponibilité limitée, voir l’aperçu de GPT-5.6 Sol.

Ce que cela change dans votre architecture d’agents

1. Moins de code d’orchestration

Si le modèle gère lui-même les sous-agents, votre application peut devenir plus simple.

Avant :

app.ts
├── splitTask()
├── callResearchAgent()
├── callCodeAgent()
├── callReviewAgent()
├── mergeResults()
└── retryFailedSteps()

Après, avec une orchestration intégrée au modèle :

app.ts
└── callModelWithComplexTask()

Vous décrivez l’objectif, le contexte et les contraintes. Le modèle gère la répartition interne.

C’est utile si votre application n’a pas besoin de contrôler chaque étape intermédiaire.

2. Moins de visibilité

Le compromis est important : vous perdez une partie de l’observabilité.

Avec votre propre orchestrateur, vous pouvez logger chaque étape :

{
  "task_id": "migration-auth",
  "steps": [
    {
      "agent": "code-review",
      "status": "success",
      "tokens": 1200
    },
    {
      "agent": "test-generator",
      "status": "retry",
      "tokens": 900
    }
  ]
}

Avec des sous-agents internes à un appel unique, vous voyez surtout :

{
  "input": "...",
  "output": "..."
}

Pour un prototype, cela peut suffire. Pour un système de production soumis à audit, conformité ou diagnostic fin, un orchestrateur explicite reste souvent préférable.

3. Des erreurs plus difficiles à attribuer

Dans un système multi-agents classique, si le résultat final est mauvais, vous pouvez inspecter :

quelle sous-tâche a échoué ;
quel agent a halluciné ;
quelle fusion a perdu une information ;
quel retry a modifié le résultat.

Avec ultra, ces détails peuvent être moins accessibles. Le bug devient plus difficile à localiser, car il est caché dans l’exécution interne du modèle.

C’est le même compromis que dans tout système multi-agents : moins de plomberie applicative, mais moins de contrôle.

Pour comparer avec des approches explicitement orientées orchestrateur multi-agents, voir Fugu Ultra versus Fable 5 versus Mythos.

Latence et coût : ne mettez pas `ultra` partout

Le principal intérêt de ultra est la parallélisation. Si une tâche peut être divisée en sous-tâches indépendantes, plusieurs sous-agents peuvent travailler en même temps.

Exemples de tâches adaptées :

analyser plusieurs fichiers d’un dépôt ;
comparer plusieurs documents ;
explorer plusieurs pistes de correction ;
générer des tests pour plusieurs modules ;
rechercher des informations dans plusieurs sources.

Mais cette parallélisation a un coût.

Sol est annoncé avec :

entrée : 5 $ par million de tokens ;
sortie : 30 $ par million de tokens.

Si ultra lance plusieurs sous-agents, chaque sous-agent peut générer ses propres tokens de raisonnement et de sortie. Le coût total peut donc dépasser celui d’un appel max classique.

Règle pratique

Posez-vous cette question avant d’utiliser ultra :

Est-ce que je pourrais confier cette tâche à plusieurs développeurs humains travaillant en parallèle ?

Si la réponse est non, ultra risque d’être excessif.

Exemples où ultra est probablement inutile :

générer une fonction simple ;
corriger une faute dans un fichier ;
répondre à une question courte ;
classifier un ticket ;
résumer un paragraphe.

Utiliser le cache pour réduire une partie des coûts

GPT-5.6 prend en charge des points d’arrêt de cache explicites avec une durée de vie minimale de 30 minutes. Les écritures en cache sont facturées à 1,25 fois le taux d’entrée non mis en cache, et les lectures en cache bénéficient d’une réduction de 90 % sur l’entrée mise en cache.

C’est utile si plusieurs appels partagent un contexte volumineux :

gros prompt système ;
documentation interne ;
schéma API ;
extrait de codebase ;
règles de sécurité ;
contraintes produit.

Exemple conceptuel :

{
  "model": "gpt-5.6-sol",
  "messages": [
    {
      "role": "system",
      "content": "Contexte long de l'application, règles d'architecture, conventions de code..."
    },
    {
      "role": "user",
      "content": "Analyse ce changement et propose les tests nécessaires."
    }
  ],
  "cache_control": {
    "type": "ephemeral"
  }
}

Le cache peut réduire les coûts d’entrée lorsque vous réutilisez le même contexte. En revanche, il ne réduit pas le coût principal du mode ultra : les tokens de sortie générés par les sous-agents.

Quand choisir `max`, `ultra` ou un orchestrateur maison

Utilisez cette grille de décision :

Cas d’usage	Option recommandée
Tâche courte et simple	Effort par défaut
Problème difficile mais séquentiel	`max`
Tâche complexe et parallélisable	`ultra`
Besoin d’audit détaillé	Orchestrateur maison
Besoin de logs par sous-tâche	Orchestrateur maison
Prototype rapide multi-agents	`ultra`, quand disponible
Budget strict	Éviter `ultra` par défaut

Une bonne stratégie consiste à commencer simple :

Tester avec l’effort par défaut.
Passer à max si la réponse manque de profondeur.
Passer à ultra uniquement si la tâche se parallélise réellement.
Garder un orchestrateur maison si vous avez besoin de contrôle et d’observabilité.

Comment préparer vos tests aujourd’hui

Vous ne pouvez pas encore exécuter ultra si vous n’avez pas accès à la préversion. Mais vous pouvez préparer votre harnais de test avec les modèles disponibles aujourd’hui.

L’objectif est de standardiser vos appels :

{
  "model": "model-actuel",
  "messages": [
    {
      "role": "system",
      "content": "Tu es un agent de revue de code. Réponds avec un plan d'action vérifiable."
    },
    {
      "role": "user",
      "content": "Analyse cette migration et identifie les risques."
    }
  ]
}

Puis de rendre le modèle interchangeable :

curl https://api.example.com/v1/chat/completions \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "model-actuel",
    "messages": [
      {
        "role": "user",
        "content": "Découpe cette tâche en sous-tâches parallélisables et propose un plan d'exécution."
      }
    ]
  }'

Quand GPT-5.6 Sol sera disponible pour vous, vous pourrez remplacer :

{
  "model": "model-actuel"
}

par :

{
  "model": "gpt-5.6-sol"
}

et ajouter les paramètres supportés comme reasoning_effort.

Tester ce workflow avec Apidog

C’est là qu’Apidog est utile. Vous pouvez préparer vos scénarios d’appel API avant même d’avoir accès à GPT-5.6 Sol :

Créez une requête vers l’endpoint du modèle disponible.
Ajoutez vos headers d’authentification.
Définissez le corps JSON avec model, messages et les paramètres supportés.
Sauvegardez la requête comme scénario de test.
Dupliquez le scénario pour comparer plusieurs modèles.
Quand Sol devient disponible, remplacez l’endpoint et l’identifiant du modèle.

Vous ne testez pas Sol aujourd’hui si vous n’êtes pas dans la préversion. Vous préparez l’environnement pour éviter de découvrir vos problèmes d’intégration le jour de l’accès.

Où cela s’inscrit dans la tendance multi-agents

OpenAI n’est pas le premier acteur à explorer les architectures multi-agents. Plusieurs modèles et frameworks utilisent déjà un contrôleur qui délègue à des spécialistes, puis consolide les résultats.

La différence ici est l’emballage : OpenAI intègre ce comportement dans un mode de modèle, au lieu de vous demander de construire vous-même toute la couche d’orchestration.

Deux approches vont probablement coexister :

ultra pour les cas fréquents où une orchestration interne suffit ;
orchestrateur maison pour les systèmes qui exigent traçabilité, audit, reprise fine et contrôle complet.

Pour évaluer si les benchmarks soutiennent cette approche, voir la répartition des benchmarks de GPT-5.6 Sol.

Conclusion

Le mode max améliore une approche connue : un agent unique raisonne plus longtemps. Le mode ultra est plus structurant : il déplace l’orchestration multi-agents dans un seul appel de modèle.

Pour l’instant, la bonne décision technique est simple :

utilisez max pour les tâches difficiles mais séquentielles ;
réservez ultra aux tâches réellement parallélisables ;
conservez un orchestrateur maison si vous avez besoin d’observabilité ;
préparez dès maintenant vos scénarios de test API pour pouvoir comparer rapidement les modèles quand l’accès sera ouvert.

Si vous voulez être prêt le jour où Sol sera accessible, configurez dès maintenant vos requêtes, paramètres et scénarios de test dans Apidog avec les modèles que vous pouvez appeler aujourd’hui.

DEV Community

GPT-5.6 mode ultra : un seul modèle qui crée ses propres sous-agents

En bref

Comprendre `max` : plus de raisonnement, même architecture

Comprendre `ultra` : un seul appel, plusieurs sous-agents

Ce que cela change dans votre architecture d’agents

1. Moins de code d’orchestration

2. Moins de visibilité

3. Des erreurs plus difficiles à attribuer

Latence et coût : ne mettez pas `ultra` partout

Règle pratique

Utiliser le cache pour réduire une partie des coûts

Quand choisir `max`, `ultra` ou un orchestrateur maison

Comment préparer vos tests aujourd’hui

Tester ce workflow avec Apidog

Où cela s’inscrit dans la tendance multi-agents

Conclusion

Top comments (0)

En bref

Comprendre max : plus de raisonnement, même architecture

Comprendre ultra : un seul appel, plusieurs sous-agents

Ce que cela change dans votre architecture d’agents

1. Moins de code d’orchestration

2. Moins de visibilité

3. Des erreurs plus difficiles à attribuer

Latence et coût : ne mettez pas ultra partout

Règle pratique

Utiliser le cache pour réduire une partie des coûts

Quand choisir max, ultra ou un orchestrateur maison

Comment préparer vos tests aujourd’hui

Tester ce workflow avec Apidog

Où cela s’inscrit dans la tendance multi-agents

Conclusion

Comprendre `max` : plus de raisonnement, même architecture

Comprendre `ultra` : un seul appel, plusieurs sous-agents

Latence et coût : ne mettez pas `ultra` partout

Quand choisir `max`, `ultra` ou un orchestrateur maison