Baidu a lancé ERNIE 5.1 le 9 mai 2026. Le point clé pour les développeurs : un modèle Mixture of Experts avec environ un tiers des paramètres totaux d’ERNIE 5.0, classé 4e mondial du classement Arena Search et 1er parmi les modèles chinois avec un score de 1 223.
ERNIE 5.1 marque une évolution importante de la famille ERNIE : Baidu le positionne désormais sur l’usage d’outils agentiques, l’écriture longue et le raisonnement face à Gemini 3.1 Pro et DeepSeek-V4-Pro, et pas seulement sur les tâches en chinois. Si vous développez avec Apidog et que vous cherchez un modèle chinois de pointe intégrable dans une pile d’agents sans empreinte de 70 milliards de paramètres, ERNIE 5.1 mérite un test structuré.
Ce guide résume ce qu’est ERNIE 5.1, ce qui change dans son architecture, comment lire les benchmarks face à DeepSeek-V4-Pro et Gemini 3.1 Pro, et comment l’évaluer si vous utilisez déjà DeepSeek V4 ou Kimi K2.6 en production.
TL;DR : ERNIE 5.1 en un paragraphe
ERNIE 5.1 est un modèle MoE uniquement textuel, entraîné à environ 6 % du coût de pré-entraînement de modèles comparables selon Baidu. Il utilise environ un tiers des paramètres totaux d’ERNIE 5.0 et environ la moitié des paramètres actifs par passe avant. Il atteint 1 223 au classement Arena Search, soit 4e mondial et 1er en Chine, dépasse DeepSeek-V4-Pro sur τ³-bench et SpreadsheetBench-Verified, et obtient 99,6 sur AIME26 avec utilisation d’outils. Vous pouvez l’essayer via l’interface de chat ERNIE, l’ERNIE 5.1 Playground de Baidu AI Studio et l’API Qianfan.
Pourquoi ERNIE 5.1 est important pour les développeurs
Trois points sont utiles à évaluer avant de l’ajouter à votre stack.
1. Le rapport coût-qualité
Baidu annonce un pré-entraînement à environ 6 % du coût de modèles comparables. Si cette efficacité se reflète dans les prix de l’API Qianfan, ERNIE 5.1 pourrait devenir intéressant pour les charges agentiques à volume élevé : assistants internes, workflows de recherche, extraction structurée ou automatisation métier.
À vérifier côté implémentation :
- coût par million de tokens dans la console Qianfan ;
- limites de débit ;
- latence depuis votre région ;
- comportement sur vos prompts réels ;
- stabilité des sorties JSON ou tool calls.
2. Une architecture MoE plus élastique
La plupart des modèles MoE routent les tokens vers certains experts. Baidu indique qu’ERNIE 5.1 route sur trois dimensions :
- profondeur ;
- largeur ;
- rareté.
En pratique, l’objectif est de réduire les paramètres actifs sans sacrifier les performances sur l’usage d’outils. C’est particulièrement pertinent si votre application déclenche plusieurs appels LLM par tâche, par exemple dans un agent qui recherche, résume, appelle une API, puis vérifie le résultat.
3. L’usage agentique devient un cas d’usage principal
ERNIE 5.0 était surtout positionné sur la connaissance et l’écriture créative. ERNIE 5.1 est présenté explicitement comme un modèle capable d’usage d’outils agentiques au niveau des meilleurs modèles mondiaux.
Pour un développeur, cela veut dire que le test ne doit pas se limiter à :
Résume ce document.
Testez plutôt des scénarios multi-étapes :
1. Analyse la demande utilisateur.
2. Choisis l’outil API approprié.
3. Construis les paramètres.
4. Appelle l’outil.
5. Vérifie la réponse.
6. Explique le résultat final.
Benchmarks : ce que Baidu annonce
Voici les résultats publiés par Baidu et les points de comparaison les plus proches.
| Benchmark | ERNIE 5.1 | Ce qu’il teste | Concurrent le plus proche |
|---|---|---|---|
| Classement Arena Search | 1 223 — 4e mondial, 1er CN | QA axée recherche, évaluée par des humains | Gemini 3.1 Pro, GPT-5.x |
| τ³-bench | Bat DeepSeek-V4-Pro | Usage d’outils agentiques multi-tours | DeepSeek-V4-Pro |
| SpreadsheetBench-Verified | Bat DeepSeek-V4-Pro | Tâches réelles de tableur | DeepSeek-V4-Pro |
| AIME26 avec outils | 99,6 | Mathématiques de compétition avec interpréteur de code | GPT-5.x, Gemini 3.1 Pro |
| GPQA | « Se rapproche des leaders propriétaires » | QA scientifique niveau universitaire | Claude Sonnet 4.6 |
| MMLU-Pro | « Se rapproche des leaders propriétaires » | Connaissances générales avancées | Modèles de pointe |
À lire avec prudence :
- les scores Arena dépendent du mélange de prompts et du bassin de votants ;
- un score AIME26 avec outils n’est pas équivalent à un score de raisonnement pur ;
- l’écriture créative est décrite comme « proche de Gemini 3.1 Pro », pas nécessairement équivalente ;
- les benchmarks publics ne remplacent pas une évaluation sur vos propres workflows.
Les résultats les plus utiles côté développeur sont τ³-bench et SpreadsheetBench-Verified, car ils reflètent mieux les usages agentiques : appels d’outils, tâches multi-étapes et manipulation de données structurées.
Ce que l’on sait de l’architecture
Baidu a communiqué moins de détails techniques que DeepSeek pour ses modèles V3, mais les éléments suivants sont confirmés :
- Paramètres totaux : environ un tiers d’ERNIE 5.0 ;
- Paramètres actifs par token : environ la moitié d’ERNIE 5.0 ;
- Routage : élastique sur la profondeur, la largeur et la rareté ;
- Coût de pré-entraînement : environ 6 % des « modèles comparables » ;
- Modalité : texte uniquement au lancement ;
- Langues : versions chinoise et anglaise disponibles.
Les points non publiés :
- longueur exacte de contexte ;
- nombre exact de paramètres ;
- budget de tokens d’entraînement ;
- détails complets de routage ;
- disponibilité éventuelle de poids ouverts.
Si vous avez déjà travaillé avec des modèles MoE chinois comme GLM 5.1, attendez-vous à une surface d’intégration similaire : API hébergée, authentification, limites de débit, tests de compatibilité OpenAI-like et gestion des sorties structurées.
Limites actuelles d’ERNIE 5.1
Avant de concevoir votre architecture autour d’ERNIE 5.1, gardez ces contraintes en tête.
- Pas d’entrée image : ERNIE 5.1 est uniquement textuel. Pour la vision, il faut utiliser ERNIE-VL ou un modèle externe.
- Pas d’entrée ou sortie audio : pas de synthèse vocale native ni de voix temps réel.
- Pas de fenêtre de contexte publiée : évitez de supposer une grande fenêtre de contexte tant que Baidu n’a pas confirmé le chiffre.
- Pas de poids HuggingFace : ERNIE 5.1 est uniquement hébergé. Pour un déploiement local, regardez plutôt DeepSeek V4 en local ou un LLM local.
Comment choisir entre ERNIE 5.1, DeepSeek, Kimi et GLM
Si vous comparez déjà les modèles chinois récents, utilisez ce cadre de décision.
- Choisissez ERNIE 5.1 si vous avez besoin d’un bon usage d’outils agentiques, de réponses augmentées par la recherche et d’une option cloud chinoise potentiellement compétitive en prix.
- Choisissez DeepSeek V4 si vous avez besoin de poids ouverts, d’un déploiement sur site ou d’un raisonnement mathématique pur sans outils.
- Choisissez Kimi K2.6 si votre priorité est une longue fenêtre de contexte pour des workflows centrés sur les documents.
- Choisissez GLM 5.1 si vous voulez un généraliste équilibré et que Z.ai ou Zhipu fait déjà partie de votre stack.
Ne choisissez pas uniquement sur benchmark. Exécutez une évaluation sur 50 prompts représentatifs de votre production.
Où essayer ERNIE 5.1
Vous avez trois options principales.
ernie.baidu.com
Interface de chat grand public. Utile pour tester rapidement la qualité de réponse, l’écriture et le raisonnement.Baidu AI Studio ERNIE 5.1 Playground
Environnement hébergé avec démonstrations d’appel d’outils. C’est le meilleur point d’entrée pour tester des workflows agentiques sans écrire tout de suite une intégration complète.API Qianfan
Point de terminaison développeur. Baidu indique une forme de requête compatible OpenAI et une authentification par Bearer token. Pour une intégration détaillée, consultez le guide complémentaire : Comment utiliser l’API ERNIE 5.1.
Si vous comparez plusieurs fournisseurs en parallèle, Apidog permet de centraliser les clés, sauvegarder les corps de requêtes par fournisseur et comparer les réponses dans un seul espace de travail.
Exemple de workflow d’évaluation API
Pour éviter de tester ERNIE 5.1 de manière trop subjective, créez une mini-suite d’évaluation.
1. Préparez 20 à 50 cas réels
Incluez différents types de tâches :
- extraction JSON depuis texte non structuré ;
- appel d’outil avec paramètres obligatoires ;
- choix entre plusieurs endpoints API ;
- résumé de résultat API ;
- vérification d’erreur ;
- raisonnement multi-étapes ;
- tableur ou données tabulaires ;
- prompts bilingues chinois/anglais si nécessaire.
2. Définissez une sortie attendue
Exemple pour une extraction JSON :
{
"customer_id": "string",
"issue_type": "billing | technical | account",
"priority": "low | medium | high",
"next_action": "string"
}
3. Testez la robustesse de format
Demandez explicitement une sortie JSON stricte :
Réponds uniquement avec un JSON valide.
N’ajoute pas de Markdown.
N’ajoute pas d’explication.
Respecte exactement ce schéma :
{
"customer_id": "string",
"issue_type": "billing | technical | account",
"priority": "low | medium | high",
"next_action": "string"
}
4. Comparez avec votre modèle actuel
Pour chaque modèle, mesurez :
- validité JSON ;
- exactitude des paramètres d’outil ;
- nombre de corrections nécessaires ;
- latence ;
- coût estimé ;
- stabilité sur plusieurs exécutions.
Tarification et déploiement
Baidu a indiqué qu’ERNIE 5.1 serait déployé sur plus de 10 plateformes de production créative dans les semaines suivant le lancement.
La tarification publique par token sur Qianfan n’était pas indiquée dans le communiqué de presse. L’affirmation d’un coût de pré-entraînement à environ 6 % est intéressante, mais elle ne suffit pas à déduire un prix API final. Avant de budgéter :
- consultez la console Qianfan ;
- vérifiez les prix input/output ;
- vérifiez les limites de débit ;
- testez la latence depuis votre infrastructure ;
- estimez le coût sur vos volumes réels.
Recommandations d’intégration
Si vous envisagez ERNIE 5.1 en production, procédez en trois étapes.
1. Évaluez vos propres cas agentiques
τ³-bench est utile, mais ce n’est pas votre workload. Créez une évaluation de 20 à 50 cas et comparez ERNIE 5.1 à votre modèle actuel. Le guide Tester les LLM en tant qu’APIs décrit une méthode applicable avec Apidog.
2. Vérifiez les contraintes de résidence des données
Qianfan est hébergé en Chine. Si vos règles de conformité interdisent l’infrastructure en RPC, ERNIE 5.1 ne conviendra pas, même avec de bons benchmarks.
3. Surveillez l’annonce des prix
Le coût de pré-entraînement annoncé est le signal le plus intéressant. Si Baidu le répercute sur les prix API, cela peut modifier le plancher tarifaire des modèles chinois et pousser DeepSeek, Zhipu et Moonshot à réagir.
FAQ
ERNIE 5.1 est-il open-source ?
Non. ERNIE 5.1 est un modèle uniquement hébergé, accessible via l’interface de chat de Baidu, Baidu AI Studio et l’API Qianfan. Aucun poids public HuggingFace n’est disponible au moment de la rédaction.
ERNIE 5.1 prend-il en charge les images ?
Non. ERNIE 5.1 est uniquement textuel au lancement. Pour les tâches de vision, Baidu dispose de la famille ERNIE-VL. Si vous cherchez un modèle chinois multimodal unique, regardez plutôt Qwen 3.5 Omni.
Quelle est la longueur de contexte ?
Baidu n’a pas publié de chiffre précis dans le communiqué de presse. Pour les workflows longs, segmentez les documents et ajoutez une étape de récupération ou de résumé intermédiaire.
Peut-on utiliser ERNIE 5.1 hors de Chine ?
L’interface de chat et l’API Qianfan peuvent être accessibles depuis plusieurs régions, mais la latence, la vérification de compte et certaines exigences d’entreprise varient. Certaines fonctionnalités peuvent nécessiter un numéro de téléphone continental ou une licence commerciale. Le guide Comment utiliser l’API ERNIE 5.1 couvre le processus d’accès.
ERNIE 5.1 est-il meilleur que DeepSeek-V4-Pro ?
Sur τ³-bench et SpreadsheetBench-Verified, Baidu indique qu’ERNIE 5.1 dépasse DeepSeek-V4-Pro. Pour les poids ouverts, DeepSeek garde l’avantage. Pour le raisonnement mathématique pur sans outils, les données publiques ne permettent pas de conclure clairement. Les deux modèles ciblent des modes de déploiement différents.
Conclusion
ERNIE 5.1 est surtout intéressant pour les développeurs qui construisent des agents : appels d’outils, recherche augmentée, tâches multi-étapes et manipulation de données structurées. Ne l’adoptez pas sur la base des seuls benchmarks publics. Créez une suite de tests, comparez-le à votre modèle actuel, mesurez la latence et vérifiez le coût réel sur Qianfan.
Prêt à commencer à développer ? Téléchargez Apidog et importez la spécification OpenAPI de Qianfan pour tester ERNIE 5.1 en parallèle de votre modèle actuel dans un seul espace de travail.



Top comments (0)