Le 27 mai 2026, Xiaomi a rendu permanente la nouvelle tarification de l’API MiMo V2.5 : 1 $ par million de jetons en entrée et 3 $ par million de jetons en sortie. L’ancien palier de contexte long, qui appliquait un multiplicateur élevé au-delà de 256K jetons, disparaît. Résultat : un prix unique, quelle que soit la longueur du contexte, avec une fenêtre jusqu’à 1 million de jetons.
En bref
- Nouveau tarif permanent de Xiaomi MiMo V2.5 depuis le 27 mai 2026 : 1,00 $/M jetons en entrée, 3,00 $/M en sortie, 0,20 $/M en cache, avec une fenêtre de contexte de 1M jetons.
- La réduction “jusqu’à 99 %” concerne surtout le contexte long : l’ancien tarif augmentait fortement au-delà de 256K jetons d’entrée.
- Les clients du plan de jetons ont vu leur quota augmenté de 5 à 8 fois, avec réinitialisation des crédits utilisés pendant leur période de validité.
- La réduction est permanente, pas promotionnelle.
- Contexte marché : Xiaomi est le deuxième laboratoire chinois à rendre permanente une baisse de prix sur un modèle de pointe cette semaine, après DeepSeek V4-Pro.
Ce qui a changé le 27 mai 2026
L’avis officiel de mise à jour des prix de Xiaomi annonce trois changements, effectifs le 27 mai à 00h00 heure de Pékin, soit le 26 mai à 16h00 UTC.
1. Un prix forfaitaire pour toutes les tailles de contexte
Avant, MiMo V2.5 utilisait plusieurs paliers :
- jusqu’à 32K jetons d’entrée ;
- de 32K à 256K ;
- au-delà de 256K, avec un multiplicateur plus élevé.
Désormais, il n’y a plus qu’un tarif par type de jeton :
- entrée ;
- sortie ;
- entrée mise en cache.
Pour les applications qui envoient de longs documents, cela supprime la “taxe” du contexte long.
2. Une baisse permanente
L’avis parle explicitement de réduction de prix permanente et de refonte durable du système de tarification du modèle.
Il ne s’agit donc pas d’une promotion limitée dans le temps. Pour vos estimations de coûts, vous pouvez traiter ce tarif comme le nouveau prix catalogue.
3. Réinitialisation des récompenses du plan de jetons
Si vous utilisez le système de quota prépayé de Xiaomi :
- votre solde de crédits a été augmenté de 5 à 8 fois ;
- les crédits déjà consommés pendant la période de validité ont été remboursés ;
- la période de validité n’a pas été prolongée.
La réduction “jusqu’à 99 %” s’applique principalement aux requêtes qui entraient auparavant dans le palier de contexte long. Les workloads déjà situés dans le palier de base bénéficient aussi d’une baisse, mais moins spectaculaire.
Nouvelle grille tarifaire permanente
Prix par million de jetons, en USD :
| Modèle | Entrée | Sortie | Mis en cache | Contexte |
|---|---|---|---|---|
| MiMo V2.5 Pro | 1,00 $ | 3,00 $ | 0,20 $ | 1M jetons |
| MiMo V2 Flash | ~0,10 $ | ~0,40 $ | 0,02 $ | 256K jetons |
Points à intégrer dans vos calculs :
- Le cache de MiMo V2.5 Pro coûte 0,20 $/M, soit 5 fois moins que l’entrée standard.
- Le contexte de 1 million de jetons est le principal différenciateur : beaucoup de modèles concurrents plafonnent entre 200K et 400K.
- Les variantes V2.5 Omni et TTS sont mentionnées dans l’annonce, mais pas détaillées. Vérifiez leurs tarifs séparément sur la plateforme Xiaomi.
Pour les anciens tarifs de V2-Pro, consultez le guide de tarification MiMo V2-Pro & Omni.
Ce que MiMo V2.5 change pour les implémentations
La baisse de prix est importante, mais elle n’est utile que si elle simplifie réellement votre architecture.
1. RAG avec moins de découpage agressif
Avant, un pipeline RAG sur documents longs devait souvent :
- découper les documents ;
- résumer les morceaux ;
- réinjecter seulement les passages les plus pertinents ;
- gérer les pertes de contexte.
Avec un contexte de 1M jetons moins cher, vous pouvez tester une stratégie plus simple :
Document complet ou quasi complet
+ question utilisateur
+ consignes système stables
= requête unique vers MiMo V2.5 Pro
Cela ne supprime pas le besoin d’évaluation, mais vous pouvez réduire la complexité du pipeline pour certains cas :
- analyse de contrats ;
- documentation interne ;
- dossiers clients ;
- bases de connaissances volumineuses ;
- revues de dépôts de code.
2. Appels d’outils : validez toujours le JSON
MiMo V2.5 améliore la compatibilité avec le format OpenAI, mais les appels d’outils en streaming et les appels parallèles doivent rester testés.
Exemple de validation minimale côté Node.js avec zod :
import { z } from "zod";
const ToolCallSchema = z.object({
id: z.string(),
type: z.literal("function"),
function: z.object({
name: z.string(),
arguments: z.string()
})
});
function validateToolCalls(toolCalls) {
return z.array(ToolCallSchema).safeParse(toolCalls);
}
Même si le modèle est compatible au niveau du schéma, ne supposez pas que chaque réponse de streaming sera directement exploitable en production.
3. Contexte long : testez la récupération réelle
L’annonce de V2.5 indique aussi des améliorations de récupération sur les longues fenêtres de contexte. Pour valider cela sur vos données, créez un benchmark simple :
1. Sélectionnez 100 documents longs.
2. Insérez une information cible à différentes positions :
- début ;
- milieu ;
- vers 800K jetons ;
- fin.
3. Posez une question précise sur cette information.
4. Mesurez :
- exactitude ;
- citations ;
- hallucinations ;
- temps de réponse ;
- coût.
Ne migrez pas uniquement sur la base du prix. Migrez après comparaison sur vos propres prompts.
Positionnement face aux autres modèles
Comparaison des options API de pointe disponibles en mai 2026 :
| Modèle | Entrée ($/MTok) | Sortie ($/MTok) | Contexte |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | 1,00 $ | 3,00 $ | 1M |
| DeepSeek V4-Pro | 0,435 $ | 0,87 $ | 128K |
| GPT-5.5 | 5,00 $ | 30,00 $ | 200K |
| Claude Opus 4.7 | 3,00 $ | 15,00 $ | 200K |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | 1M |
À retenir :
- DeepSeek V4-Pro reste moins cher par jeton : environ 2,3 fois moins cher en entrée et 3,5 fois moins cher en sortie.
- MiMo V2.5 devient intéressant dès que vous avez besoin de 1M jetons de contexte.
- MiMo V2.5 est 5 fois moins cher que GPT-5.5 en entrée et 10 fois moins cher en sortie, avec des performances comparables selon Artificial Analysis.
Pour la comparaison côté DeepSeek, voir La réduction de prix de 75% de DeepSeek V4-Pro est désormais permanente.
Trois workloads, trois estimations de coût
Voici comment recalculer rapidement vos coûts avec le nouveau tarif.
Formule de base :
coût entrée = jetons_entrée × prix_entrée / 1_000_000
coût sortie = jetons_sortie × prix_sortie / 1_000_000
coût total = coût entrée + coût sortie
1. RAG de documents longs sur PDF d’entreprise
Hypothèses :
- 50 000 requêtes/jour ;
- 800K jetons d’entrée par requête ;
- 1K jetons de sortie ;
- 30 jours/mois.
Ancien palier long contexte MiMo V2.5, avec taux effectif estimé à 50 $/M : environ 60 000 $/mois.
Nouveau tarif forfaitaire : environ 1 225 $/mois.
Économie estimée : 58 775 $/mois.
2. Agent de revue de code
Hypothèses :
- 5 000 pull requests/jour ;
- 30K jetons de contexte dépôt ;
- 2K jetons de sortie ;
- ancien modèle : GPT-5.5.
Ancienne facture GPT-5.5 : environ 5 250 $/mois.
Avec MiMo V2.5 : environ 510 $/mois.
Économie estimée : 4 740 $/mois.
3. Chatbot de support client
Hypothèses :
- 200 000 interactions/jour ;
- prompt système de 4K jetons ;
- réponses de 300 jetons ;
- ancien modèle : Claude Opus 4.7.
Ancienne facture Claude Opus 4.7 : environ 11 250 $/mois.
Avec MiMo V2.5 : environ 805 $/mois.
Économie estimée : 10 445 $/mois.
Le premier cas est le plus important : les workloads à très long contexte deviennent économiquement réalistes sans passer systématiquement par des pipelines complexes de résumé et de découpage.
Optimiser les coûts avec le cache
Le tarif d’entrée mis en cache de MiMo V2.5 Pro est de 0,20 $/M, contre 1,00 $/M pour une entrée non mise en cache.
Exemple :
- prompt système : 6 000 jetons ;
- message utilisateur moyen : 250 jetons ;
- réponse moyenne : 600 jetons ;
- volume : 80 000 interactions/jour.
Sans cache :
80 000 × 6 250 × 1,00 $ / 1 000 000
= 500 $/jour en entrée
Avec 60 % de succès de cache sur le préfixe système :
80 000 × (
250 × 1,00 $
+ 6 000 × (0,6 × 0,20 $ + 0,4 × 1,00 $)
) / 1 000 000
≈ 271 $/jour
Soit environ 46 % de réduction sur l’entrée.
Pour maximiser le cache :
- gardez le prompt système stable ;
- évitez d’ajouter des timestamps dans le préfixe ;
- triez les documents récupérés de manière déterministe ;
- séparez les variables utilisateur du préfixe réutilisable.
Pour comprendre les mécaniques de cache côté LLM, voir Comment la mise en cache des invites suralimente les performances des LLM et réduit les coûts.
Quand choisir MiMo V2.5
Bon choix
MiMo V2.5 est pertinent pour :
- RAG de documents longs ;
- agents sur base de code ;
- refactoring à l’échelle d’un dépôt ;
- analyse de contrats ou dossiers volumineux ;
- batch processing de documents ;
- workflows où le contexte dépasse naturellement 200K jetons.
La combinaison prix forfaitaire + contexte 1M est le principal avantage.
Mauvais choix
MiMo V2.5 Pro est moins adapté si votre priorité est :
- latence très faible ;
- chat interactif sous la seconde ;
- autocomplétion ;
- expérience temps réel sensible au premier jeton.
Dans ces cas, DeepSeek V4-Flash ou Gemini 3.5 Flash peuvent offrir un meilleur profil de latence à coût comparable.
Points de vigilance
Avant migration en production, vérifiez :
- Résidence des données : les appels passent par l’infrastructure Xiaomi en Chine.
- Fiabilité opérationnelle : l’API propriétaire Xiaomi a un historique plus court que les grands fournisseurs américains.
- Fonction calling : compatible OpenAI au niveau du schéma, mais testez les cas limites, surtout en streaming.
- SLA : pour une production critique, envisagez OpenRouter ou un autre agrégateur.
Pour le contexte du lancement de V2-Pro, voir Xiaomi vient de lancer son propre modèle d’IA, et il est gratuit sur OpenRouter. Pour l’accès gratuit, le programme de 100 T jetons gratuits Xiaomi MiMo Orbit couvre l’éligibilité et l’inscription.
Tester MiMo V2.5 avec Apidog
La compatibilité OpenAI de la plateforme Xiaomi est bonne, mais pas parfaite. Testez votre intégration avant de basculer le trafic de production.
Avec Apidog, vous pouvez envoyer une requête Chat Completions vers :
https://platform.xiaomimimo.com/v1
Puis utiliser votre clé API MiMo.
Exemple de requête compatible OpenAI :
curl https://platform.xiaomimimo.com/v1/chat/completions \
-H "Authorization: Bearer $MIMO_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "mimo-v2.5-pro",
"messages": [
{
"role": "system",
"content": "Tu es un assistant technique concis."
},
{
"role": "user",
"content": "Résume ce document et liste les risques principaux."
}
]
}'
Dans Apidog, vous pouvez :
- enregistrer des réponses “golden” de V2.5 Pro ;
- rejouer ces réponses à chaque changement de prompt ;
- ajouter des assertions JSON sur les
tool_calls; - comparer MiMo V2.5 avec GPT-5.5, Claude ou DeepSeek sur les mêmes entrées ;
- créer une suite de régression avant migration.
Workflow recommandé :
- Téléchargez Apidog.
- Importez le schéma OpenAI Chat Completion.
- Remplacez l’URL de base par
https://platform.xiaomimimo.com/v1. - Ajoutez votre clé API MiMo.
- Créez un scénario de test avec vos prompts réels.
- Comparez qualité, coût, latence et conformité JSON.
C’est le même flux que celui recommandé dans Comment utiliser l’API DeepSeek V4.
Ce que cette baisse dit de la guerre des prix LLM
MiMo V2.5 est la deuxième baisse permanente sur un modèle de pointe chinois en une semaine. DeepSeek a rendu V4-Pro permanent à un quart de son prix catalogue le 22 mai. Kimi K2 avait déjà réduit ses prix plus tôt au premier trimestre. OpenAI O3 a chuté de 80 % en février.
Le schéma actuel :
- Les laboratoires chinois se battent sur le prix avec des réductions structurelles.
- Les laboratoires américains défendent des prix plus élevés via les capacités, les modes de raisonnement, les workflows agentiques et les offres groupées.
- L’écart de performance est assez faible pour justifier un re-test de la plupart des workloads, selon les benchmarks publics comme Artificial Analysis.
Pour compléter la comparaison :
- La réduction de prix permanente de DeepSeek V4-Pro
- La tarification de l’API Kimi K2
- La baisse des prix de l’API OpenAI O3
- Le coût de l’API Gemini 3.0
- La ventilation complète des coûts de l’API Claude
- Benchmarks de MiMo-7B-RL
Plan d’action pour votre équipe
La baisse de MiMo V2.5 n’est pas seulement marketing. Elle change le coût réel des workloads avec plus de 200K jetons de contexte.
Pour décider si vous devez migrer :
- Recalculez vos trois workloads les plus coûteux avec le tarif 1 $/M entrée et 3 $/M sortie.
- Identifiez les pipelines RAG rendus trop complexes par l’ancien coût du contexte long.
- Lancez une évaluation de 100 échantillons avec vos prompts réels.
- Comparez MiMo V2.5 à votre modèle actuel sur qualité, coût, latence et stabilité des sorties JSON.
- Ajoutez une suite de régression Apidog pour pouvoir tester rapidement les prochaines baisses de prix.
Le seuil de prix du contexte long vient de bouger. Si vos choix d’architecture datent du trimestre dernier, ils méritent probablement une nouvelle évaluation.



Top comments (0)