Antoine Laurent

Posted on May 27 • Originally published at apidog.com

Prix Xiaomi MiMo V2.5 en 2026 : Quel budget prévoir ?

Le 27 mai 2026, Xiaomi a rendu permanente la nouvelle tarification de l’API MiMo V2.5 : 1 $ par million de jetons en entrée et 3 $ par million de jetons en sortie. L’ancien palier de contexte long, qui appliquait un multiplicateur élevé au-delà de 256K jetons, disparaît. Résultat : un prix unique, quelle que soit la longueur du contexte, avec une fenêtre jusqu’à 1 million de jetons.

Essayez Apidog aujourd’hui

En bref

Nouveau tarif permanent de Xiaomi MiMo V2.5 depuis le 27 mai 2026 : 1,00 $/M jetons en entrée, 3,00 $/M en sortie, 0,20 $/M en cache, avec une fenêtre de contexte de 1M jetons.
La réduction “jusqu’à 99 %” concerne surtout le contexte long : l’ancien tarif augmentait fortement au-delà de 256K jetons d’entrée.
Les clients du plan de jetons ont vu leur quota augmenté de 5 à 8 fois, avec réinitialisation des crédits utilisés pendant leur période de validité.
La réduction est permanente, pas promotionnelle.
Contexte marché : Xiaomi est le deuxième laboratoire chinois à rendre permanente une baisse de prix sur un modèle de pointe cette semaine, après DeepSeek V4-Pro.

Ce qui a changé le 27 mai 2026

L’avis officiel de mise à jour des prix de Xiaomi annonce trois changements, effectifs le 27 mai à 00h00 heure de Pékin, soit le 26 mai à 16h00 UTC.

1. Un prix forfaitaire pour toutes les tailles de contexte

Avant, MiMo V2.5 utilisait plusieurs paliers :

jusqu’à 32K jetons d’entrée ;
de 32K à 256K ;
au-delà de 256K, avec un multiplicateur plus élevé.

Désormais, il n’y a plus qu’un tarif par type de jeton :

entrée ;
sortie ;
entrée mise en cache.

Pour les applications qui envoient de longs documents, cela supprime la “taxe” du contexte long.

2. Une baisse permanente

L’avis parle explicitement de réduction de prix permanente et de refonte durable du système de tarification du modèle.

Il ne s’agit donc pas d’une promotion limitée dans le temps. Pour vos estimations de coûts, vous pouvez traiter ce tarif comme le nouveau prix catalogue.

3. Réinitialisation des récompenses du plan de jetons

Si vous utilisez le système de quota prépayé de Xiaomi :

votre solde de crédits a été augmenté de 5 à 8 fois ;
les crédits déjà consommés pendant la période de validité ont été remboursés ;
la période de validité n’a pas été prolongée.

La réduction “jusqu’à 99 %” s’applique principalement aux requêtes qui entraient auparavant dans le palier de contexte long. Les workloads déjà situés dans le palier de base bénéficient aussi d’une baisse, mais moins spectaculaire.

Nouvelle grille tarifaire permanente

Prix par million de jetons, en USD :

Modèle	Entrée	Sortie	Mis en cache	Contexte
MiMo V2.5 Pro	1,00 $	3,00 $	0,20 $	1M jetons
MiMo V2 Flash	~0,10 $	~0,40 $	0,02 $	256K jetons

Points à intégrer dans vos calculs :

Le cache de MiMo V2.5 Pro coûte 0,20 $/M, soit 5 fois moins que l’entrée standard.
Le contexte de 1 million de jetons est le principal différenciateur : beaucoup de modèles concurrents plafonnent entre 200K et 400K.
Les variantes V2.5 Omni et TTS sont mentionnées dans l’annonce, mais pas détaillées. Vérifiez leurs tarifs séparément sur la plateforme Xiaomi.

Pour les anciens tarifs de V2-Pro, consultez le guide de tarification MiMo V2-Pro & Omni.

Ce que MiMo V2.5 change pour les implémentations

La baisse de prix est importante, mais elle n’est utile que si elle simplifie réellement votre architecture.

1. RAG avec moins de découpage agressif

Avant, un pipeline RAG sur documents longs devait souvent :

découper les documents ;
résumer les morceaux ;
réinjecter seulement les passages les plus pertinents ;
gérer les pertes de contexte.

Avec un contexte de 1M jetons moins cher, vous pouvez tester une stratégie plus simple :

Document complet ou quasi complet
+ question utilisateur
+ consignes système stables
= requête unique vers MiMo V2.5 Pro

Cela ne supprime pas le besoin d’évaluation, mais vous pouvez réduire la complexité du pipeline pour certains cas :

analyse de contrats ;
documentation interne ;
dossiers clients ;
bases de connaissances volumineuses ;
revues de dépôts de code.

2. Appels d’outils : validez toujours le JSON

MiMo V2.5 améliore la compatibilité avec le format OpenAI, mais les appels d’outils en streaming et les appels parallèles doivent rester testés.

Exemple de validation minimale côté Node.js avec zod :

import { z } from "zod";

const ToolCallSchema = z.object({
  id: z.string(),
  type: z.literal("function"),
  function: z.object({
    name: z.string(),
    arguments: z.string()
  })
});

function validateToolCalls(toolCalls) {
  return z.array(ToolCallSchema).safeParse(toolCalls);
}

Même si le modèle est compatible au niveau du schéma, ne supposez pas que chaque réponse de streaming sera directement exploitable en production.

3. Contexte long : testez la récupération réelle

L’annonce de V2.5 indique aussi des améliorations de récupération sur les longues fenêtres de contexte. Pour valider cela sur vos données, créez un benchmark simple :

1. Sélectionnez 100 documents longs.
2. Insérez une information cible à différentes positions :
   - début ;
   - milieu ;
   - vers 800K jetons ;
   - fin.
3. Posez une question précise sur cette information.
4. Mesurez :
   - exactitude ;
   - citations ;
   - hallucinations ;
   - temps de réponse ;
   - coût.

Ne migrez pas uniquement sur la base du prix. Migrez après comparaison sur vos propres prompts.

Positionnement face aux autres modèles

Comparaison des options API de pointe disponibles en mai 2026 :

Modèle	Entrée ($/MTok)	Sortie ($/MTok)	Contexte
Xiaomi MiMo V2.5 Pro	1,00 $	3,00 $	1M
DeepSeek V4-Pro	0,435 $	0,87 $	128K
GPT-5.5	5,00 $	30,00 $	200K
Claude Opus 4.7	3,00 $	15,00 $	200K
Gemini 3.5 Flash	~1,50 $	~9,00 $	1M

À retenir :

DeepSeek V4-Pro reste moins cher par jeton : environ 2,3 fois moins cher en entrée et 3,5 fois moins cher en sortie.
MiMo V2.5 devient intéressant dès que vous avez besoin de 1M jetons de contexte.
MiMo V2.5 est 5 fois moins cher que GPT-5.5 en entrée et 10 fois moins cher en sortie, avec des performances comparables selon Artificial Analysis.

Pour la comparaison côté DeepSeek, voir La réduction de prix de 75% de DeepSeek V4-Pro est désormais permanente.

Trois workloads, trois estimations de coût

Voici comment recalculer rapidement vos coûts avec le nouveau tarif.

Formule de base :

coût entrée = jetons_entrée × prix_entrée / 1_000_000
coût sortie = jetons_sortie × prix_sortie / 1_000_000
coût total = coût entrée + coût sortie

1. RAG de documents longs sur PDF d’entreprise

Hypothèses :

50 000 requêtes/jour ;
800K jetons d’entrée par requête ;
1K jetons de sortie ;
30 jours/mois.

Ancien palier long contexte MiMo V2.5, avec taux effectif estimé à 50 $/M : environ 60 000 $/mois.

Nouveau tarif forfaitaire : environ 1 225 $/mois.

Économie estimée : 58 775 $/mois.

2. Agent de revue de code

Hypothèses :

5 000 pull requests/jour ;
30K jetons de contexte dépôt ;
2K jetons de sortie ;
ancien modèle : GPT-5.5.

Ancienne facture GPT-5.5 : environ 5 250 $/mois.

Avec MiMo V2.5 : environ 510 $/mois.

Économie estimée : 4 740 $/mois.

3. Chatbot de support client

Hypothèses :

200 000 interactions/jour ;
prompt système de 4K jetons ;
réponses de 300 jetons ;
ancien modèle : Claude Opus 4.7.

Ancienne facture Claude Opus 4.7 : environ 11 250 $/mois.

Avec MiMo V2.5 : environ 805 $/mois.

Économie estimée : 10 445 $/mois.

Le premier cas est le plus important : les workloads à très long contexte deviennent économiquement réalistes sans passer systématiquement par des pipelines complexes de résumé et de découpage.

Optimiser les coûts avec le cache

Le tarif d’entrée mis en cache de MiMo V2.5 Pro est de 0,20 $/M, contre 1,00 $/M pour une entrée non mise en cache.

Exemple :

prompt système : 6 000 jetons ;
message utilisateur moyen : 250 jetons ;
réponse moyenne : 600 jetons ;
volume : 80 000 interactions/jour.

Sans cache :

80 000 × 6 250 × 1,00 $ / 1 000 000
= 500 $/jour en entrée

Avec 60 % de succès de cache sur le préfixe système :

80 000 × (
  250 × 1,00 $
  + 6 000 × (0,6 × 0,20 $ + 0,4 × 1,00 $)
) / 1 000 000

≈ 271 $/jour

Soit environ 46 % de réduction sur l’entrée.

Pour maximiser le cache :

gardez le prompt système stable ;
évitez d’ajouter des timestamps dans le préfixe ;
triez les documents récupérés de manière déterministe ;
séparez les variables utilisateur du préfixe réutilisable.

Pour comprendre les mécaniques de cache côté LLM, voir Comment la mise en cache des invites suralimente les performances des LLM et réduit les coûts.

Quand choisir MiMo V2.5

Bon choix

MiMo V2.5 est pertinent pour :

RAG de documents longs ;
agents sur base de code ;
refactoring à l’échelle d’un dépôt ;
analyse de contrats ou dossiers volumineux ;
batch processing de documents ;
workflows où le contexte dépasse naturellement 200K jetons.

La combinaison prix forfaitaire + contexte 1M est le principal avantage.

Mauvais choix

MiMo V2.5 Pro est moins adapté si votre priorité est :

latence très faible ;
chat interactif sous la seconde ;
autocomplétion ;
expérience temps réel sensible au premier jeton.

Dans ces cas, DeepSeek V4-Flash ou Gemini 3.5 Flash peuvent offrir un meilleur profil de latence à coût comparable.

Points de vigilance

Avant migration en production, vérifiez :

Résidence des données : les appels passent par l’infrastructure Xiaomi en Chine.
Fiabilité opérationnelle : l’API propriétaire Xiaomi a un historique plus court que les grands fournisseurs américains.
Fonction calling : compatible OpenAI au niveau du schéma, mais testez les cas limites, surtout en streaming.
SLA : pour une production critique, envisagez OpenRouter ou un autre agrégateur.

Pour le contexte du lancement de V2-Pro, voir Xiaomi vient de lancer son propre modèle d’IA, et il est gratuit sur OpenRouter. Pour l’accès gratuit, le programme de 100 T jetons gratuits Xiaomi MiMo Orbit couvre l’éligibilité et l’inscription.

Tester MiMo V2.5 avec Apidog

La compatibilité OpenAI de la plateforme Xiaomi est bonne, mais pas parfaite. Testez votre intégration avant de basculer le trafic de production.

Avec Apidog, vous pouvez envoyer une requête Chat Completions vers :

https://platform.xiaomimimo.com/v1

Puis utiliser votre clé API MiMo.

Exemple de requête compatible OpenAI :

curl https://platform.xiaomimimo.com/v1/chat/completions \
  -H "Authorization: Bearer $MIMO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {
        "role": "system",
        "content": "Tu es un assistant technique concis."
      },
      {
        "role": "user",
        "content": "Résume ce document et liste les risques principaux."
      }
    ]
  }'

Dans Apidog, vous pouvez :

enregistrer des réponses “golden” de V2.5 Pro ;
rejouer ces réponses à chaque changement de prompt ;
ajouter des assertions JSON sur les tool_calls ;
comparer MiMo V2.5 avec GPT-5.5, Claude ou DeepSeek sur les mêmes entrées ;
créer une suite de régression avant migration.

Workflow recommandé :

Téléchargez Apidog.
Importez le schéma OpenAI Chat Completion.
Remplacez l’URL de base par https://platform.xiaomimimo.com/v1.
Ajoutez votre clé API MiMo.
Créez un scénario de test avec vos prompts réels.
Comparez qualité, coût, latence et conformité JSON.

C’est le même flux que celui recommandé dans Comment utiliser l’API DeepSeek V4.

Ce que cette baisse dit de la guerre des prix LLM

MiMo V2.5 est la deuxième baisse permanente sur un modèle de pointe chinois en une semaine. DeepSeek a rendu V4-Pro permanent à un quart de son prix catalogue le 22 mai. Kimi K2 avait déjà réduit ses prix plus tôt au premier trimestre. OpenAI O3 a chuté de 80 % en février.

Le schéma actuel :

Les laboratoires chinois se battent sur le prix avec des réductions structurelles.
Les laboratoires américains défendent des prix plus élevés via les capacités, les modes de raisonnement, les workflows agentiques et les offres groupées.
L’écart de performance est assez faible pour justifier un re-test de la plupart des workloads, selon les benchmarks publics comme Artificial Analysis.

Pour compléter la comparaison :

Plan d’action pour votre équipe

La baisse de MiMo V2.5 n’est pas seulement marketing. Elle change le coût réel des workloads avec plus de 200K jetons de contexte.

Pour décider si vous devez migrer :

Recalculez vos trois workloads les plus coûteux avec le tarif 1 $/M entrée et 3 $/M sortie.
Identifiez les pipelines RAG rendus trop complexes par l’ancien coût du contexte long.
Lancez une évaluation de 100 échantillons avec vos prompts réels.
Comparez MiMo V2.5 à votre modèle actuel sur qualité, coût, latence et stabilité des sorties JSON.
Ajoutez une suite de régression Apidog pour pouvoir tester rapidement les prochaines baisses de prix.

Le seuil de prix du contexte long vient de bouger. Si vos choix d’architecture datent du trimestre dernier, ils méritent probablement une nouvelle évaluation.

DEV Community

Prix Xiaomi MiMo V2.5 en 2026 : Quel budget prévoir ?

En bref

Ce qui a changé le 27 mai 2026

1. Un prix forfaitaire pour toutes les tailles de contexte

2. Une baisse permanente

3. Réinitialisation des récompenses du plan de jetons

Nouvelle grille tarifaire permanente

Ce que MiMo V2.5 change pour les implémentations

1. RAG avec moins de découpage agressif

2. Appels d’outils : validez toujours le JSON

3. Contexte long : testez la récupération réelle

Positionnement face aux autres modèles

Trois workloads, trois estimations de coût

1. RAG de documents longs sur PDF d’entreprise

2. Agent de revue de code

3. Chatbot de support client

Optimiser les coûts avec le cache

Quand choisir MiMo V2.5

Bon choix

Mauvais choix

Points de vigilance

Tester MiMo V2.5 avec Apidog

Ce que cette baisse dit de la guerre des prix LLM

Plan d’action pour votre équipe

Top comments (0)