DEV Community

Cover image for Guerre des Prix des LLM Chinois 2026: Comparaison des Coûts des 5 Principales API
Antoine Laurent
Antoine Laurent

Posted on • Originally published at apidog.com

Guerre des Prix des LLM Chinois 2026: Comparaison des Coûts des 5 Principales API

Les laboratoires chinois ont baissé les prix des API LLM six fois au premier semestre 2026, dont trois baisses déclarées permanentes. DeepSeek V4-Pro coûte désormais 0,87 $ par million de jetons de sortie. Xiaomi MiMo V2.5 stabilise son contexte long à 3 $/MTok de sortie. Alibaba Qwen3 Max est à 3,90 $. Kimi K2.6 de Moonshot garde un prix plancher de 0,07 $ pour les résultats en cache. GLM-5 de Zhipu est à 3,20 $ de sortie. Voici comment comparer ces cinq API, estimer vos coûts et choisir le bon modèle selon votre charge de travail.

Essayez Apidog dès aujourd’hui

En bref

  • Moins cher par jeton de sortie : DeepSeek V4-Pro à 0,87 $/MTok, environ 34 fois moins cher que GPT-5.5.
  • Moins cher pour 1M de contexte : Xiaomi MiMo V2.5 Pro à 3 $/MTok de sortie, prix fixe quelle que soit la longueur d’entrée.
  • Meilleur équilibre prix/qualité pour la production générale : Alibaba Qwen3 Max à 3,90 $/MTok de sortie, 262K de contexte.
  • Prix plancher le plus bas pour les résultats en cache : Moonshot Kimi K2.6 à 0,07 $/MTok mis en cache.
  • Charges de travail à forte composante de raisonnement : Zhipu GLM-5 à 3,20 $/MTok de sortie, 200K de contexte.
  • Point clé pour les développeurs : ne comparez pas seulement le prix d’entrée/sortie. Mesurez aussi le cache hit rate, la longueur de contexte réelle et le coût par scénario métier.

Comment la guerre des prix des LLM chinois de 2026 s’est déroulée

Le mouvement a commencé au T4 2025 et s’est accéléré au T2 2026 :

  • T4 2025 : DeepSeek V3.2 est lancé à 0,28 $/MTok d’entrée. Kimi K2.6 suit avec une tarification par niveaux de contexte et un taux de cache à 0,07 $/MTok.
  • Mars 2026 : Xiaomi dévoile MiMo V2-Pro sur OpenRouter avec des tarifs compétitifs, mais encore basés sur des niveaux.
  • Avril 2026 : DeepSeek V4 est lancé avec une réduction promotionnelle de 75 %, initialement prévue jusqu’au 31 mai.
  • 22 mai 2026 : DeepSeek rend la réduction permanente. V4-Pro reste à 0,435 $/MTok en entrée et 0,87 $/MTok en sortie. La répartition complète est ici.
  • 27 mai 2026 : Xiaomi rend la tarification de MiMo V2.5 permanente à 1 $/MTok en entrée et 3 $/MTok en sortie, sans multiplicateur de contexte long. Plus d’informations sur la baisse de MiMo.

Chaque laboratoire optimise une niche :

  • DeepSeek : coût brut par jeton.
  • MiMo : contexte long à prix fixe.
  • Qwen : production générale et écosystème.
  • Kimi : agents, codage et cache.
  • GLM : raisonnement structuré.

En un coup d’œil : les 5 principales API LLM chinoises en mai 2026

Modèle Entrée ($/MTok) Sortie ($/MTok) Cache Contexte Le meilleur pour
DeepSeek V4-Pro 0,435 $ 0,87 $ 0,003625 $ 128K Coût par jeton, codage
Xiaomi MiMo V2.5 Pro 1,00 $ 3,00 $ 0,20 $ 1M RAG long, analyse de dépôt
Alibaba Qwen3 Max 0,78 $ 3,90 $ 0,156 $ 262K Production équilibrée
Moonshot Kimi K2.6 0,16–2,00 $ ~2,50 $ 0,07 $ 128K Agents avec prompts système longs
Zhipu GLM-5 1,00 $ 3,20 $ Défini par le fournisseur 200K Raisonnement structuré

À vérifier avant de choisir :

  1. Prix fixe ou par niveaux

    DeepSeek et MiMo sont plus simples à budgéter. Les modèles avec niveaux peuvent créer des surprises quand vos prompts passent certains seuils.

  2. Taux de cache

    Pour un agent avec un prompt système stable, le prix du cache peut être plus important que le prix d’entrée standard. Les valeurs à surveiller : 0,07 $/MTok pour Kimi et 0,003625 $/MTok pour DeepSeek. Voir l’étude approfondie sur la mise en cache des prompts.

  3. Fenêtre de contexte

    Si vos requêtes dépassent 300K jetons, MiMo V2.5 devient le choix pratique, car il monte à 1M de contexte.

Calculer votre coût réel

Avant de migrer, calculez le coût par type de requête, pas seulement le prix catalogue.

Formule simple :

coût =
  (input_tokens / 1_000_000) * prix_input
+ (output_tokens / 1_000_000) * prix_output
+ (cached_tokens / 1_000_000) * prix_cache
Enter fullscreen mode Exit fullscreen mode

Exemple en JavaScript :

function estimateCost({
  inputTokens,
  outputTokens,
  cachedTokens = 0,
  inputPrice,
  outputPrice,
  cachePrice = 0
}) {
  return (
    (inputTokens / 1_000_000) * inputPrice +
    (outputTokens / 1_000_000) * outputPrice +
    (cachedTokens / 1_000_000) * cachePrice
  );
}

const deepseekCost = estimateCost({
  inputTokens: 20_000,
  outputTokens: 4_000,
  cachedTokens: 10_000,
  inputPrice: 0.435,
  outputPrice: 0.87,
  cachePrice: 0.003625
});

console.log(`Coût estimé : $${deepseekCost.toFixed(6)}`);
Enter fullscreen mode Exit fullscreen mode

Utilisez ce calcul sur vos logs de production : longueur moyenne, P95, P99, taux de cache et taille de sortie.

DeepSeek : le moins cher par jeton

Modèles : V4-Pro avec 0,435 $ en entrée, 0,87 $ en sortie, 0,003625 $ pour les résultats en cache, 128K de contexte ; V4-Flash à 0,14 $ / 0,28 $.

DeepSeek V4-Pro est le prix plancher des modèles chinois de pointe. La réduction permanente du 22 mai fixe les jetons de sortie à 0,87 $/MTok, environ 34 fois moins cher que GPT-5.5 et 17 fois moins cher que Claude Opus 4.7. Le coût de cache à 0,003625 $/MTok est le plus bas parmi les grands fournisseurs. Les tarifs sont confirmés par la page officielle de DeepSeek.

À utiliser pour

  • Génération de code.
  • Chaînes d’agents avec beaucoup de sortie.
  • Outils de contenu à fort volume.
  • Prompts système stables entre 5K et 10K jetons.
  • Production sensible aux coûts où un écart de qualité de quelques points est acceptable.

À éviter pour

  • Documents longs au-delà de 128K de contexte.
  • Chat temps réel très sensible à la latence.
  • Cas où le temps jusqu’au premier jeton de 600 à 900 ms pose problème.

Exemple d’appel compatible OpenAI

curl https://api.deepseek.com/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      { "role": "system", "content": "Tu es un assistant de revue de code." },
      { "role": "user", "content": "Analyse ce diff et liste les risques principaux." }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Pour aller plus loin : Baisse de prix permanente de DeepSeek V4-Pro, Qu’est-ce que DeepSeek V4, Comment utiliser l’API DeepSeek V4.

Xiaomi MiMo : l’option la moins chère pour un contexte de 1M

Modèles : MiMo V2.5 Pro à 1,00 $ en entrée, 3,00 $ en sortie, 0,20 $ pour le cache, 1M de contexte ; MiMo V2 Flash à environ 0,10 $ / 0,40 $, 256K de contexte.

La réduction permanente du 27 mai stabilise les prix de MiMo V2.5 sur toutes les fenêtres de contexte. Les anciens multiplicateurs au-delà de 256K jetons d’entrée disparaissent. Le même prix s’applique pour 5K ou 950K jetons. L’avis officiel de mise à jour des prix qualifie la réduction de permanente.

À utiliser pour

  • RAG de documents longs.
  • Analyse de code à l’échelle d’un dépôt complet.
  • Résumé multi-documents.
  • Requêtes entre 300K et 1M jetons.
  • Traitement documentaire où la prévisibilité du prix compte plus que le prix plancher.

À éviter pour

  • Chat à prompt court.
  • Charges de travail où DeepSeek suffit dans 128K de contexte.
  • Cas très sensibles à la latence.

MiMo occupe le quadrant “bon marché et long”. Tant que DeepSeek reste limité à 128K et que Qwen ne stabilise pas son 1M de contexte à un prix comparable, MiMo reste le choix naturel pour les très longues fenêtres.

Pour aller plus loin : Combien coûte l’utilisation de Xiaomi MiMo V2.5 en 2026, Tarification MiMo V2-Pro & Omni et comment utiliser l’API, Programme de jetons gratuits Xiaomi MiMo Orbit 100T.

Alibaba Qwen : le cheval de trait de la production

Modèles : Qwen3 Max à 0,78 $ en entrée, 3,90 $ en sortie, 0,156 $ pour le cache, 262K de contexte. Le nouveau Qwen 3.7 Max à 2,50 $/MTok d’entrée avec 1M de contexte est en cours de déploiement. Les tarifs sont vérifiés via la fiche Qwen3 Max de pricepertoken.

Qwen3 Max est le produit phare d’Alibaba et l’un des modèles chinois les plus déployés en production internationale. Il n’est pas le moins cher, mais il combine compatibilité OpenAI, compatibilité Anthropic, hébergement Alibaba Cloud et contexte de 262K.

À utiliser pour

  • Production multilingue.
  • Applications avec trafic en mandarin ou langues asiatiques.
  • Déploiements nécessitant options cloud, régions et SLA entreprise.
  • Charges de travail entre 200K et 262K de contexte.

À éviter pour

  • Génération à forte sortie très sensible au coût.
  • Cas où DeepSeek donne une qualité suffisante pour 4,5 fois moins cher en sortie.

Pour aller plus loin : Qwen 3 vs OpenAI & DeepSeek : comparaison technique approfondie pour les développeurs d’API.

Moonshot Kimi : le spécialiste du codage et du cache

Modèles : Kimi K2.6 avec tarification d’entrée par niveaux de contexte, de 0,16 $ à 2,00 $/MTok sur les bandes 8K, 32K, 64K et 128K ; 0,07 $/MTok pour les résultats en cache ; environ 2,50 $/MTok en sortie dans la bande médiane.

Kimi K2.6 est particulièrement intéressant si vous réutilisez un gros préfixe : prompt système, instructions d’agent, exemples few-shot, règles métier, schémas JSON ou contexte stable. Dans ce cas, le prix du cache devient le facteur principal.

À utiliser pour

  • Agents de codage.
  • Workflows de type Claude Code.
  • Sessions longues avec prompt système stable.
  • Chatbots de support client avec persona et règles stables.
  • Pipelines RAG où une partie du contexte reste identique.

À éviter pour

  • Requêtes très variables où le préfixe change souvent.
  • Budgets nécessitant une prédictibilité stricte.
  • Charges où les transitions 32K, 64K et 128K peuvent multiplier la facture.

Checklist cache pour Kimi

  • Gardez les instructions système dans le même ordre.
  • Évitez d’injecter des timestamps dans le préfixe.
  • Séparez le contexte stable du contexte utilisateur.
  • Versionnez vos prompts système pour mesurer les cache misses.

Pour aller plus loin : La tarification de l’API Kimi K2 vaut-elle vraiment le battage médiatique pour les développeurs en 2026.

Zhipu GLM : le challenger du raisonnement

Modèles : GLM-5 à 1,00 $ en entrée, 3,20 $ en sortie, 200K de contexte ; GLM-5.1 à 0,98 $ / 3,08 $, 200K de contexte. Les tarifs sont vérifiés via l’aperçu officiel des prix de Z.AI.

GLM-5 n’est pas positionné comme le moins cher. Son intérêt se situe dans les tâches de raisonnement structuré, les chaînes de pensée et les scénarios où une mauvaise réponse coûte plus cher que les jetons.

À utiliser pour

  • Mathématiques.
  • Raisonnement formel.
  • Analyse financière.
  • Résumé juridique.
  • Raisonnement scientifique.
  • Agents multi-étapes nécessitant des traces de raisonnement claires.

À éviter pour

  • Génération de contenu standard.
  • Résumé simple.
  • Applications où le coût brut est le critère principal.

Pour aller plus loin : GLM-5 vs DeepSeek V3 vs GPT-5 : vitesse, coût et comparaison pratique pour les développeurs, GLM-5.1 vs Claude, GPT, Gemini, DeepSeek.

Le moins cher par charge de travail : matrice d’achat

Charge de travail Gagnant Pourquoi
Génération de code avec forte sortie DeepSeek V4-Pro 0,87 $/MTok en sortie
RAG de documents longs (>300K) Xiaomi MiMo V2.5 Pro 1M de contexte à prix fixe
Agent de codage avec prompt stable Kimi K2.6 0,07 $/MTok pour le cache
Support client multilingue Alibaba Qwen3 Max Très bon niveau hors anglais
Mathématiques et analyse structurée Zhipu GLM-5 Raisonnement structuré plus fort

Trois stratégies pratiques :

  1. Routage à deux modèles

    Envoyez 70 à 85 % du trafic vers DeepSeek V4-Pro et gardez un modèle secondaire pour les cas difficiles.

  2. Segmentation court/long contexte

    Envoyez les requêtes courtes vers DeepSeek et les longues vers MiMo.

  3. Consolidation des préfixes de cache

    Standardisez vos prompts système pour maximiser les cache hits, quel que soit le fournisseur.

Exemple de routage simplifié :

function chooseModel({ inputTokens, needsReasoning, stableSystemPrompt, language }) {
  if (inputTokens > 300_000) return "mimo-v2.5-pro";
  if (needsReasoning) return "glm-5";
  if (stableSystemPrompt) return "kimi-k2.6";
  if (language !== "en") return "qwen3-max";
  return "deepseek-v4-pro";
}
Enter fullscreen mode Exit fullscreen mode

Notes sur la qualité et les benchmarks

Le prix ne suffit pas. Selon Artificial Analysis, les cinq modèles se situent à 5 à 10 points de pourcentage les uns des autres sur la plupart des benchmarks publics. Les écarts importants se voient surtout en queue de distribution :

  • DeepSeek V4-Pro : fort en codage et raisonnement, avec un léger écart face à GPT-5.5 sur les tâches d’agents longues.
  • MiMo V2.5 Pro : fort en récupération de contexte long, milieu de peloton en codage.
  • Qwen3 Max : meilleure performance non-anglaise et bonne qualité générale.
  • Kimi K2.6 : excellente conformité aux formats d’appel d’outils.
  • GLM-5 : meilleure qualité de raisonnement structuré dans cet ensemble.

Avant de migrer, évaluez au minimum 100 échantillons issus de votre trafic réel :

- 40 cas fréquents
- 30 cas longs ou coûteux
- 20 cas limites
- 10 cas critiques métier
Enter fullscreen mode Exit fullscreen mode

Mesurez :

  • exactitude ;
  • conformité JSON ;
  • latence P50/P95 ;
  • taux d’erreur ;
  • coût par requête ;
  • coût par tâche réussie.

Tester les cinq avec Apidog

Un déploiement multi-modèles nécessite un harnais de test multi-modèles. Apidog permet de tester les cinq API depuis un seul espace de travail, car elles acceptent des corps de requête proches du format OpenAI Chat Completions, avec quelques différences de compatibilité.

Interface Apidog

Workflow recommandé :

  1. Créez un environnement par fournisseur :

    • api.deepseek.com
    • platform.xiaomimimo.com
    • Alibaba Cloud Model Studio
    • api.moonshot.cn
    • open.bigmodel.cn
  2. Importez le schéma OpenAI Chat Completion une seule fois.

  3. Changez uniquement l’URL de base et la clé API selon l’environnement.

  4. Exécutez le même scénario de test sur les cinq modèles.

  5. Comparez :

    • réponse ;
    • score métier ;
    • latence ;
    • tokens d’entrée ;
    • tokens de sortie ;
    • coût estimé.
  6. Ajoutez une validation JSON Schema pour les formes tool_calls.

Exemple de payload de test réutilisable :

{
  "model": "{{model}}",
  "messages": [
    {
      "role": "system",
      "content": "Tu es un assistant technique. Réponds en JSON valide."
    },
    {
      "role": "user",
      "content": "Analyse cette erreur API et propose trois corrections."
    }
  ],
  "temperature": 0.2
}
Enter fullscreen mode Exit fullscreen mode

Téléchargez Apidog, importez vos cas de test et comparez les cinq fournisseurs. C’est le même flux recommandé dans les analyses par modèle : Baisse permanente de DeepSeek V4-Pro, Coût de MiMo V2.5, Tarification Kimi K2.

Où va la guerre des prix ensuite

Le prix plancher a bougé deux fois en mai. Trois évolutions sont probables :

  • Réponse de Qwen : Alibaba suit souvent les baisses après quelques semaines. Une révision de Qwen3 Max ou une annonce autour de Qwen 3.8 est probable d’ici juillet.
  • Réponse de GLM : l’augmentation de 30 % sur GLM-5 paraît à contre-courant. Un GLM-5.2 avec baisse structurelle est plausible.
  • Simplification de Kimi : la tarification par niveaux de contexte devient moins attractive. Moonshot pourrait stabiliser K2.6 sur une structure plus proche de MiMo.

Plan d’action

  1. Exportez vos logs de requêtes LLM sur 7 à 30 jours.
  2. Calculez input tokens, output tokens, cached tokens et longueur P95.
  3. Mappez chaque workload à la matrice ci-dessus.
  4. Testez au moins deux modèles candidats sur 100 échantillons réels.
  5. Mesurez le coût par tâche réussie, pas seulement le coût par token.
  6. Standardisez vos prompts système pour améliorer le cache.
  7. Mettez en place une suite de régression Apidog pointant vers les cinq fournisseurs.

Le prix plancher n’a probablement pas fini de baisser. Construisez votre pile pour pouvoir changer de modèle en heures, pas en semaines.

Top comments (0)