Antoine Laurent

Posted on Apr 24 • Originally published at apidog.com

Prix API DeepSeek V4

DeepSeek a publié les tarifs V4 le jour même du lancement des modèles, le 23 avril 2026. Ces nouveaux prix redéfinissent le plancher pour l’IA de pointe : **0,14 $ par million de jetons d'entrée et 0,28 $ par million de jetons de sortie** pour V4-Flash, et **1,74 $ en entrée et 3,48 $ en sortie** pour V4-Pro. Les deux modèles offrent une fenêtre de contexte de 1 million de jetons et jusqu’à 384 000 jetons de sortie. Une remise agressive s’applique automatiquement sur les requêtes en cache, réduisant les coûts d’entrée de 80 % à 90 % sur les invites répétées.

Essayez Apidog aujourd’hui

Ce guide détaille la grille tarifaire, explique comment la mise en cache du contexte modifie le coût réel par appel, propose une comparaison avec GPT-5.5 et Claude Opus, et présente quatre méthodes pour garder vos dépenses prévisibles dans Apidog.

Pour un aperçu du produit, consultez qu'est-ce que DeepSeek V4. Pour le guide du développeur, consultez comment utiliser l'API DeepSeek V4. Pour les solutions gratuites, consultez comment utiliser DeepSeek V4 gratuitement.

En bref

V4-Flash : 0,14 $ / M en entrée (cache manqué), 0,028 $ / M en entrée (cache réussi), 0,28 $ / M en sortie.
V4-Pro : 1,74 $ / M en entrée (cache manqué), 0,145 $ / M en entrée (cache réussi), 3,48 $ / M en sortie.
Fenêtre de contexte : 1 million de jetons en entrée, 384 000 jetons en sortie, pour les deux variantes.
Remise sur les requêtes en cache : environ 80 % de réduction pour Flash, 92 % de réduction pour Pro sur les préfixes répétés.
deepseek-chat et deepseek-reasoner seront dépréciés le 24 juillet 2026 ; la facturation correspondra à V4-Flash.
Aux taux de cache manqué, V4-Pro est environ 2,9 fois moins cher que GPT-5.5 en entrée et environ 8,6 fois moins cher en sortie.

La grille tarifaire complète

Modèle	Entrée (cache manqué)	Entrée (cache réussi)	Sortie	Contexte
`deepseek-v4-flash`	0,14 $ / M	0,028 $ / M	0,28 $ / M	1M / 384K
`deepseek-v4-pro`	1,74 $ / M	0,145 $ / M	3,48 $ / M	1M / 384K
`deepseek-chat` (déprécié)	V4-Flash non-réflexion	—	—	—
`deepseek-reasoner` (déprécié)	V4-Flash réflexion	—	—	—

Trois points clés à retenir :

Les prix dépendent uniquement de l’ID du modèle (deepseek-v4-flash ou deepseek-v4-pro), pas du mode de raisonnement. Le mode modifie seulement la quantité de jetons consommés.
La tarification des requêtes en cache est automatique. Si le préfixe (≥ 1 024 jetons, identique à l’octet près) est répété pour le même compte, la remise s’applique sans configuration.
Les anciens IDs (deepseek-chat, deepseek-reasoner) sont déjà facturés comme V4-Flash. La migration reste possible jusqu’au 24 juillet 2026.

La mise en cache du contexte en pratique

La mise en cache est le principal levier pour réduire vos coûts sur DeepSeek V4. Tout segment d’invite ou de contexte qui se répète entre appels (par exemple longue invite système, schémas d’outils, contexte RAG) est automatiquement facturé à un tarif réduit lors des appels suivants.

Exemple concret :

Agent avec invite système de 20 000 jetons (fixe)
100 questions utilisateur de 200 jetons chacune

Sans mise en cache :

Entrée : 100 × 20 200 jetons × 1,74 $/M = 3,52 $
Sortie : 100 × 500 jetons × 3,48 $/M = 0,17 $
Total : 3,69 $

Avec mise en cache (1 appel manqué, 99 en cache réussi) :

Entrée premier appel : 20 200 × 1,74 $/M = 0,035 $
99 préfixes suivants en cache réussi : 99 × 20 000 × 0,145 $/M = 0,287 $
99 requêtes utilisateur (hors cache) : 99 × 200 × 1,74 $/M = 0,034 $
Sortie : 100 × 500 × 3,48 $/M = 0,174 $
Total : 0,53 $

Environ 7 fois moins cher pour une charge de travail identique. Sur V4-Flash, l’effet est encore plus marqué.

Comparaison avec GPT-5.5 et Claude

Modèle	Entrée (standard)	Entrée (en cache)	Sortie	Contexte
DeepSeek V4-Flash	0,14 $ / M	0,028 $ / M	0,28 $ / M	1M
DeepSeek V4-Pro	1,74 $ / M	0,145 $ / M	3,48 $ / M	1M
GPT-5.5	5 $ / M	1,25 $ / M	30 $ / M	1M
GPT-5.5 Pro	30 $ / M	—	180 $ / M	1M
Claude Opus 4.6	15 $ / M	1,50 $ / M	75 $ / M	200K

Analyse :

V4-Pro coûte ~8,6 fois moins cher que GPT-5.5 pour la sortie, et ~21 fois moins cher que Claude Opus 4.6. La sortie est souvent le principal poste de dépense.
En entrée mise en cache, V4-Pro est ~10 fois moins cher que GPT-5.5 et Claude.
Performance : V4-Pro égale ou dépasse GPT-5.5 sur LiveCodeBench (93,5) et Codeforces (3206) pour une fraction du coût. Voir le tableau complet des benchmarks dans qu'est-ce que DeepSeek V4.

Attention : Claude reste devant sur les tâches de récupération de contexte long, et Gemini 3.1 Pro est leader sur MMLU-Pro. Si la précision sur de très longs contextes est critique, l’écart de prix ne compensera pas toujours la différence de qualité.

Modélisation des coûts pour les charges de travail courantes

Voici le coût estimé de quatre scénarios types sur V4-Pro (cache manqué ; ajoutez la remise cache réussi le cas échéant).

1. Boucle de codage d’agent (contexte 50K, sortie 2K, 20 appels)

Entrée : 50 000 × 20 × 1,74 $/M = 1,74 $
Sortie : 2 000 × 20 × 3,48 $/M = 0,14 $
Coût par tâche : ~1,88 $ (vs ~6,20 $ sur GPT-5.5)

2. Q/R sur documents longs (contexte 500K, sortie 1K)

Entrée : 500 000 × 1,74 $/M = 0,87 $
Sortie : 1 000 × 3,48 $/M = 0,003 $
Coût par appel : ~0,87 $ (vs ~2,53 $ sur GPT-5.5)

3. Classification à haut volume (contexte 2K, sortie 200, 10 000 appels)

Utilisez V4-Flash pour ce cas ; V4-Pro est surdimensionné.

Entrée : 2 000 × 10 000 × 0,14 $/M = 2,80 $
Sortie : 200 × 10 000 × 0,28 $/M = 0,56 $
Coût d’exécution : ~3,36 $ (vs ~110 $ sur GPT-5.5)

4. Chatbot à invite répétée (invite système 10K, 500 jetons utilisateur, 1K sortie, 1 000 sessions)

Entrée premier appel : 10 500 × 1,74 $/M = 0,018 $
999 invites système en cache réussi : 999 × 10 000 × 0,145 $/M = 1,45 $
999 requêtes utilisateur hors cache : 999 × 500 × 1,74 $/M = 0,87 $
Sortie : 1 000 × 1 000 × 3,48 $/M = 3,48 $
Coût total : ~5,82 $ (vs ~26,35 $ sur GPT-5.5 avec cache)

Coûts cachés à surveiller

Quatre éléments peuvent gonfler la facture si vous ne les contrôlez pas :

Inflation des jetons en mode réflexion. thinking_max peut consommer 3 à 10 fois plus de jetons de sortie. Limitez-le via un flag.
Croissance silencieuse du contexte. Les boucles d’agent qui renvoient tout le contexte à chaque itération font exploser la facture avec des fenêtres de 1M jetons. Tronquez ou résumez le contexte.
Tempêtes de tentatives. Un bug qui relance à chaque erreur 500 peut doubler vos coûts très vite. Implémentez une temporisation exponentielle et un plafond de tentatives.
Frictions de développement. Utiliser curl pour itérer sur une invite fait repayer le contexte complet à chaque fois. Utilisez Apidog : la substitution de variables rend l’itération quasi-gratuite.

Suivre les coûts dans Apidog

Optimisez le suivi des coûts avec ce workflow :

Téléchargez Apidog et stockez votre DEEPSEEK_API_KEY comme variable secrète par environnement.
Créez une requête POST vers https://api.deepseek.com/v1/chat/completions.
Dans le panneau de réponse, épinglez usage.prompt_tokens, usage.completion_tokens, usage.reasoning_tokens pour voir le calcul des coûts à chaque appel.
Paramétrez model et thinking_mode pour tester simplement V4-Flash vs V4-Pro, ou Non-Think vs Think Max, sans dupliquer les requêtes.
Dupliquez la collection pour GPT-5.5 (voir le guide API GPT-5.5). Une seule interface, coûts comparés en direct.

Ce workflow détecte environ 80 % des surprises de coût avant la facture de fin de mois.

Quatre règles pour des dépenses prévisibles

Utilisez V4-Flash par défaut. Passez à V4-Pro uniquement si un gain de qualité mesuré a un impact business.
Utilisez Non-Think par défaut. Passez à Think High pour les tâches complexes, Think Max seulement si la justesse absolue est requise.
Limitez max_tokens. Le plafond de 384 000 jetons est une sécurité, pas un objectif. En production, visez 2 000 jetons par réponse.
Intégrez la télémétrie d’utilisation. Loggez prompt_tokens, completion_tokens, reasoning_tokens à chaque appel et alertez sur les pics de reasoning.

FAQ

Existe-t-il un niveau gratuit ?

Il n’existe pas de niveau d’API gratuit, mais les nouveaux comptes reçoivent parfois un petit crédit d’essai. Pour des solutions gratuites, consultez comment utiliser DeepSeek V4 gratuitement.

Comment fonctionne la tarification des requêtes en cache ?

Tout préfixe d’au moins 1 024 jetons répété à l’identique pour un même compte déclenche la remise cache. Le 1er appel paie le plein tarif, les suivants paient le tarif réduit. C’est automatique.

Les modes de réflexion coûtent-ils plus cher ?

Non, le tarif par jeton reste identique. Les modes de réflexion génèrent simplement plus de jetons (traces de raisonnement). Surveillez reasoning_tokens dans l’objet usage pour estimer le coût réel.

La tarification est-elle stable ?

DeepSeek ajuste périodiquement ses tarifs. Les tarifs V3.2 sont restés stables toute l’année 2025 ; V4 n’a pas de date de fin annoncée. Vérifiez la page de tarification en direct avant tout engagement.

V4-Pro et V4-Flash partagent-ils le même tarif de sortie ?

Non. V4-Pro : 3,48 $/M. V4-Flash : 0,28 $/M. Le ratio de 12,4x justifie d’utiliser V4-Flash par défaut.

Le point de terminaison Anthropic modifie-t-il la tarification ?

Non. https://api.deepseek.com/anthropic applique les mêmes tarifs que le point de terminaison OpenAI. Le format d’API n’influence pas la facturation.

DEV Community