DeepSeek V4 a été lancé le 23 avril 2026 avec quatre checkpoints, une API en direct et des poids sous licence MIT sur Hugging Face. Vous pouvez l’utiliser en accès instantané, via API de production, ou en déploiement sur site. Ce guide montre comment choisir la meilleure approche selon vos besoins, détaille les compromis, et propose un flux de prompt prêt à l'emploi pour la production.
Essayez Apidog dès aujourd'hui
Si vous voulez une vue d’ensemble produit, lisez d'abord qu'est-ce que DeepSeek V4. Pour l’API complète, suivez le guide de l'API DeepSeek V4. Pour utiliser DeepSeek gratuitement, consultez comment utiliser DeepSeek V4 gratuitement. Pour tester les requêtes API, téléchargez Apidog et pré-construisez la collection.
TL;DR
- Chemin le plus rapide : chat.deepseek.com. Chat web gratuit, V4-Pro par défaut, trois modes de raisonnement.
- Chemin de production :
https://api.deepseek.com/v1/chat/completionsavec les modèlesdeepseek-v4-prooudeepseek-v4-flash. - Chemin auto-hébergé : téléchargez les poids sur Hugging Face et exécutez les scripts
/inferencedu dépôt. - Utilisez **Non-Think** pour le routage et la classification, **Think High** pour le code et l’analyse, **Think Max** seulement si la précision prime sur le coût.
- Paramètres recommandés :
temperature=1.0, top_p=1.0. - Apidog comme client API. Format compatible OpenAI : une requête sauvegardée fonctionne sur DeepSeek, OpenAI et Anthropic.
Choisissez le bon chemin pour votre charge de travail
Quatre options réalistes, chacune optimisée pour un usage différent :
| Chemin | Coût | Temps d'installation | Idéal pour |
|---|---|---|---|
| chat.deepseek.com | Gratuit | 30 secondes | Tests rapides, travail ad-hoc |
| API DeepSeek | Facturation par jeton | 5 minutes | Production, agents, batchs |
| V4-Flash auto-hébergé | Coût matériel seulement | Quelques heures | Conformité, inférence hors-ligne |
| V4-Pro auto-hébergé | Coût cluster seulement | Une journée | Recherche, ajustements personnalisés |
| OpenRouter / agrégateur | Facturation par jeton | 2 minutes | Multi-fournisseurs |
Chemin 1 : Utiliser V4 dans le chat web
Pour tester V4 rapidement :
- Accédez à chat.deepseek.com.
- Connectez-vous (email, Google, WeChat).
- V4-Pro est par défaut. Sélectionnez Non-Think, Think High ou Think Max en haut du composeur.
- Saisissez votre prompt.
Le chat web prend en charge les uploads de fichiers, la recherche web, et jusqu'à 1M de jetons de contexte. Utilisez-le pour diagnostiquer une trace d’erreur, résumer un PDF volumineux, ou comparer V4 à GPT-5.5/Claude. À éviter pour les automatisations ou les tâches répétables.
Chemin 2 : Utiliser l'API DeepSeek
L’API DeepSeek est compatible OpenAI et adaptée à la production. Les modèles deepseek-v4-pro et deepseek-v4-flash sont maintenus après la dépréciation de deepseek-chat (juillet 2026).
Obtenir une clé API
- Inscrivez-vous sur platform.deepseek.com.
- Ajoutez un moyen de paiement (minimum 2 $).
- Créez une clé API dans Clés API et copiez-la (visible une seule fois).
Exportez la clé pour vos clients :
export DEEPSEEK_API_KEY="sk-..."
Exemple de requête minimale
Utilisez l’interface compatible OpenAI :
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
],
"thinking_mode": "thinking"
}'
Remplacez deepseek-v4-pro par deepseek-v4-flash pour réduire les coûts, et thinking par non-thinking pour la rapidité.
Client Python
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "You are a concise senior engineer."},
{"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
Client Node
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
Pour les détails avancés (paramètres, gestion erreurs), voir le guide de l'API DeepSeek V4.
Chemin 3 : Itérer avec Apidog
Curl suffit pour un test, mais Apidog permet d’itérer efficacement sans gaspiller de crédits ni surcharger le terminal.
- Téléchargez Apidog pour Mac, Windows ou Linux.
- Créez un projet API, ajoutez une requête POST vers
https://api.deepseek.com/v1/chat/completions. - Ajoutez l’en-tête
Authorization: Bearer {{DEEPSEEK_API_KEY}}et stockez la clé en variable d’environnement. - Collez le JSON du corps de requête, sauvegardez. Chaque modification est rejouable en un clic.
- Utilisez la visionneuse intégrée pour comparer Non-Think vs Think Max sur un même prompt.
Vous pouvez mixer des requêtes OpenAI, Claude et DeepSeek dans une même collection pour des tests A/B multi-fournisseurs et un suivi centralisé de la facturation. Pour passer de GPT-5.5 à V4, changez juste l’URL de base. Voir la collection d’API GPT-5.5 correspondante.
Chemin 4 : Auto-héberger V4-Flash
Pour la conformité ou la maîtrise des coûts, la licence MIT permet l’auto-hébergement complet.
Matériel requis
- V4-Flash (13B actif, 284B total) : 2–4 H100/H200/MI300X en FP8, ou une carte 80Go quantifiée INT4.
- V4-Pro (49B actif, 1.6T total) : 16–32 H100 pour l’inférence production.
Télécharger les poids
# Installer le CLI Hugging Face
pip install -U "huggingface_hub[cli]"
# Connexion (V4 est public mais login = +de débit)
huggingface-cli login
# Télécharger V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
V4-Flash = ~500 Go (FP8). V4-Pro = plusieurs To.
Lancer l’inférence
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
Une fois vLLM lancé, utilisez http://localhost:8000/v1 comme base URL dans vos clients compatibles OpenAI (ou Apidog).
Élaborer des prompts efficaces pour V4
-
Spécifiez explicitement le mode de raisonnement. Définissez
thinking_modepour chaque tâche. - Utilisez le prompt système pour la persona, pas pour la tâche. Décrivez la tâche dans le message utilisateur.
- Pour le code, fournissez un harnais de test. Collez un test échoué à corriger plutôt qu’une demande vague.
Pour le contexte long, placez le contenu le plus important en début et fin d’input (biais de primauté/récence).
Contrôle des coûts
- Utilisez V4-Flash par défaut. Passez à V4-Pro seulement si la qualité le justifie.
- Préférez Non-Think. Passez à Think High pour les tâches complexes, Think Max pour les exigences critiques.
-
Limitez
max_tokens. 1M est une limite haute, la plupart des réponses sont sous 2 000 tokens.
Dans Apidog, stockez DEEPSEEK_API_KEY dans l’environnement pour séparer facturation test/production. Apidog affiche aussi le nombre de tokens par réponse pour surveiller les prompts volumineux.
Migration depuis DeepSeek V3 ou autres modèles
-
Depuis
deepseek-chat/deepseek-reasoner: remplacez l’ID modèle pardeepseek-v4-prooudeepseek-v4-flashavant le 24 juillet 2026. -
Depuis OpenAI GPT-5.x : changez l’URL de base pour
https://api.deepseek.com/v1et l’ID modèle uniquement. Voir le guide GPT-5.5 pour la syntaxe. -
Depuis Anthropic Claude : utilisez
https://api.deepseek.com/anthropicpour garder le format message Anthropic, ou passez au format OpenAI avec le point de terminaison principal.
FAQ
Ai-je besoin d’un compte payant pour V4 ? Le chat web est gratuit. L’API nécessite un minimum de 2 $ de recharge. Voir comment utiliser DeepSeek V4 gratuitement pour les options sans frais.
Quelle variante utiliser par défaut ? V4-Flash en Non-Think, puis montez en gamme selon la qualité requise.
Puis-je exécuter V4 sur mon MacBook ? V4-Flash fonctionne sur M3/M4 Max avec 128 Go, lentement. V4-Pro non. Pour test local, préférez l’API ou le chat web.
V4 supporte-t-il l’appel de fonctions/outils ? Oui, le point compatible OpenAI accepte le champ tools. Les réponses incluent tool_calls. Le point Anthropic accepte le format natif.
Comment streamer les réponses ? Ajoutez stream: true dans le body. Flux SSE standard compatible OpenAI.
Y a-t-il une limite de débit ? L’API hébergée indique les limites par niveau sur api-docs.deepseek.com. En auto-hébergement, seule la capacité du matériel limite le débit.


Top comments (0)