DeepSeek V4 est disponible depuis le 23 avril 2026 avec une licence MIT sur Hugging Face, un changement majeur pour les équipes souhaitant déployer une IA avancée sur leur propre infrastructure. V4-Flash (284 milliards de paramètres, 13 milliards actifs) fonctionne sur deux H100 en FP8. V4-Pro (1,6 To, 49 milliards actifs) nécessite un cluster, mais rivalise avec GPT-5.5 et Claude Opus 4.6 pour le code et le raisonnement.
Essayez Apidog dès aujourd'hui
Ce guide fournit un mode d'emploi pour déployer DeepSeek V4 localement : exigences matérielles, quantification, configurations vLLM et SGLang, utilisation des outils, et workflow de validation avec Apidog avant toute mise en production.
Pour un aperçu du produit, consultez qu'est-ce que DeepSeek V4. Pour utiliser l'API hébergée, voyez comment utiliser l'API DeepSeek V4. Pour la comparaison des coûts, voyez tarification de l'API DeepSeek V4.
En bref
- V4-Flash tourne sur 2 × H100 80 Go en FP8, ou 1 × H100 en INT4 (~500 Go de poids en FP8).
- V4-Pro requiert au moins 16 H100 en FP8 pour un usage production. Pas pour laptop.
-
vLLM est le moyen le plus rapide pour exposer une API compatible OpenAI.
vllm>=0.9.0supporte V4. - SGLang est préférable pour l'utilisation d'outils et la sortie structurée.
- Quantification AWQ INT4 ou GPTQ INT4 : V4-Flash tient sur 1 carte de 80 Go (~5% de perte de qualité).
- Utilisez Apidog pour pointer vers
http://localhost:8000/v1avec votre collection existante.
Qui devrait auto-héberger
L'auto-hébergement de V4 est pertinent pour :
- Exigences de conformité (santé, finance, juridique, défense) : données sur site, licence MIT sans restrictions.
- Charges importantes et stables : au-delà de 200 milliards de tokens/mois, le matériel dédié devient rentable.
- Réglage fin et recherche : checkpoints de base prévus pour la pré-formation continue, licence MIT pour la redistribution.
À éviter si : vous prototypez, n'avez pas d'expérience GPU, ou si vos coûts API hébergée < 200 $/mois.
Exigences matérielles
DeepSeek V4 utilise en natif la précision mixte FP4 + FP8. La VRAM requise dépend du modèle et du niveau de quantification.
| Variante | Paramètres totaux | Paramètres actifs | VRAM FP8 | VRAM INT4 | Cartes minimum |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500Go | ~140Go | 2 × H100 80Go (FP8) ou 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4To | ~700Go | 16 × H100 80Go (FP8) ou 8 × H100 (INT4) |
- Mémoire MoE : toute la VRAM pour tous les experts, pas seulement les actifs.
- H200/MI300X : VRAM plus élevée = moins de cartes.
- GPU grand public : insuffisant, même en INT4 sur RTX 5090.
- Apple Silicon : M3 Max/M4 Max (128 Go) peuvent lancer V4-Flash quantifié, mais très lentement.
Étape 1 : Télécharger les poids
Dépôts officiels :
- deepseek-ai/DeepSeek-V4-Flash
- deepseek-ai/DeepSeek-V4-Pro
-
deepseek-ai/DeepSeek-V4-Flash-BaseetDeepSeek-V4-Pro-Basepour le fine-tuning.
Installez la CLI et téléchargez :
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Prévoyez 500 Go (V4-Flash) à plusieurs To (V4-Pro). ModelScope propose les mêmes checkpoints, plus rapide depuis la Chine.
Étape 2 : Choisir un moteur de service
- vLLM : meilleur débit, API OpenAI la plus standard, communauté active. Par défaut.
- SGLang : primitives avancées pour outils/fonctions, sortie structurée, meilleur gestion des contextes longs.
Les deux supportent V4 dès les dernières versions.
Étape 3 : Servir V4-Flash avec vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
-
--tensor-parallel-size 2: split sur 2 H100 (augmentez selon le nombre de cartes). -
--max-model-len 1048576: contexte 1M tokens. Diminuez pour économiser de la VRAM. -
--enable-prefix-caching: accélère les prompts répétés (prix cache API reproduit). -
--dtype auto: respecte la précision mixte FP8.
Le serveur expose /v1 compatible OpenAI.
Étape 4 : Servir V4-Pro avec vLLM
V4-Pro nécessite un cluster.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
Ajustez le contexte et le parallélisme selon la VRAM disponible.
Étape 5 : Servir avec SGLang (utilisation d'outils)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang expose /v1 compatible OpenAI sur le port 30000. Son DSL lang facilite l'appel de fonctions et la sortie JSON.
Étape 6 : Quantifier pour un seul GPU
AWQ (recommandé) :
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ :
pip install auto-gptq
# Suivez la recette GPTQ, similaire à AWQ.
Servez le modèle quantifié avec vLLM via --quantization awq ou --quantization gptq.
Étape 7 : Tester avec Apidog
Validez d'abord le serveur local avant tout trafic en production.
- Téléchargez Apidog.
- Créez une collection pointant vers
http://localhost:8000/v1/chat/completions. - Utilisez la même invite de test qu'avec l'API hébergée. Comparez les résultats.
- Testez un contexte de 500K tokens pour valider le cache KV.
- Testez un flux d'appel d'outils avant d'intégrer un agent.
La collection utilisée pour l'API DeepSeek V4 hébergée fonctionne localement sans autre modification que l'URL de base.
Observabilité et surveillance
Surveillez ces 4 métriques :
-
Tokens/secondes (invite/génération) : exposé sur
/metrics(Prometheus). -
Usage GPU : via
nvidia-smiou DCGM ; <70% indique souvent un batch size sous-optimal. -
Taux d'accès au cache KV : avec
--enable-prefix-caching, baisse = rotation trop rapide des prompts. - Latence p50/p95/p99 : traçage standard ; un p99 qui grimpe indique un blocage de file.
Intégrez le tout dans Grafana ou votre stack d'observabilité.
Réglage fin (fine-tuning) des checkpoints de base V4
Utilisez les checkpoints de base pour pré-formation continue ou SFT.
pip install "torch>=2.6" transformers accelerate peft trl
# SFT standard avec LoRA sur V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
Le fine-tuning complet sur V4-Pro est réservé à la recherche avancée. Pour la majorité des équipes, LoRA sur V4-Flash-Base offre un excellent compromis.
Pièges courants
-
OOM au démarrage :
--max-model-lentrop haut ou--tensor-parallel-sizetrop bas. Diminuez le contexte ou augmentez le parallélisme. - Première requête lente : vLLM compile les kernels à la volée. Préchauffez avec une requête factice.
- Erreurs d'utilisation d'outils : l'encodage DeepSeek diffère légèrement d'OpenAI. Fixez votre SDK à une version compatible V4.
- Erreurs FP8 sur anciens GPU : A100 ne supporte pas FP8. Utilisez BF16 (doublez la VRAM attendue).
Quand l'auto-hébergement est rentable
Calcul basé sur la tarification de l'API DeepSeek V4 :
- V4-Flash, 200B tokens d'entrée/mois + 20B de sortie : ~33,6K$ sur l'API. Un boîtier 8 × H100 = ~20K$/mois en location. Économie ~40%.
- V4-Pro, 500B entrée + 50B sortie/mois : ~1,04M$ sur l'API. Cluster 16 × H100 = ~35K$/mois. Économie >95%.
Le seuil de rentabilité pour V4-Flash : ~100 milliards de tokens/mois. En-dessous, l'API hébergée reste la meilleure option.
FAQ
Puis-je exécuter V4-Flash sur une A100 ?
Oui en INT4 et contexte court, mais lentement (5–15 tok/s). La H100 est la cible idéale.
V4 supporte-t-il le fine-tuning LoRA ?
Oui, avec les checkpoints de base et les pipelines TRL/Axolotl standards. MoE ne gêne pas LoRA.
Le serveur local est-il compatible OpenAI ?
Oui, vLLM/SGLang exposent /v1/chat/completions et /v1/completions. Le guide de l'API hébergée fonctionne sans changement contre localhost.
Comment activer le mode réflexion localement ?
Ajoutez thinking_mode: "thinking" ou "thinking_max" dans la requête. vLLM et SGLang transmettent ce paramètre.
Peut-on streamer depuis un serveur local V4 ?
Oui, définissez stream: true comme pour OpenAI ou l'API DeepSeek.
Comment tester avant d'investir dans du matériel ?
Louez une H100 sur RunPod/Lambda, exécutez V4-Flash en INT4, mesurez le débit réel. Moins de 30$ pour un test rapide.

Top comments (0)