DEV Community

Cover image for Comment exécuter DeepSeek V4 localement ?
Antoine Laurent
Antoine Laurent

Posted on • Originally published at apidog.com

Comment exécuter DeepSeek V4 localement ?

DeepSeek V4 est disponible depuis le 23 avril 2026 avec une licence MIT sur Hugging Face, un changement majeur pour les équipes souhaitant déployer une IA avancée sur leur propre infrastructure. V4-Flash (284 milliards de paramètres, 13 milliards actifs) fonctionne sur deux H100 en FP8. V4-Pro (1,6 To, 49 milliards actifs) nécessite un cluster, mais rivalise avec GPT-5.5 et Claude Opus 4.6 pour le code et le raisonnement.

Essayez Apidog dès aujourd'hui

Ce guide fournit un mode d'emploi pour déployer DeepSeek V4 localement : exigences matérielles, quantification, configurations vLLM et SGLang, utilisation des outils, et workflow de validation avec Apidog avant toute mise en production.

Pour un aperçu du produit, consultez qu'est-ce que DeepSeek V4. Pour utiliser l'API hébergée, voyez comment utiliser l'API DeepSeek V4. Pour la comparaison des coûts, voyez tarification de l'API DeepSeek V4.

En bref

  • V4-Flash tourne sur 2 × H100 80 Go en FP8, ou 1 × H100 en INT4 (~500 Go de poids en FP8).
  • V4-Pro requiert au moins 16 H100 en FP8 pour un usage production. Pas pour laptop.
  • vLLM est le moyen le plus rapide pour exposer une API compatible OpenAI. vllm>=0.9.0 supporte V4.
  • SGLang est préférable pour l'utilisation d'outils et la sortie structurée.
  • Quantification AWQ INT4 ou GPTQ INT4 : V4-Flash tient sur 1 carte de 80 Go (~5% de perte de qualité).
  • Utilisez Apidog pour pointer vers http://localhost:8000/v1 avec votre collection existante.

Qui devrait auto-héberger

L'auto-hébergement de V4 est pertinent pour :

  1. Exigences de conformité (santé, finance, juridique, défense) : données sur site, licence MIT sans restrictions.
  2. Charges importantes et stables : au-delà de 200 milliards de tokens/mois, le matériel dédié devient rentable.
  3. Réglage fin et recherche : checkpoints de base prévus pour la pré-formation continue, licence MIT pour la redistribution.

À éviter si : vous prototypez, n'avez pas d'expérience GPU, ou si vos coûts API hébergée < 200 $/mois.

Exigences matérielles

DeepSeek V4 utilise en natif la précision mixte FP4 + FP8. La VRAM requise dépend du modèle et du niveau de quantification.

Variante Paramètres totaux Paramètres actifs VRAM FP8 VRAM INT4 Cartes minimum
V4-Flash 284B 13B ~500Go ~140Go 2 × H100 80Go (FP8) ou 1 × H100 (INT4)
V4-Pro 1.6T 49B ~2.4To ~700Go 16 × H100 80Go (FP8) ou 8 × H100 (INT4)
  • Mémoire MoE : toute la VRAM pour tous les experts, pas seulement les actifs.
  • H200/MI300X : VRAM plus élevée = moins de cartes.
  • GPU grand public : insuffisant, même en INT4 sur RTX 5090.
  • Apple Silicon : M3 Max/M4 Max (128 Go) peuvent lancer V4-Flash quantifié, mais très lentement.

Étape 1 : Télécharger les poids

Dépôts officiels :

Installez la CLI et téléchargez :

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False
Enter fullscreen mode Exit fullscreen mode

Prévoyez 500 Go (V4-Flash) à plusieurs To (V4-Pro). ModelScope propose les mêmes checkpoints, plus rapide depuis la Chine.

Étape 2 : Choisir un moteur de service

  • vLLM : meilleur débit, API OpenAI la plus standard, communauté active. Par défaut.
  • SGLang : primitives avancées pour outils/fonctions, sortie structurée, meilleur gestion des contextes longs.

Les deux supportent V4 dès les dernières versions.

Étape 3 : Servir V4-Flash avec vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000
Enter fullscreen mode Exit fullscreen mode
  • --tensor-parallel-size 2 : split sur 2 H100 (augmentez selon le nombre de cartes).
  • --max-model-len 1048576 : contexte 1M tokens. Diminuez pour économiser de la VRAM.
  • --enable-prefix-caching : accélère les prompts répétés (prix cache API reproduit).
  • --dtype auto : respecte la précision mixte FP8.

Le serveur expose /v1 compatible OpenAI.

Étape 4 : Servir V4-Pro avec vLLM

V4-Pro nécessite un cluster.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000
Enter fullscreen mode Exit fullscreen mode

Ajustez le contexte et le parallélisme selon la VRAM disponible.

Étape 5 : Servir avec SGLang (utilisation d'outils)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000
Enter fullscreen mode Exit fullscreen mode

SGLang expose /v1 compatible OpenAI sur le port 30000. Son DSL lang facilite l'appel de fonctions et la sortie JSON.

Étape 6 : Quantifier pour un seul GPU

AWQ (recommandé) :

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
Enter fullscreen mode Exit fullscreen mode

GPTQ :

pip install auto-gptq
# Suivez la recette GPTQ, similaire à AWQ.
Enter fullscreen mode Exit fullscreen mode

Servez le modèle quantifié avec vLLM via --quantization awq ou --quantization gptq.

Étape 7 : Tester avec Apidog

Validez d'abord le serveur local avant tout trafic en production.

Apidog test

  1. Téléchargez Apidog.
  2. Créez une collection pointant vers http://localhost:8000/v1/chat/completions.
  3. Utilisez la même invite de test qu'avec l'API hébergée. Comparez les résultats.
  4. Testez un contexte de 500K tokens pour valider le cache KV.
  5. Testez un flux d'appel d'outils avant d'intégrer un agent.

La collection utilisée pour l'API DeepSeek V4 hébergée fonctionne localement sans autre modification que l'URL de base.

Observabilité et surveillance

Surveillez ces 4 métriques :

  • Tokens/secondes (invite/génération) : exposé sur /metrics (Prometheus).
  • Usage GPU : via nvidia-smi ou DCGM ; <70% indique souvent un batch size sous-optimal.
  • Taux d'accès au cache KV : avec --enable-prefix-caching, baisse = rotation trop rapide des prompts.
  • Latence p50/p95/p99 : traçage standard ; un p99 qui grimpe indique un blocage de file.

Intégrez le tout dans Grafana ou votre stack d'observabilité.

Réglage fin (fine-tuning) des checkpoints de base V4

Utilisez les checkpoints de base pour pré-formation continue ou SFT.

pip install "torch>=2.6" transformers accelerate peft trl

# SFT standard avec LoRA sur V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128
Enter fullscreen mode Exit fullscreen mode

Le fine-tuning complet sur V4-Pro est réservé à la recherche avancée. Pour la majorité des équipes, LoRA sur V4-Flash-Base offre un excellent compromis.

Pièges courants

  1. OOM au démarrage : --max-model-len trop haut ou --tensor-parallel-size trop bas. Diminuez le contexte ou augmentez le parallélisme.
  2. Première requête lente : vLLM compile les kernels à la volée. Préchauffez avec une requête factice.
  3. Erreurs d'utilisation d'outils : l'encodage DeepSeek diffère légèrement d'OpenAI. Fixez votre SDK à une version compatible V4.
  4. Erreurs FP8 sur anciens GPU : A100 ne supporte pas FP8. Utilisez BF16 (doublez la VRAM attendue).

Quand l'auto-hébergement est rentable

Calcul basé sur la tarification de l'API DeepSeek V4 :

  • V4-Flash, 200B tokens d'entrée/mois + 20B de sortie : ~33,6K$ sur l'API. Un boîtier 8 × H100 = ~20K$/mois en location. Économie ~40%.
  • V4-Pro, 500B entrée + 50B sortie/mois : ~1,04M$ sur l'API. Cluster 16 × H100 = ~35K$/mois. Économie >95%.

Le seuil de rentabilité pour V4-Flash : ~100 milliards de tokens/mois. En-dessous, l'API hébergée reste la meilleure option.

FAQ

Puis-je exécuter V4-Flash sur une A100 ?

Oui en INT4 et contexte court, mais lentement (5–15 tok/s). La H100 est la cible idéale.

V4 supporte-t-il le fine-tuning LoRA ?

Oui, avec les checkpoints de base et les pipelines TRL/Axolotl standards. MoE ne gêne pas LoRA.

Le serveur local est-il compatible OpenAI ?

Oui, vLLM/SGLang exposent /v1/chat/completions et /v1/completions. Le guide de l'API hébergée fonctionne sans changement contre localhost.

Comment activer le mode réflexion localement ?

Ajoutez thinking_mode: "thinking" ou "thinking_max" dans la requête. vLLM et SGLang transmettent ce paramètre.

Peut-on streamer depuis un serveur local V4 ?

Oui, définissez stream: true comme pour OpenAI ou l'API DeepSeek.

Comment tester avant d'investir dans du matériel ?

Louez une H100 sur RunPod/Lambda, exécutez V4-Flash en INT4, mesurez le débit réel. Moins de 30$ pour un test rapide.

Top comments (0)