Antoine Laurent

Posted on Apr 24 • Originally published at apidog.com

Comment Utiliser DeepSeek V4: Chat Web, API et Options Auto-Hébergées

DeepSeek V4 a été lancé le 23 avril 2026 avec quatre checkpoints, une API en direct et des poids sous licence MIT sur Hugging Face. Vous pouvez l’utiliser en accès instantané, via API de production, ou en déploiement sur site. Ce guide montre comment choisir la meilleure approche selon vos besoins, détaille les compromis, et propose un flux de prompt prêt à l'emploi pour la production.

Essayez Apidog dès aujourd'hui

Si vous voulez une vue d’ensemble produit, lisez d'abord qu'est-ce que DeepSeek V4. Pour l’API complète, suivez le guide de l'API DeepSeek V4. Pour utiliser DeepSeek gratuitement, consultez comment utiliser DeepSeek V4 gratuitement. Pour tester les requêtes API, téléchargez Apidog et pré-construisez la collection.

TL;DR

Chemin le plus rapide : chat.deepseek.com. Chat web gratuit, V4-Pro par défaut, trois modes de raisonnement.
Chemin de production : https://api.deepseek.com/v1/chat/completions avec les modèles deepseek-v4-pro ou deepseek-v4-flash.
Chemin auto-hébergé : téléchargez les poids sur Hugging Face et exécutez les scripts /inference du dépôt.
Utilisez **Non-Think** pour le routage et la classification, **Think High** pour le code et l’analyse, **Think Max** seulement si la précision prime sur le coût.
Paramètres recommandés : temperature=1.0, top_p=1.0.
Apidog comme client API. Format compatible OpenAI : une requête sauvegardée fonctionne sur DeepSeek, OpenAI et Anthropic.

Choisissez le bon chemin pour votre charge de travail

Quatre options réalistes, chacune optimisée pour un usage différent :

Chemin	Coût	Temps d'installation	Idéal pour
chat.deepseek.com	Gratuit	30 secondes	Tests rapides, travail ad-hoc
API DeepSeek	Facturation par jeton	5 minutes	Production, agents, batchs
V4-Flash auto-hébergé	Coût matériel seulement	Quelques heures	Conformité, inférence hors-ligne
V4-Pro auto-hébergé	Coût cluster seulement	Une journée	Recherche, ajustements personnalisés
OpenRouter / agrégateur	Facturation par jeton	2 minutes	Multi-fournisseurs

Chemin 1 : Utiliser V4 dans le chat web

Pour tester V4 rapidement :

Accédez à chat.deepseek.com.
Connectez-vous (email, Google, WeChat).
V4-Pro est par défaut. Sélectionnez Non-Think, Think High ou Think Max en haut du composeur.
Saisissez votre prompt.

Le chat web prend en charge les uploads de fichiers, la recherche web, et jusqu'à 1M de jetons de contexte. Utilisez-le pour diagnostiquer une trace d’erreur, résumer un PDF volumineux, ou comparer V4 à GPT-5.5/Claude. À éviter pour les automatisations ou les tâches répétables.

Chemin 2 : Utiliser l'API DeepSeek

L’API DeepSeek est compatible OpenAI et adaptée à la production. Les modèles deepseek-v4-pro et deepseek-v4-flash sont maintenus après la dépréciation de deepseek-chat (juillet 2026).

Obtenir une clé API

Inscrivez-vous sur platform.deepseek.com.
Ajoutez un moyen de paiement (minimum 2 $).
Créez une clé API dans Clés API et copiez-la (visible une seule fois).

Exportez la clé pour vos clients :

export DEEPSEEK_API_KEY="sk-..."

Exemple de requête minimale

Utilisez l’interface compatible OpenAI :

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

Remplacez deepseek-v4-pro par deepseek-v4-flash pour réduire les coûts, et thinking par non-thinking pour la rapidité.

Client Python

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Client Node

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Pour les détails avancés (paramètres, gestion erreurs), voir le guide de l'API DeepSeek V4.

Chemin 3 : Itérer avec Apidog

Curl suffit pour un test, mais Apidog permet d’itérer efficacement sans gaspiller de crédits ni surcharger le terminal.

Téléchargez Apidog pour Mac, Windows ou Linux.
Créez un projet API, ajoutez une requête POST vers https://api.deepseek.com/v1/chat/completions.
Ajoutez l’en-tête Authorization: Bearer {{DEEPSEEK_API_KEY}} et stockez la clé en variable d’environnement.
Collez le JSON du corps de requête, sauvegardez. Chaque modification est rejouable en un clic.
Utilisez la visionneuse intégrée pour comparer Non-Think vs Think Max sur un même prompt.

Vous pouvez mixer des requêtes OpenAI, Claude et DeepSeek dans une même collection pour des tests A/B multi-fournisseurs et un suivi centralisé de la facturation. Pour passer de GPT-5.5 à V4, changez juste l’URL de base. Voir la collection d’API GPT-5.5 correspondante.

Chemin 4 : Auto-héberger V4-Flash

Pour la conformité ou la maîtrise des coûts, la licence MIT permet l’auto-hébergement complet.

Matériel requis

V4-Flash (13B actif, 284B total) : 2–4 H100/H200/MI300X en FP8, ou une carte 80Go quantifiée INT4.
V4-Pro (49B actif, 1.6T total) : 16–32 H100 pour l’inférence production.

Télécharger les poids

# Installer le CLI Hugging Face
pip install -U "huggingface_hub[cli]"

# Connexion (V4 est public mais login = +de débit)
huggingface-cli login

# Télécharger V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

V4-Flash = ~500 Go (FP8). V4-Pro = plusieurs To.

Lancer l’inférence

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Une fois vLLM lancé, utilisez http://localhost:8000/v1 comme base URL dans vos clients compatibles OpenAI (ou Apidog).

Élaborer des prompts efficaces pour V4

Spécifiez explicitement le mode de raisonnement. Définissez thinking_mode pour chaque tâche.
Utilisez le prompt système pour la persona, pas pour la tâche. Décrivez la tâche dans le message utilisateur.
Pour le code, fournissez un harnais de test. Collez un test échoué à corriger plutôt qu’une demande vague.

Pour le contexte long, placez le contenu le plus important en début et fin d’input (biais de primauté/récence).

Contrôle des coûts

Utilisez V4-Flash par défaut. Passez à V4-Pro seulement si la qualité le justifie.
Préférez Non-Think. Passez à Think High pour les tâches complexes, Think Max pour les exigences critiques.
Limitez max_tokens. 1M est une limite haute, la plupart des réponses sont sous 2 000 tokens.

Dans Apidog, stockez DEEPSEEK_API_KEY dans l’environnement pour séparer facturation test/production. Apidog affiche aussi le nombre de tokens par réponse pour surveiller les prompts volumineux.

Migration depuis DeepSeek V3 ou autres modèles

Depuis deepseek-chat / deepseek-reasoner : remplacez l’ID modèle par deepseek-v4-pro ou deepseek-v4-flash avant le 24 juillet 2026.
Depuis OpenAI GPT-5.x : changez l’URL de base pour https://api.deepseek.com/v1 et l’ID modèle uniquement. Voir le guide GPT-5.5 pour la syntaxe.
Depuis Anthropic Claude : utilisez https://api.deepseek.com/anthropic pour garder le format message Anthropic, ou passez au format OpenAI avec le point de terminaison principal.

FAQ

Ai-je besoin d’un compte payant pour V4 ? Le chat web est gratuit. L’API nécessite un minimum de 2 $ de recharge. Voir comment utiliser DeepSeek V4 gratuitement pour les options sans frais.

Quelle variante utiliser par défaut ? V4-Flash en Non-Think, puis montez en gamme selon la qualité requise.

Puis-je exécuter V4 sur mon MacBook ? V4-Flash fonctionne sur M3/M4 Max avec 128 Go, lentement. V4-Pro non. Pour test local, préférez l’API ou le chat web.

V4 supporte-t-il l’appel de fonctions/outils ? Oui, le point compatible OpenAI accepte le champ tools. Les réponses incluent tool_calls. Le point Anthropic accepte le format natif.

Comment streamer les réponses ? Ajoutez stream: true dans le body. Flux SSE standard compatible OpenAI.

Y a-t-il une limite de débit ? L’API hébergée indique les limites par niveau sur api-docs.deepseek.com. En auto-hébergement, seule la capacité du matériel limite le débit.

DEV Community