DEV Community

Cover image for Comment utiliser DeepSeek V4 gratuitement ?
Antoine Laurent
Antoine Laurent

Posted on • Originally published at apidog.com

Comment utiliser DeepSeek V4 gratuitement ?

DeepSeek V4 a été lancé le 23 avril 2026, et contrairement à la plupart des lancements de modèles de pointe, les options gratuites sont réellement utilisables. Le chat web officiel fonctionne avec V4-Pro sans nécessiter de carte de crédit. Les poids sont disponibles sous licence MIT et peuvent être téléchargés immédiatement. Les agrégateurs comme OpenRouter et Chutes proposent généralement des quotas gratuits peu après chaque version DeepSeek. En combinant ces options, vous pouvez exécuter des charges de travail V4 conséquentes sans dépenser, tout en préparant la montée en charge vers la facturation payante si nécessaire.

Essayez Apidog dès aujourd'hui

Ce guide détaille chaque méthode gratuite vérifiée, les cas d’utilisation adaptés, et explique comment mettre en place une collection prête pour la production dans Apidog pour assurer une transition fluide vers du payant au besoin.

Pour un aperçu du produit, consultez qu'est-ce que DeepSeek V4. Pour l'intégration API, lisez comment utiliser l'API DeepSeek V4.

En bref

  • chat.deepseek.com — Chat web gratuit sur V4-Pro, modes de raisonnement Non-Think, Think High, Think Max. Fonctionne sans carte, disponible immédiatement.
  • Poids Hugging Face + GPU personnel — Licence MIT, V4-Flash fonctionne sur 2 à 4 H100, V4-Pro nécessite un cluster.
  • Niveaux gratuits OpenRouter et Chutes — Passerelles offrant un quota gratuit sur DeepSeek peu après chaque lancement.
  • Fournisseurs d'inférence Hugging Face — Endpoint partagé pour expérimenter gratuitement.
  • Crédits d’essai Kaggle, Colab, RunPod — Calcul gratuit pour tester l’auto-hébergement.
  • Chaque chemin gratuit plafonne l’utilisation. Pour la production, prévoir la montée vers le payant avant d’atteindre la limite.

Une image montrant DeepSeek V4 en discussion avec plusieurs options comme Chatbot, API et Self-Host. Divers chiffres et modèles de cartes GPU (H100, A100) sont présentés avec les coûts associés. Le texte met en évidence la nature gratuite du chat.deepseek.com, la licence MIT pour l'auto-hébergement et les coûts d'abonnement pour l'API. Il met également en évidence les options d'agrégateur.

Option 1 : chat.deepseek.com (l'option gratuite par défaut)

Le moyen le plus rapide et fiable est d'utiliser le chat officiel. V4-Pro est activé par défaut ; en haut du compositeur, le sélecteur permet de basculer entre Non-Think, Think High et Think Max.

Capture d'écran de l'interface de chat DeepSeek montrant le sélecteur de mode de raisonnement (Non-Think, Think High, Think Max) en haut, avec le modèle V4-Pro actif.

Configuration

  1. Accédez à chat.deepseek.com.
  2. Connectez-vous avec e-mail, Google ou WeChat.
  3. Vérifiez que le modèle actif est bien V4-Pro.
  4. Commencez à interagir.

Fonctionnalités

  • Contexte 1M tokens.
  • Téléchargement de fichiers (PDF, images, archives de code).
  • Recherche web intégrée.
  • Trois modes de raisonnement dont Think Max.
  • Historique des conversations et organisation par dossiers.

Limites d'utilisation

Aucune limite stricte publiée, mais le service applique du throttling en cas de forte charge. Si vous voyez des délais ou files d’attente persistantes, ralentissez ou passez à l’API.

Cas d’utilisation adaptés : Comparer V4 à Claude sur un prompt, revue de dépôt, analyse de contrat complexe.

Moins adapté : Automatisation, reproductibilité.

Option 2 : Auto-héberger V4-Flash sur votre propre GPU

V4-Flash (MIT) peut être déployé en interne. 284B paramètres (13B actifs), tourne sur 2+ H100 (FP8) ou une carte 80Go (INT4).

Coût : uniquement le matériel. Idéal pour ceux disposant déjà de GPU.

Télécharger les poids

pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash
Enter fullscreen mode Exit fullscreen mode

Environ 500 Go en FP8 : prévoyez l’espace disque.

Servir avec vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto \
  --port 8000
Enter fullscreen mode Exit fullscreen mode

Une fois lancé, tout client OpenAI-compatible peut pointer vers http://localhost:8000/v1. Apidog gère cela comme n’importe quelle URL de base ; vos collections restent compatibles sans adaptation.

Exigences matérielles

Variante Cartes minimales (FP8) Cartes minimales (INT4) Débit réaliste
V4-Flash 2 × H100 80 Go 1 × H100 80 Go 50 à 150 tokens/s
V4-Pro 16 × H100 80 Go 8 × H100 80 Go dépend du cluster

Si vous louez des GPU, l’API payante est souvent plus économique. L’auto-hébergement cible les équipes avec capacité existante ou besoins de conformité.

Option 3 : Niveau gratuit OpenRouter

OpenRouter agrège divers modèles derrière une API unique. Des niveaux gratuits sur DeepSeek apparaissent souvent rapidement après chaque sortie.

Capture d'écran de la page OpenRouter affichant la liste des modèles, incluant deepseek/deepseek-v4-pro, avec des informations sur le coût et la disponibilité.

Configuration

  1. Inscrivez-vous sur openrouter.ai.
  2. Générez une clé API.
  3. Repérez deepseek/deepseek-v4-pro ou deepseek/deepseek-v4-flash (les variantes gratuites portent souvent le suffixe :free).
  4. Appelez-les avec un SDK OpenAI-compatible :
from openai import OpenAI

client = OpenAI(
    api_key=OPENROUTER_KEY,
    base_url="https://openrouter.ai/api/v1",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash:free",
    messages=[{"role": "user", "content": "Write a Python CLI for semver bumping."}],
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Limites

Niveaux gratuits limités à quelques centaines de requêtes/jour/clé, priorité abaissée en cas de charge. Idéal pour le prototypage, pas pour la production.

Option 4 : Fournisseurs d’inférence Hugging Face

Hugging Face héberge un endpoint d’inférence gratuit peu après chaque sortie V4. Limites de débit strictes, latence variable, mais appels gratuits.

from huggingface_hub import InferenceClient

client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")

response = client.chat_completion(
    messages=[{"role": "user", "content": "Summarize the V4 technical report in 5 bullets."}],
    max_tokens=512,
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Le token HF est gratuit. Pour du volume, passez à un compte Pro pour des limites supérieures, mais le coût reste inférieur à l’API officielle.

Option 5 : Crédits d’essai sur Colab, Kaggle, RunPod, Lambda

Chaque loueur de GPU propose des crédits d’essai :

  • Google Colab : Le T4 gratuit est trop juste. Colab Pro+ (500 unités/mois) permet quelques tests V4-Flash sur A100.
  • Kaggle : Heures GPU gratuites sur T4/P100. Assez pour V4-Flash quantifié, insuffisant pour V4-Pro.
  • RunPod : 10 $ offerts = quelques heures sur H100, suffisant pour benchmarks vLLM.
  • Lambda : Offres ponctuelles d’heures gratuites H100/H200, vérifiez la page d’inscription.

Ces crédits sont pour l’expérimentation ponctuelle, pas pour un usage continu.

Créez une collection Apidog agnostique du fournisseur

L’avantage des options gratuites : tester le même prompt sur différentes plateformes, sans duplication.

Étapes :

  1. Téléchargez Apidog.
  2. Créez une collection avec quatre environnements :
    • chat (placeholder)
    • deepseek (https://api.deepseek.com/v1)
    • openrouter (https://openrouter.ai/api/v1)
    • self-hosted (http://localhost:8000/v1)
  3. Enregistrez une requête POST sur {{BASE_URL}}/chat/completions.
  4. Stockez chaque clé API comme variable secrète, pour garder un corps de requête identique partout.
  5. Basculez d’environnement pour faire des tests A/B sur chaque backend.

Ce modèle, utilisé pour la collection gratuite GPT-5.5, évite toute duplication de travail.

Quelle option gratuite choisir ?

Suivez ces heuristiques :

  • Découverte rapide (5 min) : chat.deepseek.com.
  • Prototypage produit : Niveau gratuit OpenRouter, puis rechargez chez DeepSeek si besoin.
  • GPU disponible et conformité : Auto-hébergez V4-Flash sur vLLM.
  • Besoin de gratuit à long terme : Aucune option n’est illimitée. Combinez chat.deepseek.com pour l’interactif et un peu de payant pour automatiser.

Quand quitter le niveau gratuit

Trois signaux :

  1. Throttling fréquent : Si limité plus d’une fois/jour, il est temps de budgétiser.
  2. Besoins de SLA : Seule l’API officielle en fournit.
  3. Exigences de logs/audit/conformité : L’API payante offre une facturation claire, les niveaux gratuits non.

Dans ces cas, basculez vers l’API officielle. Recharge minimale 2 $, tarification token au meilleur prix.

FAQ

chat.deepseek.com est-il vraiment gratuit ?

Oui. Sans carte, sans période d’essai. Limites douces, service gratuit.

Compte Hugging Face requis pour les poids ?

Pas strictement, mais un compte améliore les limites de téléchargement.

Quel chemin gratuit donne accès au vrai V4-Pro ?

chat.deepseek.com exécute V4-Pro complet. Les niveaux gratuits OpenRouter ciblent plus souvent V4-Flash.

Peut-on placer un niveau gratuit derrière un produit ?

Non. Ces niveaux sont instables, limités, parfois retirés sans préavis. Pour un produit, utilisez l’API payante ou auto-hébergez.

L’auto-hébergement est-il vraiment gratuit ?

La licence oui, le matériel non. Si vous possédez déjà des GPU, le coût marginal est faible. Louer des GPU coûte souvent plus cher que l’API.

Apidog propose-t-il un niveau gratuit pour les tests ?

Apidog est gratuit pour la conception et les tests d’API ; seuls les appels à des APIs payantes consomment des crédits. Vous pouvez donc combiner un environnement Apidog gratuit avec chat.deepseek.com ou OpenRouter pour un workflow 100% gratuit.

Top comments (0)