DEV Community

Cover image for DeepSeek V4: Web Chat, API und Self-Hosting Nutzung
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

DeepSeek V4: Web Chat, API und Self-Hosting Nutzung

DeepSeek V4 wurde am 23. April 2026 mit vier Checkpoints, einer Live-API und MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Sie haben damit die Wahl zwischen sofortigem Zugriff per Web, Produktions-API oder On-Premise-Betrieb. Hier finden Sie einen praxisorientierten Leitfaden für alle drei Optionen, mit klaren Empfehlungen, Fallstricken und einem wiederverwendbaren Prompt-Workflow.

Probiere Apidog noch heute aus

Für einen Produktüberblick starten Sie mit was ist DeepSeek V4. Die reine API-Anleitung finden Sie im DeepSeek V4 API-Leitfaden. Für den kostenlosen Zugang, siehe wie man DeepSeek V4 kostenlos nutzt. Zum Testen von echten Anfragen holen Sie sich Apidog und erstellen Sie eine Sammlung.

TL;DR

  • Schnellster Weg: chat.deepseek.com. Kostenloser Web-Chat, V4-Pro als Standard, drei Denkmodi.
  • Produktionsweg: https://api.deepseek.com/v1/chat/completions mit deepseek-v4-pro oder deepseek-v4-flash als Modell-IDs.
  • Self-Hosted: Gewichte über Hugging Face laden und /inference-Skripte nutzen.
  • Nutzen Sie Non-Think für Routing/Klassifizierung, Think High für Code/Analyse, Think Max nur, wenn höchste Genauigkeit gefragt ist.
  • Empfohlene Sampling-Parameter: temperature=1.0, top_p=1.0.
  • Apidog als API-Client verwenden; OpenAI-Format ermöglicht einfaches Umschalten zwischen DeepSeek, OpenAI, Anthropic.

Wählen Sie den richtigen Pfad für Ihre Arbeitslast

Vier Wege, jeweils für unterschiedliche Anforderungen:

Pfad Kosten Einrichtungszeit Am besten für
chat.deepseek.com Kostenlos 30 Sekunden Schnelle Tests, Ad-hoc-Arbeiten
DeepSeek API Pro-Token-Abrechnung 5 Minuten Produktion, Agenten, Batch-Jobs
Self-hosted V4-Flash Nur Hardwarekosten Einige Stunden On-Premise-Compliance, Offline-Inferenz
Self-hosted V4-Pro Nur Clusterkosten Ein Tag Forschung, kundenspezifische Fine-Tunes
OpenRouter / Aggregator Pro-Token-Abrechnung 2 Minuten Multi-Anbieter-Fallback

Pfad 1: V4 im Web-Chat nutzen

  1. Gehen Sie zu chat.deepseek.com.
  2. Melden Sie sich mit E-Mail, Google oder WeChat an.
  3. V4-Pro ist Standard. Modus oben im Eingabefeld: Non-Think, Think High, Think Max.
  4. Prompt eingeben, ausführen.

Web-Chat unterstützt Datei-Uploads, Websuche und 1M-Token-Kontext. Ratenlimits gelten pro Konto – hohe Nutzung kann Antworten verzögern, blockiert aber selten vollständig.

Typische Use-Cases: Fehler-Traces analysieren, PDFs zusammenfassen, Benchmarks mit identischem Prompt wie GPT-5.5 oder Claude. Nicht geeignet für Automatisierung oder wiederholbare Workflows.

Pfad 2: Die DeepSeek API nutzen

Empfohlener Weg für Teams: OpenAI-kompatible API, stabile Modell-IDs.

API-Schlüssel generieren

  1. Registrieren unter platform.deepseek.com.
  2. Zahlungsmethode hinzufügen (min. 2 $).
  3. API-Schlüssel unter API Keys erzeugen und sichern.

Schlüssel als Umgebungsvariable bereitstellen:

export DEEPSEEK_API_KEY="sk-..."

Minimalbeispiel (cURL)

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

deepseek-v4-pro gegen deepseek-v4-flash tauschen, je nach Bedarf. thinking gegen non-thinking wechseln für schnellen Modus.

Python-Client

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Node-Client

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Weitere Details und Fehlerbehandlung im DeepSeek V4 API-Leitfaden.

Pfad 3: Mit Apidog iterieren

cURL reicht für einen Test, aber für produktive API-Workflows ist Apidog effizienter und wiederholbar.

  1. Laden Sie Apidog für Mac, Windows oder Linux herunter.
  2. Neues API-Projekt anlegen, POST-Request auf https://api.deepseek.com/v1/chat/completions.
  3. Authorization: Bearer {{DEEPSEEK_API_KEY}} als Header, Schlüssel in Umgebungsvariablen speichern.
  4. JSON-Body einfügen, speichern, per Klick wiederholen.
  5. Antwort-Viewer nutzen, um Non-Think- und Think Max-Runs mit identischem Prompt zu vergleichen.

Sie können OpenAI GPT-5.5, Claude und DeepSeek V4 parallel in einer Sammlung testen. A/B-Tests über Anbieter hinweg und Abrechnung bleiben im Blick. Für bestehende Apidog-Workflows reicht oft eine Basis-URL-Änderung. Siehe GPT-5.5 API-Sammlung für Details.

Pfad 4: V4-Flash selbst hosten

Für Air-Gap/Compliance oder reine Kostenkontrolle: MIT-Lizenz erlaubt vollständige Eigenkontrolle.

Hardware-Anforderungen

  • V4-Flash (13B aktiv, 284B gesamt): 2–4 H100/H200/MI300X bei FP8. Mit INT4 auf eine 80GB-Karte, kleine Batches.
  • V4-Pro (49B aktiv, 1.6T gesamt): Cluster-Betrieb, 16–32 H100 für Produktion.

Gewichte laden

pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

V4-Flash ca. 500 GB (FP8), V4-Pro Multi-TB.

Inferenz starten

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

OpenAI-kompatible Clients auf http://localhost:8000/v1 zeigen. Gleiches Apidog-Projekt, andere Basis-URL.

V4 effektiv prompten

  1. Denkmodus explizit setzen: thinking_mode immer passend zur Aufgabe angeben.
  2. System-Prompts für Persona, Aufgaben in User-Message: Für Aufgabenbeschreibung die User-Message nutzen, System für Ton/Persona.
  3. Code-Aufgaben mit Test-Harness eingeben: Geben Sie Testfälle mit an, um bessere Ergebnisse zu erhalten.

Bei langem Kontext: Das wichtigste Material an den Anfang und das Ende der Eingabe setzen. V4 nutzt hybride Aufmerksamkeit, aber Reihenfolge bleibt relevant.

Kostenkontrolle

  • Standardmäßig V4-Flash nutzen. V4-Pro nur, wenn messbar besser.
  • Standardmäßig Non-Think. Think High/Max nur nach Bedarf.
  • max_tokens begrenzen. 1M ist das Maximum, meist reichen 2.000 Output-Tokens.

In Apidog Umgebungsvariablen für Schlüssel nutzen; so trennen Sie Test- und Produktionsabrechnung. Apidog zeigt die Token-Anzahl jeder Antwort an – ideal zur Erkennung von zu langen Prompts.

Migration von DeepSeek V3 oder anderen Modellen

  • Von deepseek-chat/deepseek-reasoner: Modell-ID auf deepseek-v4-pro oder deepseek-v4-flash ändern. Alte IDs laufen am 24. Juli 2026 aus.
  • Von OpenAI GPT-5.x: Basis-URL auf https://api.deepseek.com/v1, Modell-ID anpassen, sonst alles gleich. Siehe GPT-5.5 API-Leitfaden für Details.
  • Von Anthropic Claude: https://api.deepseek.com/anthropic verwenden oder Nachrichten ins OpenAI-Format übertragen.

FAQ

Benötige ich ein kostenpflichtiges Konto, um V4 zu nutzen? Web-Chat ist kostenlos. Für API sind mindestens 2 $ notwendig. Siehe kostenlos nutzen für Gratis-Wege.

Welche Variante sollte ich standardmäßig verwenden? Starten Sie mit V4-Flash im Non-Think-Modus. Messen, dann ggf. wechseln.

Kann ich V4 auf meinem MacBook ausführen? V4-Flash läuft auf M3/M4 Max mit 128 GB RAM (starke Quantisierung, langsam). V4-Pro nicht. Für Laptops: API oder Web-Chat nutzen.

Unterstützt V4 Tools/Funktionsaufrufe? Ja, OpenAI-kompatibler Endpunkt akzeptiert tools-Array; Antwort enthält tool_calls. Anthropic-Format nutzt natives Schema.

Wie streame ich Antworten? stream: true im Request-Body. Antwort kommt als OpenAI-kompatibler SSE-Stream, jede OpenAI-Bibliothek funktioniert direkt.

Gibt es Ratenlimits? Gehostete API: limits auf api-docs.deepseek.com. Self-Hosted: keine, außer Hardware.

Top comments (0)