<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Emre Demir</title>
    <description>The latest articles on DEV Community by Emre Demir (@emree_demir).</description>
    <link>https://dev.to/emree_demir</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3821679%2F6e70a234-c701-4cfd-b54c-26469311e90f.png</url>
      <title>DEV Community: Emre Demir</title>
      <link>https://dev.to/emree_demir</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/emree_demir"/>
    <language>en</language>
    <item>
      <title>DeepSeek V4 Kostenlos Nutzen: Anleitung &amp; Tipps</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 05:21:57 +0000</pubDate>
      <link>https://dev.to/emree_demir/deepseek-v4-kostenlos-nutzen-anleitung-tipps-4gf0</link>
      <guid>https://dev.to/emree_demir/deepseek-v4-kostenlos-nutzen-anleitung-tipps-4gf0</guid>
      <description>&lt;p&gt;DeepSeek V4 wurde am 23. April 2026 veröffentlicht. Im Gegensatz zu vielen anderen Launches sind die kostenlosen Nutzungsmöglichkeiten tatsächlich nutzbar: Der offizielle Web-Chat läuft mit V4-Pro ohne Kreditkarte, die MIT-lizenzierten Gewichte sind heute verfügbar und Aggregatoren wie OpenRouter und Chutes bieten oft wenige Tage nach Release kostenlose Stufen an. So können Sie V4-Workloads ernsthaft testen, bevor Sie sich für ein kostenpflichtiges Modell entscheiden.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Testen Sie Apidog noch heute&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;In diesem Leitfaden finden Sie konkrete, geprüfte kostenlose Pfade, passende Anwendungsfälle und eine Schritt-für-Schritt-Anleitung, wie Sie eine produktionsreife Sammlung in &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; einrichten. So bleibt Ihr Wechsel zur kostenpflichtigen Nutzung bei steigendem Bedarf reibungslos.&lt;/p&gt;

&lt;p&gt;Eine Produktübersicht: &lt;a href="http://apidog.com/blog/what-is-deepseek-v4?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Was ist DeepSeek V4&lt;/a&gt;. Komplette API-Anleitung: &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;So verwenden Sie die DeepSeek V4 API&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Kurzfassung
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;&lt;a href="http://chat.deepseek.com" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt;&lt;/strong&gt; – Kostenloser Web-Chat mit V4-Pro, Think High-/Think Max-Modi. Keine Karte nötig, funktioniert sofort.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Hugging Face Gewichte + eigene GPU&lt;/strong&gt; – MIT-Lizenz, V4-Flash läuft auf 2–4 H100s, V4-Pro benötigt einen Cluster.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;OpenRouter und Chutes kostenlose Tarife&lt;/strong&gt; – Drittanbieter-Gateways mit meist zeitnahen Freischaltungen für neue DeepSeek-Modelle.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Hugging Face Inference Provider&lt;/strong&gt; – Ratenbegrenzter, geteilter Endpunkt für frühe Experimente.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Kaggle, Colab, RunPod Testguthaben&lt;/strong&gt; – Einmalige kostenlose Rechenleistung zum Self-Hosting-Test.&lt;/li&gt;
&lt;li&gt;Jeder kostenlose Pfad limitiert die Nutzung. Für produktiven Einsatz wechseln Sie rechtzeitig zu kostenpflichtigen APIs.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1pwj8dblm7dbxk7xooey.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1pwj8dblm7dbxk7xooey.png" alt="DeepSeek V4 Übersicht" width="800" height="550"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Pfad 1: chat.deepseek.com (der Standardweg)
&lt;/h2&gt;

&lt;p&gt;Der schnellste Weg: Die offizielle Chat-Oberfläche. V4-Pro ist Standard, der Umschalter oben wechselt zwischen Non-Think, Think High und Think Max.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fod1zc2ye1qsto7o0xxbc.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fod1zc2ye1qsto7o0xxbc.png" alt="chat.deepseek.com Oberfläche" width="800" height="434"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Einrichtung
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;Öffnen Sie &lt;a href="https://chat.deepseek.com/" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;Anmeldung via E-Mail, Google oder WeChat.&lt;/li&gt;
&lt;li&gt;Prüfen, dass das Modell V4-Pro aktiv ist.&lt;/li&gt;
&lt;li&gt;Prompt schreiben und losschicken.&lt;/li&gt;
&lt;/ol&gt;

&lt;h3&gt;
  
  
  Was ist verfügbar
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Komplettes 1M-Token-Kontextfenster&lt;/li&gt;
&lt;li&gt;Dateiupload (PDF, Bilder, Codepakete)&lt;/li&gt;
&lt;li&gt;Websuche on demand&lt;/li&gt;
&lt;li&gt;Alle Denkmodi inklusive Think Max&lt;/li&gt;
&lt;li&gt;Gesprächsverlauf und Ordnerstruktur&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Begrenzungen
&lt;/h3&gt;

&lt;p&gt;Es gibt keine feste Tageslimitierung; die Drosselung erfolgt dynamisch unter Last. Starke Nutzung kann zu Wartezeiten führen, jedoch selten zu Komplettsperren. Bei dauerhafter Ratenbegrenzung empfiehlt sich der Wechsel zur API.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Geeignet für:&lt;/strong&gt; Schnelles Testen, Architektur-Reviews, Think Max gegen komplexe Dokumente&lt;br&gt;&lt;br&gt;
&lt;strong&gt;Nicht geeignet für:&lt;/strong&gt; Automatisierung, reproduzierbare Workflows&lt;/p&gt;
&lt;h2&gt;
  
  
  Pfad 2: V4-Flash selbst hosten (eigene GPU)
&lt;/h2&gt;

&lt;p&gt;V4-Flash ist MIT-lizenziert und realistisch selbst zu betreiben. 284B gesamt, 13B aktiv – läuft auf Multi-H100-Box (FP8) mit hohem Durchsatz, INT4-Quantisierung reicht für eine einzelne 80GB-Karte.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kosten:&lt;/strong&gt; Hardware, nicht Lizenz&lt;br&gt;&lt;br&gt;
&lt;strong&gt;Ideal:&lt;/strong&gt; Bereits vorhandene GPU-Kapazitäten oder Compliance-Anforderungen&lt;/p&gt;
&lt;h3&gt;
  
  
  Gewichte herunterladen
&lt;/h3&gt;


&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;pip &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="nt"&gt;-U&lt;/span&gt; &lt;span class="s2"&gt;"huggingface_hub[cli]"&lt;/span&gt;
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--local-dir&lt;/span&gt; ./models/deepseek-v4-flash
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;em&gt;Erfordert ca. 500 GB bei FP8.&lt;/em&gt;&lt;/p&gt;
&lt;h3&gt;
  
  
  Deployment mit vLLM
&lt;/h3&gt;


&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;pip &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="s2"&gt;"vllm&amp;gt;=0.9.0"&lt;/span&gt;

vllm serve deepseek-ai/DeepSeek-V4-Flash &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--tensor-parallel-size&lt;/span&gt; 4 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--max-model-len&lt;/span&gt; 1048576 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--dtype&lt;/span&gt; auto &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--port&lt;/span&gt; 8000
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Stellen Sie OpenAI-kompatible Clients auf &lt;code&gt;http://localhost:8000/v1&lt;/code&gt; um. &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; behandelt diesen Endpunkt wie jede andere Basis-URL, gespeicherte Collections bleiben nutzbar.&lt;/p&gt;
&lt;h3&gt;
  
  
  Hardware-Check
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Variante&lt;/th&gt;
&lt;th&gt;Min. Karten (FP8)&lt;/th&gt;
&lt;th&gt;Min. Karten (INT4)&lt;/th&gt;
&lt;th&gt;Realistischer Durchsatz&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;V4-Flash&lt;/td&gt;
&lt;td&gt;2 × H100 80GB&lt;/td&gt;
&lt;td&gt;1 × H100 80GB&lt;/td&gt;
&lt;td&gt;50–150 Tok/s&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;V4-Pro&lt;/td&gt;
&lt;td&gt;16 × H100 80GB&lt;/td&gt;
&lt;td&gt;8 × H100 80GB&lt;/td&gt;
&lt;td&gt;Cluster-abhängig&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Wenn keine ungenutzten Karten vorhanden sind, ist die API in der Regel günstiger als GPU-Miete. Dieser Weg lohnt für bestehende Hardware oder strenge Compliance.&lt;/p&gt;
&lt;h2&gt;
  
  
  Pfad 3: OpenRouter kostenloser Tarif
&lt;/h2&gt;

&lt;p&gt;OpenRouter aggregiert APIs für offene und geschlossene Modelle und stellt regelmäßig kostenlose Tarife für neue DeepSeek-Releases bereit.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fbir19t7193o5qk1c978b.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fbir19t7193o5qk1c978b.png" alt="OpenRouter UI" width="800" height="293"&gt;&lt;/a&gt;&lt;/p&gt;
&lt;h3&gt;
  
  
  Einrichtung
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;Registrierung bei &lt;a href="https://openrouter.ai/" rel="noopener noreferrer"&gt;openrouter.ai&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;API-Schlüssel generieren.&lt;/li&gt;
&lt;li&gt;Im Modellkatalog nach &lt;code&gt;deepseek/deepseek-v4-pro&lt;/code&gt; oder &lt;code&gt;deepseek/deepseek-v4-flash&lt;/code&gt; suchen, kostenlose Varianten sind mit &lt;code&gt;:free&lt;/code&gt; gekennzeichnet.&lt;/li&gt;
&lt;li&gt;Nutzung mit OpenAI-kompatiblem SDK.
&lt;/li&gt;
&lt;/ol&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;openai&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;

&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;OPENROUTER_KEY&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;base_url&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;https://openrouter.ai/api/v1&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat_completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;deepseek/deepseek-v4-flash:free&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Write a Python CLI for semver bumping.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;

&lt;h3&gt;
  
  
  Begrenzungen
&lt;/h3&gt;

&lt;p&gt;Kostenlose Tarife erlauben meist einige hundert Anfragen/Tag und Schlüssel, bei Last mit reduzierter Priorität. Für Prototyping geeignet, nicht für Produktion.&lt;/p&gt;
&lt;h2&gt;
  
  
  Pfad 4: Hugging Face Inference Provider
&lt;/h2&gt;

&lt;p&gt;Hugging Face bietet gehostete Inferenz-Endpoints für neue DeepSeek-Modelle. Die Nutzung ist kostenlos, aber stark ratenbegrenzt.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;huggingface_hub&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;InferenceClient&lt;/span&gt;

&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;InferenceClient&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;deepseek-ai/DeepSeek-V4-Flash&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;chat_completion&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Summarize the V4 technical report in 5 bullets.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
    &lt;span class="n"&gt;max_tokens&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mi"&gt;512&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Für intensivere Nutzung empfiehlt sich ein Pro-Account – günstiger als die offizielle API.&lt;/p&gt;

&lt;h2&gt;
  
  
  Pfad 5: Testguthaben bei Colab, Kaggle, RunPod, Lambda
&lt;/h2&gt;

&lt;p&gt;Viele GPU-Mietdienste bieten Testguthaben:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Google Colab:&lt;/strong&gt; Kostenloser T4-Tarif reicht nicht, aber Colab Pro+ mit 500 Compute-Einheiten/Monat reicht für einige V4-Flash-Experimente (A100).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Kaggle:&lt;/strong&gt; Wöchentliche kostenlose GPU-Stunden (T4, P100) – zu klein für V4-Pro, reicht manchmal für quantisierte V4-Flash-Tests.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RunPod:&lt;/strong&gt; $10 Testguthaben – reicht für mehrere Stunden auf H100.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Lambda:&lt;/strong&gt; Gelegentlich Gratis-Stunden auf H100/H200; aktuelle Aktionen bei Registrierung prüfen.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Alle diese Wege sind für einmalige Tests, nicht für langfristige Nutzung geeignet.&lt;/p&gt;

&lt;h2&gt;
  
  
  Anbieterunabhängige Apidog-Sammlung erstellen
&lt;/h2&gt;

&lt;p&gt;Der Vorteil: Testen Sie denselben Prompt gleichzeitig auf allen kostenlosen Pfaden ohne Dopplung. Vorgehen:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog herunterladen&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;Erstellen Sie eine Sammlung mit vier Umgebungen:

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;chat&lt;/code&gt; (Platzhalter)
&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;deepseek&lt;/code&gt; (&lt;code&gt;https://api.deepseek.com/v1&lt;/code&gt;)
&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;openrouter&lt;/code&gt; (&lt;code&gt;https://openrouter.ai/api/v1&lt;/code&gt;)
&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;self-hosted&lt;/code&gt; (&lt;code&gt;http://localhost:8000/v1&lt;/code&gt;)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;Speichern Sie eine POST-Anfrage an &lt;code&gt;{{BASE_URL}}/chat/completions&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Legen Sie Anbieter-Keys als geheime Variablen an, damit der Request-Body identisch bleibt.&lt;/li&gt;
&lt;li&gt;Wechseln Sie die Umgebungen, um Prompts per A/B-Test über alle Backends zu schicken.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Nutzen Sie das gleiche Muster wie für die &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5 Free-Tier-Sammlung&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Welchen kostenlosen Pfad sollten Sie wählen?
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;In 5 Minuten testen:&lt;/strong&gt; &lt;a href="http://chat.deepseek.com" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Prototyp bauen:&lt;/strong&gt; OpenRouter kostenlos, dann DeepSeek-API laden&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Eigene GPUs und Compliance:&lt;/strong&gt; V4-Flash selbst hosten (vLLM)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Langfristig kostenlos nutzen:&lt;/strong&gt; Gibt es nicht – kombinieren Sie &lt;a href="http://chat.deepseek.com" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt; für Interaktion mit kleinen kostenpflichtigen Paketen für Automatisierung.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Wann den kostenlosen Tarif verlassen?
&lt;/h2&gt;

&lt;p&gt;Wechseln Sie zu kostenpflichtigen APIs, wenn:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Ratenbegrenzung mehrmals täglich auftritt:&lt;/strong&gt; Dann lohnt sich ein Budget.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SLAs benötigt werden:&lt;/strong&gt; Nur die offizielle API bietet diese.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Protokollierung, Auditing, Compliance:&lt;/strong&gt; Die kostenpflichtige API liefert klare Abrechnungsdaten.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Dann empfiehlt sich die &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;offizielle API&lt;/a&gt;. Mindestaufladung: $2, Frontier-Tarif ist am günstigsten.&lt;/p&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Ist &lt;a href="http://chat.deepseek.com" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt; wirklich kostenlos?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja, keine Kreditkarte, keine Testzeit. Es wird nur bei hoher Last sanft gedrosselt.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Brauche ich ein Hugging Face-Konto für die Gewichte?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Technisch nein, aber angemeldet sind die Downloads weniger eingeschränkt.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Welcher kostenlose Pfad bietet echtes V4-Pro?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
&lt;a href="http://chat.deepseek.com" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt; liefert immer V4-Pro. OpenRouter-free ist meist V4-Flash. V4-Pro-Ausgaben kostenlos gibt es zuverlässig nur im Web-Chat.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kann ein kostenloser Tarif produktiv genutzt werden?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nicht verantwortungsvoll — Tarife können limitiert oder abgestellt werden. Für Kundenanwendungen: kostenpflichtige API oder eigenes Hosting.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ist Self-Hosting wirklich kostenlos?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Die Lizenz ist es, die Hardware nicht. Bei bestehenden GPUs sind die Zusatzkosten minimal. Miete lohnt meist nicht.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wird es einen kostenlosen Apidog-Tarif geben?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; ist für API-Design/-Testing kostenlos; Gebühren entstehen nur bei kostenpflichtigen API-Aufrufen. Sie können also mit &lt;a href="http://chat.deepseek.com" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt; oder OpenRouter einen komplett kostenfreien Workflow aufsetzen.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>DeepSeek V4 lokal ausführen: Eine Anleitung</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 04:49:14 +0000</pubDate>
      <link>https://dev.to/emree_demir/deepseek-v4-lokal-ausfuhren-eine-anleitung-5fk</link>
      <guid>https://dev.to/emree_demir/deepseek-v4-lokal-ausfuhren-eine-anleitung-5fk</guid>
      <description>&lt;p&gt;DeepSeek V4 wurde am 23. April 2026 mit MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Diese einzelne Lizenzwahl ändert die Rechnung für jedes Team, das Spitzen-KI auf seiner eigenen Hardware betreiben möchte. V4-Flash (insgesamt 284 Mrd., 13 Mrd. aktiv) passt auf ein Paar H100s bei FP8. V4-Pro (insgesamt 1,6 Billionen, 49 Mrd. aktiv) benötigt einen Cluster, läuft aber bei Code und Reasoning wettbewerbsfähig mit GPT-5.5 und Claude Opus 4.6.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Teste Apidog noch heute&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;Dieser Leitfaden zeigt dir Schritt für Schritt, wie du DeepSeek V4 lokal bereitstellst. Es werden die Hardware-Anforderungen, Quantisierungsoptionen, Setups für vLLM und SGLang, die Konfiguration der Tool-Nutzung sowie ein Test-Workflow in Apidog behandelt – so validierst du deinen lokalen Server, bevor du Produktionsdaten darauf leitest.&lt;/p&gt;

&lt;p&gt;Für eine Produktübersicht siehe &lt;a href="http://apidog.com/blog/what-is-deepseek-v4?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;was ist DeepSeek V4&lt;/a&gt;. Für den gehosteten API-Pfad siehe &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;wie man die DeepSeek V4 API verwendet&lt;/a&gt;. Für den Kostenvergleich siehe &lt;a href="http://apidog.com/blog/deepseek-v4-api-pricing?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;DeepSeek V4 API-Preise&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;V4-Flash&lt;/strong&gt; läuft auf 2 × H100 80 GB mit FP8 oder 1 × H100 mit INT4. Die Gewichte betragen bei FP8 ~500 GB.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;V4-Pro&lt;/strong&gt; benötigt 16+ H100s mit FP8 für Produktionsdurchsatz; kein Laptop-Modell.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;vLLM&lt;/strong&gt; ist der schnellste Weg zu einem OpenAI-kompatiblen Server. &lt;code&gt;vllm&amp;gt;=0.9.0&lt;/code&gt; bringt V4-Unterstützung.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SGLang&lt;/strong&gt; ist die Alternative für Teams, die bessere Funktionen für Tool-Nutzung und strukturierte Ausgabe benötigen.&lt;/li&gt;
&lt;li&gt;Quantisierung auf &lt;strong&gt;AWQ INT4&lt;/strong&gt; oder &lt;strong&gt;GPTQ INT4&lt;/strong&gt; ermöglicht Betrieb von V4-Flash auf einer einzelnen 80-GB-Karte mit ~5 % Qualitätsverlust.&lt;/li&gt;
&lt;li&gt;Nutze &lt;a href="https://apidog.com/download?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt;, um auf &lt;code&gt;http://localhost:8000/v1&lt;/code&gt; zu verweisen und dieselbe Sammlung wie für die gehostete API wiederzuverwenden.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Wer sollte selbst hosten
&lt;/h2&gt;

&lt;p&gt;Das Selbst-Hosting von V4 ist sinnvoll für:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Compliance-pflichtige Teams:&lt;/strong&gt; Gesundheitswesen, Finanzen, Recht, Verteidigung – überall, wo Daten das Netzwerk nicht verlassen dürfen. Die MIT-Lizenz eliminiert Nutzungsvereinbarungen und grenzüberschreitende Datenflüsse.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Große, stabile Workloads:&lt;/strong&gt; Ab ca. 200 Milliarden Tokens pro Monat wird dedizierte Hardware günstiger als die V4-Pro API (1,74 $/Mio. Eingabe, 3,48 $/Mio. Ausgabe).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Feinabstimmung &amp;amp; Forschung:&lt;/strong&gt; Basis-Checkpoints sind für weiteres Vortraining und Domänenanpassung ausgelegt; die MIT-Lizenz erlaubt kommerzielle Weiterverteilung.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Nicht selbst hosten sollten: Prototypenentwickler, Teams ohne GPU-Betriebserfahrung und alle mit Workloads unter 200 $/Monat im gehosteten API-Modell.&lt;/p&gt;

&lt;h2&gt;
  
  
  Hardware-Anforderungen
&lt;/h2&gt;

&lt;p&gt;DeepSeek V4 nutzt nativ FP4 + FP8 gemischte Präzision. Die Speicherberechnung ist günstiger als es die reine Parameteranzahl vermuten lässt.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Variante&lt;/th&gt;
&lt;th&gt;Gesamtparameter&lt;/th&gt;
&lt;th&gt;Aktive Parameter&lt;/th&gt;
&lt;th&gt;FP8 VRAM&lt;/th&gt;
&lt;th&gt;INT4 VRAM&lt;/th&gt;
&lt;th&gt;Minimale Karten&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;V4-Flash&lt;/td&gt;
&lt;td&gt;284 Mrd.&lt;/td&gt;
&lt;td&gt;13 Mrd.&lt;/td&gt;
&lt;td&gt;~500 GB&lt;/td&gt;
&lt;td&gt;~140 GB&lt;/td&gt;
&lt;td&gt;2 × H100 80 GB (FP8) oder 1 × H100 (INT4)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;V4-Pro&lt;/td&gt;
&lt;td&gt;1,6 Billionen&lt;/td&gt;
&lt;td&gt;49 Mrd.&lt;/td&gt;
&lt;td&gt;~2,4 TB&lt;/td&gt;
&lt;td&gt;~700 GB&lt;/td&gt;
&lt;td&gt;16 × H100 80 GB (FP8) oder 8 × H100 (INT4)&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Wichtige Hinweise:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;MoE-Speicher ist Gesamt-, nicht Aktivspeicher.&lt;/strong&gt; Der VRAM-Bedarf bezieht sich auf alle Experten, nicht nur die aktiven.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;H200 &amp;amp; MI300X&lt;/strong&gt; sind kompatible Alternativen; durch mehr VRAM pro Karte werden weniger Karten benötigt.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Consumer-GPUs ungeeignet.&lt;/strong&gt; Selbst INT4 passt nicht auf 24-GB-RTX 5090.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Apple Silicon:&lt;/strong&gt; M3/M4 Max (128 GB RAM) können V4-Flash mit starker Quantisierung langsam laufen lassen – nur als Entwicklungs-Spielwiese, nicht für Produktion.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Schritt 1: Gewichte herunterladen
&lt;/h2&gt;

&lt;p&gt;Offizielle Modelle:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;a href="https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash" rel="noopener noreferrer"&gt;deepseek-ai/DeepSeek-V4-Flash&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro" rel="noopener noreferrer"&gt;deepseek-ai/DeepSeek-V4-Pro&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;deepseek-ai/DeepSeek-V4-Flash-Base&lt;/code&gt; und &lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt; für Feinabstimmung.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Download per CLI:&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;pip &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="nt"&gt;-U&lt;/span&gt; &lt;span class="s2"&gt;"huggingface_hub[cli]"&lt;/span&gt;
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--local-dir&lt;/span&gt; ./models/deepseek-v4-flash &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--local-dir-use-symlinks&lt;/span&gt; False
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Reserviere ~500 GB Speicherplatz für V4-Flash, mehrere TB für V4-Pro. &lt;a href="https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Flash" rel="noopener noreferrer"&gt;Modelscope.cn&lt;/a&gt; ist für China oft schneller.&lt;/p&gt;

&lt;h2&gt;
  
  
  Schritt 2: Serving-Engine auswählen
&lt;/h2&gt;

&lt;p&gt;Zwei Hauptoptionen:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;vLLM:&lt;/strong&gt; Bester Durchsatz, OpenAI-kompatible Schnittstelle, große Community. Standard.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SGLang:&lt;/strong&gt; Bessere Tool-Nutzung, strukturierte Ausgabe, Vorteile bei langem Kontext. Wähle dies, wenn Funktionsaufrufe zentral sind.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Beide unterstützen V4 ab aktuellen Versionen.&lt;/p&gt;

&lt;h2&gt;
  
  
  Schritt 3: V4-Flash mit vLLM bereitstellen
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;pip &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="s2"&gt;"vllm&amp;gt;=0.9.0"&lt;/span&gt;

vllm serve deepseek-ai/DeepSeek-V4-Flash &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--tensor-parallel-size&lt;/span&gt; 2 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--max-model-len&lt;/span&gt; 1048576 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--dtype&lt;/span&gt; auto &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--enable-prefix-caching&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--port&lt;/span&gt; 8000
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;Flags:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;--tensor-parallel-size 2&lt;/code&gt;: Modell auf 2 H100s verteilen. Mehr Karten = höhere Zahl.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;--max-model-len 1048576&lt;/code&gt;: Volles 1M-Token-Kontextfenster. Für weniger Kontext (und mehr VRAM) z.B. 131072.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;--enable-prefix-caching&lt;/code&gt;: Lokale Cache-Hit-Preise wie bei der gehosteten API.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;--dtype auto&lt;/code&gt;: Nutzt FP8-Mischpräzision.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nach dem Start ist der Server OpenAI-kompatibel unter &lt;code&gt;http://localhost:8000/v1&lt;/code&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Schritt 4: V4-Pro mit vLLM bereitstellen
&lt;/h2&gt;

&lt;p&gt;Cluster erforderlich. Befehlsstruktur:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;vllm serve deepseek-ai/DeepSeek-V4-Pro &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--tensor-parallel-size&lt;/span&gt; 8 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--pipeline-parallel-size&lt;/span&gt; 2 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--max-model-len&lt;/span&gt; 524288 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--enable-prefix-caching&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--port&lt;/span&gt; 8000
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Hier ist der Kontext auf 512K reduziert, damit das Modell in eine 16-H100-Box passt. Pipeline- und Tensor-Parallelität ermöglichen knotenübergreifenden Betrieb.&lt;/p&gt;

&lt;h2&gt;
  
  
  Schritt 5: Mit SGLang bereitstellen (Alternative für Tool-Nutzung)
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;pip &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="s2"&gt;"sglang[all]&amp;gt;=0.4.0"&lt;/span&gt;

python &lt;span class="nt"&gt;-m&lt;/span&gt; sglang.launch_server &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--model-path&lt;/span&gt; deepseek-ai/DeepSeek-V4-Flash &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--tp&lt;/span&gt; 2 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--context-length&lt;/span&gt; 1048576 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--port&lt;/span&gt; 30000
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;SGLang stellt eine OpenAI-kompatible API unter &lt;code&gt;http://localhost:30000/v1&lt;/code&gt; bereit. Die &lt;code&gt;lang&lt;/code&gt;-DSL bietet bessere Funktionsaufruf- und JSON-Ausgabe-Primitives als vLLM.&lt;/p&gt;

&lt;h2&gt;
  
  
  Schritt 6: Für eine Single-GPU-Box quantisieren
&lt;/h2&gt;

&lt;p&gt;INT4-Quantisierung ermöglicht V4-Flash auf einer 80-GB-Karte mit geringem Qualitätsverlust.&lt;/p&gt;

&lt;h3&gt;
  
  
  AWQ (empfohlen)
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;pip &lt;span class="nb"&gt;install &lt;/span&gt;autoawq

python &lt;span class="nt"&gt;-c&lt;/span&gt; &lt;span class="s2"&gt;"
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  GPTQ
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;pip &lt;span class="nb"&gt;install &lt;/span&gt;auto-gptq
&lt;span class="c"&gt;# Folge dem GPTQ-Quantisierungs-Recipe; ähnlich wie bei AWQ.&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Starte den quantisierten Checkpoint mit vLLM via &lt;code&gt;--quantization awq&lt;/code&gt; oder &lt;code&gt;--quantization gptq&lt;/code&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Schritt 7: Mit Apidog testen
&lt;/h2&gt;

&lt;p&gt;Schicke keinen Produktionsverkehr an einen neuen lokalen Server – validiere ihn zuerst.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fyhlube65mg8kn9sbhwv0.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fyhlube65mg8kn9sbhwv0.png" alt="Apidog Test" width="800" height="530"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Apidog herunterladen.&lt;/li&gt;
&lt;li&gt;Neue Sammlung mit &lt;code&gt;http://localhost:8000/v1/chat/completions&lt;/code&gt; als Ziel anlegen.&lt;/li&gt;
&lt;li&gt;Den gleichen Test-Prompt wie bei der gehosteten API nutzen. Ergebnisse vergleichen.&lt;/li&gt;
&lt;li&gt;Einen 500K-Token-Kontexttest durchführen, um den KV-Cache zu prüfen.&lt;/li&gt;
&lt;li&gt;Einen Tool-Calling-Workflow komplett durchtesten, bevor weitere Systeme angebunden werden.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Die gleiche Sammlung, die du für die &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;gehostete DeepSeek V4 API&lt;/a&gt; nutzt, funktioniert lokal durch simples Ändern der Basis-URL – OpenAI-Kompatibilität macht’s möglich.&lt;/p&gt;

&lt;h2&gt;
  
  
  Beobachtbarkeit und Überwachung
&lt;/h2&gt;

&lt;p&gt;Diese vier Metriken solltest du von Anfang an tracken:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Tokens pro Sekunde:&lt;/strong&gt; Prompt &amp;amp; Generierung (vLLM bietet &lt;code&gt;/metrics&lt;/code&gt; im Prometheus-Format).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;GPU-Auslastung:&lt;/strong&gt; Mit &lt;code&gt;nvidia-smi&lt;/code&gt; oder DCGM. &amp;lt; 70 % Auslastung deutet auf zu kleine Batch-Größe hin.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;KV-Cache-Trefferrate:&lt;/strong&gt; Mit &lt;code&gt;--enable-prefix-caching&lt;/code&gt; sichtbar; sinkende Rate = weniger Durchsatz.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Anforderungslatenz p50/p95/p99:&lt;/strong&gt; Mit Tracing; hoher p99 bei stabilem p50 = einzelne Requests blockieren die Queue.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Alle Metriken sollten an Grafana oder euren Observability-Stack weitergeleitet werden.&lt;/p&gt;

&lt;h2&gt;
  
  
  Feinabstimmung von V4 Basis-Checkpoints
&lt;/h2&gt;

&lt;p&gt;Basis-Checkpoints sind für weiteres Vortraining und SFT gedacht. Standard-Pipeline:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;pip &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="s2"&gt;"torch&amp;gt;=2.6"&lt;/span&gt; transformers accelerate peft trl

&lt;span class="c"&gt;# Standard SFT mit LoRA auf V4-Flash-Base&lt;/span&gt;
python &lt;span class="nt"&gt;-m&lt;/span&gt; trl sft &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--model_name_or_path&lt;/span&gt; deepseek-ai/DeepSeek-V4-Flash-Base &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--dataset_name&lt;/span&gt; your-org/your-sft-set &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--output_dir&lt;/span&gt; ./models/v4-flash-custom &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--per_device_train_batch_size&lt;/span&gt; 1 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--gradient_accumulation_steps&lt;/span&gt; 16 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--learning_rate&lt;/span&gt; 2e-5 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--bf16&lt;/span&gt; &lt;span class="nb"&gt;true&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--use_peft&lt;/span&gt; &lt;span class="nb"&gt;true&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--lora_r&lt;/span&gt; 64 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--lora_alpha&lt;/span&gt; 128
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Die vollständige Feinabstimmung von V4-Pro ist eine Großaufgabe. Für die meisten Teams sind LoRA-Adapter auf V4-Flash-Base der realistische Weg: viel Qualitätsgewinn, wenig Aufwand.&lt;/p&gt;

&lt;h2&gt;
  
  
  Häufige Fallstricke
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;OOM beim Start:&lt;/strong&gt; Meist ist &lt;code&gt;--max-model-len&lt;/code&gt; zu hoch oder &lt;code&gt;--tensor-parallel-size&lt;/code&gt; zu niedrig. Kontext halbieren oder Parallelität erhöhen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Langsamer erster Request:&lt;/strong&gt; vLLM kompiliert Kernel lazy – erster Aufruf pro Form dauert immer. Mit Dummy-Request vorwärmen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Fehler beim Parsen der Tool-Nutzung:&lt;/strong&gt; DeepSeek-Kodierung unterscheidet sich leicht von OpenAI. Nutze ein SDK, das V4 explizit unterstützt.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;FP8-Fehler auf älteren Karten:&lt;/strong&gt; A100s unterstützen FP8 nicht. BF16 verwenden und mit doppeltem VRAM rechnen.&lt;/li&gt;
&lt;/ol&gt;

&lt;h2&gt;
  
  
  Wann sich das Selbst-Hosting lohnt
&lt;/h2&gt;

&lt;p&gt;Break-Even-Berechnung (siehe &lt;a href="http://apidog.com/blog/deepseek-v4-api-pricing?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Preise der gehosteten DeepSeek V4 API&lt;/a&gt;):&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;V4-Flash bei 200 Mrd. Eingabe + 20 Mrd. Ausgabe/Monat:&lt;/strong&gt; ~33,6 Tsd. $ (gehostet) vs. ~20 Tsd. $/Monat (8 × H100 gemietet) → Selbst-Hosting spart ~40 %.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;V4-Pro bei 500 Mrd. Eingabe + 50 Mrd. Ausgabe/Monat:&lt;/strong&gt; ~1,04 Mio. $ (gehostet) vs. ~35 Tsd. $/Monat (16 × H100 Cluster) → Selbst-Hosting spart &amp;gt;95 %.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Break-Even für V4-Flash ab ca. 100 Mrd. Tokens/Monat. Darunter lohnt sich gehostet eher.&lt;/p&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Kann ich V4-Flash auf einer einzelnen A100 ausführen?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Mit starker Quantisierung und reduziertem Kontext – ja, aber langsam. INT4 auf 80-GB-A100: 5–15 Tokens/s. H100 ist optimal.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Unterstützt V4 LoRA-Feinabstimmung?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja. Nutze Basis-Checkpoints und Standard-TRL- oder Axolotl-Pipelines. MoE-Routing beeinflusst LoRA nicht.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ist der lokale Server OpenAI-kompatibel?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja. vLLM &amp;amp; SGLang exposen &lt;code&gt;/v1/chat/completions&lt;/code&gt; und &lt;code&gt;/v1/completions&lt;/code&gt; nach OpenAI-Format. Der &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;API-Leitfaden&lt;/a&gt; funktioniert auch mit localhost.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie aktiviere ich den Denkmodus lokal?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Im Request-Body &lt;code&gt;thinking_mode: "thinking"&lt;/code&gt; oder &lt;code&gt;"thinking_max"&lt;/code&gt; übergeben. vLLM und SGLang reichen das Flag ans Modell weiter.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kann ich von einem lokalen V4-Server streamen?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja. Setze &lt;code&gt;stream: true&lt;/code&gt; wie bei OpenAI oder gehosteter DeepSeek API.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Was ist der günstigste Weg zum Testen vor Hardware-Kauf?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Miete eine einzelne H100 bei RunPod oder Lambda, führe V4-Flash mit INT4 aus und miss den Durchsatz mit echten Prompts. Für 10–30 $ bekommst du echte Hardwaredaten – schneller als jede Planung.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>DeepSeek V4 API: Anleitung zur Nutzung</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 04:27:40 +0000</pubDate>
      <link>https://dev.to/emree_demir/deepseek-v4-api-anleitung-zur-nutzung-gin</link>
      <guid>https://dev.to/emree_demir/deepseek-v4-api-anleitung-zur-nutzung-gin</guid>
      <description>&lt;p&gt;DeepSeek V4 ist ab Tag 1 per API verfügbar. Die Modell-IDs sind &lt;code&gt;deepseek-v4-pro&lt;/code&gt; und &lt;code&gt;deepseek-v4-flash&lt;/code&gt;, der Endpunkt ist OpenAI-kompatibel mit der Basis-URL &lt;code&gt;https://api.deepseek.com&lt;/code&gt;. Sie können bestehende OpenAI-Clients direkt nutzen, indem Sie nur die Basis-URL ändern.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Teste Apidog noch heute&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-222.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-222.png" alt="" width="1200" height="825"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;In diesem Leitfaden finden Sie konkrete Schritte zur Authentifizierung, zu Parametern, Python- und Node-Beispielen, Denkmodi, Tool-Calls, Streaming und einen &lt;a href="https://apidog.com?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt;-Workflow zur Kostenkontrolle.&lt;/p&gt;

&lt;p&gt;&amp;lt;!--kg-card-begin: html--&amp;gt;&lt;/p&gt;
&lt;br&gt;
        &lt;br&gt;
        &lt;br&gt;
    &amp;lt;!--kg-card-end: html--&amp;gt;

&lt;p&gt;Produktübersicht: &lt;a href="http://apidog.com/blog/what-is-deepseek-v4?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Was ist DeepSeek V4&lt;/a&gt;. Kostenlos testen: &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Wie man DeepSeek V4 kostenlos nutzt&lt;/a&gt;.&lt;/p&gt;
&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;DeepSeek V4 ist über den &lt;strong&gt;OpenAI-kompatiblen&lt;/strong&gt; Endpunkt &lt;code&gt;&lt;a href="https://api.deepseek.com/v1/chat/completions" rel="noopener noreferrer"&gt;https://api.deepseek.com/v1/chat/completions&lt;/a&gt;&lt;/code&gt; oder den &lt;strong&gt;Anthropic-kompatiblen&lt;/strong&gt; Endpunkt &lt;code&gt;&lt;a href="https://api.deepseek.com/anthropic" rel="noopener noreferrer"&gt;https://api.deepseek.com/anthropic&lt;/a&gt;&lt;/code&gt; erreichbar.&lt;/li&gt;
&lt;li&gt;Modell-IDs: &lt;code&gt;deepseek-v4-pro&lt;/code&gt; (1.6T gesamt, 49B aktiv), &lt;code&gt;deepseek-v4-flash&lt;/code&gt; (284B gesamt, 13B aktiv)&lt;/li&gt;
&lt;li&gt;Beide Varianten: &lt;strong&gt;1M Token Kontext&lt;/strong&gt;, Denkmodi: &lt;code&gt;non-thinking&lt;/code&gt;, &lt;code&gt;thinking&lt;/code&gt;, &lt;code&gt;thinking_max&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;Setzen Sie &lt;code&gt;temperature=1.0, top_p=1.0&lt;/code&gt;, wie von DeepSeek empfohlen.&lt;/li&gt;
&lt;li&gt;Die IDs &lt;code&gt;deepseek-chat&lt;/code&gt; und &lt;code&gt;deepseek-reasoner&lt;/code&gt; werden am &lt;strong&gt;24. Juli 2026&lt;/strong&gt; abgeschaltet – rechtzeitig migrieren.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://apidog.com/download?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog herunterladen&lt;/a&gt; für reproduzierbare Anfragen, Denkmodus-Vergleiche und sicheren Umgang mit API-Schlüsseln.&lt;/li&gt;
&lt;/ul&gt;

&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-223.png" alt="" width="1200" height="887"&gt;
&lt;h2&gt;
  
  
  Voraussetzungen
&lt;/h2&gt;

&lt;p&gt;Vor dem ersten API-Call benötigen Sie:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Ein DeepSeek-Entwicklerkonto auf &lt;a href="https://platform.deepseek.com/" rel="noopener noreferrer"&gt;platform.deepseek.com&lt;/a&gt; mit mindestens $2 Guthaben. Ohne Guthaben: &lt;code&gt;402 Insufficient Balance&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Einen projektspezifischen API-Key. Nutzen Sie keine Kontoschlüssel für Produktion.&lt;/li&gt;
&lt;li&gt;Ein SDK, das OpenAI-kompatible Basis-URLs erlaubt: z.B. Python &lt;code&gt;openai&amp;gt;=1.30.0&lt;/code&gt;, Node &lt;code&gt;&lt;a href="mailto:openai@4.x"&gt;openai@4.x&lt;/a&gt;&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Einen API-Client für wiederholbare Anfragen. Nach dem ersten curl-Aufruf empfiehlt sich &lt;a href="https://apidog.com?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt;.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Key exportieren:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="nb"&gt;export &lt;/span&gt;&lt;span class="nv"&gt;DEEPSEEK_API_KEY&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;"sk-..."&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Endpunkt und Authentifizierung
&lt;/h2&gt;

&lt;p&gt;Zwei relevante Endpunkte:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight http"&gt;&lt;code&gt;&lt;span class="err"&gt;POST https://api.deepseek.com/v1/chat/completions    # OpenAI-Format
POST https://api.deepseek.com/anthropic/v1/messages  # Anthropic-Format
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Empfohlen: OpenAI-Format, sofern Sie nicht bereits Anthropic nutzen. Authentifizierung via Bearer-Token im &lt;code&gt;Authorization&lt;/code&gt;-Header.&lt;/p&gt;

&lt;p&gt;Minimalbeispiel:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;curl https://api.deepseek.com/v1/chat/completions &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;-H&lt;/span&gt; &lt;span class="s2"&gt;"Authorization: Bearer &lt;/span&gt;&lt;span class="nv"&gt;$DEEPSEEK_API_KEY&lt;/span&gt;&lt;span class="s2"&gt;"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;-H&lt;/span&gt; &lt;span class="s2"&gt;"Content-Type: application/json"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;-d&lt;/span&gt; &lt;span class="s1"&gt;'{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Explain MoE routing in two sentences."}
    ]
  }'&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Antworten enthalten ein &lt;code&gt;choices&lt;/code&gt;-Array, einen &lt;code&gt;usage&lt;/code&gt;-Block (inkl. &lt;code&gt;reasoning_tokens&lt;/code&gt; bei Denkmodus) und eine &lt;code&gt;id&lt;/code&gt;. Fehler kommen im OpenAI-Fehlerformat.&lt;/p&gt;

&lt;h2&gt;
  
  
  Anfrageparameter
&lt;/h2&gt;

&lt;p&gt;Alle Felder wirken auf Kosten und Verhalten:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Parameter&lt;/th&gt;
&lt;th&gt;Typ&lt;/th&gt;
&lt;th&gt;Werte&lt;/th&gt;
&lt;th&gt;Hinweise&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;model&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;String&lt;/td&gt;
&lt;td&gt;
&lt;code&gt;deepseek-v4-pro&lt;/code&gt;, &lt;code&gt;deepseek-v4-flash&lt;/code&gt;
&lt;/td&gt;
&lt;td&gt;Erforderlich.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;messages&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Array&lt;/td&gt;
&lt;td&gt;Rollen-/Inhaltspaare&lt;/td&gt;
&lt;td&gt;Erforderlich. Gleiches Schema wie OpenAI.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;thinking_mode&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;String&lt;/td&gt;
&lt;td&gt;
&lt;code&gt;non-thinking&lt;/code&gt;, &lt;code&gt;thinking&lt;/code&gt;, &lt;code&gt;thinking_max&lt;/code&gt;
&lt;/td&gt;
&lt;td&gt;Standard ist &lt;code&gt;non-thinking&lt;/code&gt;.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;temperature&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Float&lt;/td&gt;
&lt;td&gt;0 bis 2&lt;/td&gt;
&lt;td&gt;DeepSeek empfiehlt 1.0.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;top_p&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Float&lt;/td&gt;
&lt;td&gt;0 bis 1&lt;/td&gt;
&lt;td&gt;DeepSeek empfiehlt 1.0.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;max_tokens&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Integer&lt;/td&gt;
&lt;td&gt;1 bis 131.072&lt;/td&gt;
&lt;td&gt;Begrenzt die Ausgabelänge.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;stream&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Boolesch&lt;/td&gt;
&lt;td&gt;true oder false&lt;/td&gt;
&lt;td&gt;Aktiviert SSE-Streaming.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;tools&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Array&lt;/td&gt;
&lt;td&gt;OpenAI Tool-Spezifikation&lt;/td&gt;
&lt;td&gt;Für Funktionsaufrufe.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;tool_choice&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;String oder Objekt&lt;/td&gt;
&lt;td&gt;
&lt;code&gt;auto&lt;/code&gt;, &lt;code&gt;required&lt;/code&gt;, &lt;code&gt;none&lt;/code&gt; oder spezifisches Tool&lt;/td&gt;
&lt;td&gt;Steuert die Tool-Nutzung.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;response_format&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Objekt&lt;/td&gt;
&lt;td&gt;&lt;code&gt;{"type": "json_object"}&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;JSON-Modus-Ausgabe.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;seed&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Integer&lt;/td&gt;
&lt;td&gt;beliebige Integer-Zahl&lt;/td&gt;
&lt;td&gt;Für Reproduzierbarkeit.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;presence_penalty&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Float&lt;/td&gt;
&lt;td&gt;-2 bis 2&lt;/td&gt;
&lt;td&gt;Bestraft wiederholte Themen.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;frequency_penalty&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Float&lt;/td&gt;
&lt;td&gt;-2 bis 2&lt;/td&gt;
&lt;td&gt;Bestraft wiederholte Tokens.&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Wichtig: &lt;code&gt;thinking_mode&lt;/code&gt; ist der größte Kostentreiber. &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;non-thinking&lt;/code&gt; = schnell &amp;amp; günstig, keine Argumentationsspur.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;thinking&lt;/code&gt; = mehr Genauigkeit bei Code/Mathematik, zusätzliche Tokens.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;thinking_max&lt;/code&gt; = teuer, maximales Kontextbudget (384K+), höchste Qualität.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Python-Client
&lt;/h2&gt;

&lt;p&gt;Das offizielle &lt;code&gt;openai&lt;/code&gt;-SDK funktioniert mit angepasster Basis-URL:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;os&lt;/span&gt;
&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;openai&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;

&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;os&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;environ&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;DEEPSEEK_API_KEY&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
    &lt;span class="n"&gt;base_url&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;https://api.deepseek.com/v1&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;deepseek-v4-pro&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;
        &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;system&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Reply in code only.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
        &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Write a Rust function that debounces events.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="p"&gt;],&lt;/span&gt;
    &lt;span class="n"&gt;extra_body&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;thinking_mode&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;thinking&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="n"&gt;temperature&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mf"&gt;1.0&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;top_p&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mf"&gt;1.0&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;max_tokens&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mi"&gt;2048&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;choice&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;]&lt;/span&gt;
&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Content:&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;choice&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Reasoning tokens:&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;reasoning_tokens&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Total tokens:&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;total_tokens&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Mit &lt;code&gt;extra_body&lt;/code&gt; können Sie DeepSeek-exklusive Parameter durchreichen.&lt;/p&gt;

&lt;h2&gt;
  
  
  Node-Client
&lt;/h2&gt;

&lt;p&gt;Analog funktioniert das Node-SDK:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight javascript"&gt;&lt;code&gt;&lt;span class="k"&gt;import&lt;/span&gt; &lt;span class="nx"&gt;OpenAI&lt;/span&gt; &lt;span class="k"&gt;from&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;openai&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;;&lt;/span&gt;

&lt;span class="kd"&gt;const&lt;/span&gt; &lt;span class="nx"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="k"&gt;new&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;({&lt;/span&gt;
  &lt;span class="na"&gt;apiKey&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nx"&gt;process&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;env&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;DEEPSEEK_API_KEY&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
  &lt;span class="na"&gt;baseURL&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;https://api.deepseek.com/v1&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;});&lt;/span&gt;

&lt;span class="kd"&gt;const&lt;/span&gt; &lt;span class="nx"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="k"&gt;await&lt;/span&gt; &lt;span class="nx"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;({&lt;/span&gt;
  &lt;span class="na"&gt;model&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;deepseek-v4-flash&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
  &lt;span class="na"&gt;messages&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;
    &lt;span class="p"&gt;{&lt;/span&gt; &lt;span class="na"&gt;role&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;user&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="na"&gt;content&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;Explain the Muon optimizer in plain English.&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt; &lt;span class="p"&gt;},&lt;/span&gt;
  &lt;span class="p"&gt;],&lt;/span&gt;
  &lt;span class="na"&gt;thinking_mode&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;thinking&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
  &lt;span class="na"&gt;temperature&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mf"&gt;1.0&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
  &lt;span class="na"&gt;top_p&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mf"&gt;1.0&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;});&lt;/span&gt;

&lt;span class="nx"&gt;console&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;log&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="nx"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="nx"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;content&lt;/span&gt;&lt;span class="p"&gt;);&lt;/span&gt;
&lt;span class="nx"&gt;console&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;log&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;Usage:&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="nx"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;);&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Unbekannte Felder wie &lt;code&gt;thinking_mode&lt;/code&gt; werden direkt weitergereicht.&lt;/p&gt;

&lt;h2&gt;
  
  
  Streaming-Antworten
&lt;/h2&gt;

&lt;p&gt;Für Streaming setzen Sie &lt;code&gt;stream: true&lt;/code&gt;:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;stream&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;deepseek-v4-pro&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Stream a 300-word essay on MoE.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
    &lt;span class="n"&gt;stream&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;extra_body&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;thinking_mode&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;non-thinking&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="k"&gt;for&lt;/span&gt; &lt;span class="n"&gt;chunk&lt;/span&gt; &lt;span class="ow"&gt;in&lt;/span&gt; &lt;span class="n"&gt;stream&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
    &lt;span class="n"&gt;delta&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;chunk&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;delta&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt; &lt;span class="ow"&gt;or&lt;/span&gt; &lt;span class="sh"&gt;""&lt;/span&gt;
    &lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;delta&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;end&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;""&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;flush&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Bei aktiviertem Denkmodus wird die Denkspur separat als &lt;code&gt;delta.reasoning_content&lt;/code&gt; gestreamt.&lt;/p&gt;

&lt;h2&gt;
  
  
  Tool-Aufruf
&lt;/h2&gt;

&lt;p&gt;V4 unterstützt OpenAI Tool-Call-Schema:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;tools&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="p"&gt;[{&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;function&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;function&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;get_weather&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;description&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Return the current weather for a city.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;parameters&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;object&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;properties&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;city&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;string&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;unit&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;string&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;enum&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;c&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;f&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;]},&lt;/span&gt;
            &lt;span class="p"&gt;},&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;required&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;city&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
        &lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="p"&gt;},&lt;/span&gt;
&lt;span class="p"&gt;}]&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;deepseek-v4-pro&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Weather in Lagos in Celsius?&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
    &lt;span class="n"&gt;tools&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;tools&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;tool_choice&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;auto&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;extra_body&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;thinking_mode&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;thinking&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;tool_call&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;tool_calls&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;]&lt;/span&gt;
&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;tool_call&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;function&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;name&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;tool_call&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;function&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;arguments&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Nach dem Tool-Call: Funktion ausführen, Ergebnis als &lt;code&gt;{"role": "tool"}&lt;/code&gt; anfügen und erneut an die API senden.&lt;/p&gt;

&lt;h2&gt;
  
  
  JSON-Modus
&lt;/h2&gt;

&lt;p&gt;Für strukturierte JSON-Ausgaben:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;deepseek-v4-flash&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;
        &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;system&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Reply with a single JSON object.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
        &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Summarize this release note as {title, date, bullets}: ...&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="p"&gt;],&lt;/span&gt;
    &lt;span class="n"&gt;response_format&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;json_object&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="n"&gt;extra_body&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;thinking_mode&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;non-thinking&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Das Modell liefert gültiges JSON, aber keine Schemavalidierung – prüfen Sie ggf. clientseitig.&lt;/p&gt;

&lt;h2&gt;
  
  
  Sammlung in Apidog erstellen
&lt;/h2&gt;

&lt;p&gt;Wiederholbare Requests und Kostenkontrolle mit &lt;a href="https://apidog.com?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt;:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;a href="https://apidog.com/download?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog herunterladen&lt;/a&gt; und Projekt anlegen.&lt;/li&gt;
&lt;li&gt;Umgebung mit &lt;code&gt;{{DEEPSEEK_API_KEY}}&lt;/code&gt; als Secret-Variable anlegen.&lt;/li&gt;
&lt;li&gt;POST-Request an &lt;code&gt;{{BASE_URL}}/chat/completions&lt;/code&gt; mit Header &lt;code&gt;Authorization: Bearer {{DEEPSEEK_API_KEY}}&lt;/code&gt; speichern.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;model&lt;/code&gt; und &lt;code&gt;thinking_mode&lt;/code&gt; als Parameter einrichten – für schnelle A/B-Tests.&lt;/li&gt;
&lt;li&gt;Im Antwort-Viewer &lt;code&gt;usage.reasoning_tokens&lt;/code&gt; checken, um Denkmodus-Kosten zu kontrollieren.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Nutzen Sie bestehende &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5 API-Sammlungen&lt;/a&gt; als Vorlage – nur Basis-URL und Modell-ID tauschen.&lt;/p&gt;

&lt;h2&gt;
  
  
  Fehlerbehandlung
&lt;/h2&gt;

&lt;p&gt;Antworten entsprechen OpenAI-Fehlern:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Code&lt;/th&gt;
&lt;th&gt;Bedeutung&lt;/th&gt;
&lt;th&gt;Behebung&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;400&lt;/td&gt;
&lt;td&gt;Ungültige Anfrage&lt;/td&gt;
&lt;td&gt;JSON-Schema prüfen, v. a. &lt;code&gt;messages&lt;/code&gt; und &lt;code&gt;tools&lt;/code&gt;.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;401&lt;/td&gt;
&lt;td&gt;Ungültiger Schlüssel&lt;/td&gt;
&lt;td&gt;Key neu generieren auf &lt;a href="https://platform.deepseek.com/" rel="noopener noreferrer"&gt;platform.deepseek.com&lt;/a&gt;.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;402&lt;/td&gt;
&lt;td&gt;Ungenügendes Guthaben&lt;/td&gt;
&lt;td&gt;Aufladen.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;403&lt;/td&gt;
&lt;td&gt;Modell nicht erlaubt&lt;/td&gt;
&lt;td&gt;Scope und Schreibweise prüfen.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;422&lt;/td&gt;
&lt;td&gt;Parameter außerhalb des Bereichs&lt;/td&gt;
&lt;td&gt;
&lt;code&gt;max_tokens&lt;/code&gt; oder &lt;code&gt;thinking_mode&lt;/code&gt; prüfen.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;429&lt;/td&gt;
&lt;td&gt;Ratenbegrenzung&lt;/td&gt;
&lt;td&gt;Mit exponentiellem Jitter erneut versuchen.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;500&lt;/td&gt;
&lt;td&gt;Serverfehler&lt;/td&gt;
&lt;td&gt;Einmal wiederholen, sonst Statusseite prüfen.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;503&lt;/td&gt;
&lt;td&gt;Überlastet&lt;/td&gt;
&lt;td&gt;Auf V4-Flash wechseln oder nach 30s erneut versuchen.&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Implementieren Sie einen Retry-Helper mit exponentiellem Backoff für 429 und 5xx. 4xx-Fehler immer manuell prüfen.&lt;/p&gt;

&lt;h2&gt;
  
  
  Muster zur Kostenkontrolle
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Standardmäßig V4-Flash nutzen.&lt;/strong&gt; Nur auf V4-Pro wechseln, wenn die Qualität messbar besser ist.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;code&gt;thinking_max&lt;/code&gt; nur per Flag zulassen.&lt;/strong&gt; Sehr teuer, nur wenn Korrektheit &amp;gt; Latenz.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;code&gt;max_tokens&lt;/code&gt; limitieren.&lt;/strong&gt; 2.000 Output-Tokens reichen meist, 1M-Kontext ist für Input gedacht.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;code&gt;usage&lt;/code&gt; immer loggen.&lt;/strong&gt; Tracken Sie Eingabe-, Ausgabe- und Reasoning-Tokens – Alarm bei Ausreißern.&lt;/li&gt;
&lt;/ol&gt;

&lt;h2&gt;
  
  
  Migration von älteren DeepSeek-Modellen
&lt;/h2&gt;

&lt;p&gt;Die Modelle &lt;code&gt;deepseek-chat&lt;/code&gt; und &lt;code&gt;deepseek-reasoner&lt;/code&gt; werden am 24. Juli 2026 eingestellt. Migration: Modell-ID austauschen, Aufrufstruktur bleibt gleich.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight diff"&gt;&lt;code&gt;&lt;span class="gd"&gt;-  model="deepseek-chat"
&lt;/span&gt;&lt;span class="gi"&gt;+  model="deepseek-v4-pro"
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Vor Produktion: Side-by-Side A/B-Tests in Apidog fahren. Die Deadline erzwingt Migration ohnehin.&lt;/p&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Ist die DeepSeek V4 API produktionsreif?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja, seit 23. April 2026 produktiv. Die API ist stabil und basiert auf bewährter Infrastruktur.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Unterstützt V4 das Anthropic-Nachrichtenformat?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja, über &lt;code&gt;&lt;a href="https://api.deepseek.com/anthropic/v1/messages" rel="noopener noreferrer"&gt;https://api.deepseek.com/anthropic/v1/messages&lt;/a&gt;&lt;/code&gt;. Beide Formate greifen auf dasselbe Modell zu.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Was ist das Kontextfenster?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
1 Million Tokens für V4-Pro und V4-Flash. &lt;code&gt;thinking_max&lt;/code&gt; benötigt mindestens 384K Kontext.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie zähle ich Eingabe-Tokens vor dem Senden?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Für Näherungen: Standard-OpenAI-Tokenizer. Exakte Zahlen liefert der &lt;code&gt;usage&lt;/code&gt;-Block jeder Antwort.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kann ich Fine-Tuning via API machen?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Zum Start nicht. Fine-Tuning aktuell nur über selbst gehostete Modelle auf Hugging Face.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Gibt es einen kostenlosen API-Test?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Keine kostenlose Stufe, aber gelegentlich Startguthaben für neue Accounts.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>DeepSeek V4 API Preise</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 04:26:37 +0000</pubDate>
      <link>https://dev.to/emree_demir/deepseek-v4-api-preise-256c</link>
      <guid>https://dev.to/emree_demir/deepseek-v4-api-preise-256c</guid>
      <description>&lt;p&gt;DeepSeek veröffentlichte die V4-Preise am selben Tag, an dem die Modelle erschienen (23. April 2026). Die Tarife setzen neue Maßstäbe: V4-Flash kostet &lt;strong&gt;$0,14 pro Million Eingabetokens und $0,28 pro Million Ausgabetokens&lt;/strong&gt;, V4-Pro liegt bei &lt;strong&gt;$1,74 pro Eingabetokens und $3,48 pro Ausgabetokens&lt;/strong&gt;. Beide Modelle unterstützen ein 1M-Token-Kontextfenster und bis zu 384K Ausgabetokens. Ein aggressiver Cache-Hit-Rabatt reduziert die Eingabekosten bei wiederholten Prompts um 80% bis 90%.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Probiere Apidog jetzt aus&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;In diesem Leitfaden findest du die vollständige Preisliste, eine technische Erklärung zum Kontext-Caching, einen direkten Kostenvergleich mit GPT-5.5 und Claude Opus sowie vier konkrete Maßnahmen, um die Ausgaben in Apidog effizient im Griff zu behalten.&lt;/p&gt;

&lt;p&gt;Produktüberblick: &lt;a href="http://apidog.com/blog/what-is-deepseek-v4?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Was ist DeepSeek V4&lt;/a&gt;.&lt;br&gt;
Entwickleranleitung: &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Wie man die DeepSeek V4 API verwendet&lt;/a&gt;.&lt;br&gt;
Kostenlos testen: &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Wie man DeepSeek V4 kostenlos nutzt&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;V4-Flash:&lt;/strong&gt; $0,14 / M Eingabe (Cache-Fehlzugriff), $0,028 / M Eingabe (Cache-Treffer), $0,28 / M Ausgabe.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;V4-Pro:&lt;/strong&gt; $1,74 / M Eingabe (Cache-Fehlzugriff), $0,145 / M Eingabe (Cache-Treffer), $3,48 / M Ausgabe.&lt;/li&gt;
&lt;li&gt;Kontextfenster: &lt;strong&gt;1M Tokens&lt;/strong&gt; Eingabe, &lt;strong&gt;384K Tokens&lt;/strong&gt; Ausgabe.&lt;/li&gt;
&lt;li&gt;Cache-Hit-Rabatt: ca. &lt;strong&gt;80% Rabatt auf Flash&lt;/strong&gt;, &lt;strong&gt;92% Rabatt auf Pro&lt;/strong&gt; bei wiederholten Präfixen.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;deepseek-chat&lt;/code&gt; und &lt;code&gt;deepseek-reasoner&lt;/code&gt; werden zum &lt;strong&gt;24. Juli 2026&lt;/strong&gt; eingestellt; Abrechnung läuft über V4-Flash.&lt;/li&gt;
&lt;li&gt;V4-Pro ist bei Cache-Fehlzugriffen etwa &lt;strong&gt;2,9x günstiger als GPT-5.5&lt;/strong&gt; bei Eingabe und &lt;strong&gt;~8,6x günstiger&lt;/strong&gt; bei Ausgabe.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Die vollständige Preisliste
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Modell&lt;/th&gt;
&lt;th&gt;Eingabe (Cache-Fehlzugriff)&lt;/th&gt;
&lt;th&gt;Eingabe (Cache-Treffer)&lt;/th&gt;
&lt;th&gt;Ausgabe&lt;/th&gt;
&lt;th&gt;Kontext&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;deepseek-v4-flash&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;$0,14 / M&lt;/td&gt;
&lt;td&gt;$0,028 / M&lt;/td&gt;
&lt;td&gt;$0,28 / M&lt;/td&gt;
&lt;td&gt;1M / 384K&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;deepseek-v4-pro&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;$1,74 / M&lt;/td&gt;
&lt;td&gt;$0,145 / M&lt;/td&gt;
&lt;td&gt;$3,48 / M&lt;/td&gt;
&lt;td&gt;1M / 384K&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;
&lt;code&gt;deepseek-chat&lt;/code&gt; (veraltet 24.07.2026)&lt;/td&gt;
&lt;td&gt;entspricht V4-Flash Non-Thinking&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;
&lt;code&gt;deepseek-reasoner&lt;/code&gt; (veraltet 24.07.2026)&lt;/td&gt;
&lt;td&gt;entspricht V4-Flash Thinking&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Wichtige technische Details:&lt;/strong&gt;&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Preise sind identisch für Denk- und Nicht-Denkmodus. Die Modell-ID steuert den Tarif; der Reasoning-Modus beeinflusst nur die Token-Menge.&lt;/li&gt;
&lt;li&gt;Cache-Hit-Preisgestaltung ist automatisch: Sobald ein Präfix (mind. 1.024 Tokens, bytegenau identisch) erneut verwendet wird, greift der Rabatt – keine Konfiguration nötig.&lt;/li&gt;
&lt;li&gt;Die alten IDs (&lt;code&gt;deepseek-chat&lt;/code&gt; und &lt;code&gt;deepseek-reasoner&lt;/code&gt;) werden bereits als V4-Flash abgerechnet. Migration ist technisch nicht erforderlich, aber empfohlen.&lt;/li&gt;
&lt;/ol&gt;

&lt;h2&gt;
  
  
  Kontext-Caching: Technische Umsetzung
&lt;/h2&gt;

&lt;p&gt;Caching ist der stärkste Kostenhebel bei DeepSeek V4. Alles, was in mehreren Anfragen identisch bleibt (System-Prompts, Tool-Schemata, RAG-Kontext), wird ab dem zweiten Aufruf zum Cache-Hit-Tarif berechnet.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Beispiel:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Agent mit 20.000 Token System-Prompt (unverändert)&lt;/li&gt;
&lt;li&gt;100 Benutzerfragen à 200 Tokens&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ohne Caching:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Eingabe: 100 × 20.200 × $1,74 / M = $3,52&lt;/li&gt;
&lt;li&gt;Ausgabe: 100 × 500 × $3,48 / M = $0,17&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Gesamt:&lt;/strong&gt; $3,69&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Mit Caching (1 Miss, 99 Hits):&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Erster Aufruf: 20.200 × $1,74 / M = $0,035&lt;/li&gt;
&lt;li&gt;99 Cache-Hits: 99 × 20.000 × $0,145 / M = $0,287&lt;/li&gt;
&lt;li&gt;99 Benutzerfragen: 99 × 200 × $1,74 / M = $0,034&lt;/li&gt;
&lt;li&gt;Ausgabe: 100 × 500 × $3,48 / M = $0,174&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Gesamt:&lt;/strong&gt; $0,53&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;em&gt;=&amp;gt; Rund &lt;strong&gt;7x günstiger&lt;/strong&gt; bei gleicher Nutzung. Bei V4-Flash fällt das Einsparpotenzial noch größer aus.&lt;/em&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Vergleich mit GPT-5.5 und Claude Opus
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Modell&lt;/th&gt;
&lt;th&gt;Eingabe (Standard)&lt;/th&gt;
&lt;th&gt;Eingabe (gecached)&lt;/th&gt;
&lt;th&gt;Ausgabe&lt;/th&gt;
&lt;th&gt;Kontext&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V4-Flash&lt;/td&gt;
&lt;td&gt;$0,14 / M&lt;/td&gt;
&lt;td&gt;$0,028 / M&lt;/td&gt;
&lt;td&gt;$0,28 / M&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V4-Pro&lt;/td&gt;
&lt;td&gt;$1,74 / M&lt;/td&gt;
&lt;td&gt;$0,145 / M&lt;/td&gt;
&lt;td&gt;$3,48 / M&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;$5 / M&lt;/td&gt;
&lt;td&gt;$1,25 / M&lt;/td&gt;
&lt;td&gt;$30 / M&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5 Pro&lt;/td&gt;
&lt;td&gt;$30 / M&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;$180 / M&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.6&lt;/td&gt;
&lt;td&gt;$15 / M&lt;/td&gt;
&lt;td&gt;$1,50 / M&lt;/td&gt;
&lt;td&gt;$75 / M&lt;/td&gt;
&lt;td&gt;200K&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Interpretation für die Praxis:&lt;/strong&gt;&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Ausgabetokens:&lt;/strong&gt; V4-Pro ist ~8,6x günstiger als GPT-5.5 und ~21x günstiger als Claude Opus 4.6. Besonders relevant für agentenbasierte Workloads.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Gecachte Eingabe:&lt;/strong&gt; V4-Pro liegt ~10x günstiger als gecachtes GPT-5.5 und Claude – relevant bei langen, gleichbleibenden Prompts.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Benchmarking:&lt;/strong&gt; V4-Pro erreicht oder übertrifft GPT-5.5 bei LiveCodeBench und Codeforces zu einem Bruchteil der Kosten. Details: &lt;a href="http://apidog.com/blog/what-is-deepseek-v4?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Benchmark-Tabelle&lt;/a&gt;.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;em&gt;Einschränkung: Claude bleibt stärker bei langen Kontextabfragen und Gemini 3.1 Pro bei MMLU-Pro. Bei "Needle-in-a-Haystack"-Abfragen kann Qualität wichtiger sein als Kostenvorteil.&lt;/em&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Kostenmodellierung: Praxisbeispiele für Workloads
&lt;/h2&gt;

&lt;p&gt;Vier typische Produktionsszenarien (jeweils V4-Pro, Cache-Miss-Baseline):&lt;/p&gt;

&lt;h3&gt;
  
  
  1. Agenten-Coding-Loop (50K Kontext, 2K Ausgabe, 20 Aufrufe/Aufgabe)
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Eingabe: 50.000 × 20 × $1,74 / M = $1,74&lt;/li&gt;
&lt;li&gt;Ausgabe: 2.000 × 20 × $3,48 / M = $0,14&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Kosten pro Aufgabe: ~$1,88&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;(GPT-5.5: ~$6,20 pro Aufgabe)&lt;/p&gt;

&lt;h3&gt;
  
  
  2. Langdokument-Fragen &amp;amp; Antworten (500K Kontext, 1K Ausgabe)
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Eingabe: 500.000 × $1,74 / M = $0,87&lt;/li&gt;
&lt;li&gt;Ausgabe: 1.000 × $3,48 / M = $0,003&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Kosten pro Aufruf: ~$0,87&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;(GPT-5.5: ~$2,53 pro Aufruf)&lt;/p&gt;

&lt;h3&gt;
  
  
  3. Hochvolumige Klassifizierung (2K Kontext, 200 Ausgabe, 10.000 Aufrufe)
&lt;/h3&gt;

&lt;p&gt;&lt;em&gt;Empfehlung: V4-Flash nutzen!&lt;/em&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Eingabe: 2.000 × 10.000 × $0,14 / M = $2,80&lt;/li&gt;
&lt;li&gt;Ausgabe: 200 × 10.000 × $0,28 / M = $0,56&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Laufkosten: ~$3,36&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;(GPT-5.5: ~$110 pro Lauf)&lt;/p&gt;

&lt;h3&gt;
  
  
  4. Chatbot mit wiederholtem Prompt (10K System-Prompt, 500 User-Tokens, 1K Ausgabe, 1.000 Sitzungen)
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Eingabe (erste Anfrage): 10.500 × $1,74 / M = $0,018&lt;/li&gt;
&lt;li&gt;Cache-Hit-Eingabe: 999 × 10.000 × $0,145 / M = $1,45&lt;/li&gt;
&lt;li&gt;Benutzerinteraktion: 999 × 500 × $1,74 / M = $0,87&lt;/li&gt;
&lt;li&gt;Ausgabe: 1.000 × 1.000 × $3,48 / M = $3,48&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Kosten pro Sitzungslauf: ~$5,82&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;(GPT-5.5 mit Caching: ~$26,35)&lt;/p&gt;

&lt;h2&gt;
  
  
  Versteckte Kosten: Die vier wichtigsten Stolpersteine
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Token-Inflation im Denkmodus:&lt;/strong&gt; &lt;code&gt;thinking_max&lt;/code&gt; verbraucht 3-10x mehr Ausgabetokens als &lt;code&gt;non-thinking&lt;/code&gt;. Schütze &lt;code&gt;Think Max&lt;/code&gt; durch Feature-Flag.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Stilles Kontextwachstum:&lt;/strong&gt; Agenten-Loops mit 1M-Kontext können schnell eskalieren. Kontext regelmäßig kürzen oder zusammenfassen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Wiederholungsstürme:&lt;/strong&gt; Endlosschleifen mit Retry auf 500er-Fehler verdoppeln die Kosten in kurzer Zeit. Exponentielles Backoff und Retry-Limit pro Anfrage implementieren.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Entwicklungsaufwand:&lt;/strong&gt; Jeder Prompt-Test per Curl verursacht volle Kontextkosten. Mit &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; kannst du Variablen substituieren und Prompts kostenfrei anpassen, ohne die gesamte Payload neu zu schicken.&lt;/li&gt;
&lt;/ol&gt;

&lt;h2&gt;
  
  
  Kosten-Tracking in Apidog
&lt;/h2&gt;

&lt;p&gt;So behalten Entwickler die Kosten unter Kontrolle:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;a href="https://apidog.com/download?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog herunterladen&lt;/a&gt; und &lt;code&gt;DEEPSEEK_API_KEY&lt;/code&gt; als geheime Umgebungsvariable speichern.&lt;/li&gt;
&lt;li&gt;Eine einzelne POST-Anfrage an &lt;code&gt;https://api.deepseek.com/v1/chat/completions&lt;/code&gt; anlegen.&lt;/li&gt;
&lt;li&gt;Im Response-Bereich die Felder &lt;code&gt;usage.prompt_tokens&lt;/code&gt;, &lt;code&gt;usage.completion_tokens&lt;/code&gt; und &lt;code&gt;usage.reasoning_tokens&lt;/code&gt; anpinnen. Die Kostenberechnung ist sofort sichtbar.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;model&lt;/code&gt; und &lt;code&gt;thinking_mode&lt;/code&gt; als Parameter definieren, um V4-Flash vs. V4-Pro und Non-Think vs. Think Max direkt im A/B-Vergleich zu testen.&lt;/li&gt;
&lt;li&gt;Für GPT-5.5 eine identische Sammlung spiegeln (&lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5 API-Leitfaden&lt;/a&gt;). Beide Anbieter, Kosten auf einen Blick.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;em&gt;Dieser Workflow deckt rund 80% aller Kostenüberraschungen vor Monatsende auf.&lt;/em&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Vier Regeln für vorhersehbare Ausgaben
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Standardmäßig V4-Flash nutzen.&lt;/strong&gt; Nur auf V4-Pro wechseln, wenn ein echter Qualitätsvorteil nachgewiesen ist.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Non-Think als Default.&lt;/strong&gt; Für schwierige Aufgaben auf Think High wechseln. Think Max nur bei kritischen Anforderungen aktivieren.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;code&gt;max_tokens&lt;/code&gt; restriktiv setzen.&lt;/strong&gt; Die 384K-Grenze ist ein Sicherheitsnetz, kein Zielwert. In der Praxis reichen oft 2K.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Telemetry bei jeder Anfrage.&lt;/strong&gt; Protokolliere &lt;code&gt;prompt_tokens&lt;/code&gt;, &lt;code&gt;completion_tokens&lt;/code&gt; und &lt;code&gt;reasoning_tokens&lt;/code&gt;. Bei Reasoning-Spitzen Alarm auslösen – sie zeigen versehentliche Think-Max-Nutzung.&lt;/li&gt;
&lt;/ol&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Gibt es einen kostenlosen Tarif?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Es gibt keinen generell kostenlosen API-Tarif, gelegentlich bekommen neue Konten Testguthaben. Für kostenlose Möglichkeiten außerhalb der API siehe &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Wie man DeepSeek V4 kostenlos nutzt&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie funktioniert das Cache-Hit-Pricing?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Präfixe ≥1.024 Tokens werden bei Wiederholung automatisch zum Cache-Hit-Tarif abgerechnet (bytegenau, Account-gebunden). Die erste Anfrage zählt als Miss, danach greift der Rabatt.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kosten Denkmodi mehr?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Der Preis pro Token bleibt gleich. Reasoning-Modi erzeugen aber mehr Output-Tokens. Tracke &lt;code&gt;reasoning_tokens&lt;/code&gt; im &lt;code&gt;usage&lt;/code&gt;-Objekt zur Kostenüberwachung.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Sind die Preise stabil?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DeepSeek ändert die Preise regelmäßig. V3.2 galt fast ganz 2025, V4 hat kein Enddatum. Aktuelle Preise immer unter &lt;a href="https://api-docs.deepseek.com/quick_start/pricing" rel="noopener noreferrer"&gt;Preisseite&lt;/a&gt; prüfen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Gibt es gleiche Output-Tarife für V4-Pro und V4-Flash?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nein. V4-Pro-Output kostet $3,48 / M, V4-Flash $0,28 / M – das 12,4-fache. Standardmäßig immer V4-Flash wählen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Beeinflusst das Anthropic-Format die Preise?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nein. Endpunkt &lt;code&gt;https://api.deepseek.com/anthropic&lt;/code&gt; nutzt die gleichen Preise wie das OpenAI-Format. Das Request-Format hat keinen Einfluss auf die Abrechnung.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>DeepSeek V4: Web Chat, API und Self-Hosting Nutzung</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 04:17:53 +0000</pubDate>
      <link>https://dev.to/emree_demir/deepseek-v4-web-chat-api-und-self-hosting-nutzung-l6i</link>
      <guid>https://dev.to/emree_demir/deepseek-v4-web-chat-api-und-self-hosting-nutzung-l6i</guid>
      <description>&lt;p&gt;DeepSeek V4 wurde am 23. April 2026 mit vier Checkpoints, einer Live-API und MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Sie haben damit die Wahl zwischen sofortigem Zugriff per Web, Produktions-API oder On-Premise-Betrieb. Hier finden Sie einen praxisorientierten Leitfaden für alle drei Optionen, mit klaren Empfehlungen, Fallstricken und einem wiederverwendbaren Prompt-Workflow.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Probiere Apidog noch heute aus&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;Für einen Produktüberblick starten Sie mit &lt;a href="http://apidog.com/blog/what-is-deepseek-v4?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;was ist DeepSeek V4&lt;/a&gt;. Die reine API-Anleitung finden Sie im &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;DeepSeek V4 API-Leitfaden&lt;/a&gt;. Für den kostenlosen Zugang, siehe &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;wie man DeepSeek V4 kostenlos nutzt&lt;/a&gt;. Zum Testen von echten Anfragen holen Sie sich &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; und erstellen Sie eine Sammlung.&lt;/p&gt;

&lt;h2 id="tldr"&gt;TL;DR&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;Schnellster Weg: &lt;a href="https://chat.deepseek.com/" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt;. Kostenloser Web-Chat, V4-Pro als Standard, drei Denkmodi.&lt;/li&gt;
&lt;li&gt;Produktionsweg: &lt;code&gt;https://api.deepseek.com/v1/chat/completions&lt;/code&gt; mit &lt;code&gt;deepseek-v4-pro&lt;/code&gt; oder &lt;code&gt;deepseek-v4-flash&lt;/code&gt; als Modell-IDs.&lt;/li&gt;
&lt;li&gt;Self-Hosted: Gewichte über &lt;a href="https://huggingface.co/collections/deepseek-ai/deepseek-v4" rel="noopener noreferrer"&gt;Hugging Face&lt;/a&gt; laden und &lt;code&gt;/inference&lt;/code&gt;-Skripte nutzen.&lt;/li&gt;
&lt;li&gt;Nutzen Sie &lt;strong&gt;Non-Think&lt;/strong&gt; für Routing/Klassifizierung, &lt;strong&gt;Think High&lt;/strong&gt; für Code/Analyse, &lt;strong&gt;Think Max&lt;/strong&gt; nur, wenn höchste Genauigkeit gefragt ist.&lt;/li&gt;
&lt;li&gt;Empfohlene Sampling-Parameter: &lt;code&gt;temperature=1.0, top_p=1.0&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://apidog.com/download?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; als API-Client verwenden; OpenAI-Format ermöglicht einfaches Umschalten zwischen DeepSeek, OpenAI, Anthropic.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-220.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-220.png" alt="" width="800" height="550"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2 id="wählen-sie-den-richtigen-pfad-für-ihre-arbeitslast"&gt;Wählen Sie den richtigen Pfad für Ihre Arbeitslast&lt;/h2&gt;

&lt;p&gt;Vier Wege, jeweils für unterschiedliche Anforderungen:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Pfad&lt;/th&gt;
&lt;th&gt;Kosten&lt;/th&gt;
&lt;th&gt;Einrichtungszeit&lt;/th&gt;
&lt;th&gt;Am besten für&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;a href="http://chat.deepseek.com" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt;&lt;/td&gt;
&lt;td&gt;Kostenlos&lt;/td&gt;
&lt;td&gt;30 Sekunden&lt;/td&gt;
&lt;td&gt;Schnelle Tests, Ad-hoc-Arbeiten&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek API&lt;/td&gt;
&lt;td&gt;Pro-Token-Abrechnung&lt;/td&gt;
&lt;td&gt;5 Minuten&lt;/td&gt;
&lt;td&gt;Produktion, Agenten, Batch-Jobs&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Self-hosted V4-Flash&lt;/td&gt;
&lt;td&gt;Nur Hardwarekosten&lt;/td&gt;
&lt;td&gt;Einige Stunden&lt;/td&gt;
&lt;td&gt;On-Premise-Compliance, Offline-Inferenz&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Self-hosted V4-Pro&lt;/td&gt;
&lt;td&gt;Nur Clusterkosten&lt;/td&gt;
&lt;td&gt;Ein Tag&lt;/td&gt;
&lt;td&gt;Forschung, kundenspezifische Fine-Tunes&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;OpenRouter / Aggregator&lt;/td&gt;
&lt;td&gt;Pro-Token-Abrechnung&lt;/td&gt;
&lt;td&gt;2 Minuten&lt;/td&gt;
&lt;td&gt;Multi-Anbieter-Fallback&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2 id="pfad-1-v4-im-web-chat-nutzen"&gt;Pfad 1: V4 im Web-Chat nutzen&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;Gehen Sie zu &lt;a href="https://chat.deepseek.com/" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;Melden Sie sich mit E-Mail, Google oder WeChat an.&lt;/li&gt;
&lt;li&gt;V4-Pro ist Standard. Modus oben im Eingabefeld: Non-Think, Think High, Think Max.&lt;/li&gt;
&lt;li&gt;Prompt eingeben, ausführen.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-221.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-221.png" alt="" width="800" height="434"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Web-Chat unterstützt Datei-Uploads, Websuche und 1M-Token-Kontext. Ratenlimits gelten pro Konto – hohe Nutzung kann Antworten verzögern, blockiert aber selten vollständig.&lt;/p&gt;

&lt;p&gt;Typische Use-Cases: Fehler-Traces analysieren, PDFs zusammenfassen, Benchmarks mit identischem Prompt wie GPT-5.5 oder Claude. Nicht geeignet für Automatisierung oder wiederholbare Workflows.&lt;/p&gt;

&lt;h2 id="pfad-2-die-deepseek-api-nutzen"&gt;Pfad 2: Die DeepSeek API nutzen&lt;/h2&gt;

&lt;p&gt;Empfohlener Weg für Teams: OpenAI-kompatible API, stabile Modell-IDs.&lt;/p&gt;

&lt;h3 id="schlüssel-erhalten"&gt;API-Schlüssel generieren&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;Registrieren unter &lt;a href="https://platform.deepseek.com/" rel="noopener noreferrer"&gt;platform.deepseek.com&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;Zahlungsmethode hinzufügen (min. 2 $).&lt;/li&gt;
&lt;li&gt;API-Schlüssel unter &lt;strong&gt;API Keys&lt;/strong&gt; erzeugen und sichern.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Schlüssel als Umgebungsvariable bereitstellen:&lt;/p&gt;

&lt;pre&gt;&lt;code&gt;export DEEPSEEK_API_KEY="sk-..."
&lt;/code&gt;&lt;/pre&gt;

&lt;h3 id="die-minimal-praktikable-anfrage"&gt;Minimalbeispiel (cURL)&lt;/h3&gt;

&lt;pre&gt;&lt;code&gt;curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'
&lt;/code&gt;&lt;/pre&gt;

&lt;p&gt;&lt;code&gt;deepseek-v4-pro&lt;/code&gt; gegen &lt;code&gt;deepseek-v4-flash&lt;/code&gt; tauschen, je nach Bedarf. &lt;code&gt;thinking&lt;/code&gt; gegen &lt;code&gt;non-thinking&lt;/code&gt; wechseln für schnellen Modus.&lt;/p&gt;

&lt;h3 id="python-client"&gt;Python-Client&lt;/h3&gt;

&lt;pre&gt;&lt;code&gt;import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)
&lt;/code&gt;&lt;/pre&gt;

&lt;h3 id="node-client"&gt;Node-Client&lt;/h3&gt;

&lt;pre&gt;&lt;code&gt;import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);
&lt;/code&gt;&lt;/pre&gt;

&lt;p&gt;Weitere Details und Fehlerbehandlung im &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;DeepSeek V4 API-Leitfaden&lt;/a&gt;.&lt;/p&gt;

&lt;h2 id="pfad-3-mit-apidog-iterieren"&gt;Pfad 3: Mit Apidog iterieren&lt;/h2&gt;

&lt;p&gt;cURL reicht für einen Test, aber für produktive API-Workflows ist &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; effizienter und wiederholbar.&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Laden Sie Apidog für Mac, Windows oder Linux herunter.&lt;/li&gt;
&lt;li&gt;Neues API-Projekt anlegen, POST-Request auf &lt;code&gt;https://api.deepseek.com/v1/chat/completions&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;Authorization: Bearer {{DEEPSEEK_API_KEY}}&lt;/code&gt; als Header, Schlüssel in Umgebungsvariablen speichern.&lt;/li&gt;
&lt;li&gt;JSON-Body einfügen, speichern, per Klick wiederholen.&lt;/li&gt;
&lt;li&gt;Antwort-Viewer nutzen, um Non-Think- und Think Max-Runs mit identischem Prompt zu vergleichen.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Sie können OpenAI GPT-5.5, Claude und DeepSeek V4 parallel in einer Sammlung testen. A/B-Tests über Anbieter hinweg und Abrechnung bleiben im Blick. Für bestehende Apidog-Workflows reicht oft eine Basis-URL-Änderung. Siehe &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5 API-Sammlung&lt;/a&gt; für Details.&lt;/p&gt;

&lt;h2 id="pfad-4-v4-flash-selbst-hosten"&gt;Pfad 4: V4-Flash selbst hosten&lt;/h2&gt;

&lt;p&gt;Für Air-Gap/Compliance oder reine Kostenkontrolle: MIT-Lizenz erlaubt vollständige Eigenkontrolle.&lt;/p&gt;

&lt;h3 id="hardware"&gt;Hardware-Anforderungen&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;V4-Flash (13B aktiv, 284B gesamt):&lt;/strong&gt; 2–4 H100/H200/MI300X bei FP8. Mit INT4 auf eine 80GB-Karte, kleine Batches.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;V4-Pro (49B aktiv, 1.6T gesamt):&lt;/strong&gt; Cluster-Betrieb, 16–32 H100 für Produktion.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3 id="die-gewichte-herunterladen"&gt;Gewichte laden&lt;/h3&gt;

&lt;pre&gt;&lt;code&gt;pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False
&lt;/code&gt;&lt;/pre&gt;

&lt;p&gt;V4-Flash ca. 500 GB (FP8), V4-Pro Multi-TB.&lt;/p&gt;

&lt;h3 id="inferenz-ausführen"&gt;Inferenz starten&lt;/h3&gt;

&lt;pre&gt;&lt;code&gt;pip install "vllm&amp;gt;=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto
&lt;/code&gt;&lt;/pre&gt;

&lt;p&gt;OpenAI-kompatible Clients auf &lt;code&gt;http://localhost:8000/v1&lt;/code&gt; zeigen. Gleiches Apidog-Projekt, andere Basis-URL.&lt;/p&gt;

&lt;h2 id="v4-effektiv-prompten"&gt;V4 effektiv prompten&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Denkmodus explizit setzen&lt;/strong&gt;: &lt;code&gt;thinking_mode&lt;/code&gt; immer passend zur Aufgabe angeben.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;System-Prompts für Persona, Aufgaben in User-Message&lt;/strong&gt;: Für Aufgabenbeschreibung die User-Message nutzen, System für Ton/Persona.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Code-Aufgaben mit Test-Harness eingeben&lt;/strong&gt;: Geben Sie Testfälle mit an, um bessere Ergebnisse zu erhalten.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Bei langem Kontext: Das wichtigste Material an den Anfang und das Ende der Eingabe setzen. V4 nutzt hybride Aufmerksamkeit, aber Reihenfolge bleibt relevant.&lt;/p&gt;

&lt;h2 id="kostenkontrolle"&gt;Kostenkontrolle&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Standardmäßig V4-Flash&lt;/strong&gt; nutzen. V4-Pro nur, wenn messbar besser.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Standardmäßig Non-Think&lt;/strong&gt;. Think High/Max nur nach Bedarf.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;code&gt;max_tokens&lt;/code&gt; begrenzen&lt;/strong&gt;. 1M ist das Maximum, meist reichen 2.000 Output-Tokens.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;In Apidog Umgebungsvariablen für Schlüssel nutzen; so trennen Sie Test- und Produktionsabrechnung. &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; zeigt die Token-Anzahl jeder Antwort an – ideal zur Erkennung von zu langen Prompts.&lt;/p&gt;

&lt;h2 id="migration-von-deepseek-v3-oder-anderen-modellen"&gt;Migration von DeepSeek V3 oder anderen Modellen&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Von &lt;code&gt;deepseek-chat&lt;/code&gt;/&lt;code&gt;deepseek-reasoner&lt;/code&gt;:&lt;/strong&gt; Modell-ID auf &lt;code&gt;deepseek-v4-pro&lt;/code&gt; oder &lt;code&gt;deepseek-v4-flash&lt;/code&gt; ändern. Alte IDs laufen am 24. Juli 2026 aus.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Von OpenAI GPT-5.x:&lt;/strong&gt; Basis-URL auf &lt;code&gt;https://api.deepseek.com/v1&lt;/code&gt;, Modell-ID anpassen, sonst alles gleich. Siehe &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5 API-Leitfaden&lt;/a&gt; für Details.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Von Anthropic Claude:&lt;/strong&gt; &lt;code&gt;https://api.deepseek.com/anthropic&lt;/code&gt; verwenden oder Nachrichten ins OpenAI-Format übertragen.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2 id="faq"&gt;FAQ&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Benötige ich ein kostenpflichtiges Konto, um V4 zu nutzen?&lt;/strong&gt; Web-Chat ist kostenlos. Für API sind mindestens 2 $ notwendig. Siehe &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;kostenlos nutzen&lt;/a&gt; für Gratis-Wege.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Welche Variante sollte ich standardmäßig verwenden?&lt;/strong&gt; Starten Sie mit V4-Flash im Non-Think-Modus. Messen, dann ggf. wechseln.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kann ich V4 auf meinem MacBook ausführen?&lt;/strong&gt; V4-Flash läuft auf M3/M4 Max mit 128 GB RAM (starke Quantisierung, langsam). V4-Pro nicht. Für Laptops: API oder Web-Chat nutzen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Unterstützt V4 Tools/Funktionsaufrufe?&lt;/strong&gt; Ja, OpenAI-kompatibler Endpunkt akzeptiert &lt;code&gt;tools&lt;/code&gt;-Array; Antwort enthält &lt;code&gt;tool_calls&lt;/code&gt;. Anthropic-Format nutzt natives Schema.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie streame ich Antworten?&lt;/strong&gt; &lt;code&gt;stream: true&lt;/code&gt; im Request-Body. Antwort kommt als OpenAI-kompatibler SSE-Stream, jede OpenAI-Bibliothek funktioniert direkt.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Gibt es Ratenlimits?&lt;/strong&gt; Gehostete API: limits auf &lt;a href="https://api-docs.deepseek.com/" rel="noopener noreferrer"&gt;api-docs.deepseek.com&lt;/a&gt;. Self-Hosted: keine, außer Hardware.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>DeepSeek V4: Was ist das?</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 04:16:16 +0000</pubDate>
      <link>https://dev.to/emree_demir/deepseek-v4-was-ist-das-j33</link>
      <guid>https://dev.to/emree_demir/deepseek-v4-was-ist-das-j33</guid>
      <description>&lt;p&gt;DeepSeek veröffentlichte V4 am 23. April 2026 – ein großes Upgrade mit vier neuen Checkpoints, darunter DeepSeek-V4-Pro (1,6 Billionen Parameter, MIT-Lizenz, 1M Token Kontextfenster) und DeepSeek-V4-Flash (284 Milliarden Parameter, gleiches Kontextfenster, offene Gewichte). Benchmarks zeigen, dass die Pro-Variante bei LiveCodeBench und Codeforces vor Claude Opus 4.6 liegt und auf MMLU-Pro GPT-5.4 xHigh erreicht.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Teste Apidog noch heute&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;Wenn du dich fragst, ob du Claude, GPT-5.5 oder Qwen gegen DeepSeek V4 austauschen solltest, findest du hier einen praxisorientierten Leitfaden: Was ist das Modell, was hat sich gegenüber V3.2 geändert, welche Architektur-Entscheidungen beeinflussen Benchmarks und wie setzt du es direkt ein.&lt;/p&gt;

&lt;p&gt;Für die Implementierung findest du einen &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;DeepSeek V4 API-Leitfaden&lt;/a&gt;, einen &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Guide für kostenlosen Zugriff&lt;/a&gt; sowie eine vollständige &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Anwendungsanleitung&lt;/a&gt;. Die Requests sind OpenAI-kompatibel und können in &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; vorbereitet werden, bevor dein API-Key eintrifft.&lt;/p&gt;

&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;DeepSeek V4&lt;/strong&gt; ist eine Mixture-of-Experts-Modellfamilie, am 23. April 2026 unter &lt;strong&gt;MIT-Lizenz&lt;/strong&gt; veröffentlicht.&lt;/li&gt;
&lt;li&gt;Vier Checkpoints: &lt;strong&gt;V4-Pro&lt;/strong&gt;, &lt;strong&gt;V4-Pro-Base&lt;/strong&gt;, &lt;strong&gt;V4-Flash&lt;/strong&gt;, &lt;strong&gt;V4-Flash-Base&lt;/strong&gt;.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;V4-Pro&lt;/strong&gt;: 1,6 Billionen Parameter (49B aktiv); &lt;strong&gt;V4-Flash&lt;/strong&gt;: 284 Milliarden (13B aktiv).&lt;/li&gt;
&lt;li&gt;Beide Varianten: &lt;strong&gt;1M Token Kontextfenster&lt;/strong&gt;, drei Schlussfolgerungsmodi (Non-Think, Think High, Think Max).&lt;/li&gt;
&lt;li&gt;Benchmarks: &lt;strong&gt;LiveCodeBench 93.5&lt;/strong&gt;, &lt;strong&gt;Codeforces 3206&lt;/strong&gt;, &lt;strong&gt;MMLU-Pro 87.5&lt;/strong&gt; (Pro).&lt;/li&gt;
&lt;li&gt;API unter &lt;code&gt;api.deepseek.com&lt;/code&gt; mit Modell-IDs &lt;code&gt;deepseek-v4-pro&lt;/code&gt; und &lt;code&gt;deepseek-v4-flash&lt;/code&gt;; Gewichte bei Hugging Face und ModelScope.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Was DeepSeek V4 tatsächlich ist
&lt;/h2&gt;

&lt;p&gt;DeepSeek V4 folgt auf V3 und V3.2 und bleibt bei der Mixture-of-Experts-Architektur, setzt aber auf neue Dimensionen. Bei V4-Pro werden pro Token nur 49B der 1,6T Parameter aktiviert – die Rechenkosten pro Token ähneln so eher einem 50B-Modell. Technische Details findest du im &lt;a href="https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro" rel="noopener noreferrer"&gt;DeepSeek V4 Modellbericht&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fpejjjliky55psxexo3l2.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fpejjjliky55psxexo3l2.png" alt="Architektur-Übersicht" width="800" height="158"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Checkpoints:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;DeepSeek-V4-Pro&lt;/strong&gt;: Flaggschiff, 1,6T Parameter, 49B aktiv, 1M Kontext – Standard für API-Nutzung.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;DeepSeek-V4-Pro-Base&lt;/strong&gt;: Pretrained-Base, ideal für eigene Fine-Tunes.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;DeepSeek-V4-Flash&lt;/strong&gt;: Effizienzvariante, 284B Parameter, 13B aktiv, 1M Kontext – für lokale Deployments.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;DeepSeek-V4-Flash-Base&lt;/strong&gt;: Base-Checkpoint für Flash.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Alle vier sind MIT-lizenziert. Du kannst V4-Pro auf eigener Hardware ohne Lizenzkosten betreiben, anpassen und weitergeben.&lt;/p&gt;

&lt;h2&gt;
  
  
  Was sich gegenüber V3.2 geändert hat
&lt;/h2&gt;

&lt;p&gt;V4 wurde grundlegend überarbeitet: Neuer Attention-Stack, optimierte Trainingspipeline für längere Kontexte und Effizienz.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Fähigkeit&lt;/th&gt;
&lt;th&gt;V3.2&lt;/th&gt;
&lt;th&gt;V4-Pro&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Gesamtparameter&lt;/td&gt;
&lt;td&gt;685B&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;1.6T&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Aktive Parameter&lt;/td&gt;
&lt;td&gt;37B&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;49B&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Kontextfenster&lt;/td&gt;
&lt;td&gt;128K&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;1M&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Inferenz-FLOPs (1M Kontext)&lt;/td&gt;
&lt;td&gt;baseline&lt;/td&gt;
&lt;td&gt;
&lt;strong&gt;27%&lt;/strong&gt; von V3.2&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;KV-Cache (1M Kontext)&lt;/td&gt;
&lt;td&gt;baseline&lt;/td&gt;
&lt;td&gt;
&lt;strong&gt;10%&lt;/strong&gt; von V3.2&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Präzision&lt;/td&gt;
&lt;td&gt;FP8&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;FP4 + FP8 gemischt&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Lizenz&lt;/td&gt;
&lt;td&gt;DeepSeek-Lizenz&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;MIT&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Schlussfolgerungsmodi&lt;/td&gt;
&lt;td&gt;einzeln&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;drei&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Drei Kernpunkte:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Hybrid-Attention-Stack:&lt;/strong&gt; Kombiniert Compressed Sparse Attention mit Heavily Compressed Attention – daher 10% KV-Cache.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Manifold-Constrained Hyper-Connections:&lt;/strong&gt; Stabilisiert tiefe Netze für bessere Skalierung.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Muon-Optimierer:&lt;/strong&gt; Schnellere Konvergenz als AdamW.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Trainingsdaten umfassen 32T Tokens, Post-Training nutzt zweistufige Pipeline (Experten und On-Policy-Destillation).&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F0ohkm6y7q9i5q2swecu2.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F0ohkm6y7q9i5q2swecu2.png" alt="Technische Details" width="800" height="550"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Wichtige Benchmarks
&lt;/h2&gt;

&lt;p&gt;V4-Pro liefert Top-Werte bei Coding und Wissen. Schwächen bestehen bei Langkontext-Retrieval.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fqn2q9hlfiouvipu8z13b.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fqn2q9hlfiouvipu8z13b.png" alt="Benchmarks" width="800" height="591"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;V4-Flash (13B aktiv): &lt;strong&gt;MMLU-Pro 86.2&lt;/strong&gt;, &lt;strong&gt;GPQA Diamond 88.1&lt;/strong&gt;, &lt;strong&gt;LiveCodeBench 91.6&lt;/strong&gt;, &lt;strong&gt;Codeforces 3052&lt;/strong&gt;, &lt;strong&gt;SWE Verified 79.0&lt;/strong&gt;. Ideal für eigene Hardware. Details auf der &lt;a href="https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash" rel="noopener noreferrer"&gt;V4-Flash-Karte&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Fazit:&lt;/strong&gt; V4-Pro ist bei Codierung und offener Faktensuche führend, Gemini 3.1 Pro bleibt bei allgemeinem Wissen vorne, Claude Opus bei 1M-Token-Retrieval.&lt;/p&gt;

&lt;h2&gt;
  
  
  Drei Schlussfolgerungsmodi
&lt;/h2&gt;

&lt;p&gt;Jeder Checkpoint unterstützt drei Modi – wähle nach Kosten/Nutzen:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Non-Think:&lt;/strong&gt; Schnell, ohne Ketten oder Zusatz-Tokens. Für Klassifikation, Routing, kurze Summaries.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Think High:&lt;/strong&gt; Standard für anspruchsvolle Aufgaben – mit Schlussfolgerungs-Tokens, Toolplanungen, Output-Prüfung.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Think Max:&lt;/strong&gt; Maximale Leistung, längere Reasoning-Chains, empfohlen ab 384K Kontext.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;API-Parameter:&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight json"&gt;&lt;code&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="nl"&gt;"model"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"deepseek-v4-pro"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="nl"&gt;"thinking_mode"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"think_high"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="nl"&gt;"temperature"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="mf"&gt;1.0&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="nl"&gt;"top_p"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="mf"&gt;1.0&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="p"&gt;}&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Architektur kompakt erklärt
&lt;/h2&gt;

&lt;p&gt;Drei zentrale Architekturentscheidungen:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Hybrid Attention:&lt;/strong&gt; Compressed Sparse für relevante Tokens, Heavily Compressed für Effizienz. Führt zu 27% FLOPs und 10% KV-Cache von V3.2.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Manifold-Constrained Hyper-Connections:&lt;/strong&gt; Residuals werden so stabilisiert, dass noch tiefere Netze möglich sind.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Muon-Optimierer:&lt;/strong&gt; Ersetzt AdamW, skaliert besser mit MoE-Architekturen.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Keine Einzelinnovation, sondern die Kombination dieser Ansätze auf Billionen-Parameter-Skala.&lt;/p&gt;

&lt;h2&gt;
  
  
  Verfügbarkeit heute
&lt;/h2&gt;

&lt;p&gt;Vier Checkpoints und API sind ab 24. April 2026 live:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Oberfläche&lt;/th&gt;
&lt;th&gt;Zugang&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;a href="https://chat.deepseek.com/" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt;&lt;/td&gt;
&lt;td&gt;Kostenloser Web-Chat, V4-Pro Standard, Anmeldung erforderlich&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek API&lt;/td&gt;
&lt;td&gt;Live unter &lt;code&gt;api.deepseek.com&lt;/code&gt;; Modell-IDs &lt;code&gt;deepseek-v4-pro&lt;/code&gt;, &lt;code&gt;deepseek-v4-flash&lt;/code&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Hugging Face Gewichte&lt;/td&gt;
&lt;td&gt;
&lt;a href="https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro" rel="noopener noreferrer"&gt;V4-Pro&lt;/a&gt;, &lt;a href="https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash" rel="noopener noreferrer"&gt;V4-Flash&lt;/a&gt;, beide MIT&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ModelScope&lt;/td&gt;
&lt;td&gt;Gespiegelte Gewichte für Benutzer in China&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;OpenRouter und Aggregatoren&lt;/td&gt;
&lt;td&gt;Innerhalb weniger Tage erwartet; typisches DeepSeek-Startmuster&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;
&lt;code&gt;deepseek-chat&lt;/code&gt; / &lt;code&gt;deepseek-reasoner&lt;/code&gt;
&lt;/td&gt;
&lt;td&gt;Veraltet am 24. Juli 2026&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Achtung:&lt;/strong&gt; Die alten Modell-IDs werden am 24. Juli 2026 abgeschaltet. Migriere rechtzeitig auf die neuen IDs.&lt;/p&gt;

&lt;h2&gt;
  
  
  Vergleich mit GPT-5.5 und Claude
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Kosten:&lt;/strong&gt; V4-Pro und V4-Flash sind Open-Weights. Bei Self-Hosting unschlagbar in der Skalierung.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Coding:&lt;/strong&gt; V4-Pro ist auf LiveCodeBench und Codeforces vor GPT-5.5 und Claude Opus.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Wissensbreite:&lt;/strong&gt; Gemini 3.1 Pro liegt bei MMLU-Pro vorne, V4-Pro und GPT-5.5 gleichauf. Im SimpleQA schlägt V4 beide.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Langkontext:&lt;/strong&gt; Claude Opus ist bei 1M-Token-Retrieval führend.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Lizenz:&lt;/strong&gt; MIT – vollständige Produktintegration ohne Lizenzpflicht.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Anwendungsfälle für Entwickler
&lt;/h2&gt;

&lt;p&gt;Setze V4 gezielt ein für:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Agentische Coding-Loops:&lt;/strong&gt; Multi-Datei-Debugging, Refactoring, autonome Testkorrektur. Kombiniere mit einem API-Client wie &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Langdokument-Reasoning:&lt;/strong&gt; 1M Kontextfenster reicht für Monorepos, Verträge, Forschungsdaten. Nutze Think High.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Self-Hosted KI-Produkte:&lt;/strong&gt; V4-Flash liefert erstmals Frontier-Qualität als Open-Weights für On-Premise.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Forschung &amp;amp; Fine-Tuning:&lt;/strong&gt; Base-Checkpoints für individuelles Training, kombiniere mit eigenen Daten für Spezialmodelle.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Nicht optimal für: Massenklassifikation, Embedding Retrieval, Kurzprompt-Chat – hier sind ältere oder kleinere Modelle günstiger.&lt;/p&gt;

&lt;h2&gt;
  
  
  Preisübersicht
&lt;/h2&gt;

&lt;p&gt;Zum Redaktionszeitpunkt war die V4-API-Preisliste noch nicht final. V3.2 lag bei ca. $0,28 pro 1M Input-Tokens / $0,42 pro 1M Output-Tokens. Erwartung: V4-Flash ähnlich, V4-Pro etwas teurer. Konkurrenz liegt bei $5–15 pro 1M Input. Aktuelle Preise auf der &lt;a href="https://api-docs.deepseek.com/" rel="noopener noreferrer"&gt;DeepSeek Preisgestaltungsseite&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  So testest du V4 heute
&lt;/h2&gt;

&lt;p&gt;Wähle nach "Time to First Token":&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Web-Chat:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Gehe zu &lt;a href="https://chat.deepseek.com/" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt;, melde dich an, stelle im UI den Modus auf Think High. Kostenlos, sofort nutzbar.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;API:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Besorge dir einen API-Key, setze deinen Client auf &lt;code&gt;https://api.deepseek.com&lt;/code&gt;, nutze &lt;code&gt;"model": "deepseek-v4-pro"&lt;/code&gt;. OpenAI-kompatibles Format. Schneller Einstieg mit dem &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;DeepSeek V4 API-Leitfaden&lt;/a&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Lokale Gewichte:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Lade die Modelle von Hugging Face oder ModelScope. V4-Flash läuft auf 2–4 H100s, V4-Pro braucht einen Cluster. Inferenzcode im &lt;code&gt;/inference&lt;/code&gt;-Ordner des Repos.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Für vollständige How-tos inkl. Prompt-Iteration mit Apidog siehe &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Anleitung&lt;/a&gt; und &lt;a href="http://apidog.com/blog/how-to-use-deepseek-v4-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;kostenlosen Zugang&lt;/a&gt;.&lt;br&gt;&lt;br&gt;
&lt;a href="https://apidog.com/download?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog herunterladen&lt;/a&gt; und Requests vorab anlegen – das OpenAI-Format läuft API-übergreifend.&lt;/p&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Ist DeepSeek V4 wirklich Open Source?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja, alle Checkpoints unter MIT-Lizenz – kommerzielle Nutzung, Modifikation und Weiterverbreitung ohne Restriktionen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Brauche ich einen GPU-Cluster für V4-Flash?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Für V4-Flash: 2–4 H100s/H200s (full precision), weniger bei Quantisierung. V4-Pro benötigt einen Cluster. Für einfache Tests: API oder &lt;a href="https://chat.deepseek.com/" rel="noopener noreferrer"&gt;chat.deepseek.com&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wann ist V4 in der DeepSeek API live?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Seit 23. April 2026. Modell-IDs: &lt;code&gt;deepseek-v4-pro&lt;/code&gt;, &lt;code&gt;deepseek-v4-flash&lt;/code&gt;. Ältere IDs (&lt;code&gt;deepseek-chat&lt;/code&gt;, &lt;code&gt;deepseek-reasoner&lt;/code&gt;) werden am 24. Juli 2026 abgekündigt.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie schneidet V4 gegenüber Kimi und Qwen ab?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
V4-Pro erzielt auf LiveCodeBench und Codeforces höhere Scores als Kimi K2 und Qwen 3 Max. Alle drei sind Open-Weights-MoE-Modelle – wähle nach passendem Benchmark.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Eigenes Fine-Tuning möglich?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja, Base-Checkpoints sind für Custom-Training vorgesehen. Kombiniere mit eigenen Daten, nutze Standard-SFT-Pipeline. MIT-Lizenz deckt kommerzielle Nutzung ab.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Funktioniert V4 mit OpenAI-kompatiblen Tools?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja. API nimmt OpenAI- und Anthropic-Nachrichtenformate (&lt;code&gt;https://api.deepseek.com&lt;/code&gt;, &lt;code&gt;https://api.deepseek.com/anthropic&lt;/code&gt;). Bestehende OpenAI-Clients laufen mit Austausch der Base-URL. Siehe &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5 API-Walkthrough&lt;/a&gt; für das Muster.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>GPT-5.5 Preise: Detaillierte Kostenaufschlüsselung für API, Codex und ChatGPT (April 2026)</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 02:32:11 +0000</pubDate>
      <link>https://dev.to/emree_demir/gpt-55-preise-detaillierte-kostenaufschlusselung-fur-api-codex-und-chatgpt-april-2026-3e4b</link>
      <guid>https://dev.to/emree_demir/gpt-55-preise-detaillierte-kostenaufschlusselung-fur-api-codex-und-chatgpt-april-2026-3e4b</guid>
      <description>&lt;p&gt;OpenAI hat am 23. April 2026 mit der Einführung von GPT-5.5 die Token-Preise der GPT-5-Linie verdoppelt. Die Kosten für Input steigen von $2,50 auf $5,00 pro Million Tokens, Output von $15,00 auf $30,00 pro Million. Die Pro-Preise bleiben bei $30/$180. In diesem Artikel findest du einen technischen, praxisorientierten Überblick, wie du die neuen Preismodelle effizient für deine Projekte einsetzt und wie du Kosten vorab berechnest.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Probiere Apidog noch heute aus&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;Dieser Leitfaden behandelt alle Preismodelle: Standard-API, Batch, Flex, Priority, Pro-Tarife, Codex-Limits pro Plan und zeigt, wie du die Kosten deiner tatsächlichen Workloads berechnest, bevor du den Standardmodus wechselst.&lt;/p&gt;

&lt;p&gt;Für einen Modellüberblick siehe &lt;a href="http://apidog.com/blog/what-is-gpt-5-5?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Was ist GPT-5.5&lt;/a&gt;. Für eine Entwickleranleitung siehe &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Wie man die GPT-5.5 API benutzt&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Oberfläche&lt;/th&gt;
&lt;th&gt;Input / M&lt;/th&gt;
&lt;th&gt;Output / M&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5 Standard-API&lt;/td&gt;
&lt;td&gt;$5,00&lt;/td&gt;
&lt;td&gt;$30,00&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5 Pro-API&lt;/td&gt;
&lt;td&gt;$30,00&lt;/td&gt;
&lt;td&gt;$180,00&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5 Batch (50 % Rabatt)&lt;/td&gt;
&lt;td&gt;$2,50&lt;/td&gt;
&lt;td&gt;$15,00&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5 Flex (50 % Rabatt)&lt;/td&gt;
&lt;td&gt;$2,50&lt;/td&gt;
&lt;td&gt;$15,00&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5 Priority (2,5×)&lt;/td&gt;
&lt;td&gt;$12,50&lt;/td&gt;
&lt;td&gt;$75,00&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4 Standard-API&lt;/td&gt;
&lt;td&gt;$2,50&lt;/td&gt;
&lt;td&gt;$15,00&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4-mini API&lt;/td&gt;
&lt;td&gt;$0,25&lt;/td&gt;
&lt;td&gt;$2,00&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Fazit: GPT-5.5 ist pro Token 2× teurer als GPT-5.4. OpenAI gibt an, dass sich dies durch ca. 20% effizientere Token-Nutzung relativiert.&lt;/p&gt;

&lt;h2&gt;
  
  
  Die wichtigsten Zahlen
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GPT-5.5:&lt;/strong&gt; $5,00/M Input-Tokens, $30,00/M Output-Tokens&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;GPT-5.5 Pro:&lt;/strong&gt; $30,00/M Input-Tokens, $180,00/M Output-Tokens&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Kontextfenster:&lt;/strong&gt; 1 Mio Tokens (Input + Output). Reasoning-Tokens werden auf das Kontextfenster und die Output-Abrechnung angerechnet.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;OpenAI veröffentlicht Preise auf der &lt;a href="https://openai.com/api/pricing/" rel="noopener noreferrer"&gt;API-Preisseite&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Batch, Flex und Priority
&lt;/h2&gt;

&lt;p&gt;OpenAI bietet drei alternative Preisstufen für unterschiedliche Anforderungen:&lt;/p&gt;

&lt;h3&gt;
  
  
  Batch-API
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Anfragen werden über den Batch-Endpunkt eingereicht und mit 50 % Rabatt bearbeitet.&lt;/li&gt;
&lt;li&gt;Bearbeitung innerhalb von 24 Stunden.&lt;/li&gt;
&lt;li&gt;Ideal für: nächtliche Auswertungen, historische Datenverarbeitung, Workflows mit Latenzbudget in Stunden.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Preis:&lt;/strong&gt; $2,50 (Input) / $15,00 (Output) pro Million Tokens – entspricht GPT-5.4 Standard.&lt;/p&gt;

&lt;h3&gt;
  
  
  Flex-Verarbeitung
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Ebenfalls 50 % Rabatt.&lt;/li&gt;
&lt;li&gt;Latenz variiert von Sekunden bis Minuten.&lt;/li&gt;
&lt;li&gt;Geeignet, wenn Latenz unkritisch ist, aber (fast) synchrone Antworten benötigt werden.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Priority-Verarbeitung
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;2,5× Standardtarif ($12,50 / $75,00 bei GPT-5.5).&lt;/li&gt;
&lt;li&gt;Schneller Durchsatz, höhere Rate-Limits, kaum Warteschlange.&lt;/li&gt;
&lt;li&gt;Nutze Priority für Live-Anwendungen, bei denen Endlatenz entscheidend ist.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Kostenberechnung für den Thinking-Modus
&lt;/h2&gt;

&lt;p&gt;Mit GPT-5.5 kann der "reasoning.effort" Parameter gesetzt werden. Er verändert die Anzahl der verwendeten Tokens pro Anfrage, nicht den Preis pro Token. Die Multiplikatoren:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Aufwand&lt;/th&gt;
&lt;th&gt;Output-Token-Multiplikator&lt;/th&gt;
&lt;th&gt;Wann zu verwenden&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;
&lt;code&gt;low&lt;/code&gt; (Standard)&lt;/td&gt;
&lt;td&gt;1×&lt;/td&gt;
&lt;td&gt;Routineaufrufe&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;medium&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;1,3–2×&lt;/td&gt;
&lt;td&gt;Mehrschrittige Codierung, strukturierte Generierung&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;high&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;2–4×&lt;/td&gt;
&lt;td&gt;Tiefgehende Recherche, Korrektheitsprüfung&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;xhigh&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;3–8×&lt;/td&gt;
&lt;td&gt;Agenten-Loops, dichte Planung&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Praxis-Tipp:&lt;/strong&gt; Ein einziger &lt;code&gt;xhigh&lt;/code&gt;-Call mit langem Prompt kann &amp;gt;20.000 Reasoning-Tokens verbrauchen. Bei $30/M Output sind das $0,60 nur für Reasoning – Output-Kosten kommen dazu. Kalkuliere daher das Budget pro Arbeitslast, nicht pro Anfrage.&lt;/p&gt;

&lt;h2&gt;
  
  
  Codex-Preise
&lt;/h2&gt;

&lt;p&gt;Der Zugang zu Codex hängt vom ChatGPT-Plan ab, nicht vom reinen Tokenverbrauch:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Plan&lt;/th&gt;
&lt;th&gt;Codex-Zugang&lt;/th&gt;
&lt;th&gt;GPT-5.5&lt;/th&gt;
&lt;th&gt;Anmerkungen&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Kostenlos&lt;/td&gt;
&lt;td&gt;Ja (limitiert)&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Strenge Wochenlimits&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Go&lt;/td&gt;
&lt;td&gt;Ja (limitiert)&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;2× kostenlose Limits&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Plus ($20/Monat)&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Standard-Limits&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Pro ($200/Monat)&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Ja + Thinking + Pro&lt;/td&gt;
&lt;td&gt;Höchste Benutzerlimits&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Business&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Platzbasiert&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Enterprise/Bildung&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Vertragsbasiert&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Praxis-Tipp:&lt;/strong&gt; Wer viel im Coding-Terminal arbeitet, fährt mit Plus oder Pro günstiger als mit API-Einzelabrechnung – insbesondere ab einigen 100k Tokens/Tag. Der &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-free-codex?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Leitfaden zum kostenlosen Einstieg&lt;/a&gt; zeigt, wie du loslegen kannst.&lt;/p&gt;

&lt;h2&gt;
  
  
  Vergleich: GPT-5.5 vs. andere Modelle
&lt;/h2&gt;

&lt;p&gt;Wann lohnt sich GPT-5.5? Vergleiche Input-/Output-Kosten:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Modell&lt;/th&gt;
&lt;th&gt;Input / M&lt;/th&gt;
&lt;th&gt;Output / M&lt;/th&gt;
&lt;th&gt;Kosten pro 1.000 Output-Tokens&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4-mini&lt;/td&gt;
&lt;td&gt;$0,25&lt;/td&gt;
&lt;td&gt;$2,00&lt;/td&gt;
&lt;td&gt;$0,0020&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;$2,50&lt;/td&gt;
&lt;td&gt;$15,00&lt;/td&gt;
&lt;td&gt;$0,0150&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;$5,00&lt;/td&gt;
&lt;td&gt;$30,00&lt;/td&gt;
&lt;td&gt;$0,0300&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5 Pro&lt;/td&gt;
&lt;td&gt;$30,00&lt;/td&gt;
&lt;td&gt;$180,00&lt;/td&gt;
&lt;td&gt;$0,1800&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Entscheidungshilfe:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Viel Output, geringes Risiko (Klassifikation, Zusammenfassung, simpler Chat): &lt;strong&gt;GPT-5.4-mini&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Produktion, 5.4 erfüllt Qualitätsanspruch: &lt;strong&gt;GPT-5.4&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Anspruchsvolle Codierung, Agenten, Forschung: &lt;strong&gt;GPT-5.5&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Kritischer Output, Fehlererkennung teuer: &lt;strong&gt;GPT-5.5 Pro&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Beispiel: Kosten pro Aufgabe für einen Coding-Agenten
&lt;/h2&gt;

&lt;p&gt;Eine typische API-Session mit GPT-5.5 und &lt;code&gt;reasoning.effort: "medium"&lt;/code&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Input-Tokens:&lt;/strong&gt; ~15.000 (Repo-Kontext + Prompt)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Output-Tokens:&lt;/strong&gt; ~3.000 (Code + Erklärung)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Reasoning-Tokens:&lt;/strong&gt; ~6.000 (mittlerer Aufwand)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Kosten pro Aufgabe (Standardpreise):&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;Input:   15 K × $5,00 / M  = $0,075
Output: (3 K + 6 K) × $30,00 / M = $0,27
Gesamt: $0,345 pro Aufgabe
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;Auf GPT-5.4:&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;Input:   15 K × $2,50 / M  = $0,0375
Output:  9 K × $15,00 / M  = $0,135
Gesamt: $0,1725 pro Aufgabe
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;Fazit:&lt;/strong&gt; GPT-5.5 kostet das Doppelte pro Aufgabe. Das Upgrade lohnt sich, wenn die höhere Genauigkeit teure Wiederholungen einspart.&lt;/p&gt;

&lt;h2&gt;
  
  
  Kostenkontrollen: Sofort umsetzbare Maßnahmen
&lt;/h2&gt;

&lt;p&gt;Implementiere diese fünf Hebel direkt zum Start, um Kosten im Griff zu behalten:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Harte &lt;code&gt;max_output_tokens&lt;/code&gt;-Limits&lt;/strong&gt; – z.B. Standard 2.000, nur bei Bedarf mehr.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Strikte JSON-Schemas&lt;/strong&gt; – Fehlerhafte Ausgaben verursachen teure Wiederholungen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Nach Schwierigkeit routen&lt;/strong&gt; – Einfache Aufgaben an 5.4-mini, Komplexes an 5.5 senden.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Batch für alles Offline nutzen&lt;/strong&gt; – Auswertungen, Reports, Nachfüllungen = 50 % Rabatt.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;code&gt;usage.reasoning_tokens&lt;/code&gt; überwachen&lt;/strong&gt; – Unerwartet hohe Reasoning-Kosten früh erkennen und alarmieren.&lt;/li&gt;
&lt;/ol&gt;

&lt;h2&gt;
  
  
  Monatliche Kostenübersicht pro Plan
&lt;/h2&gt;

&lt;p&gt;Wähle den passenden ChatGPT-Plan für deinen Use-Case:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Plan&lt;/th&gt;
&lt;th&gt;Monatlicher Preis&lt;/th&gt;
&lt;th&gt;Am besten geeignet für&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Kostenlos&lt;/td&gt;
&lt;td&gt;$0&lt;/td&gt;
&lt;td&gt;GPT-5.5 via Codex testen&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Go&lt;/td&gt;
&lt;td&gt;$4 / Monat&lt;/td&gt;
&lt;td&gt;Studierende, Gelegenheitsnutzer (2× Limits)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Plus&lt;/td&gt;
&lt;td&gt;$20 / Monat&lt;/td&gt;
&lt;td&gt;Einzelentwickler, tägliche Nutzung&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Pro&lt;/td&gt;
&lt;td&gt;$200 / Monat&lt;/td&gt;
&lt;td&gt;Power-User, Thinking und Pro in ChatGPT&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Business&lt;/td&gt;
&lt;td&gt;$25 / Sitzplatz / Monat&lt;/td&gt;
&lt;td&gt;Teams, gemeinsame Workspaces&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Enterprise / Bildung&lt;/td&gt;
&lt;td&gt;Kundenspezifisch&lt;/td&gt;
&lt;td&gt;Vertragsbasiert mit SLA&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Praxis-Tipp:&lt;/strong&gt; Wer &amp;gt;4 Mio Output-Tokens/Monat verarbeitet, spart mit ChatGPT Pro + Codex CLI gegenüber der API-Abrechnung – solange die Arbeitslast in das 400k Token Kontextfenster passt.&lt;/p&gt;

&lt;h2&gt;
  
  
  Preisänderungssignale: Darauf achten
&lt;/h2&gt;

&lt;p&gt;Zwei wichtige Indikatoren für die Preisentwicklung:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Allgemeine Verfügbarkeit von GPT-5.5&lt;/strong&gt; – Preise könnten mit Konkurrenz (Claude, Gemini, Open-Weight-Modelle) sinken. Siehe &lt;a href="https://www.vellum.ai/llm-leaderboard" rel="noopener noreferrer"&gt;Vellum-Leaderboard&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Demokratisierung des Pro-Modells&lt;/strong&gt; – OpenAI hat Pro-Preise bisher oft 3–6 Monate nach Release gesenkt. Plane mit Spielraum.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Reduziert Caching die Input-Kosten?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja, gecachte Input-Tokens werden günstiger abgerechnet. Details auf der &lt;a href="https://openai.com/api/pricing/" rel="noopener noreferrer"&gt;OpenAI-Preisseite&lt;/a&gt;. Cache-Systemprompts, Tool-Schemas, Repo-Kontext.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Gibt es Mengenrabatt?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Kein offizieller. Individuelle Tarife sind für Großkunden möglich. Bei &amp;gt;$1 Mio/Jahr: Vertrieb kontaktieren.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Verursacht Thinking-Modus Zusatzkosten?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nein, aber der höhere Tokenverbrauch erhöht die Kosten.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wird Codex CLI separat abgerechnet?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nur bei API-Key-Login. Bei ChatGPT-Login über die Plangebühr.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Günstigster Einstieg für GPT-5.5?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Kostenloser oder Go-Plan plus Codex CLI. Siehe &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Leitfaden zum kostenlosen Einstieg&lt;/a&gt; für Details.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>GPT-5.5 Kostenlos Nutzen mit Codex: Anleitung</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 02:30:10 +0000</pubDate>
      <link>https://dev.to/emree_demir/gpt-55-kostenlos-nutzen-mit-codex-anleitung-4bhp</link>
      <guid>https://dev.to/emree_demir/gpt-55-kostenlos-nutzen-mit-codex-anleitung-4bhp</guid>
      <description>&lt;p&gt;OpenAI hat am 23. April 2026 GPT-5.5 veröffentlicht und Codex für alle ChatGPT-Pläne (inklusive Free und Go, zeitlich begrenzt) eingeführt. Das schnellste Setup für GPT-5.5 ohne API-Schlüssel oder Kreditkarte: Codex CLI installieren, mit ChatGPT-Konto anmelden und GPT-5.5 direkt im Terminal nutzen.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Probiere Apidog noch heute aus&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;In diesem Leitfaden findest du Schritt-für-Schritt-Anleitungen zur Installation, Authentifizierung, Modellwahl, Limits und Integration von Codex in echte Coding-Workflows. Die Modellübersicht gibt es &lt;a href="http://apidog.com/blog/what-is-gpt-5-5?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;hier&lt;/a&gt;, kostenlose Alternativen im &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5-Free-Guide&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;Codex CLI bringt GPT-5.5 (400K Kontext) direkt ins lokale Repo.&lt;/li&gt;
&lt;li&gt;ChatGPT &lt;strong&gt;Free, Go, Plus, Pro, Business, Enterprise, Edu&lt;/strong&gt; erhalten Zugriff (Free/Go: &lt;strong&gt;limitiert&lt;/strong&gt;).&lt;/li&gt;
&lt;li&gt;Installation:
&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;  npm &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="nt"&gt;-g&lt;/span&gt; @openai/codex
  &lt;span class="c"&gt;# oder&lt;/span&gt;
  brew &lt;span class="nb"&gt;install &lt;/span&gt;codex
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;ul&gt;
&lt;li&gt;Anmeldung via ChatGPT OAuth im Browser, alternativ Gerätecode für Headless-Server.&lt;/li&gt;
&lt;li&gt;Modellwechsel live: &lt;code&gt;/model gpt-5.5&lt;/code&gt;, Kontingent prüfen: &lt;code&gt;/status&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;Kombiniere Codex mit &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; für vorgefertigte, getestete API-Calls.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Warum Codex der einfachste Weg zu GPT-5.5 ist
&lt;/h2&gt;

&lt;p&gt;Die OpenAI API ist kostenpflichtig (5 $/Mio Input-Token, 30 $/Mio Output-Token). Codex kapselt GPT-5.5 im CLI, authentifiziert via ChatGPT-Login statt API-Key. Der Plan bestimmt die Rate-Limits, aber das Modell ist identisch.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnuhczptpnd6thkkkxlhc.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnuhczptpnd6thkkkxlhc.png" alt="Codex CLI Modell-Auswahl"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Codex CLI installieren
&lt;/h2&gt;

&lt;p&gt;Zwei Wege:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="c"&gt;# Plattformübergreifend mit npm&lt;/span&gt;
npm &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="nt"&gt;-g&lt;/span&gt; @openai/codex

&lt;span class="c"&gt;# Oder mit Homebrew (macOS / Linux)&lt;/span&gt;
brew &lt;span class="nb"&gt;install &lt;/span&gt;codex
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Installation prüfen:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;codex &lt;span class="nt"&gt;--version&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Mindestens Version &lt;code&gt;0.28.0&lt;/code&gt; erforderlich (ältere Versionen zeigen GPT-5.5 nicht an).&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F3u8pyal71lu6rbud8cet.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F3u8pyal71lu6rbud8cet.png" alt="CLI Version"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Mit ChatGPT-Konto authentifizieren
&lt;/h2&gt;

&lt;p&gt;Erster Start: CLI fragt nach der Anmeldemethode.&lt;/p&gt;

&lt;h3&gt;
  
  
  Browser OAuth (lokale Maschinen)
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;codex
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Browser öffnet sich – mit ChatGPT-Daten anmelden. Sitzung bleibt gespeichert.&lt;/p&gt;

&lt;h3&gt;
  
  
  Gerätecode (Headless/Remote)
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;codex login &lt;span class="nt"&gt;--device-auth&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Im Terminal erscheint ein Code+URL. Auf beliebigem Gerät öffnen, Code eingeben, bestätigen. Headless-Server authentifiziert sich nach Bestätigung.&lt;/p&gt;

&lt;h3&gt;
  
  
  API-Key-Fallback
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="nb"&gt;printenv &lt;/span&gt;OPENAI_API_KEY | codex login &lt;span class="nt"&gt;--with-api-key&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Belastet das API-Abrechnungskonto statt ChatGPT. Sinnvoll für Team-Accounts oder wenn API-Key bevorzugt wird.&lt;/p&gt;

&lt;h2&gt;
  
  
  GPT-5.5 als Modell wählen
&lt;/h2&gt;

&lt;p&gt;Standardmodell ist abhängig vom Plan. Bei Free/Go ggf. manuell wechseln.&lt;/p&gt;

&lt;h3&gt;
  
  
  Im laufenden CLI
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/model gpt-5.5
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;CLI zeigt aktives Modell und Limits.&lt;/p&gt;

&lt;h3&gt;
  
  
  Direkt beim Start
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;codex &lt;span class="nt"&gt;--model&lt;/span&gt; gpt-5.5
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  Kontingent prüfen
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/status
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Zeigt Nachrichtenbudget, Kontextgröße, ggf. Ablaufzeit des Free/Go-Zugangs.&lt;/p&gt;

&lt;h2&gt;
  
  
  Erste Sitzung: Praxisbeispiel
&lt;/h2&gt;

&lt;p&gt;Codex CLI arbeitet fullscreen im Terminal, hat Zugriff aufs Repo, kann Befehle ausführen, Dateien bearbeiten.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="nb"&gt;cd&lt;/span&gt; ~/Projects/my-app
codex &lt;span class="nt"&gt;--model&lt;/span&gt; gpt-5.5
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Im CLI z.B.:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight markdown"&gt;&lt;code&gt;&lt;span class="gt"&gt;&amp;gt; Lese README.md, öffne dann scripts/deploy.sh und fasse zusammen, was es in fünf Stichpunkten tut.&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Codex zeigt Zusammenfassung.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="o"&gt;&amp;gt;&lt;/span&gt; Refaktorisiere deploy.sh so, dass es bei jedem fehlgeschlagenen Schritt beendet wird, und füge ein Dry-Run-Flag hinzu. Achte auf Abwärtskompatibilität.
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;CLI schlägt Diff vor, wartet auf Genehmigung und übernimmt bei OK.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight console"&gt;&lt;code&gt;&lt;span class="gp"&gt;&amp;gt;&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;Führe die Deploy-Testsuite aus und zeige mir den fehlerhaften Fall.
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Testergebnisse werden gestreamt. Fehler? Modell um Fix bitten, wiederholen bis „grün“.&lt;/p&gt;

&lt;p&gt;Dieser Workflow ist der Sweetspot für GPT-5.5 (SWE-Bench-Score: 88,7 % lt. &lt;a href="https://openai.com/index/introducing-gpt-5-5/" rel="noopener noreferrer"&gt;OpenAI&lt;/a&gt;).&lt;/p&gt;

&lt;h2&gt;
  
  
  Codex-CLI – Mehrwert gegenüber reinen API-Calls
&lt;/h2&gt;

&lt;p&gt;Vorteile:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Repo-Kontext:&lt;/strong&gt; Dateibaum-Indexierung, Modell erhält Handles statt reinen Dateiinhalten → riesiges Kontextfenster bleibt frei für Code.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Befehlsausführung mit Freigabe:&lt;/strong&gt; Jeder vorgeschlagene Befehl wartet auf deine Bestätigung.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Diff-Vorschau:&lt;/strong&gt; Jede Änderung als einheitlicher Diff, akzeptieren/ablehnen/editieren vor Anwendung.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Session-Persistenz:&lt;/strong&gt; Verlauf pro Projekt, nahtloses Weitermachen.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Ohne Codex müsstest du diese Funktionen selbst via API bauen. Siehe &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;diesen Guide&lt;/a&gt; für die Bare-Metal-Variante.&lt;/p&gt;

&lt;h2&gt;
  
  
  Ratenlimits pro Plan
&lt;/h2&gt;

&lt;p&gt;Stand 23. April 2026:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Plan&lt;/th&gt;
&lt;th&gt;GPT-5.5-Zugriff in Codex&lt;/th&gt;
&lt;th&gt;Wöchentliche Obergrenze&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Kostenlos&lt;/td&gt;
&lt;td&gt;Ja (begrenzte Zeit)&lt;/td&gt;
&lt;td&gt;Streng; Prototyp-Größe&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Go&lt;/td&gt;
&lt;td&gt;Ja (begrenzte Zeit), 2× Free-Limits&lt;/td&gt;
&lt;td&gt;Klein&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Plus&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Mittel&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Pro&lt;/td&gt;
&lt;td&gt;Ja, höchste Obergrenzen für Einzelnutzer&lt;/td&gt;
&lt;td&gt;Hoch&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Business&lt;/td&gt;
&lt;td&gt;Ja, sitzbasiert&lt;/td&gt;
&lt;td&gt;Hoch pro Platz&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Enterprise / Bildung&lt;/td&gt;
&lt;td&gt;Ja, vertragsbasiert&lt;/td&gt;
&lt;td&gt;Benutzerdefiniert&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Bei Überschreitung liefert Codex einen klaren Fehler zurück. &lt;code&gt;/status&lt;/code&gt; zeigt aktuelle Limits.&lt;/p&gt;

&lt;h2&gt;
  
  
  Editor- und IDE-Integration
&lt;/h2&gt;

&lt;p&gt;Codex-Login gilt auch für VS Code Extension, JetBrains-Plugin, Codex-Cloud-App. Nach CLI-Login nutzt die IDE-Erweiterung dieselben Credentials.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Für Apidog-User:&lt;/strong&gt;&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Prototyping einer Anfrage im Codex CLI (&lt;code&gt;führe GPT-5.5-Prompt für diese Datei aus&lt;/code&gt;)&lt;/li&gt;
&lt;li&gt;Exportiere Prompt + Output in eine &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt;-Kollektion für Team-Sharing.&lt;/li&gt;
&lt;li&gt;Ersetze Codex durch direkten API-Call, sobald das Contract stabil ist und du auf kostenpflichtigen Key wechselst.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Siehe &lt;a href="http://apidog.com/blog/how-to-use-apidog-inside-vscode?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog in VS Code&lt;/a&gt; für Integration.&lt;/p&gt;

&lt;h2&gt;
  
  
  Sicherheit: Free &amp;amp; Go absichern
&lt;/h2&gt;

&lt;p&gt;Zwei Empfehlungen:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Datei-Schreibvorgänge immer bestätigen:&lt;/strong&gt;
In &lt;code&gt;~/.codex/config.json&lt;/code&gt;:
&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight json"&gt;&lt;code&gt;&lt;span class="w"&gt;  &lt;/span&gt;&lt;span class="nl"&gt;"autoApproveWrites"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="kc"&gt;false&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Bei Free ist das Default, bei manchen Go-Setups werden triviale Diffs sonst automatisch übernommen.&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Arbeitsbereich eingrenzen:&lt;/strong&gt;
Starte &lt;code&gt;codex&lt;/code&gt; nur im Projektverzeichnis – so bleibt der Lesebereich limitiert. Wer im Home-Verzeichnis startet, gibt Zugriff auf alle Dateien.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;OpenAI hat GPT-5.5 durch Third-Party-Security-Audits geprüft (&lt;a href="https://www.cnbc.com/2026/04/23/openai-announces-latest-artificial-intelligence-model.html" rel="noopener noreferrer"&gt;CNBC&lt;/a&gt;), aber CLI läuft lokal: Immer Diffs prüfen!&lt;/p&gt;

&lt;h2&gt;
  
  
  Wann solltest du upgraden?
&lt;/h2&gt;

&lt;p&gt;„Für eine begrenzte Zeit“ heißt: Free/Go laufen aus. Upgrade, wenn:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Wöchentliche Limits zu knapp:&lt;/strong&gt; Echte Arbeit = Upgrade auf Plus/Pro.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Du willst direkte API:&lt;/strong&gt; CLI reicht nicht mehr; &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;API-Guide&lt;/a&gt; zur Migration.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Team braucht sitzbasierte Abrechnung:&lt;/strong&gt; Business/Enterprise via &lt;a href="http://apidog.com/blog/gpt-5-5-pricing?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Preisübersicht&lt;/a&gt;.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Nur Abrechnungsmodell und Oberfläche ändern sich – das Modell bleibt identisch.&lt;/p&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Führt Codex auch GPT-5.5 Pro aus?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Pro ist aktuell nicht in Codex verfügbar. Das CLI nutzt GPT-5.5 Standardmodell, Pro bleibt Web/App/API vorbehalten.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kann ich Codex ohne ChatGPT-Konto nutzen?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nein, entweder ChatGPT-Login oder OpenAI API-Key ist Pflicht. Die Gratis-Variante setzt ChatGPT voraus.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie lange bleibt Free/Go-Zugang?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
OpenAI spricht explizit von „begrenzter Zeit“. Kalkuliere mit einigen Wochen/Monaten und plane rechtzeitig dein Upgrade.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Läuft Codex offline?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nein – jeder GPT-5.5-Call geht zu OpenAI.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Unterschied zur ChatGPT-Web-App?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Codex läuft im Terminal mit Zugriff auf dein Dateisystem, Shell, Repo-Kontext. Die Web-App bietet das nicht.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>GPT-5.5 API Kostenlos Nutzen: Anleitung &amp; Möglichkeiten</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 02:17:29 +0000</pubDate>
      <link>https://dev.to/emree_demir/gpt-55-api-kostenlos-nutzen-anleitung-moglichkeiten-3gc0</link>
      <guid>https://dev.to/emree_demir/gpt-55-api-kostenlos-nutzen-anleitung-moglichkeiten-3gc0</guid>
      <description>&lt;p&gt;GPT-5.5 wurde am 23. April 2026 veröffentlicht und ist auf den meisten Oberflächen hinter einer Paywall zugänglich: Plus, Pro, Business und Enterprise in ChatGPT sowie über kostenpflichtige API-Tokens für programmatische Aufrufe. Es gibt jedoch drei funktionierende kostenlose Wege, mit denen Sie sofort echte GPT-5.5-Aufrufe durchführen können – vorausgesetzt, Sie akzeptieren Ratenbegrenzungen und ein mögliches Ablaufdatum. Dieser Leitfaden zeigt Ihnen alle kostenlosen Optionen, für welchen Anwendungsfall sie geeignet sind und wie Sie eine produktionsreife Sammlung in &lt;a href="https://apidog.com?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; vorbereiten, um bei steigendem Bedarf nahtlos auf kostenpflichtige Nutzung umzusteigen.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Teste Apidog noch heute&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;&amp;lt;!--kg-card-begin: html--&amp;gt;&lt;/p&gt;
&lt;br&gt;
        &lt;br&gt;
        &lt;br&gt;
    &amp;lt;!--kg-card-end: html--&amp;gt;
&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Codex CLI auf ChatGPT Free oder Go&lt;/strong&gt; — Temporärer kostenloser Zugriff auf GPT-5.5 über das Befehlszeilentool Codex. Keine Kreditkarte erforderlich. Funktioniert sofort.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;OpenAI Testguthaben für neue API-Konten&lt;/strong&gt; — Startguthaben auf dem ersten API-Schlüssel, das echte GPT-5.5-Aufrufe erlaubt, sobald die API offen ist.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;OpenRouter und Aggregator-Freikontingente&lt;/strong&gt; — Drittanbieter-Gateways mit gelegentlichen Free-Tiers für Frontier-Modelle kurz nach Release.&lt;/li&gt;
&lt;li&gt;Jeder Pfad ist limitiert. Für Produktion rechtzeitig auf kostenpflichtige Abrechnung umstellen, bevor das Testguthaben erlischt.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;
  
  
  Pfad 1: Codex CLI (der praktischste kostenlose Weg)
&lt;/h2&gt;

&lt;p&gt;OpenAI hat Codex zu jedem ChatGPT-Plan (auch Free und Go) hinzugefügt – befristet. Wichtig: Codex macht GPT-5.5 über ChatGPT-Login statt API-Key nutzbar. Sie loggen sich mit kostenlosem Konto ein, führen die CLI aus, und GPT-5.5 antwortet im 400K-Token-Fenster.&lt;/p&gt;
&lt;h3&gt;
  
  
  Installation
&lt;/h3&gt;


&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;npm &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="nt"&gt;-g&lt;/span&gt; @openai/codex
&lt;span class="c"&gt;# oder&lt;/span&gt;
brew &lt;span class="nb"&gt;install &lt;/span&gt;codex
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Überprüfen:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;codex &lt;span class="nt"&gt;--version&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  Authentifizierung
&lt;/h3&gt;

&lt;p&gt;Beim ersten Start von &lt;code&gt;codex&lt;/code&gt; öffnet sich ein Browser-Login mit ChatGPT OAuth. Auf Headless-Servern:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;codex login &lt;span class="nt"&gt;--device-auth&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Sie erhalten einen Gerätecode zur Eingabe auf einer anderen Maschine. Kein API-Key nötig.&lt;/p&gt;

&lt;h3&gt;
  
  
  Modell auswählen
&lt;/h3&gt;

&lt;p&gt;In aktiver Codex-Session:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/model gpt-5.5
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Oder CLI direkt:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;codex &lt;span class="nt"&gt;--model&lt;/span&gt; gpt-5.5
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Kontingent prüfen mit &lt;code&gt;/status&lt;/code&gt;. Free- und Go-Stufen sind limitiert, reichen aber für Prototypen.&lt;/p&gt;

&lt;h3&gt;
  
  
  Was ist möglich, was nicht
&lt;/h3&gt;

&lt;p&gt;Sie erhalten echtes GPT-5.5 mit 400K Kontext, Dateizugriff, Terminalausführung und Repo-Editing in der CLI. Kein direkter API-Zugriff – das Modell ist ausschließlich über Codex nutzbar, solange Sie angemeldet sind. Details siehe &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-free-codex?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;unseren Codex-Leitfaden&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;OpenAI gibt „begrenzte Zeit“ vor – der kostenlose Codex-Zugang endet. Halten Sie die Modell-ID konfigurierbar, um bei Ablauf nahtlos auf kostenpflichtige Nutzung oder API umzustellen.&lt;/p&gt;

&lt;h2&gt;
  
  
  Pfad 2: OpenAI Testguthaben für neue API-Konten
&lt;/h2&gt;

&lt;p&gt;Neue OpenAI-Entwicklerkonten starten meist mit Testguthaben (z.B. $5 für 90 Tage, manchmal mehr für .edu-E-Mail). Sobald die GPT-5.5 API offen ist, können Sie mit diesem Guthaben &lt;code&gt;gpt-5.5&lt;/code&gt;-Aufrufe tätigen.&lt;/p&gt;

&lt;h3&gt;
  
  
  So beanspruchen Sie das Guthaben
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;Neues Entwicklerkonto unter &lt;code&gt;platform.openai.com&lt;/code&gt; anlegen. Verwenden Sie eine bisher nicht genutzte E-Mail; bei bestehender Abrechnung gibt es oft kein Guthaben.&lt;/li&gt;
&lt;li&gt;Telefonnummer verifizieren – Testguthaben gibt es nur für verifizierte Nummern.&lt;/li&gt;
&lt;li&gt;Projektbezogenen API-Key unter der Test-Organisation erstellen.&lt;/li&gt;
&lt;li&gt;Im Nutzungs-Dashboard Betrag und Ablaufdatum prüfen.&lt;/li&gt;
&lt;/ol&gt;

&lt;h3&gt;
  
  
  Was bringt das für GPT-5.5?
&lt;/h3&gt;

&lt;p&gt;Mit $5 Guthaben und Preisen von $5/M Input-Token bzw. $30/M Output-Token können Sie rund 1 Mio. Input-Tokens oder ca. 160K Output-Tokens von &lt;code&gt;gpt-5.5&lt;/code&gt; testen. Perfekt für Prototyping, Benchmarking und Validierung kleiner Agenten – nicht für Produktion.&lt;/p&gt;

&lt;p&gt;Zwei Tipps zum Sparen:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Batch-Modus nutzen&lt;/strong&gt;: Batch-API-Anfragen laufen zum halben Preis. Gut für asynchrone Workflows. Dokumentation siehe &lt;a href="https://openai.com/api/pricing/" rel="noopener noreferrer"&gt;OpenAI API-Preise&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;code&gt;reasoning.effort&lt;/code&gt; auf &lt;code&gt;low&lt;/code&gt; lassen&lt;/strong&gt;: Hohe Denkintensität verbraucht Budget schnell. Für Routine genügt der Standardwert.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Der Haken
&lt;/h3&gt;

&lt;p&gt;Testguthaben wird nicht erneuert. Nach Verbrauch oder Ablauf gibt die API 402 zurück. Es gibt keinen zweiten Testzugang.&lt;/p&gt;

&lt;h2&gt;
  
  
  Pfad 3: Kostenlose Aggregator-Kontingente
&lt;/h2&gt;

&lt;p&gt;Drittanbieter wie OpenRouter, Together und Groq schalten teils kurzfristig Free-Tiers für neue Modelle frei. Verfügbarkeit schwankt – prüfen Sie das am Tag der Kontoerstellung.&lt;/p&gt;

&lt;p&gt;Typischer Ablauf:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Konto erstellen, E-Mail verifizieren.&lt;/li&gt;
&lt;li&gt;Aggregator-API-Key beziehen.&lt;/li&gt;
&lt;li&gt;OpenAI-Basis-URL im SDK durch die Aggregator-URL ersetzen.&lt;/li&gt;
&lt;li&gt;Modell-String auf den Aggregator-Alias ändern, z.B. &lt;code&gt;openai/gpt-5.5&lt;/code&gt;.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Beispiel in Python:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;openai&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;

&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;base_url&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;https://openrouter.ai/api/v1&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;sk-or-v1-...&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;openai/gpt-5.5&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Explain the Responses API in two paragraphs.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Achtung: Aggregatoren haben eigene Ratenlimits, das Free-Tier ist oft geteilt, und sobald das Kontingent erschöpft ist, erhalten Sie 402 oder 429. Eignet sich für schnelles Prototyping, nicht für produktive Nutzung.&lt;/p&gt;

&lt;h2&gt;
  
  
  Welchen kostenlosen Weg sollten Sie wählen?
&lt;/h2&gt;

&lt;p&gt;&amp;lt;!--kg-card-begin: html--&amp;gt;&lt;/p&gt;
&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;br&gt;
&lt;thead&gt;
&lt;br&gt;
&lt;tr&gt;
&lt;br&gt;
&lt;th&gt;Anwendungsfall&lt;/th&gt;
&lt;br&gt;
&lt;th&gt;Bester kostenloser Weg&lt;/th&gt;
&lt;br&gt;
&lt;/tr&gt;
&lt;br&gt;
&lt;/thead&gt;
&lt;br&gt;
&lt;tbody&gt;
&lt;br&gt;
&lt;tr&gt;
&lt;br&gt;
&lt;td&gt;Terminalbasierter Coding-Assistent&lt;/td&gt;
&lt;br&gt;
&lt;td&gt;Codex CLI (Pfad 1)&lt;/td&gt;
&lt;br&gt;
&lt;/tr&gt;
&lt;br&gt;
&lt;tr&gt;
&lt;br&gt;
&lt;td&gt;Schnelle Python- oder Node-Experimente&lt;/td&gt;
&lt;br&gt;
&lt;td&gt;Testguthaben (Pfad 2)&lt;/td&gt;
&lt;br&gt;
&lt;/tr&gt;
&lt;br&gt;
&lt;tr&gt;
&lt;br&gt;
&lt;td&gt;Testen über eine gehostete App&lt;/td&gt;
&lt;br&gt;
&lt;td&gt;Aggregator (Pfad 3)&lt;/td&gt;
&lt;br&gt;
&lt;/tr&gt;
&lt;br&gt;
&lt;tr&gt;
&lt;br&gt;
&lt;td&gt;Vergleich von GPT-5.5 mit GPT-5.4 bei echten Prompts&lt;/td&gt;
&lt;br&gt;
&lt;td&gt;Testguthaben + Apidog-Sammlung&lt;/td&gt;
&lt;br&gt;
&lt;/tr&gt;
&lt;br&gt;
&lt;tr&gt;
&lt;br&gt;
&lt;td&gt;Einmalige „Kann das meine Frage beantworten“-Recherche&lt;/td&gt;
&lt;br&gt;
&lt;td&gt;ChatGPT Plus (nicht kostenlos, aber am günstigsten pro Stunde)&lt;/td&gt;
&lt;br&gt;
&lt;/tr&gt;
&lt;br&gt;
&lt;/tbody&gt;
&lt;br&gt;
&lt;/table&gt;&lt;/div&gt;&amp;lt;!--kg-card-end: html--&amp;gt;

&lt;p&gt;Für alles über Prototyping hinaus sind die drei Wege schnell ausgeschöpft. Nutzen Sie sie, um die API-Struktur und Prompt-Optimierung zu lernen, bevor Sie kostenpflichtig skalieren.&lt;/p&gt;

&lt;h2&gt;
  
  
  Die Anforderungsstruktur in Apidog vorbereiten
&lt;/h2&gt;

&lt;p&gt;Der schnellste Weg vom „Free-Tier-Test“ zur produktionsreifen Nutzung ist eine zentral gepflegte, versionierte Sammlung in Apidog.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-213.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-213.png" alt="" width="3674" height="2436"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;In Apidog:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Neue Sammlung erstellen, &lt;code&gt;POST &lt;a href="https://api.openai.com/v1/responses" rel="noopener noreferrer"&gt;https://api.openai.com/v1/responses&lt;/a&gt;&lt;/code&gt; anlegen.&lt;/li&gt;
&lt;li&gt;Auth-Header aus Umgebungsvariable setzen, damit Sie Keys austauschen können ohne die Anfrage zu ändern.&lt;/li&gt;
&lt;li&gt;Beispielantwort speichern, sodass andere Entwickler im Team mit Mock-Daten arbeiten können.&lt;/li&gt;
&lt;li&gt;Für Aggregator-Pfad Sammlung klonen, &lt;code&gt;baseUrl&lt;/code&gt; auf OpenRouter stellen und Modell-String anpassen.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Wenn das Testguthaben abläuft oder Sie upgraden, einfach die Umgebungsvariable tauschen – die Sammlung bleibt unverändert funktionsfähig. Mehr dazu in unserer &lt;a href="http://apidog.com/blog/how-to-use-apidog-inside-vscode?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;VS Code-Anleitung für Apidog&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Einschränkungen der kostenlosen Wege
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Ratenbegrenzungen variieren je nach Auslastung.&lt;/strong&gt; Codex Free/Go sind bei hoher Nachfrage langsamer.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Testguthaben ist nicht stapelbar.&lt;/strong&gt; Zweitkonten mit gleicher Karte, Nummer oder IP erhalten kein neues Guthaben.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;GPT-5.5 Pro ist nie kostenlos.&lt;/strong&gt; Die Pro-Stufe bleibt kostenpflichtig.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Denkmodus verbraucht Budget.&lt;/strong&gt; Halten Sie &lt;code&gt;reasoning.effort&lt;/code&gt; auf &lt;code&gt;low&lt;/code&gt;, außer bei gezielten, komplexen Tests.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Kostenlose Zugänge sind zeitlich befristet.&lt;/strong&gt; Codex Free/Go ist laut &lt;a href="https://openai.com/index/introducing-gpt-5-5/" rel="noopener noreferrer"&gt;OpenAI-Ankündigung&lt;/a&gt; explizit „für eine begrenzte Zeit“ verfügbar.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Ein realistischer Free-Tier-Prototyp
&lt;/h2&gt;

&lt;p&gt;So holen Sie das Maximum aus dem Free-Tier:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Wählen Sie eine reale Aufgabe aus Ihrem Teamalltag (Report, Code Review, Research).&lt;/li&gt;
&lt;li&gt;Führen Sie 10 Beispiele mit GPT-5.4 auf Ihren Tools aus, dokumentieren Sie die Qualität.&lt;/li&gt;
&lt;li&gt;Wiederholen Sie die 10 Beispiele mit GPT-5.5 (über Codex CLI oder Testguthaben).&lt;/li&gt;
&lt;li&gt;Vergleichen Sie Output und Fehlerrate pro Token.&lt;/li&gt;
&lt;li&gt;Entscheiden Sie, ob das Upgrade die Preissteigerung für Ihre Workload rechtfertigt.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Das ist ein Workflow für einen Nachmittag – und zahlt sich aus, sobald Sie produktiv werden.&lt;/p&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Ist Codex Free/Go dauerhaft verfügbar?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nein. Laut &lt;a href="https://openai.com/index/introducing-gpt-5-5/" rel="noopener noreferrer"&gt;OpenAI-Ankündigung&lt;/a&gt; nur „für eine begrenzte Zeit“. Rechnen Sie mit einem Auslaufen binnen Monaten.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Bekomme ich GPT-5.5 im Browser auf ChatGPT Free?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nein. Der kostenlose ChatGPT-Plan bleibt bei GPT-5.3. GPT-5.5 im Chat-Interface setzt Plus oder höher voraus.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kann ich GPT-5.5 kostenlos auf Hugging Face oder Ollama nutzen?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nein. GPT-5.5 ist Closed-Weight und läuft nur bei OpenAI oder über Codex-Login.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Gibt es Studentenrabatte?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
OpenAI hat in der Vergangenheit Vergünstigungen für .edu-Adressen und mehr Testguthaben geboten. Prüfen Sie die &lt;a href="https://openai.com/education/" rel="noopener noreferrer"&gt;OpenAI-Bildungsseite&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie wechsle ich auf kostenpflichtige Nutzung, ohne Code zu ändern?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nutzen Sie Umgebungsvariablen für Key und Base-URL (&lt;code&gt;OPENAI_API_KEY&lt;/code&gt;, &lt;code&gt;OPENAI_BASE_URL&lt;/code&gt;). Tauschen Sie diese Werte, wenn der Free-Tier endet – darum setzt unser &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5 API-Leitfaden&lt;/a&gt; auf projektbezogene Schlüssel.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>GPT-5.5 API nutzen: Eine Anleitung</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 02:14:06 +0000</pubDate>
      <link>https://dev.to/emree_demir/gpt-55-api-nutzen-eine-anleitung-649</link>
      <guid>https://dev.to/emree_demir/gpt-55-api-nutzen-eine-anleitung-649</guid>
      <description>&lt;p&gt;GPT-5.5 wurde am 23. April 2026 eingeführt. OpenAI hat das Modell am selben Tag in ChatGPT und Codex integriert und plant die Freigabe der Responses- und Chat Completions-APIs in Kürze. In diesem Leitfaden findest du alle praktischen Schritte für die API-Integration: Endpunkte, Authentifizierung, Python- und Node-Beispiele, Parametertabelle, Preisberechnung für den Denkmodus, Fehlerbehandlung und einen effizienten Test-Workflow in &lt;a href="https://apidog.com?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt;, um Iterationskosten zu minimieren.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Probiere Apidog jetzt aus&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;Für eine Produktübersicht siehe &lt;a href="http://apidog.com/blog/what-is-gpt-5-5?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Was ist GPT-5.5&lt;/a&gt;. Einen kostenlosen Einstieg beschreibt &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Wie man die GPT-5.5 API kostenlos nutzt&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Endpunkte:&lt;/strong&gt; &lt;code&gt;responses&lt;/code&gt; und &lt;code&gt;chat/completions&lt;/code&gt; mit Modell-ID &lt;code&gt;gpt-5.5&lt;/code&gt; oder &lt;code&gt;gpt-5.5-pro&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Preise:&lt;/strong&gt; 5 $ / Mio. Input, 30 $ / Mio. Output. Pro: 30 $ / Mio. Input, 180 $ / Mio. Output.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Kontextfenster:&lt;/strong&gt; 1 Mio. Token (API), 400 K (Codex CLI).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Vorab-Nutzung:&lt;/strong&gt; Über Codex und ChatGPT-Login möglich.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Tipp:&lt;/strong&gt; Mit &lt;a href="https://apidog.com/download?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; Sammlungen aufsetzen, da die Anforderungsstruktur größtenteils identisch zu GPT-5.4 ist (nur Modell-ID und &lt;code&gt;reasoning&lt;/code&gt;-Block anpassen).&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Voraussetzungen
&lt;/h2&gt;

&lt;p&gt;Vor dem ersten API-Call brauchst du:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;OpenAI-Entwicklerkonto&lt;/strong&gt; mit Abrechnungsstufe (UI- und API-Abos sind getrennt).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;API-Schlüssel&lt;/strong&gt; mit GPT-5-Zugang (projektspezifisch empfohlen).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Aktuelles SDK:&lt;/strong&gt; Python &lt;code&gt;openai&amp;gt;=2.1.0&lt;/code&gt;, Node &lt;code&gt;openai@5.1.0&lt;/code&gt; oder neuer.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;API-Client&lt;/strong&gt; mit Wiederholungsfunktion (z.B. Apidog, nach erstem Test mit curl).&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Schlüssel im Terminal bereitstellen:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="nb"&gt;export &lt;/span&gt;&lt;span class="nv"&gt;OPENAI_API_KEY&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;"sk-proj-..."&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Endpunkt und Authentifizierung
&lt;/h2&gt;

&lt;p&gt;GPT-5.5 nutzt zwei bekannte Endpunkte:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight http"&gt;&lt;code&gt;&lt;span class="err"&gt;POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Die Authentifizierung läuft über Bearer-Token. Beispielaufruf:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;curl https://api.openai.com/v1/responses &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;-H&lt;/span&gt; &lt;span class="s2"&gt;"Authorization: Bearer &lt;/span&gt;&lt;span class="nv"&gt;$OPENAI_API_KEY&lt;/span&gt;&lt;span class="s2"&gt;"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;-H&lt;/span&gt; &lt;span class="s2"&gt;"Content-Type: application/json"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;-d&lt;/span&gt; &lt;span class="s1"&gt;'{
    "model": "gpt-5.5",
    "input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
    "reasoning": { "effort": "medium" }
  }'&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Die Antwort enthält das &lt;code&gt;output&lt;/code&gt;-Array und einen &lt;code&gt;usage&lt;/code&gt;-Block (Input-, Output- und Reasoning-Token). Fehler werden als JSON mit &lt;code&gt;code&lt;/code&gt; und &lt;code&gt;message&lt;/code&gt; zurückgegeben.&lt;/p&gt;

&lt;h2&gt;
  
  
  Anfrageparameter
&lt;/h2&gt;

&lt;p&gt;Jeder Body-Parameter beeinflusst Kosten oder Verhalten. Die wichtigsten Felder für &lt;code&gt;gpt-5.5&lt;/code&gt;:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Parameter&lt;/th&gt;
&lt;th&gt;Typ&lt;/th&gt;
&lt;th&gt;Werte&lt;/th&gt;
&lt;th&gt;Anmerkungen&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;model&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;string&lt;/td&gt;
&lt;td&gt;
&lt;code&gt;gpt-5.5&lt;/code&gt;, &lt;code&gt;gpt-5.5-pro&lt;/code&gt;
&lt;/td&gt;
&lt;td&gt;Pflichtfeld. Pro kostet 6× mehr.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;
&lt;code&gt;input&lt;/code&gt; / &lt;code&gt;messages&lt;/code&gt;
&lt;/td&gt;
&lt;td&gt;string/array&lt;/td&gt;
&lt;td&gt;Prompt oder Chat-Array&lt;/td&gt;
&lt;td&gt;Pflichtfeld. &lt;code&gt;input&lt;/code&gt; für Responses, &lt;code&gt;messages&lt;/code&gt; für Chat Completions.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;reasoning.effort&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;string&lt;/td&gt;
&lt;td&gt;
&lt;code&gt;none&lt;/code&gt;, &lt;code&gt;low&lt;/code&gt;, &lt;code&gt;medium&lt;/code&gt;, &lt;code&gt;high&lt;/code&gt;, &lt;code&gt;xhigh&lt;/code&gt;
&lt;/td&gt;
&lt;td&gt;Default: &lt;code&gt;low&lt;/code&gt;. Höhere Stufen erhöhen die Denkmodus-Tiefe und die Kosten.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;max_output_tokens&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;integer&lt;/td&gt;
&lt;td&gt;1 – 128000&lt;/td&gt;
&lt;td&gt;Output-Limit (ohne Reasoning-Token).&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;tools&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;array&lt;/td&gt;
&lt;td&gt;Function, web_search, file_search, computer_use, code_interpreter&lt;/td&gt;
&lt;td&gt;Modell wählt und verknüpft Tools automatisch.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;tool_choice&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;string/object&lt;/td&gt;
&lt;td&gt;
&lt;code&gt;auto&lt;/code&gt;, &lt;code&gt;none&lt;/code&gt;, oder Tool-Name&lt;/td&gt;
&lt;td&gt;Tool explizit auswählen.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;response_format&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;object&lt;/td&gt;
&lt;td&gt;&lt;code&gt;{ "type": "json_schema", ... }&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Strukturiertes Output; Standard: striktes JSON.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;stream&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;boolean&lt;/td&gt;
&lt;td&gt;true / false&lt;/td&gt;
&lt;td&gt;Server-Sent Events, Reasoning-Token als separate Events.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;user&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;string&lt;/td&gt;
&lt;td&gt;Freitext&lt;/td&gt;
&lt;td&gt;Für Missbrauchserkennung; gehashte User-ID empfohlen.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;metadata&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;object&lt;/td&gt;
&lt;td&gt;Bis zu 16 Schlüssel-Wert-Paare&lt;/td&gt;
&lt;td&gt;Sichtbar im Dashboard und Logs.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;seed&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;integer&lt;/td&gt;
&lt;td&gt;Beliebige int32&lt;/td&gt;
&lt;td&gt;Schwacher Determinismus.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;temperature&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;number&lt;/td&gt;
&lt;td&gt;0 – 2&lt;/td&gt;
&lt;td&gt;Ignoriert ab &lt;code&gt;reasoning.effort &amp;gt;= medium&lt;/code&gt;.&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Am kostenrelevantesten: &lt;code&gt;reasoning.effort&lt;/code&gt;, &lt;code&gt;max_output_tokens&lt;/code&gt;, &lt;code&gt;tools&lt;/code&gt;. Denkmodus (&lt;code&gt;high&lt;/code&gt;, &lt;code&gt;xhigh&lt;/code&gt;) kann 3–8× mehr Output-Token erzeugen.&lt;/p&gt;

&lt;h2&gt;
  
  
  Python-Beispiel
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;openai&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;

&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;responses&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gpt-5.5&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="nb"&gt;input&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;
        &lt;span class="p"&gt;{&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;system&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;You are a senior Go engineer. Answer in terse, runnable code.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="p"&gt;},&lt;/span&gt;
        &lt;span class="p"&gt;{&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;(&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Write a worker pool with bounded concurrency and a context &lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;cancellation path. No third-party deps.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;
            &lt;span class="p"&gt;),&lt;/span&gt;
        &lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="p"&gt;],&lt;/span&gt;
    &lt;span class="n"&gt;reasoning&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;effort&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;medium&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="n"&gt;max_output_tokens&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mi"&gt;4000&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;output_text&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;model_dump&lt;/span&gt;&lt;span class="p"&gt;())&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Beachte:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;response.output_text&lt;/code&gt; liefert den kompakten Text. Für Tool-Ereignisse, Reasoning-Traces, Zitate: direkt auf &lt;code&gt;response.output&lt;/code&gt; zugreifen.&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;usage&lt;/code&gt; enthält jetzt separate Zähler für Input-, Output- und Reasoning-Tokens – alle sind abrechnungsrelevant.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Node-Beispiel
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight javascript"&gt;&lt;code&gt;&lt;span class="k"&gt;import&lt;/span&gt; &lt;span class="nx"&gt;OpenAI&lt;/span&gt; &lt;span class="k"&gt;from&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;openai&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;;&lt;/span&gt;

&lt;span class="kd"&gt;const&lt;/span&gt; &lt;span class="nx"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="k"&gt;new&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;();&lt;/span&gt;

&lt;span class="kd"&gt;const&lt;/span&gt; &lt;span class="nx"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="k"&gt;await&lt;/span&gt; &lt;span class="nx"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;responses&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;({&lt;/span&gt;
  &lt;span class="na"&gt;model&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;gpt-5.5&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
  &lt;span class="na"&gt;input&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;
    &lt;span class="p"&gt;{&lt;/span&gt; &lt;span class="na"&gt;role&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;system&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="na"&gt;content&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;You are a careful reviewer.&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt; &lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="p"&gt;{&lt;/span&gt;
      &lt;span class="na"&gt;role&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;user&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
      &lt;span class="na"&gt;content&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
        &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="p"&gt;},&lt;/span&gt;
  &lt;span class="p"&gt;],&lt;/span&gt;
  &lt;span class="na"&gt;reasoning&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt; &lt;span class="na"&gt;effort&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;high&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt; &lt;span class="p"&gt;},&lt;/span&gt;
  &lt;span class="na"&gt;tools&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[{&lt;/span&gt; &lt;span class="na"&gt;type&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;file_search&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt; &lt;span class="p"&gt;}],&lt;/span&gt;
  &lt;span class="na"&gt;max_output_tokens&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;6000&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;});&lt;/span&gt;

&lt;span class="nx"&gt;console&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;log&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="nx"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;output_text&lt;/span&gt;&lt;span class="p"&gt;);&lt;/span&gt;
&lt;span class="nx"&gt;console&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;log&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="nx"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;);&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Setze &lt;code&gt;reasoning.effort&lt;/code&gt; auf &lt;code&gt;high&lt;/code&gt; für Review-Aufgaben, bei denen Korrektheit wichtiger ist als Kosten.&lt;/p&gt;

&lt;h2&gt;
  
  
  Denkmodus
&lt;/h2&gt;

&lt;p&gt;Denkmodus wird über &lt;code&gt;reasoning.effort&lt;/code&gt; (&lt;code&gt;high&lt;/code&gt; oder &lt;code&gt;xhigh&lt;/code&gt;) aktiviert. Nutze als Standard &lt;code&gt;medium&lt;/code&gt; (ausreichend für Multi-Agenten, Debugging, Doku-Generierung), &lt;code&gt;high&lt;/code&gt;/&lt;code&gt;xhigh&lt;/code&gt; für Forschung, kritische Prüfungen oder komplexe Tool-Ketten. Plane 3–8× mehr Token und längere Antwortzeiten ein.&lt;/p&gt;

&lt;p&gt;Denkmodus ist besonders relevant für &lt;code&gt;computer_use&lt;/code&gt; oder lange Websuche, da Halluzinationen nachweislich seltener auftreten (&lt;a href="https://openai.com/index/introducing-gpt-5-5/" rel="noopener noreferrer"&gt;OpenAI Launch-Post&lt;/a&gt;).&lt;/p&gt;

&lt;h2&gt;
  
  
  Strukturierte Ausgabe
&lt;/h2&gt;

&lt;p&gt;Striktes JSON ist Standard. Übergebe ein Schema, damit die Ausgabe immer valide ist:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;responses&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gpt-5.5&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="nb"&gt;input&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Extract the title, speaker, and start time from this transcript chunk.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;response_format&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;json_schema&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;json_schema&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;session_extract&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;strict&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;schema&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;object&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;required&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;title&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;speaker&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;start_time&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;properties&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
                    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;title&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;string&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
                    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;speaker&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;string&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
                    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;start_time&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;string&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;format&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;date-time&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
                &lt;span class="p"&gt;},&lt;/span&gt;
            &lt;span class="p"&gt;},&lt;/span&gt;
        &lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="p"&gt;},&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Für jede Pipeline, die Daten weiterverarbeitet, ist ein Schema Pflicht – kein Overhead, aber deutlich weniger Fehler.&lt;/p&gt;

&lt;h2&gt;
  
  
  Tool-Nutzung und Agenten
&lt;/h2&gt;

&lt;p&gt;Die Responses API unterstützt:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;web_search&lt;/code&gt; – Live-Suche mit Quellenangabe&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;file_search&lt;/code&gt; – Vektorsuche in hochgeladenen Dateien&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;code_interpreter&lt;/code&gt; – Python Sandbox&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;computer_use&lt;/code&gt; – Browser/Maus/Tastatur-Emulation&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;function&lt;/code&gt; – Eigene Callbacks&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;GPT-5.5 kann Tools autonom und mehrstufig verketten – laut &lt;a href="https://the-decoder.com/openai-unveils-gpt-5-5-claims-a-new-class-of-intelligence-at-double-the-api-price/" rel="noopener noreferrer"&gt;The Decoder&lt;/a&gt; ca. 11 % häufiger als GPT-5.4.&lt;/p&gt;

&lt;h2&gt;
  
  
  Fehlerbehandlung und Wiederholungsversuche
&lt;/h2&gt;

&lt;p&gt;Behandle diese Fehler gezielt:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Code&lt;/th&gt;
&lt;th&gt;Bedeutung&lt;/th&gt;
&lt;th&gt;Wiederholen?&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;429 rate_limit_exceeded&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Rate-Limit (Min/Tag) erreicht&lt;/td&gt;
&lt;td&gt;Ja, exponentieller Backoff + Jitter&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;400 context_length_exceeded&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Kontext (Input+Output+Reasoning &amp;gt; 1 Mio. Token)&lt;/td&gt;
&lt;td&gt;Nein, Input kürzen&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;500 server_error&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;OpenAI-Serverfehler&lt;/td&gt;
&lt;td&gt;Ja, bis zu 3 Versuche&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;403 policy_violation&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Sicherheitsverletzung&lt;/td&gt;
&lt;td&gt;Nein, Prompt anpassen&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Reasoning-Token zählen zum Kontext. Ein Call mit &lt;code&gt;reasoning.effort: "xhigh"&lt;/code&gt; bei 900 K Input-Token führt schnell zum Überlauf.&lt;/p&gt;

&lt;h2&gt;
  
  
  Test-Workflow mit Apidog
&lt;/h2&gt;

&lt;p&gt;Kosten sparen durch effiziente Tests:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Anfrage in &lt;a href="https://apidog.com?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; anlegen, als Sammlung speichern, Umgebung zuweisen.&lt;/li&gt;
&lt;li&gt;Mock-Server nutzen, um Downstream-Code gegen gespeicherte Antwort zu entwickeln.&lt;/li&gt;
&lt;li&gt;Erst auf Live-Schlüssel umstellen, wenn das Schema steht.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Apidog integriert sich mit Claude Code und Cursor. Siehe &lt;a href="http://apidog.com/blog/how-to-use-apidog-inside-vscode?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;VS Code-Anleitung&lt;/a&gt; und &lt;a href="http://apidog.com/blog/api-testing-without-postman-2026?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Postman-Vergleich&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  GPT-5.5 aufrufen, bevor die API allgemein verfügbar ist
&lt;/h2&gt;

&lt;p&gt;Vor GA der Responses API kannst du GPT-5.5 via Codex testen. Der &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-free-codex?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Codex-Leitfaden&lt;/a&gt; erklärt Installation, Authentifizierung und Modellauswahl.&lt;/p&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Gibt es ein &lt;code&gt;gpt-5.5-mini&lt;/code&gt;?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nicht zum Start. Es bleibt bei &lt;code&gt;gpt-5.4-mini&lt;/code&gt; als günstige Variante.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Was ist das Kontextfenster?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
1 Mio. Token (API), 400 K (Codex CLI), Reasoning-Token inklusive.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Muss ich meinen GPT-5.4-Code anpassen?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nein – Modell-ID tauschen, ggf. &lt;code&gt;max_output_tokens&lt;/code&gt; und &lt;code&gt;reasoning.effort&lt;/code&gt; justieren.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie senke ich die Kosten?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Batch (50 % Rabatt), Flex (50 % Rabatt, langsamere Queue), strikte Schemata gegen Wiederholungsschleifen. Details: &lt;a href="http://apidog.com/blog/gpt-5-5-pricing?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5 Preisübersicht&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wo kommt die GA-Ankündigung?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Checke die &lt;a href="https://community.openai.com/" rel="noopener noreferrer"&gt;OpenAI Developer Community&lt;/a&gt; und die &lt;a href="https://openai.com/api/pricing/" rel="noopener noreferrer"&gt;OpenAI API Pricing Page&lt;/a&gt;.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>GPT-5.5: OpenAI's Neuester Durchbruch Erklärt</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Fri, 24 Apr 2026 01:51:51 +0000</pubDate>
      <link>https://dev.to/emree_demir/gpt-55-openais-neuester-durchbruch-erklart-37am</link>
      <guid>https://dev.to/emree_demir/gpt-55-openais-neuester-durchbruch-erklart-37am</guid>
      <description>&lt;p&gt;OpenAI hat am 23. April 2026 GPT-5.5 veröffentlicht – nur sechs Wochen nach GPT-5.4. Das Modell richtet sich gezielt an Entwickler und Teams, die mehrstufige Codierung, produktive Computernutzung und tiefgehende Forschung automatisieren wollen. GPT-5.5 läuft bereits in ChatGPT und Codex, die API folgt in Kürze.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Teste Apidog noch heute&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;Wenn du abwägst, ob sich ein Umstieg auf GPT-5.5 lohnt, bietet dieser Leitfaden einen praxisorientierten Überblick: Was bringt das Modell gegenüber 5.4, welche Benchmarks sind relevant, wie kannst du es jetzt direkt einsetzen und welche Stolperfallen solltest du kennen?&lt;/p&gt;

&lt;p&gt;Für die direkte Implementierung findest du hier Entwickler-Walkthroughs: &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GPT-5.5 API-Leitfaden&lt;/a&gt;, &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Anleitung für kostenlosen Zugriff&lt;/a&gt;, &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-free-codex?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;kostenloser Codex-Workflow&lt;/a&gt; und eine &lt;a href="http://apidog.com/blog/gpt-5-5-pricing?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Preisübersicht&lt;/a&gt;. Wer direkt loslegen will, kann mit &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; bereits eine Sammlung anlegen und auf die API warten.&lt;/p&gt;

&lt;h2 id="tldr"&gt;TL;DR&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GPT-5.5&lt;/strong&gt; ist das aktuelle Topmodell von OpenAI für Coding &amp;amp; logisches Denken (Release: 23.04.2026).&lt;/li&gt;
&lt;li&gt;Benchmarks: &lt;strong&gt;88,7 % auf SWE-bench&lt;/strong&gt;, &lt;strong&gt;92,4 % auf MMLU&lt;/strong&gt;, &lt;strong&gt;60 % weniger Halluzinationen&lt;/strong&gt; ggü. GPT-5.4.&lt;/li&gt;
&lt;li&gt;Drei Varianten: &lt;strong&gt;Standard&lt;/strong&gt;, &lt;strong&gt;Thinking&lt;/strong&gt; (erweitertes Denken), &lt;strong&gt;Pro&lt;/strong&gt; (höchste Präzision).&lt;/li&gt;
&lt;li&gt;Live in &lt;strong&gt;ChatGPT Plus, Pro, Business, Enterprise, Edu&lt;/strong&gt; und &lt;strong&gt;Codex (alle Pläne)&lt;/strong&gt;, inkl. zeitlich begrenztem Free-/Go-Zugang.&lt;/li&gt;
&lt;li&gt;API ist gestaffelt: Zugriff aktuell über Codex-Anmeldepfad, API Responses/Completions folgen.&lt;/li&gt;
&lt;li&gt;API-Preise: &lt;strong&gt;5 $ / Mio. Input-Tokens, 30 $ / Mio. Output-Tokens&lt;/strong&gt; (doppelt so teuer wie 5.4, aber effizientere Token-Nutzung).&lt;/li&gt;
&lt;/ul&gt;

&lt;h2 id="was-gpt-55-tatsächlich-ist"&gt;Was GPT-5.5 tatsächlich ist&lt;/h2&gt;

&lt;p&gt;GPT-5.5 ist das Flaggschiff der GPT-5-Reihe (über 5.4 und 5.4-mini, älter als die 5.3-Familie). Der Codename „Spud“ taucht in OpenAIs Teaser auf, offiziell heißt das Modell GPT-5.5.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-209.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fassets.apidog.com%2Fblog-next%2F2026%2F04%2Fimage-209.png" alt="" width="800" height="450"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Zum Launch gibt es drei Varianten:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GPT-5.5&lt;/strong&gt; – Standard: Schneller, präziser, optimiert für möglichst wenig Tokens je Aufgabe.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;GPT-5.5 Thinking&lt;/strong&gt; – wie Standard, aber mit erweitertem Budget fürs logische Denken. Ideal für komplexe Tabellen, dichte Forschungsberichte, Multi-Datei-Debugging. Begrenzung: 3.000 Nachrichten/Woche in ChatGPT.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;GPT-5.5 Pro&lt;/strong&gt; – höchste Präzision, speziell für Aufgaben mit kritischer Korrektheit. Verfügbar für Pro, Business, Enterprise.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Das Modell kann planen, Tools auswählen und die eigene Ausgabe prüfen, bevor es Ergebnisse zurückgibt. In der Praxis heißt das: Weniger Nachfragen nötig, weniger Fehler in Tabellen, häufiger Rückfragen statt Halluzinationen.&lt;/p&gt;

&lt;h2 id="was-sich-gegenüber-gpt-54-geändert-hat"&gt;Was ist neu gegenüber GPT-5.4?&lt;/h2&gt;

&lt;p&gt;In nur sechs Wochen gab es gezielte Upgrades. Die wichtigsten Unterschiede:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Fähigkeit&lt;/th&gt;
&lt;th&gt;GPT-5.4&lt;/th&gt;
&lt;th&gt;GPT-5.5&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;SWE-bench&lt;/td&gt;
&lt;td&gt;~74 %&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;88,7 %&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;MMLU&lt;/td&gt;
&lt;td&gt;91,1 %&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;92,4 %&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Halluzinationsrate&lt;/td&gt;
&lt;td&gt;Baseline&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;−60 %&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Kontextfenster (API)&lt;/td&gt;
&lt;td&gt;1,05 Mio.&lt;/td&gt;
&lt;td&gt;
&lt;strong&gt;1 Mio.&lt;/strong&gt; (Codex: 400 Tsd.)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;API-Eingabepreis&lt;/td&gt;
&lt;td&gt;2,50 $ / Mio.&lt;/td&gt;
&lt;td&gt;5,00 $ / Mio.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;API-Ausgabepreis&lt;/td&gt;
&lt;td&gt;15,00 $ / Mio.&lt;/td&gt;
&lt;td&gt;30,00 $ / Mio.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Computernutzung&lt;/td&gt;
&lt;td&gt;Wird verbessert&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;Produktionsreif&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Mehrstufige Werkzeugketten&lt;/td&gt;
&lt;td&gt;Einzelschuss bevorzugt&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;Vollständige autonome Schleifen&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Besonders der SWE-bench-Sprung ist entscheidend: 88,7 % auf SWE-bench Verified bedeutet, dass GPT-5.5 echte GitHub-Issues auf dem Level erfahrener Entwickler löst. In der Praxis solltest du aber vor Produktionsumstellungen eigene Tests auf deiner Codebasis durchführen.&lt;/p&gt;

&lt;p&gt;Die Preisverdopplung relativiert sich durch effizientere Token-Nutzung. Unabhängige Analysen (z.B. &lt;a href="https://the-decoder.com/openai-unveils-gpt-5-5-claims-a-new-class-of-intelligence-at-double-the-api-price/" rel="noopener noreferrer"&gt;The Decoder&lt;/a&gt;) rechnen mit ca. 20 % Mehrkosten pro Aufgabe im Durchschnitt. Bei kurzen Prompts ist der Unterschied minimal.&lt;/p&gt;

&lt;h2 id="wofür-es-gut-ist"&gt;Wofür eignet sich GPT-5.5?&lt;/h2&gt;

&lt;p&gt;OpenAI zielt mit GPT-5.5 auf diese vier Kern-Usecases:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Agentisches Codieren:&lt;/strong&gt; Automatisiertes Lesen von Repos, Öffnen von Dateien, Testausführung, iterative Verbesserungen. (SWE-bench-Score!)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Computernutzung:&lt;/strong&gt; Browser/Shell steuern, Formulare ausfüllen, Daten scrapen, Fehler abfangen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Tiefgehende Forschung:&lt;/strong&gt; Lange Argumentationsketten, Websuche, Zusammenfassung widersprüchlicher Quellen (insb. im Thinking-Modus).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Dokumenten- &amp;amp; Tabellenkalkulationserstellung:&lt;/strong&gt; Weniger Layout-/Formelfehler, klarere Struktur. Standard in ChatGPT Plus/Business.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;Wofür nicht?&lt;/strong&gt; Für Massenzusammenfassungen, Embedding-Queries, günstige Klassifizierungen ist 5.4-mini oder 5.3 weiterhin effizienter. GPT-5.5 lohnt sich, wenn sonst ein erfahrener Entwickler/Researcher prüfen müsste.&lt;/p&gt;

&lt;h2 id="verfügbarkeit-heute"&gt;Verfügbarkeit heute&lt;/h2&gt;

&lt;p&gt;Der Zugang ist gestaffelt, hier der Stand (23.04.2026):&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Oberfläche&lt;/th&gt;
&lt;th&gt;Plan&lt;/th&gt;
&lt;th&gt;Zugriff&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;ChatGPT&lt;/td&gt;
&lt;td&gt;Free&lt;/td&gt;
&lt;td&gt;GPT-5.3 Standard, kein GPT-5.5&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ChatGPT&lt;/td&gt;
&lt;td&gt;Go&lt;/td&gt;
&lt;td&gt;GPT-5.3 Standard, kein GPT-5.5&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ChatGPT&lt;/td&gt;
&lt;td&gt;Plus&lt;/td&gt;
&lt;td&gt;GPT-5.5 Standard + Thinking (3.000/Woche)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ChatGPT&lt;/td&gt;
&lt;td&gt;Pro&lt;/td&gt;
&lt;td&gt;Standard + Thinking + Pro&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ChatGPT&lt;/td&gt;
&lt;td&gt;Business&lt;/td&gt;
&lt;td&gt;Standard + Thinking + Pro&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ChatGPT&lt;/td&gt;
&lt;td&gt;Enterprise / Edu&lt;/td&gt;
&lt;td&gt;Standard + Thinking + Pro&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Codex&lt;/td&gt;
&lt;td&gt;Alle Pläne (Free, Go, Plus, Pro, Business, Enterprise, Edu)&lt;/td&gt;
&lt;td&gt;GPT-5.5 mit 400 Tsd. Kontext; Free und Go zeitlich begrenzt&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;API&lt;/td&gt;
&lt;td&gt;Responses / Chat Completions&lt;/td&gt;
&lt;td&gt;„Sehr bald“; nicht GA zum Start&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Wichtig für Entwickler: Über Codex ist GPT-5.5 bereits produktiv nutzbar, z.B. per CLI – auch ohne eigene API-Schlüssel.&lt;/p&gt;

&lt;h2 id="preise-auf-einen-blick"&gt;API-Preise und Kostenstruktur&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;GPT-5.5 API: 5 $ / Mio. Input-Tokens, 30 $ / Mio. Output-Tokens&lt;/li&gt;
&lt;li&gt;GPT-5.5 Pro API: 30 $ / Mio. Input, 180 $ / Mio. Output (wie 5.4 Pro)&lt;/li&gt;
&lt;li&gt;Batch/Flex: 50 % des Standardtarifs&lt;/li&gt;
&lt;li&gt;Priorität: 2,5x Standardtarif&lt;/li&gt;
&lt;li&gt;Codex CLI: kostenlos für Plus, Pro, Business, Enterprise, Edu, Go und befristet Free (jeweils mit Wochenlimits)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Alle Details und Kostenschätzungen pro Usecase findest du in dieser &lt;a href="http://apidog.com/blog/gpt-5-5-pricing?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Preisübersicht&lt;/a&gt;.&lt;/p&gt;

&lt;h2 id="wie-man-es-heute-ausprobieren-kann"&gt;Schnellstart: So nutzt du GPT-5.5 direkt&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;ChatGPT öffnen (Plus/Pro/Business/Enterprise/EDU):&lt;/strong&gt; GPT-5.5 im Modellauswahlmenü wählen. Sofort loslegen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Codex CLI installieren:&lt;/strong&gt;
  &lt;pre&gt;&lt;code&gt;npm install -g @openai/codex&lt;/code&gt;
  &lt;code&gt;brew install codex&lt;/code&gt;
  &lt;/pre&gt;
  Dann &lt;code&gt;codex&lt;/code&gt; starten, mit ChatGPT-Konto anmelden. Mit &lt;code&gt;/model gpt-5.5&lt;/code&gt; auf das neue Modell wechseln. Free/Go-Pläne haben temporären Zugang.
  &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-free-codex?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Komplette Codex-Anleitung&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Auf API-Rollout vorbereiten:&lt;/strong&gt; Die API wird in Kürze freigeschaltet. Lege jetzt eine Anfragessammlung in &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; an, damit du direkt nach Live-Schaltung loslegen kannst.
  &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;API-Leitfaden mit Endpunktstruktur&lt;/a&gt;
&lt;/li&gt;
&lt;/ol&gt;

&lt;h2 id="sicherheit-und-red-teaming"&gt;Sicherheit &amp;amp; Red-Teaming&lt;/h2&gt;

&lt;p&gt;GPT-5.5 wurde vor Launch von Dritten auf Cyber- und Biogefahren getestet. Besonders relevant für Entwickler: Strengere Ablehnungsregeln für Dual-Use-Code, restriktivere API-Freigabe. Wenn du Agenten mit Browserzugriff/deployst, plane restriktivere Policies als bisher bei 5.4 ein.&lt;/p&gt;

&lt;h2 id="sollten-sie-umsteigen"&gt;Solltest du umsteigen?&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Coding-Agenten?&lt;/strong&gt; Ja, sofort upgraden. SWE-bench-Sprung zahlt sich in Loops schnell aus; Codex-Zugang ist aktiv.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;High-Volume-Inferenz?&lt;/strong&gt; 5.4-mini als Standard behalten, GPT-5.5 gezielt für komplexe Aufgaben nutzen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Kundenfokus?&lt;/strong&gt; Auf API-Rollout warten, dann A/B-Test fahren. Preissteigerung ist nur dann relevant, falls Halluzinationen problematisch waren.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Den vollständigen Entscheidungsablauf findest du in der &lt;a href="http://apidog.com/blog/gpt-5-5-pricing?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Preisübersicht&lt;/a&gt;.&lt;/p&gt;

&lt;h2 id="faq"&gt;FAQ&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Ist GPT-5.5 schon über die API verfügbar?&lt;/strong&gt; Direkt per Schlüssel: noch nicht (Stand 23.04.2026). OpenAI: „sehr bald“. Über Codex nach ChatGPT-Login aber jetzt schon ansteuerbar.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie groß ist das Kontextfenster?&lt;/strong&gt; 1 Mio. Tokens in ChatGPT &amp;amp; API (bald). Codex CLI: 400 Tsd. Tokens/Plan.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Thinking vs. Pro?&lt;/strong&gt; Thinking = erweitertes Denkbudget im Standardmodell; Pro = separate, hochpräzise Variante für Korrektheits-kritische Tasks. Pro nur in Pro/Business/Enterprise.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kostenlos?&lt;/strong&gt; In ChatGPT: nur mit kostenpflichtigen Plänen. In Codex: temporär auch für Free/Go (mit Limits). &lt;a href="http://apidog.com/blog/how-to-use-gpt-5-5-api-for-free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Kostenlose Wege im Überblick&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kann ich GPT-5.4 weiter nutzen?&lt;/strong&gt; Ja – günstiger (2,50 $ / 15 $ pro Mio. Tokens), bleibt Standard für kostenoptimierte Workflows.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>Hy3 Preview API Kostenlos Nutzen: So geht's</title>
      <dc:creator>Emre Demir</dc:creator>
      <pubDate>Thu, 23 Apr 2026 10:46:56 +0000</pubDate>
      <link>https://dev.to/emree_demir/hy3-preview-api-kostenlos-nutzen-so-gehts-1j67</link>
      <guid>https://dev.to/emree_demir/hy3-preview-api-kostenlos-nutzen-so-gehts-1j67</guid>
      <description>&lt;p&gt;Tencent hat Hy3 Preview am 22. April 2026 quelloffen gemacht, und innerhalb eines Tages listete OpenRouter es als vollständig kostenlosen Endpunkt. Keine Kreditkarte, keine Token-Abrechnung, kein Testzeitraum. Sie können dasselbe 295B-Parameter Mixture-of-Experts-Modell, das Tencents Yuanbao-App und den CodeBuddy-Assistenten antreibt, heute aus Ihrem eigenen Code heraus für null Euro aufrufen.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation" class="crayons-btn crayons-btn--primary"&gt;Testen Sie Apidog noch heute&lt;/a&gt;
&lt;/p&gt;

&lt;p&gt;Dieser Leitfaden zeigt, wie Sie die Hy3 Preview API kostenlos über OpenRouter, den Hugging Face Space und das ursprüngliche Hy3-Repository nutzen können. Er behandelt auch die Denkmodi, die Hy3 von den meisten offenen Modellen von 2026 unterscheiden, und wie Sie die API innerhalb von Apidog testen können, ohne Wegwerf-Skripte schreiben zu müssen.&lt;/p&gt;

&lt;p&gt;Wenn Sie den schnellsten Weg zu Ihrer ersten Antwort wünschen, springen Sie zu „Schritt-für-Schritt: Hy3 Preview kostenlos über OpenRouter aufrufen“.&lt;/p&gt;

&lt;h2&gt;
  
  
  Kurz gesagt (TL;DR)
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Hy3 Preview ist kostenlos auf OpenRouter&lt;/strong&gt; unter der Modell-ID &lt;code&gt;tencent/hy3-preview:free&lt;/code&gt; mit 0 $ Eingabe- und 0 $ Ausgabepreisen.&lt;/li&gt;
&lt;li&gt;Es ist ein &lt;strong&gt;Mixture-of-Experts-Modell&lt;/strong&gt;: insgesamt 295B Parameter, 21B aktiv, 192 Experten mit Top-8-Routing und ein &lt;strong&gt;256K-Token-Kontextfenster&lt;/strong&gt;.&lt;/li&gt;
&lt;li&gt;Drei &lt;strong&gt;Denkmodi&lt;/strong&gt; sind eingebaut: &lt;code&gt;no_think&lt;/code&gt; für schnelle Antworten, &lt;code&gt;low&lt;/code&gt; und &lt;code&gt;high&lt;/code&gt; für tiefgreifende Chain-of-Thought bei Agenten- und Programmieraufgaben.&lt;/li&gt;
&lt;li&gt;Die Benchmarks sind für ein Open-Weights-Modell stark: &lt;strong&gt;SWE-bench Verified 74.4&lt;/strong&gt;, &lt;strong&gt;Terminal-Bench 2.0 54.4&lt;/strong&gt;, &lt;strong&gt;GPQA Diamond 87.2&lt;/strong&gt;, &lt;strong&gt;MMLU 87.42&lt;/strong&gt;.&lt;/li&gt;
&lt;li&gt;Sie können es auf drei kostenlosen Wegen ausführen: den kostenlosen OpenRouter-Tarif, den Hugging Face &lt;a href="https://huggingface.co/spaces/tencent/Hy3-preview" rel="noopener noreferrer"&gt;Hy3-preview Space&lt;/a&gt; oder die lokale Inferenz mit vLLM und den offenen Gewichten.&lt;/li&gt;
&lt;li&gt;Apidog passt gut zum OpenRouter-Endpunkt, da Hy3 das OpenAI Chat Completions-Schema verwendet; richten Sie eine Anfrage an OpenRouter und legen Sie los.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Was ist Hy3 Preview?
&lt;/h2&gt;

&lt;p&gt;Hy3 Preview ist die erste Flaggschiff-Veröffentlichung des neu strukturierten Hunyuan-Basismodellteams von Tencent, das jetzt von Yao Shunyu geleitet wird, einem ehemaligen OpenAI-Forscher, den das Unternehmen eingestellt hat, um seinen Reasoning Stack voranzutreiben. Es kann als Tencents bisher leistungsfähigstes Modell und eine direkte Antwort auf die wichtigsten chinesischen Open-Weights-Veröffentlichungen von DeepSeek, Alibaba und Zhipu verstanden werden.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ft3okmwbravxkkwnbywfk.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ft3okmwbravxkkwnbywfk.png" alt="Hy3 Architektur" width="800" height="535"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Das technische Profil der &lt;a href="https://huggingface.co/tencent/Hy3-preview" rel="noopener noreferrer"&gt;offiziellen Modellkarte&lt;/a&gt; ist agentenorientiert:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Architektur:&lt;/strong&gt; Mixture-of-Experts, 80 Schichten plus eine MTP-Schicht, 64 Attention-Heads mit gruppierter Query-Attention.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Parameter:&lt;/strong&gt; insgesamt 295B, 21B aktiv pro Vorwärtsdurchlauf.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Experten:&lt;/strong&gt; 192 Spezialisten mit Top-8-Routing pro Token.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Kontext:&lt;/strong&gt; 256K Token (262.144 auf OpenRouters Liste).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Tokenizer:&lt;/strong&gt; 120.832-Einträge-Vokabular mit BF16-Präzision.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Lizenz:&lt;/strong&gt; Tencent Hy Community License, kommerzielle Nutzung im Rahmen der Lizenzbedingungen erlaubt.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Was es von einem generischen MoE im 200B-Bereich unterscheidet, ist das agentische Training. Tencent hat seine RL-Infrastruktur für den Multi-Turn-Werkzeuggebrauch neu aufgebaut, und die veröffentlichten Ergebnisse auf SWE-bench Verified, Terminal-Bench 2.0 und der internen WildClawBench-Suite bringen es in die Nähe der besten geschlossenen Modelle bei Code- und Shell-Aufgaben.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fr9r1k4hiwnqmxfzcxkrv.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fr9r1k4hiwnqmxfzcxkrv.png" alt="Hy3 Benchmarks" width="800" height="823"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Drei kostenlose Wege zur Nutzung von Hy3 Preview
&lt;/h2&gt;

&lt;p&gt;Sie haben drei Möglichkeiten, je nachdem, ob Sie eine Chat-Benutzeroberfläche, eine API oder lokale Gewichte wünschen.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Weg&lt;/th&gt;
&lt;th&gt;Was es ist&lt;/th&gt;
&lt;th&gt;Kostenlos?&lt;/th&gt;
&lt;th&gt;Gut für&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;OpenRouter &lt;code&gt;tencent/hy3-preview:free&lt;/code&gt;
&lt;/td&gt;
&lt;td&gt;Gehostete OpenAI-kompatible API&lt;/td&gt;
&lt;td&gt;Ja, 0 $ Input/Output&lt;/td&gt;
&lt;td&gt;Entwicklung von Agenten, Skripten und Backend-Funktionen&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Hugging Face Space&lt;/td&gt;
&lt;td&gt;Browser-Chat-Demo&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Schnelle Prompts, Ausprobieren, Smoke-Tests&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Selbst gehostete Gewichte (vLLM/SGLang)&lt;/td&gt;
&lt;td&gt;Führen Sie die offenen Gewichte auf eigenen GPUs aus&lt;/td&gt;
&lt;td&gt;Kostenlose Software, Hardwarekosten fallen an&lt;/td&gt;
&lt;td&gt;Datenschutzsensible Arbeitslasten, hohes Volumen&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Die meisten Entwickler werden den OpenRouter-Weg bevorzugen. Es ist der kürzeste Weg von der Anmeldung bis zu einem funktionierenden API-Aufruf, und die Ratenbegrenzungen im kostenlosen Tarif sind für Prototypen ausreichend großzügig.&lt;/p&gt;

&lt;h2&gt;
  
  
  Schritt-für-Schritt: Hy3 Preview kostenlos über OpenRouter aufrufen
&lt;/h2&gt;

&lt;p&gt;Hier ist der minimale Weg von null zu einer funktionierenden &lt;code&gt;tencent/hy3-preview:free&lt;/code&gt;-Antwort.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fa447qs4ksvaydcv2u7nb.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fa447qs4ksvaydcv2u7nb.png" alt="OpenRouter Schritt 1" width="800" height="493"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;OpenRouter-Konto erstellen.&lt;/strong&gt; Gehen Sie auf &lt;a href="https://openrouter.ai" rel="noopener noreferrer"&gt;openrouter.ai&lt;/a&gt; und melden Sie sich mit E-Mail an. Für Free-Tier-Modelle ist keine Zahlungsmethode erforderlich.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;API-Schlüssel generieren.&lt;/strong&gt; Im OpenRouter-Dashboard unter „Keys“ neuen Schlüssel erstellen. In eine Umgebungsvariable speichern, etwa &lt;code&gt;export OPENROUTER_API_KEY=sk-or-...&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Modellseite öffnen.&lt;/strong&gt; Gehen Sie zur &lt;a href="https://openrouter.ai/tencent/hy3-preview:free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;kostenlosen Hy3 Preview-Liste&lt;/a&gt; und prüfen Sie den „Free“-Statusbanner. Dort sehen Sie auch Nutzungsstatistiken.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4z8fvz17rlpo92tt34x4.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4z8fvz17rlpo92tt34x4.png" alt="OpenRouter Schritt 2" width="800" height="208"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Erste Anfrage senden:&lt;/strong&gt; OpenRouter unterstützt das OpenAI Chat Completions-Schema, jedes OpenAI SDK funktioniert. Beispiel mit cURL:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;curl https://openrouter.ai/api/v1/chat/completions &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;-H&lt;/span&gt; &lt;span class="s2"&gt;"Authorization: Bearer &lt;/span&gt;&lt;span class="nv"&gt;$OPENROUTER_API_KEY&lt;/span&gt;&lt;span class="s2"&gt;"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;-H&lt;/span&gt; &lt;span class="s2"&gt;"Content-Type: application/json"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;-d&lt;/span&gt; &lt;span class="s1"&gt;'{
    "model": "tencent/hy3-preview:free",
    "messages": [
      {"role": "user", "content": "Explain the MoE routing decision inside a top-8 of 192 setup in 3 sentences."}
    ],
    "temperature": 0.9,
    "top_p": 1.0
  }'&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Reasoning aktivieren:&lt;/strong&gt; Hy3 akzeptiert einen &lt;code&gt;reasoning&lt;/code&gt;-Parameter mit &lt;code&gt;effort&lt;/code&gt; auf &lt;code&gt;low&lt;/code&gt; oder &lt;code&gt;high&lt;/code&gt;. OpenRouter gibt die Denkspur in einem separaten &lt;code&gt;reasoning_details&lt;/code&gt;-Array zurück.
&lt;/li&gt;
&lt;/ol&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight json"&gt;&lt;code&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="nl"&gt;"model"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"tencent/hy3-preview:free"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="nl"&gt;"messages"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="w"&gt;
    &lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="nl"&gt;"role"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"user"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="nl"&gt;"content"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Plan, then write a Bash script that rotates daily log files older than 30 days into a dated archive folder."&lt;/span&gt;&lt;span class="p"&gt;}&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="nl"&gt;"reasoning"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="nl"&gt;"effort"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"high"&lt;/span&gt;&lt;span class="p"&gt;}&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="p"&gt;}&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Iterieren:&lt;/strong&gt; Halten Sie die Sitzung im selben Thread, um Kontext zu bewahren. Hy3s 256K-Fenster kann komplette Codebasen verarbeiten.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Das war's. Das Modell hinter OpenRouter ist identisch mit dem Hugging Face-Modell; die Qualität ist gleich, egal ob kostenfrei oder kostenpflichtig.&lt;/p&gt;

&lt;h2&gt;
  
  
  Kostenlos, Plus und selbst gehostet: Wo sie sich unterscheiden
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Fähigkeit&lt;/th&gt;
&lt;th&gt;OpenRouter Kostenlos&lt;/th&gt;
&lt;th&gt;OpenRouter Kostenpflichtig&lt;/th&gt;
&lt;th&gt;Selbst gehostet (vLLM/SGLang)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Kosten pro Token&lt;/td&gt;
&lt;td&gt;0 $&lt;/td&gt;
&lt;td&gt;Pro Anbieter&lt;/td&gt;
&lt;td&gt;Strom plus GPU-Amortisation&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Denkmodi&lt;/td&gt;
&lt;td&gt;
&lt;code&gt;no_think&lt;/code&gt;, &lt;code&gt;low&lt;/code&gt;, &lt;code&gt;high&lt;/code&gt;
&lt;/td&gt;
&lt;td&gt;Gleich&lt;/td&gt;
&lt;td&gt;Gleich&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Kontextlänge&lt;/td&gt;
&lt;td&gt;256K&lt;/td&gt;
&lt;td&gt;256K&lt;/td&gt;
&lt;td&gt;256K (sofern Speicher ausreicht)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Durchsatz unter Last&lt;/td&gt;
&lt;td&gt;Geteilter Pool, ggf. depriorisiert&lt;/td&gt;
&lt;td&gt;Dediziert&lt;/td&gt;
&lt;td&gt;Was Ihr Cluster liefert&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Ratenbegrenzungen&lt;/td&gt;
&lt;td&gt;OpenRouter Free-Tier-Grenze&lt;/td&gt;
&lt;td&gt;Anbieterspezifisch&lt;/td&gt;
&lt;td&gt;Keine&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Datenaufbewahrung&lt;/td&gt;
&lt;td&gt;OpenRouter Protokollierung&lt;/td&gt;
&lt;td&gt;Anbieterspezifisch&lt;/td&gt;
&lt;td&gt;Bleibt auf Ihrer Hardware&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Sichtbarkeit von Reasoning-Token&lt;/td&gt;
&lt;td&gt;Ja, über &lt;code&gt;reasoning_details&lt;/code&gt;
&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;td&gt;Ja&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Kostenlos eignet sich für Prototypen, Nebenprojekte, Benchmarks und Agenten mit geringem Traffic. Wählen Sie kostenpflichtig oder selbst gehostet, wenn Latenz oder Skalierung entscheidend sind.&lt;/p&gt;

&lt;h2&gt;
  
  
  Prompt- und Parameter-Tipps, um mehr aus Hy3 herauszuholen
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Temperatur anpassen:&lt;/strong&gt; Standard ist &lt;code&gt;temperature=0.9&lt;/code&gt;, &lt;code&gt;top_p=1.0&lt;/code&gt;. Für strukturierte Ausgabe auf &lt;code&gt;0.3&lt;/code&gt; reduzieren, für kreative Aufgaben bei &lt;code&gt;0.9&lt;/code&gt; bleiben.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;code&gt;no_think&lt;/code&gt; für Chat:&lt;/strong&gt; Für einfachen Chat reicht der Standardmodus. &lt;code&gt;low&lt;/code&gt; oder &lt;code&gt;high&lt;/code&gt; für Planung, Code, Mathematik nutzen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Tools im System-Prompt benennen:&lt;/strong&gt; Beschreiben Sie Werkzeuge explizit, nicht nur als Schema. Das verbessert Tool-Aufrufe.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Code direkt einfügen:&lt;/strong&gt; Nutzen Sie das 256K-Fenster, um vollständige Dateien einzufügen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Mehrere Dateien stapeln:&lt;/strong&gt; Senden Sie zusammengehörige Dateien in einer Nachricht, nicht einzeln.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Zuerst nach einem Plan fragen:&lt;/strong&gt; Für komplexe Aufgaben erst „Plane“, dann „Führe aus“ abfragen.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Grenzen, die man vor dem Einsatz kennen sollte
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Ratenbegrenzungen je nach Last:&lt;/strong&gt; Der OpenRouter Free-Pool kann bei Peaks 429er-Fehler liefern. Exponentielles Backoff einplanen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Reasoning-Token zählen als Output:&lt;/strong&gt; Im Free-Tier kostenlos, bei kostenpflichtigen Endpunkten kostenpflichtig.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Lizenz prüfen:&lt;/strong&gt; Die Tencent Hy Community License ist keine Apache 2.0. Kommerzielle Nutzung erfordert Einhaltung der Bedingungen. &lt;a href="https://github.com/Tencent-Hunyuan/Hy3-preview" rel="noopener noreferrer"&gt;Lizenz im GitHub-Repo&lt;/a&gt; lesen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Tool-Parser beachten:&lt;/strong&gt; Beim Self-Hosting vLLM/SGLang mit &lt;code&gt;--tool-call-parser hy_v3&lt;/code&gt; bzw. &lt;code&gt;hunyuan&lt;/code&gt; starten.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Sprache:&lt;/strong&gt; Englisch und Chinesisch sind am stärksten, andere Sprachen schwächer.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Benchmark-Vergleich:&lt;/strong&gt; Bei einigen Reasoning-Suiten hinter den US-Flaggschiffen.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Der schnelle Entwicklerweg: Hy3 Preview plus Apidog
&lt;/h2&gt;

&lt;p&gt;Die Arbeit mit cURL ist für erste Tests geeignet, aber für schnelle Iteration ist ein visueller API-Client wie Apidog effizienter.&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Apidog öffnen&lt;/strong&gt; und ein neues Projekt anlegen. Importieren Sie die OpenAI Chat Completions OpenAPI-Spezifikation.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Basis-URL setzen&lt;/strong&gt; auf &lt;code&gt;https://openrouter.ai/api/v1&lt;/code&gt; und eine Umgebungsvariable für &lt;code&gt;OPENROUTER_API_KEY&lt;/code&gt; hinterlegen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Anfrage anlegen&lt;/strong&gt; auf &lt;code&gt;/chat/completions&lt;/code&gt; mit Modell &lt;code&gt;tencent/hy3-preview:free&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Anfrage duplizieren&lt;/strong&gt; und Denkmodi (&lt;code&gt;no_think&lt;/code&gt;, &lt;code&gt;low&lt;/code&gt;, &lt;code&gt;high&lt;/code&gt;) vergleichen. So messen Sie Latenz und Output direkt nebeneinander.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Prompt-Vorlagen speichern:&lt;/strong&gt; Nutzen Sie Apidogs Variablen- und Umgebungsfeatures, um System-Prompts, Tool-Schemata und User-Turns zu verwalten.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Wenn Sie von Postman wechseln, finden Sie im &lt;a href="http://apidog.com/blog/api-testing-without-postman-2026?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;API-Testing ohne Postman im Jahr 2026 Leitfaden&lt;/a&gt; die wichtigsten Schritte. Alternativ können Sie &lt;a href="http://apidog.com/blog/how-to-use-apidog-inside-vscode?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog in VS Code&lt;/a&gt; nutzen, um API-Tests direkt im Editor auszuführen.&lt;/p&gt;

&lt;h2&gt;
  
  
  Kostenlose Alternativen, wenn Sie an die Grenze stoßen
&lt;/h2&gt;

&lt;p&gt;Sollten Sie beim kostenlosen OpenRouter auf Limits stoßen, probieren Sie diese Wege:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Hugging Face Space:&lt;/strong&gt; Die &lt;a href="https://huggingface.co/spaces/tencent/Hy3-preview" rel="noopener noreferrer"&gt;Hy3-preview Space&lt;/a&gt; bietet eine Chat-Demo im Browser – ideal für schnelle Tests.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Weitere chinesische Open-Weights-Modelle:&lt;/strong&gt; 

&lt;ul&gt;
&lt;li&gt;Alibabas Qwen 3.5 Omni mit kostenlosem Tarif für multimodale Ausgabe. Siehe &lt;a href="http://apidog.com/blog/qwen-3-5-omni-announcement?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Qwen 3.5 Omni-Ankündigung&lt;/a&gt; und &lt;a href="http://apidog.com/blog/how-to-use-qwen-3-5-omni?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;How-To&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;Zhipu GLM 5V Turbo mit großzügigem Free-Tier. Anleitung im &lt;a href="http://apidog.com/blog/glm-5v-turbo-api-guide?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;GLM 5V Turbo API-Leitfaden&lt;/a&gt;.&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;/ul&gt;

&lt;p&gt;Für produktive Entwicklung empfiehlt sich, Apidog herunterzuladen und pro Modell eine Sammlung zu erstellen. Benchmarks mit eigenen Prompts sind oft aussagekräftiger als Leaderboards.&lt;/p&gt;

&lt;h2&gt;
  
  
  Hy3 Preview selbst hosten mit vLLM
&lt;/h2&gt;

&lt;p&gt;Mit passender Hardware können Sie Hy3 lokal ausführen. Die Modellkarte empfiehlt vLLM mit Tensorparallelität und Multi-Token-Vorhersage:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;vllm serve tencent/Hy3-preview &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--tensor-parallel-size&lt;/span&gt; 8 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--speculative-config&lt;/span&gt;.method mtp &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--speculative-config&lt;/span&gt;.num_speculative_tokens 1 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--tool-call-parser&lt;/span&gt; hy_v3 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--reasoning-parser&lt;/span&gt; hy_v3 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--enable-auto-tool-choice&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--served-model-name&lt;/span&gt; hy3-preview
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Für SGLang verwenden Sie &lt;code&gt;--tool-call-parser hunyuan&lt;/code&gt; und &lt;code&gt;--reasoning-parser hunyuan&lt;/code&gt;. Sobald der Server unter &lt;code&gt;http://localhost:8000/v1&lt;/code&gt; läuft, zeigen Sie Ihr OpenAI-kompatibles SDK einfach auf die lokale URL, wie bei OpenRouter.&lt;/p&gt;

&lt;p&gt;Rechnen Sie mit acht H100-ähnlichen GPUs bei BF16 für das volle Modell. Quantisierte Community-Builds werden folgen.&lt;/p&gt;

&lt;h2&gt;
  
  
  FAQ
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Ist Hy3 Preview kostenlos?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja. OpenRouter listet &lt;code&gt;tencent/hy3-preview:free&lt;/code&gt; mit 0 $ pro Million Input/Output-Token. Reasoning-Token sind im Free-Tier ebenfalls gratis, zählen aber für die Limits. Status auf der &lt;a href="https://openrouter.ai/tencent/hy3-preview:free?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;OpenRouter-Modellseite&lt;/a&gt; prüfen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie schneidet Hy3 Preview im Vergleich zu DeepSeek V3 und Qwen 3 ab?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
SWE-bench Verified 74.4 und Terminal-Bench 2.0 54.4 platzieren es auf Augenhöhe mit den Top-Chinesischen Open-Modellen, mit Fokus auf Agenten- und Tool-Nutzung. Für reinen Chat sind Qwen 3 und DeepSeek V3 ebenfalls stark; bei Agenten-Workflows ist Hy3s RL-Training der Unterschied.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Was sind Hy3s Denkmodi?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Drei: &lt;code&gt;no_think&lt;/code&gt; (Standard), &lt;code&gt;low&lt;/code&gt;, &lt;code&gt;high&lt;/code&gt;. Übergeben Sie den Modus mit dem &lt;code&gt;reasoning&lt;/code&gt;-Parameter auf OpenRouter oder per &lt;code&gt;chat_template_kwargs={"reasoning_effort": "high"}&lt;/code&gt; beim direkten Modellaufruf. &lt;code&gt;high&lt;/code&gt; für Planung, mehrschrittigen Code und Mathematik; für normalen Chat deaktiviert lassen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kann ich Hy3 Preview kommerziell nutzen?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Ja, unter der Tencent Hy Community License. Kommerzielle Nutzung mit Quellenangabe und Einhaltung der Nutzungsrichtlinien erlaubt. &lt;a href="https://github.com/Tencent-Hunyuan/Hy3-preview" rel="noopener noreferrer"&gt;Lizenzbedingungen hier&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Welche Kontextlänge unterstützt der kostenlose Tarif?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
256K Token. OpenRouter listet 262.144 Token, wie die Modellkarte. Damit können Sie komplette mittelgroße Codebasen einfügen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wie teste ich Hy3 Preview ohne Code zu schreiben?&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nutzen Sie den &lt;a href="https://huggingface.co/spaces/tencent/Hy3-preview" rel="noopener noreferrer"&gt;Hugging Face Space&lt;/a&gt; für Chat im Browser oder richten Sie &lt;a href="https://apidog.com/?utm_source=dev.to&amp;amp;utm_medium=wanda&amp;amp;utm_content=n8n-post-automation"&gt;Apidog&lt;/a&gt; auf den OpenRouter-Endpunkt ein. Apidog importiert die OpenAI OpenAPI-Spezifikation; Anfrage-Setup: Basis-URL, API-Key, Modellname.&lt;/p&gt;

</description>
    </item>
  </channel>
</rss>
