DEV Community

Cover image for GPT-5.5 API nutzen: Eine Anleitung
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

GPT-5.5 API nutzen: Eine Anleitung

GPT-5.5 wurde am 23. April 2026 eingeführt. OpenAI hat das Modell am selben Tag in ChatGPT und Codex integriert und plant die Freigabe der Responses- und Chat Completions-APIs in Kürze. In diesem Leitfaden findest du alle praktischen Schritte für die API-Integration: Endpunkte, Authentifizierung, Python- und Node-Beispiele, Parametertabelle, Preisberechnung für den Denkmodus, Fehlerbehandlung und einen effizienten Test-Workflow in Apidog, um Iterationskosten zu minimieren.

Probiere Apidog jetzt aus

Für eine Produktübersicht siehe Was ist GPT-5.5. Einen kostenlosen Einstieg beschreibt Wie man die GPT-5.5 API kostenlos nutzt.

TL;DR

  • Endpunkte: responses und chat/completions mit Modell-ID gpt-5.5 oder gpt-5.5-pro.
  • Preise: 5 $ / Mio. Input, 30 $ / Mio. Output. Pro: 30 $ / Mio. Input, 180 $ / Mio. Output.
  • Kontextfenster: 1 Mio. Token (API), 400 K (Codex CLI).
  • Vorab-Nutzung: Über Codex und ChatGPT-Login möglich.
  • Tipp: Mit Apidog Sammlungen aufsetzen, da die Anforderungsstruktur größtenteils identisch zu GPT-5.4 ist (nur Modell-ID und reasoning-Block anpassen).

Voraussetzungen

Vor dem ersten API-Call brauchst du:

  1. OpenAI-Entwicklerkonto mit Abrechnungsstufe (UI- und API-Abos sind getrennt).
  2. API-Schlüssel mit GPT-5-Zugang (projektspezifisch empfohlen).
  3. Aktuelles SDK: Python openai>=2.1.0, Node openai@5.1.0 oder neuer.
  4. API-Client mit Wiederholungsfunktion (z.B. Apidog, nach erstem Test mit curl).

Schlüssel im Terminal bereitstellen:

export OPENAI_API_KEY="sk-proj-..."
Enter fullscreen mode Exit fullscreen mode

Endpunkt und Authentifizierung

GPT-5.5 nutzt zwei bekannte Endpunkte:

POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode

Die Authentifizierung läuft über Bearer-Token. Beispielaufruf:

curl https://api.openai.com/v1/responses \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.5",
    "input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
    "reasoning": { "effort": "medium" }
  }'
Enter fullscreen mode Exit fullscreen mode

Die Antwort enthält das output-Array und einen usage-Block (Input-, Output- und Reasoning-Token). Fehler werden als JSON mit code und message zurückgegeben.

Anfrageparameter

Jeder Body-Parameter beeinflusst Kosten oder Verhalten. Die wichtigsten Felder für gpt-5.5:

Parameter Typ Werte Anmerkungen
model string gpt-5.5, gpt-5.5-pro Pflichtfeld. Pro kostet 6× mehr.
input / messages string/array Prompt oder Chat-Array Pflichtfeld. input für Responses, messages für Chat Completions.
reasoning.effort string none, low, medium, high, xhigh Default: low. Höhere Stufen erhöhen die Denkmodus-Tiefe und die Kosten.
max_output_tokens integer 1 – 128000 Output-Limit (ohne Reasoning-Token).
tools array Function, web_search, file_search, computer_use, code_interpreter Modell wählt und verknüpft Tools automatisch.
tool_choice string/object auto, none, oder Tool-Name Tool explizit auswählen.
response_format object { "type": "json_schema", ... } Strukturiertes Output; Standard: striktes JSON.
stream boolean true / false Server-Sent Events, Reasoning-Token als separate Events.
user string Freitext Für Missbrauchserkennung; gehashte User-ID empfohlen.
metadata object Bis zu 16 Schlüssel-Wert-Paare Sichtbar im Dashboard und Logs.
seed integer Beliebige int32 Schwacher Determinismus.
temperature number 0 – 2 Ignoriert ab reasoning.effort >= medium.

Am kostenrelevantesten: reasoning.effort, max_output_tokens, tools. Denkmodus (high, xhigh) kann 3–8× mehr Output-Token erzeugen.

Python-Beispiel

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.5",
    input=[
        {
            "role": "system",
            "content": "You are a senior Go engineer. Answer in terse, runnable code.",
        },
        {
            "role": "user",
            "content": (
                "Write a worker pool with bounded concurrency and a context "
                "cancellation path. No third-party deps."
            ),
        },
    ],
    reasoning={"effort": "medium"},
    max_output_tokens=4000,
)

print(response.output_text)
print(response.usage.model_dump())
Enter fullscreen mode Exit fullscreen mode

Beachte:

  • response.output_text liefert den kompakten Text. Für Tool-Ereignisse, Reasoning-Traces, Zitate: direkt auf response.output zugreifen.
  • usage enthält jetzt separate Zähler für Input-, Output- und Reasoning-Tokens – alle sind abrechnungsrelevant.

Node-Beispiel

import OpenAI from "openai";

const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5.5",
  input: [
    { role: "system", content: "You are a careful reviewer." },
    {
      role: "user",
      content:
        "Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.",
    },
  ],
  reasoning: { effort: "high" },
  tools: [{ type: "file_search" }],
  max_output_tokens: 6000,
});

console.log(response.output_text);
console.log(response.usage);
Enter fullscreen mode Exit fullscreen mode

Setze reasoning.effort auf high für Review-Aufgaben, bei denen Korrektheit wichtiger ist als Kosten.

Denkmodus

Denkmodus wird über reasoning.effort (high oder xhigh) aktiviert. Nutze als Standard medium (ausreichend für Multi-Agenten, Debugging, Doku-Generierung), high/xhigh für Forschung, kritische Prüfungen oder komplexe Tool-Ketten. Plane 3–8× mehr Token und längere Antwortzeiten ein.

Denkmodus ist besonders relevant für computer_use oder lange Websuche, da Halluzinationen nachweislich seltener auftreten (OpenAI Launch-Post).

Strukturierte Ausgabe

Striktes JSON ist Standard. Übergebe ein Schema, damit die Ausgabe immer valide ist:

response = client.responses.create(
    model="gpt-5.5",
    input="Extract the title, speaker, and start time from this transcript chunk.",
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "session_extract",
            "strict": True,
            "schema": {
                "type": "object",
                "required": ["title", "speaker", "start_time"],
                "properties": {
                    "title": {"type": "string"},
                    "speaker": {"type": "string"},
                    "start_time": {"type": "string", "format": "date-time"},
                },
            },
        },
    },
)
Enter fullscreen mode Exit fullscreen mode

Für jede Pipeline, die Daten weiterverarbeitet, ist ein Schema Pflicht – kein Overhead, aber deutlich weniger Fehler.

Tool-Nutzung und Agenten

Die Responses API unterstützt:

  • web_search – Live-Suche mit Quellenangabe
  • file_search – Vektorsuche in hochgeladenen Dateien
  • code_interpreter – Python Sandbox
  • computer_use – Browser/Maus/Tastatur-Emulation
  • function – Eigene Callbacks

GPT-5.5 kann Tools autonom und mehrstufig verketten – laut The Decoder ca. 11 % häufiger als GPT-5.4.

Fehlerbehandlung und Wiederholungsversuche

Behandle diese Fehler gezielt:

Code Bedeutung Wiederholen?
429 rate_limit_exceeded Rate-Limit (Min/Tag) erreicht Ja, exponentieller Backoff + Jitter
400 context_length_exceeded Kontext (Input+Output+Reasoning > 1 Mio. Token) Nein, Input kürzen
500 server_error OpenAI-Serverfehler Ja, bis zu 3 Versuche
403 policy_violation Sicherheitsverletzung Nein, Prompt anpassen

Reasoning-Token zählen zum Kontext. Ein Call mit reasoning.effort: "xhigh" bei 900 K Input-Token führt schnell zum Überlauf.

Test-Workflow mit Apidog

Kosten sparen durch effiziente Tests:

  1. Anfrage in Apidog anlegen, als Sammlung speichern, Umgebung zuweisen.
  2. Mock-Server nutzen, um Downstream-Code gegen gespeicherte Antwort zu entwickeln.
  3. Erst auf Live-Schlüssel umstellen, wenn das Schema steht.

Apidog integriert sich mit Claude Code und Cursor. Siehe VS Code-Anleitung und Postman-Vergleich.

GPT-5.5 aufrufen, bevor die API allgemein verfügbar ist

Vor GA der Responses API kannst du GPT-5.5 via Codex testen. Der Codex-Leitfaden erklärt Installation, Authentifizierung und Modellauswahl.

FAQ

Gibt es ein gpt-5.5-mini?

Nicht zum Start. Es bleibt bei gpt-5.4-mini als günstige Variante.

Was ist das Kontextfenster?

1 Mio. Token (API), 400 K (Codex CLI), Reasoning-Token inklusive.

Muss ich meinen GPT-5.4-Code anpassen?

Nein – Modell-ID tauschen, ggf. max_output_tokens und reasoning.effort justieren.

Wie senke ich die Kosten?

Batch (50 % Rabatt), Flex (50 % Rabatt, langsamere Queue), strikte Schemata gegen Wiederholungsschleifen. Details: GPT-5.5 Preisübersicht.

Wo kommt die GA-Ankündigung?

Checke die OpenAI Developer Community und die OpenAI API Pricing Page.

Top comments (0)