Emre Demir

Posted on Apr 24 • Originally published at apidog.com

GPT-5.5 API nutzen: Eine Anleitung

GPT-5.5 wurde am 23. April 2026 eingeführt. OpenAI hat das Modell am selben Tag in ChatGPT und Codex integriert und plant die Freigabe der Responses- und Chat Completions-APIs in Kürze. In diesem Leitfaden findest du alle praktischen Schritte für die API-Integration: Endpunkte, Authentifizierung, Python- und Node-Beispiele, Parametertabelle, Preisberechnung für den Denkmodus, Fehlerbehandlung und einen effizienten Test-Workflow in Apidog, um Iterationskosten zu minimieren.

Probiere Apidog jetzt aus

Für eine Produktübersicht siehe Was ist GPT-5.5. Einen kostenlosen Einstieg beschreibt Wie man die GPT-5.5 API kostenlos nutzt.

TL;DR

Endpunkte: responses und chat/completions mit Modell-ID gpt-5.5 oder gpt-5.5-pro.
Preise: 5 $ / Mio. Input, 30 $ / Mio. Output. Pro: 30 $ / Mio. Input, 180 $ / Mio. Output.
Kontextfenster: 1 Mio. Token (API), 400 K (Codex CLI).
Vorab-Nutzung: Über Codex und ChatGPT-Login möglich.
Tipp: Mit Apidog Sammlungen aufsetzen, da die Anforderungsstruktur größtenteils identisch zu GPT-5.4 ist (nur Modell-ID und reasoning-Block anpassen).

Voraussetzungen

Vor dem ersten API-Call brauchst du:

OpenAI-Entwicklerkonto mit Abrechnungsstufe (UI- und API-Abos sind getrennt).
API-Schlüssel mit GPT-5-Zugang (projektspezifisch empfohlen).
Aktuelles SDK: Python openai>=2.1.0, Node openai@5.1.0 oder neuer.
API-Client mit Wiederholungsfunktion (z.B. Apidog, nach erstem Test mit curl).

Schlüssel im Terminal bereitstellen:

export OPENAI_API_KEY="sk-proj-..."

Endpunkt und Authentifizierung

GPT-5.5 nutzt zwei bekannte Endpunkte:

POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions

Die Authentifizierung läuft über Bearer-Token. Beispielaufruf:

curl https://api.openai.com/v1/responses \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.5",
    "input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
    "reasoning": { "effort": "medium" }
  }'

Die Antwort enthält das output-Array und einen usage-Block (Input-, Output- und Reasoning-Token). Fehler werden als JSON mit code und message zurückgegeben.

Anfrageparameter

Jeder Body-Parameter beeinflusst Kosten oder Verhalten. Die wichtigsten Felder für gpt-5.5:

Parameter	Typ	Werte	Anmerkungen
`model`	string	`gpt-5.5`, `gpt-5.5-pro`	Pflichtfeld. Pro kostet 6× mehr.
`input` / `messages`	string/array	Prompt oder Chat-Array	Pflichtfeld. `input` für Responses, `messages` für Chat Completions.
`reasoning.effort`	string	`none`, `low`, `medium`, `high`, `xhigh`	Default: `low`. Höhere Stufen erhöhen die Denkmodus-Tiefe und die Kosten.
`max_output_tokens`	integer	1 – 128000	Output-Limit (ohne Reasoning-Token).
`tools`	array	Function, web_search, file_search, computer_use, code_interpreter	Modell wählt und verknüpft Tools automatisch.
`tool_choice`	string/object	`auto`, `none`, oder Tool-Name	Tool explizit auswählen.
`response_format`	object	`{ "type": "json_schema", ... }`	Strukturiertes Output; Standard: striktes JSON.
`stream`	boolean	true / false	Server-Sent Events, Reasoning-Token als separate Events.
`user`	string	Freitext	Für Missbrauchserkennung; gehashte User-ID empfohlen.
`metadata`	object	Bis zu 16 Schlüssel-Wert-Paare	Sichtbar im Dashboard und Logs.
`seed`	integer	Beliebige int32	Schwacher Determinismus.
`temperature`	number	0 – 2	Ignoriert ab `reasoning.effort >= medium`.

Am kostenrelevantesten: reasoning.effort, max_output_tokens, tools. Denkmodus (high, xhigh) kann 3–8× mehr Output-Token erzeugen.

Python-Beispiel

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.5",
    input=[
        {
            "role": "system",
            "content": "You are a senior Go engineer. Answer in terse, runnable code.",
        },
        {
            "role": "user",
            "content": (
                "Write a worker pool with bounded concurrency and a context "
                "cancellation path. No third-party deps."
            ),
        },
    ],
    reasoning={"effort": "medium"},
    max_output_tokens=4000,
)

print(response.output_text)
print(response.usage.model_dump())

Beachte:

response.output_text liefert den kompakten Text. Für Tool-Ereignisse, Reasoning-Traces, Zitate: direkt auf response.output zugreifen.
usage enthält jetzt separate Zähler für Input-, Output- und Reasoning-Tokens – alle sind abrechnungsrelevant.

Node-Beispiel

import OpenAI from "openai";

const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5.5",
  input: [
    { role: "system", content: "You are a careful reviewer." },
    {
      role: "user",
      content:
        "Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.",
    },
  ],
  reasoning: { effort: "high" },
  tools: [{ type: "file_search" }],
  max_output_tokens: 6000,
});

console.log(response.output_text);
console.log(response.usage);

Setze reasoning.effort auf high für Review-Aufgaben, bei denen Korrektheit wichtiger ist als Kosten.

Denkmodus

Denkmodus wird über reasoning.effort (high oder xhigh) aktiviert. Nutze als Standard medium (ausreichend für Multi-Agenten, Debugging, Doku-Generierung), high/xhigh für Forschung, kritische Prüfungen oder komplexe Tool-Ketten. Plane 3–8× mehr Token und längere Antwortzeiten ein.

Denkmodus ist besonders relevant für computer_use oder lange Websuche, da Halluzinationen nachweislich seltener auftreten (OpenAI Launch-Post).

Strukturierte Ausgabe

Striktes JSON ist Standard. Übergebe ein Schema, damit die Ausgabe immer valide ist:

response = client.responses.create(
    model="gpt-5.5",
    input="Extract the title, speaker, and start time from this transcript chunk.",
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "session_extract",
            "strict": True,
            "schema": {
                "type": "object",
                "required": ["title", "speaker", "start_time"],
                "properties": {
                    "title": {"type": "string"},
                    "speaker": {"type": "string"},
                    "start_time": {"type": "string", "format": "date-time"},
                },
            },
        },
    },
)

Für jede Pipeline, die Daten weiterverarbeitet, ist ein Schema Pflicht – kein Overhead, aber deutlich weniger Fehler.

Tool-Nutzung und Agenten

Die Responses API unterstützt:

web_search – Live-Suche mit Quellenangabe
file_search – Vektorsuche in hochgeladenen Dateien
code_interpreter – Python Sandbox
computer_use – Browser/Maus/Tastatur-Emulation
function – Eigene Callbacks

GPT-5.5 kann Tools autonom und mehrstufig verketten – laut The Decoder ca. 11 % häufiger als GPT-5.4.

Fehlerbehandlung und Wiederholungsversuche

Behandle diese Fehler gezielt:

Code	Bedeutung	Wiederholen?
`429 rate_limit_exceeded`	Rate-Limit (Min/Tag) erreicht	Ja, exponentieller Backoff + Jitter
`400 context_length_exceeded`	Kontext (Input+Output+Reasoning > 1 Mio. Token)	Nein, Input kürzen
`500 server_error`	OpenAI-Serverfehler	Ja, bis zu 3 Versuche
`403 policy_violation`	Sicherheitsverletzung	Nein, Prompt anpassen

Reasoning-Token zählen zum Kontext. Ein Call mit reasoning.effort: "xhigh" bei 900 K Input-Token führt schnell zum Überlauf.

Test-Workflow mit Apidog

Kosten sparen durch effiziente Tests:

Anfrage in Apidog anlegen, als Sammlung speichern, Umgebung zuweisen.
Mock-Server nutzen, um Downstream-Code gegen gespeicherte Antwort zu entwickeln.
Erst auf Live-Schlüssel umstellen, wenn das Schema steht.

Apidog integriert sich mit Claude Code und Cursor. Siehe VS Code-Anleitung und Postman-Vergleich.

GPT-5.5 aufrufen, bevor die API allgemein verfügbar ist

Vor GA der Responses API kannst du GPT-5.5 via Codex testen. Der Codex-Leitfaden erklärt Installation, Authentifizierung und Modellauswahl.

FAQ

Gibt es ein gpt-5.5-mini?

Nicht zum Start. Es bleibt bei gpt-5.4-mini als günstige Variante.

Was ist das Kontextfenster?

1 Mio. Token (API), 400 K (Codex CLI), Reasoning-Token inklusive.

Muss ich meinen GPT-5.4-Code anpassen?

Nein – Modell-ID tauschen, ggf. max_output_tokens und reasoning.effort justieren.

Wie senke ich die Kosten?

Batch (50 % Rabatt), Flex (50 % Rabatt, langsamere Queue), strikte Schemata gegen Wiederholungsschleifen. Details: GPT-5.5 Preisübersicht.

Wo kommt die GA-Ankündigung?

Checke die OpenAI Developer Community und die OpenAI API Pricing Page.

DEV Community