GPT-5.5 wurde am 23. April 2026 eingeführt. OpenAI hat das Modell am selben Tag in ChatGPT und Codex integriert und plant die Freigabe der Responses- und Chat Completions-APIs in Kürze. In diesem Leitfaden findest du alle praktischen Schritte für die API-Integration: Endpunkte, Authentifizierung, Python- und Node-Beispiele, Parametertabelle, Preisberechnung für den Denkmodus, Fehlerbehandlung und einen effizienten Test-Workflow in Apidog, um Iterationskosten zu minimieren.
Für eine Produktübersicht siehe Was ist GPT-5.5. Einen kostenlosen Einstieg beschreibt Wie man die GPT-5.5 API kostenlos nutzt.
TL;DR
-
Endpunkte:
responsesundchat/completionsmit Modell-IDgpt-5.5odergpt-5.5-pro. - Preise: 5 $ / Mio. Input, 30 $ / Mio. Output. Pro: 30 $ / Mio. Input, 180 $ / Mio. Output.
- Kontextfenster: 1 Mio. Token (API), 400 K (Codex CLI).
- Vorab-Nutzung: Über Codex und ChatGPT-Login möglich.
-
Tipp: Mit Apidog Sammlungen aufsetzen, da die Anforderungsstruktur größtenteils identisch zu GPT-5.4 ist (nur Modell-ID und
reasoning-Block anpassen).
Voraussetzungen
Vor dem ersten API-Call brauchst du:
- OpenAI-Entwicklerkonto mit Abrechnungsstufe (UI- und API-Abos sind getrennt).
- API-Schlüssel mit GPT-5-Zugang (projektspezifisch empfohlen).
-
Aktuelles SDK: Python
openai>=2.1.0, Nodeopenai@5.1.0oder neuer. - API-Client mit Wiederholungsfunktion (z.B. Apidog, nach erstem Test mit curl).
Schlüssel im Terminal bereitstellen:
export OPENAI_API_KEY="sk-proj-..."
Endpunkt und Authentifizierung
GPT-5.5 nutzt zwei bekannte Endpunkte:
POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions
Die Authentifizierung läuft über Bearer-Token. Beispielaufruf:
curl https://api.openai.com/v1/responses \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-5.5",
"input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
"reasoning": { "effort": "medium" }
}'
Die Antwort enthält das output-Array und einen usage-Block (Input-, Output- und Reasoning-Token). Fehler werden als JSON mit code und message zurückgegeben.
Anfrageparameter
Jeder Body-Parameter beeinflusst Kosten oder Verhalten. Die wichtigsten Felder für gpt-5.5:
| Parameter | Typ | Werte | Anmerkungen |
|---|---|---|---|
model |
string |
gpt-5.5, gpt-5.5-pro
|
Pflichtfeld. Pro kostet 6× mehr. |
input / messages
|
string/array | Prompt oder Chat-Array | Pflichtfeld. input für Responses, messages für Chat Completions. |
reasoning.effort |
string |
none, low, medium, high, xhigh
|
Default: low. Höhere Stufen erhöhen die Denkmodus-Tiefe und die Kosten. |
max_output_tokens |
integer | 1 – 128000 | Output-Limit (ohne Reasoning-Token). |
tools |
array | Function, web_search, file_search, computer_use, code_interpreter | Modell wählt und verknüpft Tools automatisch. |
tool_choice |
string/object |
auto, none, oder Tool-Name |
Tool explizit auswählen. |
response_format |
object | { "type": "json_schema", ... } |
Strukturiertes Output; Standard: striktes JSON. |
stream |
boolean | true / false | Server-Sent Events, Reasoning-Token als separate Events. |
user |
string | Freitext | Für Missbrauchserkennung; gehashte User-ID empfohlen. |
metadata |
object | Bis zu 16 Schlüssel-Wert-Paare | Sichtbar im Dashboard und Logs. |
seed |
integer | Beliebige int32 | Schwacher Determinismus. |
temperature |
number | 0 – 2 | Ignoriert ab reasoning.effort >= medium. |
Am kostenrelevantesten: reasoning.effort, max_output_tokens, tools. Denkmodus (high, xhigh) kann 3–8× mehr Output-Token erzeugen.
Python-Beispiel
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.5",
input=[
{
"role": "system",
"content": "You are a senior Go engineer. Answer in terse, runnable code.",
},
{
"role": "user",
"content": (
"Write a worker pool with bounded concurrency and a context "
"cancellation path. No third-party deps."
),
},
],
reasoning={"effort": "medium"},
max_output_tokens=4000,
)
print(response.output_text)
print(response.usage.model_dump())
Beachte:
-
response.output_textliefert den kompakten Text. Für Tool-Ereignisse, Reasoning-Traces, Zitate: direkt aufresponse.outputzugreifen. -
usageenthält jetzt separate Zähler für Input-, Output- und Reasoning-Tokens – alle sind abrechnungsrelevant.
Node-Beispiel
import OpenAI from "openai";
const client = new OpenAI();
const response = await client.responses.create({
model: "gpt-5.5",
input: [
{ role: "system", content: "You are a careful reviewer." },
{
role: "user",
content:
"Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.",
},
],
reasoning: { effort: "high" },
tools: [{ type: "file_search" }],
max_output_tokens: 6000,
});
console.log(response.output_text);
console.log(response.usage);
Setze reasoning.effort auf high für Review-Aufgaben, bei denen Korrektheit wichtiger ist als Kosten.
Denkmodus
Denkmodus wird über reasoning.effort (high oder xhigh) aktiviert. Nutze als Standard medium (ausreichend für Multi-Agenten, Debugging, Doku-Generierung), high/xhigh für Forschung, kritische Prüfungen oder komplexe Tool-Ketten. Plane 3–8× mehr Token und längere Antwortzeiten ein.
Denkmodus ist besonders relevant für computer_use oder lange Websuche, da Halluzinationen nachweislich seltener auftreten (OpenAI Launch-Post).
Strukturierte Ausgabe
Striktes JSON ist Standard. Übergebe ein Schema, damit die Ausgabe immer valide ist:
response = client.responses.create(
model="gpt-5.5",
input="Extract the title, speaker, and start time from this transcript chunk.",
response_format={
"type": "json_schema",
"json_schema": {
"name": "session_extract",
"strict": True,
"schema": {
"type": "object",
"required": ["title", "speaker", "start_time"],
"properties": {
"title": {"type": "string"},
"speaker": {"type": "string"},
"start_time": {"type": "string", "format": "date-time"},
},
},
},
},
)
Für jede Pipeline, die Daten weiterverarbeitet, ist ein Schema Pflicht – kein Overhead, aber deutlich weniger Fehler.
Tool-Nutzung und Agenten
Die Responses API unterstützt:
-
web_search– Live-Suche mit Quellenangabe -
file_search– Vektorsuche in hochgeladenen Dateien -
code_interpreter– Python Sandbox -
computer_use– Browser/Maus/Tastatur-Emulation -
function– Eigene Callbacks
GPT-5.5 kann Tools autonom und mehrstufig verketten – laut The Decoder ca. 11 % häufiger als GPT-5.4.
Fehlerbehandlung und Wiederholungsversuche
Behandle diese Fehler gezielt:
| Code | Bedeutung | Wiederholen? |
|---|---|---|
429 rate_limit_exceeded |
Rate-Limit (Min/Tag) erreicht | Ja, exponentieller Backoff + Jitter |
400 context_length_exceeded |
Kontext (Input+Output+Reasoning > 1 Mio. Token) | Nein, Input kürzen |
500 server_error |
OpenAI-Serverfehler | Ja, bis zu 3 Versuche |
403 policy_violation |
Sicherheitsverletzung | Nein, Prompt anpassen |
Reasoning-Token zählen zum Kontext. Ein Call mit reasoning.effort: "xhigh" bei 900 K Input-Token führt schnell zum Überlauf.
Test-Workflow mit Apidog
Kosten sparen durch effiziente Tests:
- Anfrage in Apidog anlegen, als Sammlung speichern, Umgebung zuweisen.
- Mock-Server nutzen, um Downstream-Code gegen gespeicherte Antwort zu entwickeln.
- Erst auf Live-Schlüssel umstellen, wenn das Schema steht.
Apidog integriert sich mit Claude Code und Cursor. Siehe VS Code-Anleitung und Postman-Vergleich.
GPT-5.5 aufrufen, bevor die API allgemein verfügbar ist
Vor GA der Responses API kannst du GPT-5.5 via Codex testen. Der Codex-Leitfaden erklärt Installation, Authentifizierung und Modellauswahl.
FAQ
Gibt es ein gpt-5.5-mini?
Nicht zum Start. Es bleibt bei gpt-5.4-mini als günstige Variante.
Was ist das Kontextfenster?
1 Mio. Token (API), 400 K (Codex CLI), Reasoning-Token inklusive.
Muss ich meinen GPT-5.4-Code anpassen?
Nein – Modell-ID tauschen, ggf. max_output_tokens und reasoning.effort justieren.
Wie senke ich die Kosten?
Batch (50 % Rabatt), Flex (50 % Rabatt, langsamere Queue), strikte Schemata gegen Wiederholungsschleifen. Details: GPT-5.5 Preisübersicht.
Wo kommt die GA-Ankündigung?
Checke die OpenAI Developer Community und die OpenAI API Pricing Page.
Top comments (0)