OpenAI hat ChatGPT Images 2.0 am 21. April 2026 veröffentlicht, angetrieben vom neuen Modell gpt-image-2. Dieses Modell liest Ihren Prompt, plant das Layout, rendert scharfen mehrsprachigen Text und kann bis zu zehn Bilder gleichzeitig in Auflösungen bis zu 2.000 Pixel Breite und neuen Seitenverhältnissen erzeugen.
Für Entwickler ist weniger die neue ChatGPT-UI relevant, sondern dass gpt-image-2 per OpenAI API verfügbar ist. Es unterstützt einen Denkmodus für bessere Argumentation, tokenbasierte Preisgestaltung und das gewohnte Endpunktmuster.
In diesem Leitfaden findest du, was sich geändert hat, wie die API funktioniert, was sie kostet und wie du sie mit Apidog testest – ohne eigene Skripte bauen zu müssen. Wenn du frühere Bild-APIs abgelehnt hast, weil Text verzerrt oder die Auflösung zu niedrig war, starte hier.
Was ist gpt-image-2?
gpt-image-2 ist die Modell-ID des neuen Bildgenerators von OpenAI. Es ersetzt gpt-image-1 und ermöglicht die Bilderstellung direkt in ChatGPT über Web und Mobile.
Praktische Fortschritte gegenüber vorherigen Modellen:
- Lesbarer Text in vielen Schriftarten: Kleine UI-Beschriftungen, Logos, Bildunterschriften und nicht-lateinische Schriften (z. B. Japanisch, Koreanisch, Chinesisch, Hindi, Bengali) werden klar und veröffentlichungsreif gerendert.
-
Argumentation vor Pixeln: Mit dem
thinking-Modus plant das Modell die Komposition und überprüft Einschränkungen, bevor es rendert. Das reduziert Fehlversuche bei Objektzählungen oder Diagramm-Beschriftungen. - Höhere Auflösung, neue Seitenverhältnisse: Bis zu 2.000 px an der langen Kante, inklusive 3:1, 1:3 usw. Du kannst Banner, Slides oder Shorts ohne nachträgliches Upscaling generieren.
OpenAI positioniert das Modell als „visuelles Workflow-Tool“ – geeignet für Magazinlayouts, Infografiken, Folien, Manga-Panels usw.
Was hat sich gegenüber gpt-image-1 geändert?
Wer schon gegen das alte Bildmodell entwickelt hat, sieht hier die wichtigsten Unterschiede:
| Fähigkeit | gpt-image-1 | gpt-image-2 |
|---|---|---|
| Max. Auflösung | 1024 px | 2.000 px an der langen Kante |
| Seitenverhältnisse | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| Bilder pro Anfrage | 1 | Bis zu 10, mit Stilkonsistenz |
| Textdarstellung | Nur Englisch, oft verfälscht | Mehrsprachig, inkl. CJK- und indischer Schriften |
| Denkmodus | Nein | Ja (thinking-Flag) |
| Websuche während der Generierung | Nein | Ja, im Denkmodus |
Der neue Batch-Modus ist besonders nützlich: Ein Prompt kann zehn konsistente Varianten erzeugen, etwa für mehrere Produktseiten oder Design-Iterationen.
Verfügbarkeit und Preise
Die Einführung erfolgt gestaffelt:
-
ChatGPT Free: Standardmodell
gpt-image-2 - ChatGPT Plus/Pro/Business: Zugriff auf Denkmodus, längere Reasoning-Läufe und Websuche
-
API-Entwickler: Beide Modi über die
gpt-image-2-Modell-ID; Freischaltung nach ChatGPT-Rollout
Preise laut OpenAI Preisübersicht:
- 5 $ pro 1 Mio. Eingabe-Text-Tokens
- 10 $ pro 1 Mio. Ausgabe-Text-Tokens
- 8 $ pro 1 Mio. Eingabe-Bild-Tokens
- 30 $ pro 1 Mio. Ausgabe-Bild-Tokens
Ein Bild in hoher Qualität (1024 × 1024) kostet ca. 0,21 $. Der Denkmodus verursacht höhere Kosten durch zusätzliche Argumentations-Tokens – komplexe Layouts sind teurer als einfache Illustrationen.
API-Aufruf: Schritt-für-Schritt
Der Endpunkt bleibt images/generations. So sieht eine minimale Anfrage aus:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
Denkmodus aktivieren:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
Die API-Antwort liefert base64-Bilddaten oder URLs – das Schema ist identisch mit gpt-image-1. SDK-Wrapper funktionieren nach Modell-ID-Tausch wie gewohnt.
Python-Beispiel mit offiziellem SDK:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # decode() in practice
Tipps aus der Praxis:
- Der Denkmodus hat drei Stufen (
low,medium,high). Für Diagramme und Zahlen istmediummeist optimal. - Die Batch-Ausgabe (
n > 1) hält den Stil innerhalb eines Calls konsistent, aber nicht über verschiedene API-Aufrufe hinweg. Wenn du zehn zusammenpassende Bilder willst, fordere sie in einer Anfrage an.
gpt-image-2 schnell und visuell mit Apidog testen
Die Entwicklung über die Kommandozeile ist bei Bildmodellen unpraktisch. Nutze einen spezialisierten API-Client, der Bildantworten nativ anzeigen und Parameter iterieren kann.
Apidog behandelt den OpenAI-Bild-Endpunkt als erstklassigen Request. Vorgehen:
- Erstelle eine
gpt-image-2-Anfrage in einer Apidog-Sammlung. - Lege zwei Umgebungen an: eine mit
thinking: "off", eine mitthinking: "medium". - Sende denselben Prompt durch beide Umgebungen und vergleiche die Ausgaben. Den besten Prompt speicherst du in deiner Sammlung.
- Erstelle pro Asset-Typ (Banner, Slides, Infografik) eine eigene Sammlung mit abgestimmten Parametern.
Du kannst Bildgenerierung und z. B. CDN-Upload in einem Testlauf verketten – das geht weit über Bash-Skripte hinaus.
Wenn du bisher mit generischen HTTP-Tools experimentiert hast, erlebst du mit einer spezialisierten API-Plattform wie Apidog einen Effizienzsprung. Lade Apidog herunter und verbinde deinen OpenAI-Key – die Einrichtung dauert unter fünf Minuten.
Bekannte Einschränkungen von gpt-image-2
Trotz Verbesserungen gibt es weiterhin Einschränkungen:
- Fotorealistische Gesichter: Besonders bei bekannten Personen ungenau; Identitätsschutz blockiert viele Prompts.
- Präzise Marken-Assets: Exakte Logos oder geschützte Zeichen werden nicht zuverlässig gerendert. Für finale Markenlogos ungeeignet.
- Lange Textblöcke: Ganze Absätze gelingen nicht – geeignet für Labels, Headings, kurze Captions.
- Stil-Konsistenz über Sessions: Der Stil bleibt nur innerhalb eines API-Calls konsistent. Ein späterer Call mit gleichem Prompt liefert andere Ergebnisse.
Weitere Details findest du in dieser Analyse von The Decoder.
Vergleich zu anderen Bildgeneratoren 2026
OpenAI ist nicht mehr allein bei bildgenerierenden Modellen mit Reasoning. Google, Alibaba und Zhipu bieten eigene Ansätze.
Einige praktische Vergleiche:
- Qwen 3.5 Omni Ankündigung: Alibabas multimodaler Vorstoß inkl. Bildeingabe/Bilderzeugung
- GLM 5V Turbo API Leitfaden: Zhipus Vision-Sprach-API, günstiger aber schwächere Texttreue
- How-To Qwen 3.5 Omni: Praktischer Einstieg
- Cursor Composer 2 Analyse: Reasoning-first UX
- Microsoft VibeVoice Leitfaden: Weitere OpenAI-nahe Veröffentlichung
Fazit: Nutze gpt-image-2 für Texttreue, Reasoning und OpenAI-Integration. Für Self-Hosting, niedrigere Kosten oder offene Lizenzen prüfe Open-Weight-Modelle.
FAQ
Ist gpt-image-2 im kostenlosen ChatGPT-Tarif verfügbar?
Ja, der Standardmodus. Denkmodus, Reasoning und Websuche sind Plus/Pro/Business vorbehalten. API-Zugang ist separat und an dein OpenAI-Entwicklerkonto gebunden.
Unterstützt gpt-image-2 Bildbearbeitung und Inpainting?
Der Fokus liegt zum Launch auf Text-zu-Bild, Batch- und Denkmodus. Bildbearbeitungsendpunkte (wie Bild + Maske) werden voraussichtlich analog zur Vorgängerversion verfügbar – prüfe die gpt-image-2 Modellseite, bevor du auf Inpainting setzt.
Welche Auflösung und Seitenverhältnisse werden unterstützt?
Bis zu 2.000 px an der langen Kante, Seitenverhältnisse: 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3. Perfekt für Banner, Shorts, Social Media, Slides.
Wie teste ich gpt-image-2 Requests am schnellsten?
Mit einem dedizierten API-Client. Apidog rendert Bilder inline, speichert Prompts als Variablen und erlaubt Variationsvergleiche. Teams, die von CLIs kommen, nutzen oft zusätzlich unseren Leitfaden zum API-Testen ohne Postman.
Was kostet ein Bild per API?
Ca. 0,21 $ bei 1024 × 1024 hoher Qualität, Standardmodus. Denkmodus erhöht die Kosten je nach Prompt-Komplexität. Details auf der Preisseite von OpenAI.
Kann das Modell während der Generierung im Web suchen?
Ja, im Denkmodus. Das Modell kann beim Rendern Referenzen und Fakten abrufen, was z. B. die Genauigkeit von Diagrammen steigert. Der Standardmodus sucht nicht im Web.



Top comments (0)