DEV Community

Cover image for ChatGPT Bilder 2.0: Die Neuerungen
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

ChatGPT Bilder 2.0: Die Neuerungen

OpenAI hat ChatGPT Images 2.0 am 21. April 2026 veröffentlicht, angetrieben vom neuen Modell gpt-image-2. Dieses Modell liest Ihren Prompt, plant das Layout, rendert scharfen mehrsprachigen Text und kann bis zu zehn Bilder gleichzeitig in Auflösungen bis zu 2.000 Pixel Breite und neuen Seitenverhältnissen erzeugen.

Teste Apidog noch heute

Für Entwickler ist weniger die neue ChatGPT-UI relevant, sondern dass gpt-image-2 per OpenAI API verfügbar ist. Es unterstützt einen Denkmodus für bessere Argumentation, tokenbasierte Preisgestaltung und das gewohnte Endpunktmuster.

In diesem Leitfaden findest du, was sich geändert hat, wie die API funktioniert, was sie kostet und wie du sie mit Apidog testest – ohne eigene Skripte bauen zu müssen. Wenn du frühere Bild-APIs abgelehnt hast, weil Text verzerrt oder die Auflösung zu niedrig war, starte hier.

Was ist gpt-image-2?

gpt-image-2 ist die Modell-ID des neuen Bildgenerators von OpenAI. Es ersetzt gpt-image-1 und ermöglicht die Bilderstellung direkt in ChatGPT über Web und Mobile.

gpt-image-2 Beispiel

Praktische Fortschritte gegenüber vorherigen Modellen:

  • Lesbarer Text in vielen Schriftarten: Kleine UI-Beschriftungen, Logos, Bildunterschriften und nicht-lateinische Schriften (z. B. Japanisch, Koreanisch, Chinesisch, Hindi, Bengali) werden klar und veröffentlichungsreif gerendert.
  • Argumentation vor Pixeln: Mit dem thinking-Modus plant das Modell die Komposition und überprüft Einschränkungen, bevor es rendert. Das reduziert Fehlversuche bei Objektzählungen oder Diagramm-Beschriftungen.
  • Höhere Auflösung, neue Seitenverhältnisse: Bis zu 2.000 px an der langen Kante, inklusive 3:1, 1:3 usw. Du kannst Banner, Slides oder Shorts ohne nachträgliches Upscaling generieren.

OpenAI positioniert das Modell als „visuelles Workflow-Tool“ – geeignet für Magazinlayouts, Infografiken, Folien, Manga-Panels usw.

Was hat sich gegenüber gpt-image-1 geändert?

Wer schon gegen das alte Bildmodell entwickelt hat, sieht hier die wichtigsten Unterschiede:

Fähigkeit gpt-image-1 gpt-image-2
Max. Auflösung 1024 px 2.000 px an der langen Kante
Seitenverhältnisse 1:1, 3:2, 2:3 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
Bilder pro Anfrage 1 Bis zu 10, mit Stilkonsistenz
Textdarstellung Nur Englisch, oft verfälscht Mehrsprachig, inkl. CJK- und indischer Schriften
Denkmodus Nein Ja (thinking-Flag)
Websuche während der Generierung Nein Ja, im Denkmodus

Der neue Batch-Modus ist besonders nützlich: Ein Prompt kann zehn konsistente Varianten erzeugen, etwa für mehrere Produktseiten oder Design-Iterationen.

Batch-Beispiel

Verfügbarkeit und Preise

Die Einführung erfolgt gestaffelt:

  • ChatGPT Free: Standardmodell gpt-image-2
  • ChatGPT Plus/Pro/Business: Zugriff auf Denkmodus, längere Reasoning-Läufe und Websuche
  • API-Entwickler: Beide Modi über die gpt-image-2-Modell-ID; Freischaltung nach ChatGPT-Rollout

Preise laut OpenAI Preisübersicht:

  • 5 $ pro 1 Mio. Eingabe-Text-Tokens
  • 10 $ pro 1 Mio. Ausgabe-Text-Tokens
  • 8 $ pro 1 Mio. Eingabe-Bild-Tokens
  • 30 $ pro 1 Mio. Ausgabe-Bild-Tokens

Ein Bild in hoher Qualität (1024 × 1024) kostet ca. 0,21 $. Der Denkmodus verursacht höhere Kosten durch zusätzliche Argumentations-Tokens – komplexe Layouts sind teurer als einfache Illustrationen.

API-Aufruf: Schritt-für-Schritt

Der Endpunkt bleibt images/generations. So sieht eine minimale Anfrage aus:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'
Enter fullscreen mode Exit fullscreen mode

Denkmodus aktivieren:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'
Enter fullscreen mode Exit fullscreen mode

Die API-Antwort liefert base64-Bilddaten oder URLs – das Schema ist identisch mit gpt-image-1. SDK-Wrapper funktionieren nach Modell-ID-Tausch wie gewohnt.

Python-Beispiel mit offiziellem SDK:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() in practice
Enter fullscreen mode Exit fullscreen mode

Tipps aus der Praxis:

  1. Der Denkmodus hat drei Stufen (low, medium, high). Für Diagramme und Zahlen ist medium meist optimal.
  2. Die Batch-Ausgabe (n > 1) hält den Stil innerhalb eines Calls konsistent, aber nicht über verschiedene API-Aufrufe hinweg. Wenn du zehn zusammenpassende Bilder willst, fordere sie in einer Anfrage an.

gpt-image-2 schnell und visuell mit Apidog testen

Die Entwicklung über die Kommandozeile ist bei Bildmodellen unpraktisch. Nutze einen spezialisierten API-Client, der Bildantworten nativ anzeigen und Parameter iterieren kann.

Apidog UI

Apidog behandelt den OpenAI-Bild-Endpunkt als erstklassigen Request. Vorgehen:

  1. Erstelle eine gpt-image-2-Anfrage in einer Apidog-Sammlung.
  2. Lege zwei Umgebungen an: eine mit thinking: "off", eine mit thinking: "medium".
  3. Sende denselben Prompt durch beide Umgebungen und vergleiche die Ausgaben. Den besten Prompt speicherst du in deiner Sammlung.
  4. Erstelle pro Asset-Typ (Banner, Slides, Infografik) eine eigene Sammlung mit abgestimmten Parametern.

Du kannst Bildgenerierung und z. B. CDN-Upload in einem Testlauf verketten – das geht weit über Bash-Skripte hinaus.

Wenn du bisher mit generischen HTTP-Tools experimentiert hast, erlebst du mit einer spezialisierten API-Plattform wie Apidog einen Effizienzsprung. Lade Apidog herunter und verbinde deinen OpenAI-Key – die Einrichtung dauert unter fünf Minuten.

Bekannte Einschränkungen von gpt-image-2

Trotz Verbesserungen gibt es weiterhin Einschränkungen:

  • Fotorealistische Gesichter: Besonders bei bekannten Personen ungenau; Identitätsschutz blockiert viele Prompts.
  • Präzise Marken-Assets: Exakte Logos oder geschützte Zeichen werden nicht zuverlässig gerendert. Für finale Markenlogos ungeeignet.
  • Lange Textblöcke: Ganze Absätze gelingen nicht – geeignet für Labels, Headings, kurze Captions.
  • Stil-Konsistenz über Sessions: Der Stil bleibt nur innerhalb eines API-Calls konsistent. Ein späterer Call mit gleichem Prompt liefert andere Ergebnisse.

Weitere Details findest du in dieser Analyse von The Decoder.

Vergleich zu anderen Bildgeneratoren 2026

OpenAI ist nicht mehr allein bei bildgenerierenden Modellen mit Reasoning. Google, Alibaba und Zhipu bieten eigene Ansätze.

Einige praktische Vergleiche:

Fazit: Nutze gpt-image-2 für Texttreue, Reasoning und OpenAI-Integration. Für Self-Hosting, niedrigere Kosten oder offene Lizenzen prüfe Open-Weight-Modelle.

FAQ

Ist gpt-image-2 im kostenlosen ChatGPT-Tarif verfügbar?

Ja, der Standardmodus. Denkmodus, Reasoning und Websuche sind Plus/Pro/Business vorbehalten. API-Zugang ist separat und an dein OpenAI-Entwicklerkonto gebunden.

Unterstützt gpt-image-2 Bildbearbeitung und Inpainting?

Der Fokus liegt zum Launch auf Text-zu-Bild, Batch- und Denkmodus. Bildbearbeitungsendpunkte (wie Bild + Maske) werden voraussichtlich analog zur Vorgängerversion verfügbar – prüfe die gpt-image-2 Modellseite, bevor du auf Inpainting setzt.

Welche Auflösung und Seitenverhältnisse werden unterstützt?

Bis zu 2.000 px an der langen Kante, Seitenverhältnisse: 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3. Perfekt für Banner, Shorts, Social Media, Slides.

Wie teste ich gpt-image-2 Requests am schnellsten?

Mit einem dedizierten API-Client. Apidog rendert Bilder inline, speichert Prompts als Variablen und erlaubt Variationsvergleiche. Teams, die von CLIs kommen, nutzen oft zusätzlich unseren Leitfaden zum API-Testen ohne Postman.

Was kostet ein Bild per API?

Ca. 0,21 $ bei 1024 × 1024 hoher Qualität, Standardmodus. Denkmodus erhöht die Kosten je nach Prompt-Komplexität. Details auf der Preisseite von OpenAI.

Kann das Modell während der Generierung im Web suchen?

Ja, im Denkmodus. Das Modell kann beim Rendern Referenzen und Fakten abrufen, was z. B. die Genauigkeit von Diagrammen steigert. Der Standardmodus sucht nicht im Web.

Top comments (0)