OpenAI Codex App und GPT-5.5 im Praxistest: So schlägt sich die Super-App gegen Claude Code

#ki #ai #deutsch #technologie

OpenAI Codex App: Der direkte Angriff auf Claude Code

Die OpenAI Codex App ist seit dem GPT-5.5 Launch das neue Flagschiff von OpenAI. Vier Millionen aktive Nutzer in zwei Wochen zeigen den Hunger nach Agentic-Coding-Tools. Codex zielt direkt auf Claude Code, das bisher unangefochten an der Spitze stand.

OpenAI hat dafür alles auf eine Karte gesetzt. Sora wurde gestoppt, Teile des Stargate-Teams entlassen und 122 Milliarden Dollar frische Finanzierung fließen in Rechen-Kapazität. Greg Brockman nennt das den entscheidenden strategischen Vorteil im KI-Rennen.

Bis 2030 plant OpenAI 30 Gigawatt Compute. Das ist eine drei-fache Erhöhung gegenüber der Ansage von Januar 2025. Doch was bringt das im Arbeits-Alltag? Genau das testet dieses Video von Everlast AI live durch.

GPT-5.5 im Benchmark: Effizient, aber nicht überall führend

GPT-5.5 löst Coding-Aufgaben mit weniger Tokens als GPT-5.4 oder Opus 4.7. Der Kontext reicht bis zu einer Million Tokens ohne starken Qualitäts-Verlust. Auf der OS World Verified erreicht das Modell fast 80 Prozent.

Zum Vergleich: Menschliche Tester liegen bei 72 Prozent. GPT-5.5 bedient den Computer also besser als ein durch-schnittlicher Anwender. Die SWE-Bench Pro verliert es jedoch knapp gegen Opus 4.7 mit 64,3 zu 58,6 Prozent.

OpenAI markiert dort eine elegante Spitze gegen Anthropic. In Teilen des Benchmarks habe das Konkurrenz-Modell Trainings-Daten gesehen. Im Vending Bench 2 landet GPT-5.5 auf Platz drei. Aber ohne Täuschung oder Macht-Streben in den eigenen Test-Läufen.

Codex Desktop App: Skills, Plugins und MCP-Connector

Die Codex Desktop App ersetzt für viele Nutzer das klassische ChatGPT-Fenster. Ein Fast Answer Mode liefert Antworten schneller. Beim Login fragt OpenAI direkt: Programmierst du oder ist das dein Tages-Alltag? Codex zielt damit auf jeden Computer-Anwender, nicht nur auf Entwickler.

Über Plugins lassen sich Slack, Gmail, Google Drive, SharePoint und Outlook anbinden. Skills wie der PDF-Skill, der Paper-Skill oder der Image-Gen-Skill erweitern die Funktionen lokal. Diese Skills speichert Codex im lokalen Skill-Ordner, exakt wie Claude Code es vormacht.

Ein neues Feature überrascht im Test: gesteuerte Unterhaltung. Du kannst während der Arbeit von Codex weitere Prompts injizieren. Das Modell passt seine Aktion sofort an. Claude Code wartet erst auf den nächsten Stop-Punkt.

Mobile App, Landing Page und Browser-Steuerung im Live-Test

Im Test entstand mit einem Prompt ein Buch-Scanner als iOS-App. Codex baute den Barcode-Scanner, das Frontend und die Community-Funktion. Nach einer zweiten Iteration speicherte die App auch gescannte Bücher in der Lese-Liste.

Die parallele Landing Page entstand über den Paper-MCP. Codex screenshottete die Seite mit Playwright und korrigierte Buttons selbständig. Dieser Prozess dauerte aber 10 bis 15 Minuten. Opus 4.7 löste eine ähnliche Link-Tree-Aufgabe in 5 Minuten.

Beim Design-Vergleich verlor GPT-5.5 trotzdem klar. Der Everlast-Webdesign-Skill landete bei Codex nicht im Output. Opus traf die Vorgabe pragmatischer und übersichtlicher. Wer mehr Hintergrund zum Wettkampf der Modelle sucht, findet im Vergleich zur Super-App-Strategie eine tiefere Einordnung.

Browser Harness: Echte Browser-Automation ohne Screenshot-Loop

Browser Harness ist ein Open-Source-Projekt aus dem Browser-Use-Umfeld. Es nutzt die Chrome DevTools direkt statt permanenter Screenshots. Das spart Tokens, Kosten und Zeit gegenüber Playwright-Loops.

Das Repo enthält fertige Domain-Skills, etwa für LinkedIn. Ein Invitation Manager versendet Einladungen automatisiert. Browser Harness lernt zudem dazu. Bei der ersten Lösung einer neuen Domain entsteht ein Skill für künftige Aufgaben.

Im Praxis-Test verschob GPT-5.5 News-Karten in einem Trello-Klon innerhalb von Sekunden. Browser-Aufgaben sind eine klare Stärke des Modells. Hier zahlt sich der niedrigere Token-Verbrauch direkt aus.

Agentin in ChatGPT: Cloud-Agents für Business-Plan-Nutzer

Im Business-Plan stellt OpenAI seit kurzem eigene Cloud-Agents zur Verfügung. Vorlagen reichen vom SQL-Generator bis zum Kampagnen-Agent. Slack, Microsoft Teams und Kalender lassen sich direkt verbinden.

Skills lädst du als ganzen Ordner hoch. Bei Claude bleibt der Umweg über Zip-Dateien lästig. Über MCP-Server wie Hugging Face liefert ein Agent neueste Modell-Updates per Cron-Job in den Slack-Channel.

Diese Funktion erinnert stark an die Custom GPTs, zielt aber auf Enterprise-Anwender. Mehr Tiefe zu Claude Skills bietet der Praxis-Guide zu Claude Agent Skills mit konkreten Anwendungs-Mustern.

Fazit: Wofür sich die OpenAI Codex App lohnt

Die OpenAI Codex App ist der richtige Ansatz von OpenAI gegen Anthropic. Einsteiger-freundlich, stark im Browser, schwächer im Design. Sub-ventionierte Preise machen Codex aktuell extrem kosten-effizient.

Erfahrene Anwender bleiben für Tempo und Webdesign bei Opus 4.7 und Claude Code. Doch der Trend ist klar: Alle drei großen Labs konzentrieren ihre Compute auf Agentic Coding. Wer heute eine Flotte aus KI-Agenten kommandiert, baut den entscheidenden Vorsprung von morgen.