DEV Community

Benjamin Eckstein
Benjamin Eckstein

Posted on • Originally published at ki-syndikat.de on

Reasoning Models sind kein Upgrade, sie sind ein anderes Werkzeug

Stell dir vor, du bezahlst für ein Modell das viermal so oft falsch liegt und vierzehn mal so viel kostet wie das Standardmodell. Das klingt absurd. Und es ist passiert: In einer Evaluation von splx.ai aus 2025, die o3-pro gegen GPT-4o in einem Versicherungs-Use-Case getestet hat, verlor das "bessere" Modell auf ganzer Linie.

Das ist nicht das Versprechen, das OpenAI macht, wenn es Reasoning Models vorstellt. Aber es ist die Realität, wenn du ein Präzisionswerkzeug für die falschen Aufgaben verwendest.


Was alle denken, und warum es falsch ist

Die verbreitete Vorstellung: Reasoning Models sind bessere Sprachmodelle. Mehr Rechenpower, mehr Intelligenz, bessere Antworten. Du solltest sie verwenden, wenn du gute Ergebnisse willst.

Das stimmt nicht. Reasoning Models sind ein anderes Werkzeug, kein besseres.

Standard-LLMs generieren Token für Token: direkt und ohne Umweg. Das klingt simpel, funktioniert aber für die überwiegende Mehrheit aller Aufgaben besser, als man erwarten würde. Reasoning Models dagegen generieren vor jeder Antwort einen internen "Gedankengang". Sie arbeiten das Problem Schritt für Schritt durch, prüfen Zwischenergebnisse, korrigieren sich selbst. Dieser Prozess kostet Zeit und Geld. Bei manchen Aufgaben lohnt er sich. Bei den meisten nicht.

o3-pro kostet laut OpenAI-API derzeit 20 Dollar pro Million Input-Tokens. GPT-4o liegt bei 2,50 Dollar. Das ist Faktor 8 beim reinen Token-Preis. Faktor 14 ergibt sich, wenn du die "Thinking Tokens" einrechnest, die der Reasoning-Prozess zusätzlich generiert und die nicht im regulären Input-Preis enthalten sind.


Wann Reasoning Models tatsächlich besser sind

Drei Aufgabentypen rechtfertigen den Aufpreis tatsächlich.

Mathematik mit mehreren Zwischenschritten. Steuerberechnungen mit Ausnahmeregelungen, Wahrscheinlichkeitsrechnung, Optimierungsprobleme. Überall dort, wo eine falsche Zwischenannahme die Endantwort zerstört. Standard-Modelle scheitern hier regelmäßig, auch wenn sie die Antwort selbstsicher formulieren.

Widersprüchliche Dokumente auflösen. Wenn zwei Vertragsklauseln sich widersprechen, wenn regulatorische Anforderungen aus verschiedenen Quellen kollidieren: Reasoning Models benennen die Widersprüche explizit, anstatt sie wegzuglätten. Für Vertragsanalyse mit KI ist das relevant.

Bugs in komplexen Architekturen. Nicht für das Schreiben von Funktionen, sondern für das Nachvollziehen von Fehlerursachen über mehrere Schichten. Reasoning Models können Abhängigkeitsketten besser durchdenken als Standardmodelle, auch ergänzend zu Tools wie Cursor oder GitHub Copilot.

Strategische Planung mit harten Constraints."Plane einen Launch in drei Märkten gleichzeitig, mit diesem Budget, unter diesen regulatorischen Einschränkungen." Standard-Modelle produzieren hier generischen Output. Reasoning Models arbeiten Widersprüche und Tradeoffs expliziter heraus.

Ein Benchmark macht den Unterschied greifbar: Auf ARC-AGI, einem Test für neuartige Problemlösung (nicht Auswendiglernen), erreichte GPT-4o laut arcprize.org gerade einmal 5%. o3 kam auf 75,7%. Das ist keine marginale Verbesserung. Das ist ein anderes Werkzeug für eine andere Aufgabenkategorie.

Der gemeinsame Nenner: Die Aufgabe hat eine objektiv richtige oder falsche Antwort, und sie erfordert mehrere korrekte Zwischenschritte.


Das Overthinking-Problem ist real

Reasoning Models haben eine Schwäche: Sie überkomplizieren einfache Probleme.

Das zeigt die splx.ai-Evaluation konkret: Bei einem Versicherungs-Use-Case produzierte o3-pro viermal so viele fehlgeschlagene Testfälle wie GPT-4o. Nicht weil o3-pro dümmer wäre, sondern weil das Modell Entscheidungspfade durchdenkt, die für eine strukturierte Pipeline schlicht nicht existieren. Es konstruiert Komplexität, wo keine ist.

Für kreative Aufgaben ist das besonders problematisch. Beim Brainstorming ist Geschwindigkeit und Varianz wichtiger als Präzision. Reasoning Models tendieren dazu, Ideen intern zu verwerfen, bevor sie sie aussprechen. Das klingt nach Qualitätskontrolle. Es ist aber Kreativitätsbremse.

Und dann ist da noch das Benchmark-Problem. Als OpenAI o3 im Dezember 2024 vorstellte, behauptete das Unternehmen, das Modell löse über 25% der Aufgaben auf FrontierMath, einem extrem schwierigen Mathe-Benchmark. Das nächstbeste Modell lag bei 2%. Als Epoch AI, das Institut hinter FrontierMath, o3 unabhängig testete, kam es auf rund 10%. Die ursprünglichen Zahlen stammten von einer Testversion mit mehr Rechenpower als das öffentlich zugängliche Modell. Das ist kein Betrug. Aber es ist ein Hinweis, wie stark Reasoning-Fähigkeiten von Compute abhängen, und wie vorsichtig man mit Benchmark-Versprechen umgehen sollte.


Die wichtigsten Reasoning Models

o4-mini ist die einzige Wahl mit vertretbarem Kosten-Nutzen-Verhältnis für die meisten Anwendungsfälle: deutlich günstiger als o3, Reasoning-Fähigkeiten, die für Mathematik und Widerspruchsanalyse ausreichen, und schnell genug für interaktive Nutzung.

o3 lohnt sich für produktionskritische Pipelines, bei denen ein Fehler echten Schaden anrichtet: Steuerberechnungen, juristische Analyse, komplexe Codearchitektur. Für alle anderen Zwecke ist der Aufpreis gegenüber o4-mini nicht zu rechtfertigen.

o3-pro ist schwer zu begründen. Der Preisunterschied zu o3 ist erheblich. Der Qualitätsgewinn ist marginal, und die splx.ai-Evaluation zeigt, dass höherer Aufwand nicht automatisch bessere Ergebnisse bedeutet.

Claude 3.7 Sonnet mit Extended Thinking gewinnt, wenn Nachvollziehbarkeit wichtiger ist als Rohleistung: Der sichtbare Gedankengang macht Fehler auffindbar, bevor sie eskalieren. In reinen Benchmark-Vergleichen verliert Claude gegen o3, in Kontexten mit menschlicher Überprüfung ist das oft der falsche Maßstab.

Gemini 2.0 Flash Thinking bleibt ein Randfall — interessant für latenzempfindliche Anwendungen, aber ohne klares Alleinstellungsmerkmal gegenüber o4-mini bei vergleichbaren Kosten.


Eine einfache Entscheidungshilfe

Vor der Modellwahl drei Fragen:

Erfordert die Aufgabe mehrere abhängige Rechenschritte, bei denen ein Fehler alles Nachfolgende zerstört? Reasoning Model.

Gibt es eine objektiv richtige Antwort, die sich überprüfen lässt? Reasoning Model.

Ist die Aufgabe offen, kreativ, schnell oder sprachlich? Standard-Modell.

Die Faustregel für API-Nutzung: Wenn du nicht explizit weißt, warum diese Aufgabe Reasoning braucht, braucht sie kein Reasoning.


Reasoning Models sind ein echter Fortschritt für einen spezifischen Aufgabentyp. Das Problem ist nicht die Technologie. Es ist die Erwartung, dass "mehr Denken" grundsätzlich besser ist. Manchmal ist es das Gegenteil, und der Beweis kostet dich 14x mehr.

Wer wissen will, welches Modell für welche Aufgabe tatsächlich besser abschneidet, findet im KI-Syndikat Newsletter regelmäßig ungeschönte Einordnungen zu neuen Modellen und Evaluationen.

Top comments (0)