Emre Demir

Posted on Jun 10 • Originally published at apidog.com

Claude Fable 5 Benchmarks: Was die Zahlen sagen

Als Anthropic Claude Fable 5 am 9. Juni 2026 veröffentlichte, positionierte Anthropic das Modell bei nahezu jedem getesteten Benchmark als hochmodern. Wichtig für die Einordnung: Die Ankündigung nennt vor allem Benchmark-Platzierungen statt vollständig kopierbarer numerischer Tabellen. Mehrere Diagramme wurden als Bilder veröffentlicht. Dieser Artikel zeigt deshalb, wie Sie die gemeldeten Platzierungen praktisch lesen, wo Fable 5 laut Anthropic stark ist und wie Sie mit eigenen Prompts einen kleinen Benchmark aufsetzen. Für einen breiteren Vergleich aktueller Frontier-Modelle ist unser Überblick zu Opus 4.8 im Vergleich zu GPT-5.5 und Gemini 3.5 ein nützlicher Begleiter.

Teste Apidog noch heute

Fable 5 wird unter der Modell-ID claude-fable-5 ausgeliefert. Der Preis liegt bei 10 US-Dollar pro Million Eingabetoken und 50 US-Dollar pro Million Ausgabetoken. Damit liegt es bei Leistungsfähigkeit und Preis eine Stufe über Opus 4.8. Anthropic positioniert es als stärkstes öffentlich verfügbares Claude-Modell für Softwareentwicklung, Wissensarbeit, Bildverarbeitung und wissenschaftliche Forschung.

TL;DR

Claude Fable 5 rangiert laut Anthropic bei FrontierCode und FrontierBench von Cognition an erster Stelle unter Frontier-Modellen. Es wird außerdem als hochmodern bei CursorBench beschrieben und erzielt die höchste Punktzahl beim Finanz-Benchmark von Hebbia. Die wichtigste praktische Aussage: Fable 5 scheint besonders stark bei langfristiger, autonomer Arbeit zu sein. Da Anthropic primär Platzierungen statt vollständiger öffentlicher Punktzahlen berichtet, sollten Sie die Ranglisten als Richtungssignal lesen und mit eigenen Prompts validieren.

Das Hauptergebnis

Der zentrale Satz für jede Claude-Fable-5-Benchmark-Diskussion lautet: Anthropic beschreibt das Modell bei nahezu allen eigenen Benchmarks als hochmodern, darunter Softwareentwicklung, Wissensarbeit, Bildverarbeitung und wissenschaftliche Forschung.

Praktisch bedeutet das:

Fable 5 führt laut Bericht mehrere Ranglisten an oder liegt in der Spitzengruppe.
Die Aussage bedeutet nicht automatisch, dass Fable 5 jeden Test mit großem Abstand gewinnt.
Die Ergebnisse sind noch nicht überall unabhängig reproduziert.
Ohne vollständige Score-Tabellen ist die Marge zwischen den Modellen schwer zu bewerten.

Der relevante Punkt ist die Breite der Platzierungen. Viele Modelle sind in einem einzelnen Benchmark stark und fallen in anderen Kategorien ab. Ein Modell, das bei Coding, Finanzen, Vision und wissenschaftlichem Reasoning gleichzeitig nahe an der Spitze liegt, ist für Entwickler interessanter, weil es weniger stark auf eine einzelne Aufgabenklasse optimiert wirkt.

Wenn Sie entscheiden, ob Fable 5 den Aufpreis gegenüber einer günstigeren Modellstufe rechtfertigt, sollten Sie nicht nur einen Benchmark betrachten. Prüfen Sie stattdessen, ob Ihr Workflow mehrere dieser Fähigkeiten kombiniert: Codeanalyse, lange Kontexte, Dokumentenverarbeitung, Tabellen, Diagramme oder mehrstufige Agentenaufgaben. Eine Einführung in das Modell selbst finden Sie unter Was ist Claude Fable 5.

Ein zweites Thema zieht sich durch die Ergebnisse: langfristige Arbeit. Anthropic sagt, dass Fable 5 „über Millionen von Tokens bei langwierigen Aufgaben konzentriert bleibt“ und länger autonom arbeitet als frühere Claude-Modelle. Das ist besonders relevant für Agenten, die planen, Dateien bearbeiten, Zwischenergebnisse speichern, Tests ausführen und mehrere Iterationen durchlaufen.

Coding-Benchmarks: FrontierCode und CursorBench

Beim Codieren ist die Benchmark-Story von Fable 5 am konkretesten.

Bei FrontierCode, einer Coding-Evaluierung von Cognition, berichtet Anthropic, dass Fable 5 das höchstbewertete Frontier-Modell ist und diesen Vorsprung sogar bei mittlerem Aufwand hält.

Das ist für die Praxis wichtig. Viele Frontier-Modelle werden genauer, wenn mehr Inferenzbudget verwendet wird: mehr Reasoning-Tokens, mehr Versuche oder höhere Aufwandseinstellungen. Wenn ein Modell bereits bei mittlerem Aufwand führt, ist das ein besseres Signal für alltägliche Workflows als ein Ergebnis, das nur bei maximalem Aufwand entsteht.

Bei CursorBench beschreibt Anthropic Fable 5 ebenfalls als hochmodern. Die Ankündigung formuliert das Ergebnis eher über den Aufgabenumfang als über eine einzelne Genauigkeitszahl: Fable 5 habe „eine Klasse von Long-Horizon-Problemen erschlossen, die zuvor unerreichbar waren“.

CursorBench ist für Entwickler besonders interessant, weil es näher an realen Codebasen liegt als isolierte Funktionsaufgaben. Typische Workflows umfassen mehrere Dateien, mehrere Schritte und Iteration über Tests oder Fehlermeldungen.

Die praktische Interpretation:

Fable 5 ist laut den Ergebnissen nicht nur für Code-Snippets optimiert.
Die Stärke liegt eher bei nachhaltiger Softwareentwicklung über mehrere Schritte.
Relevant sind Workflows mit Planung, Dateiänderungen, Tests und Korrekturschleifen.
Wenn Sie Coding-Agenten verwenden, sind FrontierCode und CursorBench aussagekräftiger als reine Single-Shot-Codeaufgaben.

Wissen und Finanzen: Finanz-Benchmark von Hebbia

Außerhalb des Codings ist der klarste Wissensarbeits-Benchmark der Finanz-Benchmark von Hebbia, einem Unternehmen für KI in dokumentenlastigen Finanz- und Rechtsworkflows.

Anthropic berichtet, dass Fable 5 bei diesem Benchmark die höchste Punktzahl aller Modelle erreicht. Die Fortschritte konzentrieren sich demnach auf drei Bereiche:

Dokumenten-Reasoning
Diagramme
Tabellen

Diese Kombination ist wichtig. Finanzanalyse ist selten nur eine Wissensfrage. Häufig muss ein Modell:

eine lange Einreichung lesen,
Zahlen über mehrere Seiten verfolgen,
Tabellen korrekt interpretieren,
Diagramme mit Textstellen abgleichen,
und daraus eine belastbare Antwort ableiten.

Das ist eine andere Fähigkeit als reine Textgenerierung. Modelle, die in Prosa stark sind, aber bei Tabellen, Layouts oder strukturierten Daten schwächeln, scheitern in solchen Workflows schnell.

Auch Vision spielt hier eine Rolle. Tabellen und Diagramme liegen oft als Bilder, Scans oder gemischte PDF-Layouts vor. Ein hoher Score im Finanz-Benchmark deutet daher nicht nur auf Textverständnis hin, sondern auch auf bessere Verarbeitung visueller und strukturierter Informationen.

Für Entwickler ist das relevant, wenn Sie Produkte bauen, die Verträge, Abrechnungen, Berichte oder Finanzdokumente lesen. Trotzdem sollten Sie nie direkt vom Benchmark auf Ihre Produktionsdaten schließen. Validieren Sie mit echten Dokumenten aus Ihrem Workflow, inklusive schlechter Scans, unvollständiger Tabellen und mehrdeutiger Layouts.

Langfristiges Reasoning: FrontierBench von Cognition

Die zweite Cognition-Evaluierung, FrontierBench, ist der Benchmark, der Anthropics Autonomie-Story am stärksten stützt. Anthropic berichtet, dass Fable 5 dort das höchstbewertete Modell ist und verweist auf langfristiges Reasoning als Hauptgrund.

Langfristiges Reasoning bedeutet: Ein Modell kann ein Ziel und einen Plan über viele Schritte hinweg stabil halten. Das umfasst:

lange Kontexte,
viele Zwischenschritte,
eigene Zwischenarbeit,
wiederholte Entscheidungen,
und zahlreiche Gelegenheiten, vom Ziel abzuweichen.

Viele Benchmarks messen eine korrekte Antwort auf eine eng definierte Frage. FrontierBench soll laut Anthropics Darstellung stärker prüfen, ob ein Modell über lange Aufgaben hinweg auf Kurs bleibt.

Für Entwickler ist das besonders relevant bei Agenten, die nicht nur antworten, sondern handeln:

Repositories analysieren
Migrationen planen
Tickets abarbeiten
Tests ausführen
Logs auswerten
Zwischenergebnisse speichern
nach Fehlern iterieren

Gleichzeitig ist genau diese Fähigkeit schwer von außen zu verifizieren. Eine Long-Horizon-Evaluierung muss definieren, was „auf Kurs bleiben“ bedeutet, wie Teilerfolge bewertet werden und wie Verzögerungen oder ineffiziente Schleifen bestraft werden. Lesen Sie die FrontierBench-Platzierung daher als starkes Richtungssignal, nicht als vollständigen Ersatz für eigene Tests.

Praktische Leistung jenseits von Benchmarks

Benchmarks sind nur ein Proxy. Anthropic nennt zwei reale Implementierungsbeispiele, die für Entwickler oft aussagekräftiger sind als einzelne Ranglisten.

Stripe-Codebasen-Migration

Anthropic berichtet, dass Fable 5 eine Ruby-Codebasis von Stripe mit 50 Millionen Zeilen an einem einzigen Tag migriert hat. Das Team hätte diese Arbeit auf zwei Monate oder mehr geschätzt.

Das ist kein klassisches Coding-Rätsel. Eine solche Migration erfordert:

konsistente Änderungen über sehr viele Dateien,
Verständnis bestehender Patterns,
wiederholbare Bearbeitungen,
geringe Abweichung über lange Zeiträume,
und Builds, die nach den Änderungen weiterhin funktionieren.

Das relevante Signal ist nicht nur „Fable 5 kann Code schreiben“. Das Signal ist: Fable 5 kann laut Bericht über große Codebasen hinweg konsistente, langlaufende Änderungen durchführen.

Slay-the-Spire-Test

Anthropic nennt außerdem einen Slay-the-Spire-Test. Slay the Spire ist ein Deck-Building-Roguelike. Anthropic nutzte es, um Gedächtnis und längerfristige Strategie statt klassischem Coding zu untersuchen.

Mit aktivierter persistenter Dateispeicherfunktion zeigte Fable 5 laut Anthropic eine 3-fache Verbesserung gegenüber Opus 4.8. Der interessante Teil ist der Mechanismus: Das Modell konnte Notizen in Dateien schreiben, später wieder lesen und dadurch Strategien über mehrere Durchläufe hinweg verbessern.

Für Agenten-Architekturen ist das entscheidend. Das Ergebnis deutet darauf hin, dass Fable 5 besonders profitiert, wenn es nicht isoliert auf einzelne Prompts antwortet, sondern in eine Umgebung mit persistentem Zustand eingebettet ist.

Praktisch heißt das: Wenn Sie Fable 5 testen, sollten Sie nicht nur Single-Shot-Prompts verwenden. Testen Sie auch Workflows mit Speicher, Dateien, Tool-Aufrufen und mehrstufiger Iteration.

Wie Sie die Ergebnisse richtig lesen

Eine Benchmark-Zusammenfassung ist nur nützlich, wenn sie auch die Einschränkungen nennt.

Die Benchmark-Besitzer sind Partner. FrontierCode und FrontierBench stammen von Cognition, der Finanz-Benchmark von Hebbia. Das sind glaubwürdige Organisationen, aber sie sind auch Teil der Launch-Narrative. Behandeln Sie die Ergebnisse als relevant, aber warten Sie auf unabhängige Reproduktionen. Für weitere Einordnung siehe auch unseren Vergleich MiniMax M3 versus Opus 4.7 versus GPT-5.5.
Aufwandseinstellungen verändern das Ergebnis. Das FrontierCode-Ergebnis wurde bei mittlerem Aufwand berichtet. Das ist positiv, aber Aufwand bleibt eine echte Variable. Vergleichen Sie Modelle nur, wenn Aufwand, Anzahl der Versuche und Prompt-Setup vergleichbar sind.
Öffentliche Punktzahlen sind begrenzt. Anthropic berichtet vor allem Platzierungen. Die detaillierten Diagramme wurden als Bilder bereitgestellt. Deshalb bleibt eine seriöse Auswertung bei vielen Scores qualitativ.
Rang ist nicht Marge. „Höchstbewertet“ sagt, welches Modell vorne liegt, aber nicht, wie groß der Abstand ist. Ein knapper Vorsprung und ein massiver Vorsprung haben sehr unterschiedliche Konsequenzen für Kosten-Nutzen-Entscheidungen.

Die richtige Konsequenz ist nicht, die Ergebnisse zu ignorieren. Die richtige Konsequenz ist, sie als Hypothese zu verwenden: Fable 5 ist wahrscheinlich stark bei langen, agentischen, dokumenten- und codeintensiven Aufgaben. Ob sich das für Ihr Produkt lohnt, müssen Sie mit Ihren Daten testen. Prüfen Sie vor der Implementierung außerdem die aktuelle Modellübersicht, um IDs, Preise und Kontextgrenzen zu bestätigen.

Führen Sie Ihren eigenen Benchmark mit Apidog durch

Der zuverlässigste Benchmark ist derjenige, der Ihre Prompts, Ihre Daten und Ihre Definition von „gut“ verwendet. Sie brauchen dafür kein Forschungslabor. Ein kleiner, kontrollierter Test reicht oft, um eine Modellentscheidung deutlich besser zu treffen.

Testen Sie mindestens drei Achsen:

Ausgabequalität
Latenz
Token-Kosten

Mit Apidog können Sie dafür eine wiederverwendbare API-Anfrage erstellen, dieselbe Aufgabe gegen mehrere Modelle ausführen und Antwort, Timing und Token-Nutzung vergleichen.

1. Claude-Request in Apidog anlegen

Erstellen Sie in Apidog eine neue POST-Anfrage an den Claude-Messages-Endpunkt:

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

Speichern Sie ANTHROPIC_API_KEY als Environment-Variable, damit Sie den Schlüssel nicht in jeder Anfrage hart codieren müssen.

2. Realistischen Test-Prompt verwenden

Verwenden Sie keinen Spielzeugprompt. Wählen Sie eine Aufgabe, die Ihrer echten Nutzung ähnelt. Für Coding-Workflows eignet sich zum Beispiel eine kleine Migrations- oder Refactoring-Aufgabe:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

Führen Sie die Anfrage zuerst mit claude-fable-5 aus.

3. Anfrage duplizieren und Modell wechseln

Duplizieren Sie die Anfrage in Apidog und ändern Sie nur das Modellfeld:

"model": "claude-opus-4-8"

Der Prompt bleibt identisch. Dadurch vergleichen Sie Modellverhalten statt Prompt-Varianten.

4. Antworten blind bewerten

Bewerten Sie die Ausgaben zuerst ohne Blick auf das Modell. Nutzen Sie eine einfache Scorecard, zum Beispiel:

Kriterium	Fable 5	Opus 4.8
Korrektheit	1–5	1–5
Testabdeckung	1–5	1–5
Randfälle berücksichtigt	1–5	1–5
Lesbarkeit	1–5	1–5
Direkt nutzbar	1–5	1–5

Für Dokumenten- oder Finanzworkflows ersetzen Sie die Kriterien entsprechend, zum Beispiel durch Zahlenkorrektheit, Quellenbezug, Tabellenverständnis und Umgang mit mehrdeutigen Informationen.

5. Latenz vergleichen

Apidog zeigt die Antwortzeit pro Anfrage. Das ist wichtig für Produktentscheidungen:

Für Chat-Interfaces zählt wahrgenommene Geschwindigkeit.
Für Hintergrundjobs ist Latenz oft weniger kritisch.
Für Agenten kann ein langsameres Modell teuer werden, wenn es viele Schritte ausführt.

Ein Modell mit besserer Qualität ist nicht automatisch die beste Wahl, wenn es Ihren interaktiven Workflow zu stark verlangsamt.

6. Token-Kosten berechnen

Die Claude-Antwort enthält einen usage-Block:

{
  "usage": {
    "input_tokens": 1234,
    "output_tokens": 567
  }
}

Für Fable 5 können Sie die Kosten grob so berechnen:

Kosten =
(input_tokens / 1_000_000 * 10 USD)
+
(output_tokens / 1_000_000 * 50 USD)

Für Opus 4.8 nennt der Artikel die Vergleichswerte 5 US-Dollar pro Million Eingabetoken und 25 US-Dollar pro Million Ausgabetoken:

Kosten =
(input_tokens / 1_000_000 * 5 USD)
+
(output_tokens / 1_000_000 * 25 USD)

So erhalten Sie nicht nur „welches Modell ist besser“, sondern „welches Modell ist besser genug, um den Preis zu rechtfertigen“.

7. Mehrere Prompts testen

Ein einzelner Prompt reicht nicht. Verwenden Sie mindestens fünf bis zehn Aufgaben aus Ihrem echten Workflow:

eine einfache Aufgabe,
eine mittlere Aufgabe,
eine lange Aufgabe,
eine Aufgabe mit unklaren Anforderungen,
eine Aufgabe mit Tabellen oder Dokumenten,
eine Aufgabe mit Code und Tests,
optional eine mehrstufige Agentenaufgabe.

Danach haben Sie einen kleinen, ehrlichen Benchmark, der Ihnen mehr über Ihre Produktrealität sagt als eine öffentliche Rangliste.

Sie können Apidog herunterladen und diesen Test in wenigen Minuten einrichten. Für eine detailliertere Kostenaufschlüsselung erklärt unser Fable 5 Preisleitfaden die Berechnungen.

DEV Community