DEV Community

Cover image for Claude Fable 5 Preise: Die vollständige Kostenaufschlüsselung (2026)
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

Claude Fable 5 Preise: Die vollständige Kostenaufschlüsselung (2026)

Die Preise für Claude Fable 5 beginnen bei 10 US-Dollar pro Million Eingabetoken und 50 US-Dollar pro Million Ausgabetoken in der Anthropic API. Für die Budgetierung reicht diese Zahl aber nur als Startpunkt: Entscheidend sind Eingabe-/Ausgabe-Verhältnis, Plan-Zeitfenster, Caching, Batch-Verarbeitung und wie Sie Token pro Anfrage messen. Dieser Leitfaden zeigt die konkreten API-Tarife, Plan-Regeln, Rechenbeispiele und praktische Schritte, um Fable 5 produktionsnah zu kalkulieren. Zum Vergleich: günstigere Modelle wie Claude Opus 4.8 können für Routine-Traffic sinnvoller sein.

Probieren Sie Apidog noch heute aus

TL;DR

Claude Fable 5 kostet in der API:

Tokentyp Preis pro 1 Mio. Token Preis pro 1.000 Token
Eingabe $10,00 $0,01
Ausgabe $50,00 $0,05

Vom 9. Juni bis einschließlich 22. Juni 2026 ist Fable 5 in Pro-, Max-, Team- und sitzplatzbasierten Enterprise-Plänen kostenlos enthalten. Ab dem 23. Juni 2026 wird die Nutzung in diesen Plänen von gemessenen Nutzungsguthaben zu den gleichen Token-Raten von $10/$50 pro Million Token abgezogen.

Claude Fable 5 Preise auf einen Blick

Die API-Modell-ID lautet:

claude-fable-5
Enter fullscreen mode Exit fullscreen mode
Tokentyp Preis pro 1 Mio. Token Preis pro 1.000 Token Was zählt dazu?
Eingabe $10,00 $0,01 Prompt, Systemnachricht, Kontext, Tool-Definitionen, abgerufene Dokumente
Ausgabe $50,00 $0,05 Antworttext, Begründung, Tool-Call-Argumente

Ausgabetoken kosten das Fünffache der Eingabetoken. Deshalb sollten Sie nicht nur den Prompt kürzen, sondern vor allem lange Antworten begrenzen.

Aktuelle Tarife können Sie auf der Anthropic-Preisseite und in den Modell- und Preisdokumenten prüfen.

Kostenformel für jede Anfrage

Anthropic berechnet Eingabe und Ausgabe separat. Es gibt keine zusätzliche Pauschale pro Request.

Die Formel lautet:

Kosten = (input_tokens / 1.000.000) * 10
       + (output_tokens / 1.000.000) * 50
Enter fullscreen mode Exit fullscreen mode

Oder pro Token:

Kosten = input_tokens * 0,00001
       + output_tokens * 0,00005
Enter fullscreen mode Exit fullscreen mode

Beispiel:

2.000 Eingabetoken * 0,00001 = $0,020
600 Ausgabetoken * 0,00005 = $0,030
Gesamt                         = $0,050
Enter fullscreen mode Exit fullscreen mode

Claude Fable 5 API Pricing

Anthropic beschreibt Fable 5 als „weniger als die Hälfte des Preises von Claude Mythos Preview“. Claude Mythos 5 hat dieselben Eingabe- und Ausgaberaten von $10 und $50 pro Million Token. Ein Wechsel zwischen Fable 5 und Mythos 5 ändert also nicht die Kosten pro Token.

Wenn Sie vor der Budgetierung den Modellkontext benötigen, lesen Sie: Was ist Claude Fable 5.

Plan-Regeln: inklusive Nutzung vs. Nutzungsguthaben

Die API-Preise sind eindeutig. Bei Claude-Abonnementplänen hängt die Abrechnung jedoch vom Datum und Plantyp ab.

Bis 22. Juni 2026

Vom 9. Juni bis einschließlich 22. Juni 2026 ist Claude Fable 5 ohne zusätzliche Kosten enthalten in:

  • Pro
  • Max
  • Team
  • sitzplatzbasierten Enterprise-Plänen

In diesem Zeitraum wird die Nutzung nicht von gemessenen Guthaben abgezogen.

Ab 23. Juni 2026

Ab dem 23. Juni 2026 wird Fable 5 aus dem enthaltenen Umfang dieser Pläne entfernt. Danach wird die Nutzung von gemessenen Nutzungsguthaben abgezogen:

Eingabe: $10 pro 1 Mio. Token
Ausgabe: $50 pro 1 Mio. Token
Enter fullscreen mode Exit fullscreen mode

Anthropic hat angekündigt, Standard-Planzugriff wiederherzustellen, wenn die Kapazität dies zulässt. Für Produktionsplanung sollten Sie jedoch mit dem gemessenen Modell rechnen.

Verbrauchsbasierte Enterprise-Pläne

Verbrauchsbasierte Enterprise-Pläne rechnen von Beginn an nach Nutzung ab. Dort ist Fable 5 ab Start verfügbar, ohne separates Inklusionsfenster.

Für Zugriffspfade siehe: Wie man auf Claude Fable 5 zugreift.

Beispiel 1: Support-Chatbot

Annahme pro Chat-Runde:

Eingabe: 1.500 Token
Ausgabe:   500 Token
Enter fullscreen mode Exit fullscreen mode

Berechnung:

Eingabe: 1.500 / 1.000.000 * $10 = $0,015
Ausgabe:   500 / 1.000.000 * $50 = $0,025
Gesamt:                                  $0,040
Enter fullscreen mode Exit fullscreen mode

Bei 1.000 Runden pro Tag:

1.000 * $0,04 = $40 pro Tag
Enter fullscreen mode Exit fullscreen mode

Monatlich grob:

$40 * 30 = $1.200 pro Monat
Enter fullscreen mode Exit fullscreen mode

Praktische Optimierung:

  • Systemprompt kurz halten
  • alte Chat-Historie zusammenfassen
  • max_tokens für Supportantworten eng begrenzen
  • häufige Antworten cachen oder mit günstigerem Modell beantworten

Beispiel 2: Code-Generierung

Code-Aufgaben senden oft mehr Kontext: Dateien, Snippets, Anforderungen und Fehlermeldungen.

Annahme:

Eingabe: 8.000 Token
Ausgabe: 3.000 Token
Enter fullscreen mode Exit fullscreen mode

Berechnung:

Eingabe: 8.000 / 1.000.000 * $10 = $0,08
Ausgabe: 3.000 / 1.000.000 * $50 = $0,15
Gesamt:                                 $0,23
Enter fullscreen mode Exit fullscreen mode

Obwohl die Eingabe fast dreimal so groß ist, verursacht die Ausgabe den größeren Kostenblock. Für Code-Generierung lohnt es sich, das Antwortformat explizit zu steuern:

Antworte nur mit:
1. dem geänderten Codeblock
2. maximal 5 Bulletpoints zur Erklärung
Keine vollständige Wiederholung unveränderter Dateien.
Enter fullscreen mode Exit fullscreen mode

Zusätzlich sinnvoll:

max_tokens: 1500
Enter fullscreen mode Exit fullscreen mode

Wenn die ursprüngliche Antwort 3.000 Token erzeugt hätte, halbieren Sie damit die Ausgabekosten dieses Calls.

Beispiel 3: Lang laufender Agent

Agenten, die Codebasen oder Dokumente durchsuchen, erzeugen hohe Eingabemengen, weil Kontext über mehrere Schritte wiederholt wird.

Annahme:

Eingabe: 300.000 Token
Ausgabe:  50.000 Token
Enter fullscreen mode Exit fullscreen mode

Berechnung:

Eingabe: 300.000 / 1.000.000 * $10 = $3,00
Ausgabe:  50.000 / 1.000.000 * $50 = $2,50
Gesamt:                                    $5,50
Enter fullscreen mode Exit fullscreen mode

Bei 200 Läufen pro Tag:

200 * $5,50 = $1.100 pro Tag
Enter fullscreen mode Exit fullscreen mode

Das ist der typische Fall für Prompt-Caching, weil große stabile Kontexte wiederverwendet werden.

Kosten mit Prompt-Caching reduzieren

Prompt-Caching lohnt sich, wenn derselbe Kontext mehrfach verwendet wird.

Typische Preislogik:

  • Cache-Lesevorgänge: ca. 0,1x des Eingabepreises
  • Cache-Schreibvorgänge: ca. 1,25x des Eingabepreises für die 5-Minuten-TTL

Das bedeutet ungefähr:

Normale Eingabe: $10 pro 1 Mio. Token
Cache Read:      $1 pro 1 Mio. Token
Cache Write:     $12,50 pro 1 Mio. Token
Enter fullscreen mode Exit fullscreen mode

Beispiel mit dem Agentenlauf:

Gesamteingabe:          300.000 Token
Davon gecachter Kontext: 250.000 Token
Neue Eingabe:             50.000 Token
Enter fullscreen mode Exit fullscreen mode

Neue Eingabekosten:

250.000 gecachte Token / 1.000.000 * $1  = $0,25
 50.000 neue Token     / 1.000.000 * $10 = $0,50
Eingabe gesamt                              $0,75
Enter fullscreen mode Exit fullscreen mode

Vorher:

300.000 / 1.000.000 * $10 = $3,00
Enter fullscreen mode Exit fullscreen mode

Gesamtlauf mit Ausgabe:

Eingabe: $0,75
Ausgabe: $2,50
Gesamt:  $3,25
Enter fullscreen mode Exit fullscreen mode

Vorher waren es $5,50. Die Ersparnis beträgt in diesem Beispiel $2,25 pro Lauf.

Batch-Verarbeitung für nicht dringende Jobs verwenden

Wenn ein Job keine sofortige Antwort benötigt, ist die Batches API ein starker Kostenhebel.

Geeignete Workloads:

  • nächtliche Dokumentenverarbeitung
  • Massenklassifizierung
  • Offline-Auswertung von Supporttickets
  • Zusammenfassungen großer Backlogs
  • Testdatengenerierung ohne Echtzeitbedarf

Bei etwa 50 % Rabatt werden aus den Fable-5-Raten ungefähr:

Eingabe: $5 pro 1 Mio. Token
Ausgabe: $25 pro 1 Mio. Token
Enter fullscreen mode Exit fullscreen mode

Praktische Regel:

Realtime UX?     Normale API
Offline-Job?     Batches API prüfen
Enter fullscreen mode Exit fullscreen mode

Modell-Routing statt alles über Fable 5

Nicht jeder Request braucht Fable 5. Ein einfacher Router kann Kosten deutlich senken.

Beispiel-Strategie:

Anfrageart Modellklasse
komplexes Reasoning Fable 5
Routine-Q&A günstigeres Modell
einfache Klassifikation Haiku-/kleineres Modell
Standard-Codehilfe Opus 4.8 oder Sonnet 4.6 prüfen
Eskalation bei Unsicherheit Fable 5

Pseudocode:

function chooseModel(task) {
  if (task.requiresDeepReasoning) {
    return "claude-fable-5";
  }

  if (task.isRoutineClassification) {
    return "cheaper-model";
  }

  if (task.isStandardCodeHelp) {
    return "opus-or-sonnet-tier";
  }

  return "claude-fable-5";
}
Enter fullscreen mode Exit fullscreen mode

Wenn 80 % Ihrer Requests an ein günstigeres Modell gehen, sinkt die Gesamtrechnung oft stärker als jede Prompt-Optimierung allein.

max_tokens konsequent setzen

Da Ausgabetoken $50 pro Million kosten, sollte jede produktive Anfrage ein sinnvolles Limit setzen.

Schlechtes Muster:

{
  "model": "claude-fable-5",
  "max_tokens": 8000,
  "messages": [
    {
      "role": "user",
      "content": "Erkläre diesen Fehler."
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode

Besser:

{
  "model": "claude-fable-5",
  "max_tokens": 800,
  "messages": [
    {
      "role": "user",
      "content": "Erkläre diesen Fehler in maximal 8 Bulletpoints und gib nur einen konkreten Fix an."
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode

Zusätzlich können Sie das Format begrenzen:

Antworte im Format:
- Ursache:
- Fix:
- Codeänderung:
- Test:
Maximal 200 Wörter.
Enter fullscreen mode Exit fullscreen mode

Streaming nutzen, um früh zu stoppen

Streaming ändert nicht den Preis pro Token. Es hilft aber, Generierung zu stoppen, sobald die Antwort ausreichend ist.

Das ist nützlich bei:

  • interaktiven Coding-Assistenten
  • langen Erklärungen
  • Agenten, die früh ein valides Tool-Argument erzeugen
  • UI-Flows, bei denen Nutzer abbrechen können

Praktische Kombination:

stream: true
max_tokens: eng setzen
Antwortformat begrenzen
Client-seitig abbrechen, sobald Ziel erreicht ist
Enter fullscreen mode Exit fullscreen mode

Claude Fable 5 Ausgaben mit Apidog verfolgen

Der beste Zeitpunkt zur Kostenkontrolle ist während der Prompt-Entwicklung, nicht erst am Monatsende. Apidog ist ein API-Client, mit dem Sie Requests an die Anthropic API senden und die Antwort inklusive Token-Nutzung prüfen können.

Claude Fable 5 in Apidog testen

Wenn Sie claude-fable-5 über Apidog aufrufen, enthält die Antwort ein usage-Objekt mit den Token-Werten:

{
  "usage": {
    "input_tokens": 1500,
    "output_tokens": 500
  }
}
Enter fullscreen mode Exit fullscreen mode

Daraus berechnen Sie direkt die Kosten:

const inputTokens = 1500;
const outputTokens = 500;

const inputCost = inputTokens * 0.00001;
const outputCost = outputTokens * 0.00005;

const totalCost = inputCost + outputCost;

console.log(totalCost); // 0.04
Enter fullscreen mode Exit fullscreen mode

Praktischer Workflow:

  1. Anthropic-Request in Apidog anlegen.
  2. model auf claude-fable-5 setzen.
  3. Repräsentative Prompts als Beispiele speichern.
  4. Varianten des Systemprompts testen.
  5. usage.input_tokens und usage.output_tokens vergleichen.
  6. Teure Prompt-Bestandteile entfernen oder cachen.
  7. max_tokens und Antwortformat iterativ anpassen.

So sehen Sie sofort, wenn eine kleine Prompt-Änderung Hunderte oder Tausende Token hinzufügt.

Sie können Apidog herunterladen und den Request mit dem Claude Fable 5 API-Leitfaden strukturieren. Wenn Sie das kostenlose Inklusionsfenster ausnutzen möchten, siehe: Wie man Claude Fable 5 kostenlos nutzt.

Apidog speichert außerdem eine Anfragehistorie. Damit können Sie frühere Token-Anzahlen als Basis für neue Feature-Schätzungen verwenden. Apidog wird damit zur Kosteninspektionsschicht während der Entwicklung.

Checkliste für Produktionskosten

Bevor Sie Fable 5 in Produktion einsetzen, prüfen Sie:

  • [ ] Durchschnittliche input_tokens pro Request gemessen
  • [ ] Durchschnittliche output_tokens pro Request gemessen
  • [ ] max_tokens pro Endpoint gesetzt
  • [ ] Antwortformat begrenzt
  • [ ] großer stabiler Kontext per Prompt-Caching optimiert
  • [ ] Offline-Jobs für Batches API geprüft
  • [ ] Modell-Routing für einfache Aufgaben implementiert
  • [ ] Kosten pro Request und pro 1.000 Requests berechnet
  • [ ] Plan-Zeitfenster nach dem 23. Juni 2026 berücksichtigt

Fazit

Claude Fable 5 kostet $10 pro Million Eingabetoken und $50 pro Million Ausgabetoken. Bis zum 22. Juni 2026 gibt es ein kostenloses Inklusionsfenster in bestimmten Claude-Plänen; ab dem 23. Juni sollten Sie mit gemessener Nutzung rechnen.

Für die Praxis zählt vor allem:

Kosten messen → Ausgabe begrenzen → Kontext cachen → Batch nutzen → Modell routen
Enter fullscreen mode Exit fullscreen mode

Der nächste Schritt ist einfach: Senden Sie eine einzelne claude-fable-5-Anfrage, lesen Sie das usage-Objekt aus und berechnen Sie die Kosten anhand echter Token-Zahlen. Laden Sie Apidog herunter, um diese erste Anfrage zu testen und die Kosten während der Entwicklung sichtbar zu machen.

Top comments (0)