DEV Community

Cover image for Claude Opus 4.8 Preise: Die vollständige Kostenaufschlüsselung
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

Claude Opus 4.8 Preise: Die vollständige Kostenaufschlüsselung

Claude Opus 4.8 kostet im Standardmodus 5 US-Dollar pro Million Eingabetoken und 25 US-Dollar pro Million Ausgabetoken. Damit bleibt der Tarif gegenüber Opus 4.7 unverändert. Wenn Sie bereits für 4.7 budgetiert haben, ändert sich beim Upgrade also nicht der Basispreis. Entscheidend für Ihre tatsächliche Rechnung sind stattdessen die operativen Hebel: schneller Modus, effort, Prompt-Caching und Batch-Rabatte.

Teste Apidog noch heute

Dieser Leitfaden zeigt, was Sie praktisch bezahlen, wie Sie Kosten berechnen und welche Einstellungen Sie vor dem Produktivbetrieb testen sollten. Eine Modellübersicht finden Sie unter Was ist Claude Opus 4.8. Um mit der Implementierung zu beginnen, siehe den API-Leitfaden.

Die Preisliste

Modus Eingabe pro 1 Mio. Tokens Ausgabe pro 1 Mio. Tokens Geschwindigkeit
Standard $5 $25 Basislinie
Schnell $10 $50 2,5x schnellere Ausgabe

Zwei Punkte sind für die Implementierung wichtig:

  1. Ausgabetoken kosten fünfmal so viel wie Eingabetoken. Die Länge der Modellantworten bestimmt deshalb oft stärker die Rechnung als die Prompt-Größe.
  2. Der schnelle Modus verdoppelt den Tokenpreis. Dafür streamt die Ausgabe etwa 2,5-mal schneller.

Die aktuellen Tarife können Sie in Anthropic’s Preisdokumentation prüfen.

Wann Sie den schnellen Modus verwenden sollten

Verwenden Sie den Standardmodus als Default. Der schnelle Modus ist nur dann sinnvoll, wenn Latenz Teil des Produkterlebnisses ist.

Typische Fälle für den schnellen Modus:

  • Live-Code-Assistenten
  • interaktive Agenten
  • Chat-UIs, bei denen Benutzer aktiv auf Streaming-Ausgabe warten
  • Workflows, bei denen Antwortzeit wichtiger ist als Tokenkosten

Bleiben Sie beim Standardmodus für:

  • Hintergrundjobs
  • Agenten-Schleifen ohne wartenden Benutzer
  • geplante Aufgaben
  • Evaluierungen
  • Batch-Verarbeitung

Praktische Regel:

Wartet ein Mensch in Echtzeit? -> Schnellmodus prüfen
Läuft der Job im Hintergrund?  -> Standardmodus verwenden
Enter fullscreen mode Exit fullscreen mode

Wie effort Ihre Rechnung verändert

Der effort-Parameter steuert, wie viele Token Opus 4.8 für die gesamte Antwort ausgibt, einschließlich Tool-Aufrufen. Da Ausgabetoken teuer sind, ist effort einer der wichtigsten Kostenhebel.

Die Stufen vom günstigsten zum teuersten Tokenverbrauch:

effort Typischer Einsatz Kostenwirkung
low Klassifizierung, kurze Antworten, einfache Extraktion geringste Ausgabe
medium ausgewogene Aufgaben mittlere Ausgabe
high gründliche Antworten, Standard höhere Ausgabe
xhigh komplexe Codierung, tieferes Reasoning deutlich mehr Ausgabe
max keine Einschränkungen höchste Ausgabe

Beispielhafte Zuordnung:

Klassifizierung         -> low
FAQ-Antwort             -> low oder medium
Zusammenfassung         -> medium
Code-Review             -> high
Agentische Codierung    -> xhigh
Sehr komplexe Aufgaben  -> max nur gezielt testen
Enter fullscreen mode Exit fullscreen mode

Eine Klassifizierungsaufgabe mit low kann deutlich weniger Ausgabetoken benötigen als dieselbe Aufgabe mit high. Dasselbe Modell, derselbe Grundpreis, aber eine niedrigere Rechnung.

Anthropic’s Aufwandsrichtlinie beschreibt, wo jede Stufe die Qualität beibehält. Für die Praxis gilt: Setzen Sie effort pro Aufgabe, nicht global für die gesamte Anwendung.

Durchgerechnete Kostenszenarien

Alle Beispiele verwenden die Standardpreise:

Eingabe: $5 pro 1.000.000 Tokens
Ausgabe: $25 pro 1.000.000 Tokens
Enter fullscreen mode Exit fullscreen mode

Die Zahlen sind illustrativ. Ihre tatsächlichen Token-Anzahlen hängen von Prompts, Antworten, Tool-Aufrufen und effort ab.

Szenario 1: Chatbot-Interaktion

Annahme:

1.000 Eingabetoken
500 Ausgabetoken
Enter fullscreen mode Exit fullscreen mode

Berechnung:

Eingabe:
1.000 / 1.000.000 x $5 = $0.005

Ausgabe:
500 / 1.000.000 x $25 = $0.0125

Gesamt:
$0.0175, also ca. $0.018 pro Interaktion
Enter fullscreen mode Exit fullscreen mode

Wenn Sie den gleichen Use Case mit low betreiben und die Ausgabe kürzer wird, können die Kosten pro Interaktion unter einen Cent fallen.

Szenario 2: Agentische Codierungsaufgabe

Annahme:

50.000 Eingabetoken Repo-Kontext
8.000 Ausgabetoken bei xhigh
Enter fullscreen mode Exit fullscreen mode

Berechnung:

Eingabe:
50.000 / 1.000.000 x $5 = $0.25

Ausgabe:
8.000 / 1.000.000 x $25 = $0.20

Gesamt:
ca. $0.45 pro Aufgabe
Enter fullscreen mode Exit fullscreen mode

Wenn derselbe 50K-Kontext über mehrere Aufrufe wiederverwendet wird, kann Prompt-Caching die wiederholten Eingabekosten stark senken. Bei ungefähr einem Zehntel des Eingabetarifs sinkt der wiederholte Eingabeteil von ca. $0.25 auf ca. $0.025, wodurch die Gesamtkosten in diesem Beispiel auf etwa $0.23 fallen.

Szenario 3: Nächtlicher Batch-Job

Annahme:

1.000.000 Eingabetoken
200.000 Ausgabetoken
50% Rabatt über Batch API
Enter fullscreen mode Exit fullscreen mode

Berechnung:

Eingabe:
1.000.000 / 1.000.000 x $5 x 0.5 = $2.50

Ausgabe:
200.000 / 1.000.000 x $25 x 0.5 = $2.50

Gesamt:
ca. $5.00 für den gesamten Batch
Enter fullscreen mode Exit fullscreen mode

Für Preisvergleiche mit günstigeren Modellen siehe die Gemini 3.5 Flash Preisaufschlüsselung und Xiaomi MiMo v2.5 API-Kosten.

Prompt-Caching: die größte einzelne Ersparnis

Wenn Sie bei jedem Aufruf denselben System-Prompt, dasselbe Dokument oder denselben Code-Kontext senden, zahlen Sie ohne Caching jedes Mal erneut für dieselben Eingabetoken.

Prompt-Caching reduziert diese wiederholten Kosten:

Erster Aufruf:
Cache wird geschrieben

Folgende Aufrufe:
Wiederholter Kontext wird günstiger aus dem Cache gelesen
Enter fullscreen mode Exit fullscreen mode

Das lohnt sich besonders für:

  • lange System-Prompts
  • Dokumente, die über mehrere Anfragen hinweg gleich bleiben
  • Repo-Kontext in Coding-Agenten
  • mehrstufige Agenten-Workflows
  • Evaluierungen mit identischem Kontext

Beispiel:

Ohne Cache:
50K Kontext x viele Aufrufe = hoher Eingabepreis pro Aufruf

Mit Cache:
erster Aufruf schreibt Cache
weitere Aufrufe lesen den wiederholten Kontext günstiger
Enter fullscreen mode Exit fullscreen mode

Die wichtigste Implementierungsentscheidung: Trennen Sie stabilen Kontext von variablem Prompt-Inhalt. Alles, was über viele Aufrufe gleich bleibt, ist ein Kandidat für Caching.

Batch API für nicht dringende Workloads

Die Batch API ist für Jobs gedacht, bei denen Sie keine Echtzeit-Antwort benötigen. Sie senden mehrere Anfragen, erhalten die Ergebnisse innerhalb des Batch-Fensters zurück und zahlen weniger pro Token.

Geeignete Workloads:

  • Evaluierungen
  • Massen-Zusammenfassungen
  • Datenbeschriftung
  • Offline-Analysen
  • geplante Verarbeitung
  • Regressionstests für Prompts

Zusätzlich erhöht die Batch API die Ausgabegrenze: Opus 4.8 unterstützt über die Batch API mit dem Beta-Header output-300k-2026-03-24 bis zu 300K Ausgabetoken. Am synchronen Endpunkt liegt die Grenze bei 128K.

Praktische Regel:

Benutzer wartet auf Antwort? -> synchrone API
Job kann später fertig werden? -> Batch API prüfen
Enter fullscreen mode Exit fullscreen mode

Opus-Preise über Generationen hinweg

Opus 4.8 hält den Preis von Opus 4.7. Der größere Preisrückgang fand bereits mit der 4.5-Generation statt.

Modell Eingabe pro 1 Mio. Ausgabe pro 1 Mio.
Opus 4.1 $15 $75
Opus 4.5 $5 $25
Opus 4.6 $5 $25
Opus 4.7 $5 $25
Opus 4.8 $5 $25

Opus fiel von $15/$75 auf $5/$25 bei der 4.5-Generation und ist seitdem auf diesem Niveau geblieben. Sie erhalten Opus 4.8 zum Preisniveau von 4.5.

Für einen direkten Vergleich mit den Flaggschiffen anderer Anbieter siehe Opus 4.8 vs. GPT-5.5 vs. Gemini 3.5.

Checkliste zur Kostenoptimierung

Bevor Sie Opus 4.8 skalieren, prüfen Sie diese Punkte:

  • effort pro Aufgabe festlegen. Verwenden Sie nicht high für einfache Klassifizierung oder xhigh für Nachschlagefunktionen.
  • Wiederholten Kontext cachen. System-Prompts, Dokumente und Codebasen sollten gecacht werden.
  • Nicht dringende Workloads bündeln. Evaluierungen und Massenjobs gehören in die Batch API.
  • max_tokens begrenzen. Setzen Sie sinnvolle Obergrenzen für die maximalen Output-Kosten pro Aufruf.
  • Standardmodus als Default verwenden. Wechseln Sie nur in den schnellen Modus, wenn ein Mensch in Echtzeit wartet.
  • Nutzung und Limits beobachten. Ratenbegrenzungen und Ausgaben steigen zusammen. Die Änderung der wöchentlichen Claude Code-Limits ist eine Erinnerung, Kontingente aktiv zu verfolgen.

Eine einfache Kostenformel für interne Dashboards:

Kosten =
(input_tokens / 1.000.000 * input_price)
+
(output_tokens / 1.000.000 * output_price)
Enter fullscreen mode Exit fullscreen mode

Für den Standardmodus:

Kosten =
(input_tokens / 1.000.000 * 5)
+
(output_tokens / 1.000.000 * 25)
Enter fullscreen mode Exit fullscreen mode

Tatsächliche Ausgaben mit Apidog verfolgen

Geschätzte Kosten und Produktionskosten driften schnell auseinander, weil reale Antworten unterschiedlich lang sind und Tool-Aufrufe variieren. Messen Sie deshalb die tatsächliche Nutzung pro Aufruf.

Die Messages API gibt dafür ein usage-Objekt zurück, das Eingabe- und Ausgabetoken meldet.

Apidog zeigt Token-Nutzung für API-Aufrufe

Apidog hilft dabei, diesen Ablauf praktisch zu testen:

  1. Erstellen Sie eine echte Opus-4.8-Anfrage.
  2. Senden Sie denselben Prompt mit unterschiedlichen effort-Werten.
  3. Lesen Sie den usage-Block in der Antwort.
  4. Vergleichen Sie Eingabe- und Ausgabetoken pro Variante.
  5. Speichern Sie die Requests für wiederholbare Tests.
  6. Simulieren Sie den Endpunkt, wenn Sie entwickeln und testen möchten, ohne Tokens auszugeben.

Beispielhafte Testmatrix:

Test effort Ziel
A low minimale Kosten prüfen
B high Qualitäts-Baseline prüfen
C xhigh Coding- oder Reasoning-Qualität prüfen

Vergleichen Sie danach nicht nur die Qualität, sondern auch die Output-Tokens. Genau dort entstehen die größten Kostenunterschiede.

FAQ

Wie viel kostet Claude Opus 4.8?

Claude Opus 4.8 kostet im Standardmodus 5 US-Dollar pro Million Eingabetoken und 25 US-Dollar pro Million Ausgabetoken. Der schnelle Modus kostet 10 US-Dollar pro Million Eingabetoken und 50 US-Dollar pro Million Ausgabetoken.

Ist Opus 4.8 teurer als Opus 4.7?

Nein. Die Token-Raten sind identisch. Ein Upgrade von Opus 4.7 auf Opus 4.8 ändert den Basispreis nicht.

Was ist der Unterschied zwischen Standardmodus und Schnellmodus?

Der Schnellmodus verdoppelt die Token-Rate und streamt die Ausgabe etwa 2,5-mal schneller. Verwenden Sie ihn nur, wenn Latenz für einen wartenden Benutzer wichtig ist.

Wie senke ich meine Opus-4.8-Kosten?

Reduzieren Sie effort bei einfachen Aufgaben, cachen Sie wiederholte Prompt-Inhalte, bündeln Sie nicht dringende Aufgaben über die Batch API und setzen Sie max_tokens knapp. Ausgabetoken sind der Hauptkostentreiber.

Spart Prompt-Caching wirklich Geld?

Ja. Nachdem der erste Aufruf den Cache geschrieben hat, wird wiederholte Eingabe zu einem deutlich niedrigeren Tarif gelesen, ungefähr zu einem Zehntel des normalen Eingabetarifs. Langkontext-Agenten profitieren am stärksten.

Wie viele Ausgabetoken kann Opus 4.8 produzieren?

Bis zu 128K über die synchrone Messages API und bis zu 300K über die Batch API mit dem Beta-Header output-300k-2026-03-24.

Wo sehe ich die Token-Nutzung pro Aufruf?

Im usage-Objekt jeder Messages-API-Antwort. Tools wie Apidog zeigen diese Werte an, damit Sie Kosten über verschiedene effort-Level vergleichen können.

Top comments (0)