Emre Demir

Posted on May 29 • Originally published at apidog.com

Claude Opus 4.8 Preise: Die vollständige Kostenaufschlüsselung

Claude Opus 4.8 kostet im Standardmodus 5 US-Dollar pro Million Eingabetoken und 25 US-Dollar pro Million Ausgabetoken. Damit bleibt der Tarif gegenüber Opus 4.7 unverändert. Wenn Sie bereits für 4.7 budgetiert haben, ändert sich beim Upgrade also nicht der Basispreis. Entscheidend für Ihre tatsächliche Rechnung sind stattdessen die operativen Hebel: schneller Modus, effort, Prompt-Caching und Batch-Rabatte.

Teste Apidog noch heute

Dieser Leitfaden zeigt, was Sie praktisch bezahlen, wie Sie Kosten berechnen und welche Einstellungen Sie vor dem Produktivbetrieb testen sollten. Eine Modellübersicht finden Sie unter Was ist Claude Opus 4.8. Um mit der Implementierung zu beginnen, siehe den API-Leitfaden.

Die Preisliste

Modus	Eingabe pro 1 Mio. Tokens	Ausgabe pro 1 Mio. Tokens	Geschwindigkeit
Standard	$5	$25	Basislinie
Schnell	$10	$50	2,5x schnellere Ausgabe

Zwei Punkte sind für die Implementierung wichtig:

Ausgabetoken kosten fünfmal so viel wie Eingabetoken. Die Länge der Modellantworten bestimmt deshalb oft stärker die Rechnung als die Prompt-Größe.
Der schnelle Modus verdoppelt den Tokenpreis. Dafür streamt die Ausgabe etwa 2,5-mal schneller.

Die aktuellen Tarife können Sie in Anthropic’s Preisdokumentation prüfen.

Wann Sie den schnellen Modus verwenden sollten

Verwenden Sie den Standardmodus als Default. Der schnelle Modus ist nur dann sinnvoll, wenn Latenz Teil des Produkterlebnisses ist.

Typische Fälle für den schnellen Modus:

Live-Code-Assistenten
interaktive Agenten
Chat-UIs, bei denen Benutzer aktiv auf Streaming-Ausgabe warten
Workflows, bei denen Antwortzeit wichtiger ist als Tokenkosten

Bleiben Sie beim Standardmodus für:

Hintergrundjobs
Agenten-Schleifen ohne wartenden Benutzer
geplante Aufgaben
Evaluierungen
Batch-Verarbeitung

Praktische Regel:

Wartet ein Mensch in Echtzeit? -> Schnellmodus prüfen
Läuft der Job im Hintergrund?  -> Standardmodus verwenden

Wie `effort` Ihre Rechnung verändert

Der effort-Parameter steuert, wie viele Token Opus 4.8 für die gesamte Antwort ausgibt, einschließlich Tool-Aufrufen. Da Ausgabetoken teuer sind, ist effort einer der wichtigsten Kostenhebel.

Die Stufen vom günstigsten zum teuersten Tokenverbrauch:

`effort`	Typischer Einsatz	Kostenwirkung
`low`	Klassifizierung, kurze Antworten, einfache Extraktion	geringste Ausgabe
`medium`	ausgewogene Aufgaben	mittlere Ausgabe
`high`	gründliche Antworten, Standard	höhere Ausgabe
`xhigh`	komplexe Codierung, tieferes Reasoning	deutlich mehr Ausgabe
`max`	keine Einschränkungen	höchste Ausgabe

Beispielhafte Zuordnung:

Klassifizierung         -> low
FAQ-Antwort             -> low oder medium
Zusammenfassung         -> medium
Code-Review             -> high
Agentische Codierung    -> xhigh
Sehr komplexe Aufgaben  -> max nur gezielt testen

Eine Klassifizierungsaufgabe mit low kann deutlich weniger Ausgabetoken benötigen als dieselbe Aufgabe mit high. Dasselbe Modell, derselbe Grundpreis, aber eine niedrigere Rechnung.

Anthropic’s Aufwandsrichtlinie beschreibt, wo jede Stufe die Qualität beibehält. Für die Praxis gilt: Setzen Sie effort pro Aufgabe, nicht global für die gesamte Anwendung.

Durchgerechnete Kostenszenarien

Alle Beispiele verwenden die Standardpreise:

Eingabe: $5 pro 1.000.000 Tokens
Ausgabe: $25 pro 1.000.000 Tokens

Die Zahlen sind illustrativ. Ihre tatsächlichen Token-Anzahlen hängen von Prompts, Antworten, Tool-Aufrufen und effort ab.

Szenario 1: Chatbot-Interaktion

Annahme:

1.000 Eingabetoken
500 Ausgabetoken

Berechnung:

Eingabe:
1.000 / 1.000.000 x $5 = $0.005

Ausgabe:
500 / 1.000.000 x $25 = $0.0125

Gesamt:
$0.0175, also ca. $0.018 pro Interaktion

Wenn Sie den gleichen Use Case mit low betreiben und die Ausgabe kürzer wird, können die Kosten pro Interaktion unter einen Cent fallen.

Szenario 2: Agentische Codierungsaufgabe

Annahme:

50.000 Eingabetoken Repo-Kontext
8.000 Ausgabetoken bei xhigh

Berechnung:

Eingabe:
50.000 / 1.000.000 x $5 = $0.25

Ausgabe:
8.000 / 1.000.000 x $25 = $0.20

Gesamt:
ca. $0.45 pro Aufgabe

Wenn derselbe 50K-Kontext über mehrere Aufrufe wiederverwendet wird, kann Prompt-Caching die wiederholten Eingabekosten stark senken. Bei ungefähr einem Zehntel des Eingabetarifs sinkt der wiederholte Eingabeteil von ca. $0.25 auf ca. $0.025, wodurch die Gesamtkosten in diesem Beispiel auf etwa $0.23 fallen.

Szenario 3: Nächtlicher Batch-Job

Annahme:

1.000.000 Eingabetoken
200.000 Ausgabetoken
50% Rabatt über Batch API

Berechnung:

Eingabe:
1.000.000 / 1.000.000 x $5 x 0.5 = $2.50

Ausgabe:
200.000 / 1.000.000 x $25 x 0.5 = $2.50

Gesamt:
ca. $5.00 für den gesamten Batch

Für Preisvergleiche mit günstigeren Modellen siehe die Gemini 3.5 Flash Preisaufschlüsselung und Xiaomi MiMo v2.5 API-Kosten.

Prompt-Caching: die größte einzelne Ersparnis

Wenn Sie bei jedem Aufruf denselben System-Prompt, dasselbe Dokument oder denselben Code-Kontext senden, zahlen Sie ohne Caching jedes Mal erneut für dieselben Eingabetoken.

Prompt-Caching reduziert diese wiederholten Kosten:

Erster Aufruf:
Cache wird geschrieben

Folgende Aufrufe:
Wiederholter Kontext wird günstiger aus dem Cache gelesen

Das lohnt sich besonders für:

lange System-Prompts
Dokumente, die über mehrere Anfragen hinweg gleich bleiben
Repo-Kontext in Coding-Agenten
mehrstufige Agenten-Workflows
Evaluierungen mit identischem Kontext

Beispiel:

Ohne Cache:
50K Kontext x viele Aufrufe = hoher Eingabepreis pro Aufruf

Mit Cache:
erster Aufruf schreibt Cache
weitere Aufrufe lesen den wiederholten Kontext günstiger

Die wichtigste Implementierungsentscheidung: Trennen Sie stabilen Kontext von variablem Prompt-Inhalt. Alles, was über viele Aufrufe gleich bleibt, ist ein Kandidat für Caching.

Batch API für nicht dringende Workloads

Die Batch API ist für Jobs gedacht, bei denen Sie keine Echtzeit-Antwort benötigen. Sie senden mehrere Anfragen, erhalten die Ergebnisse innerhalb des Batch-Fensters zurück und zahlen weniger pro Token.

Geeignete Workloads:

Evaluierungen
Massen-Zusammenfassungen
Datenbeschriftung
Offline-Analysen
geplante Verarbeitung
Regressionstests für Prompts

Zusätzlich erhöht die Batch API die Ausgabegrenze: Opus 4.8 unterstützt über die Batch API mit dem Beta-Header output-300k-2026-03-24 bis zu 300K Ausgabetoken. Am synchronen Endpunkt liegt die Grenze bei 128K.

Praktische Regel:

Benutzer wartet auf Antwort? -> synchrone API
Job kann später fertig werden? -> Batch API prüfen

Opus-Preise über Generationen hinweg

Opus 4.8 hält den Preis von Opus 4.7. Der größere Preisrückgang fand bereits mit der 4.5-Generation statt.

Modell	Eingabe pro 1 Mio.	Ausgabe pro 1 Mio.
Opus 4.1	$15	$75
Opus 4.5	$5	$25
Opus 4.6	$5	$25
Opus 4.7	$5	$25
Opus 4.8	$5	$25

Opus fiel von $15/$75 auf $5/$25 bei der 4.5-Generation und ist seitdem auf diesem Niveau geblieben. Sie erhalten Opus 4.8 zum Preisniveau von 4.5.

Für einen direkten Vergleich mit den Flaggschiffen anderer Anbieter siehe Opus 4.8 vs. GPT-5.5 vs. Gemini 3.5.

Checkliste zur Kostenoptimierung

Bevor Sie Opus 4.8 skalieren, prüfen Sie diese Punkte:

effort pro Aufgabe festlegen. Verwenden Sie nicht high für einfache Klassifizierung oder xhigh für Nachschlagefunktionen.
Wiederholten Kontext cachen. System-Prompts, Dokumente und Codebasen sollten gecacht werden.
Nicht dringende Workloads bündeln. Evaluierungen und Massenjobs gehören in die Batch API.
max_tokens begrenzen. Setzen Sie sinnvolle Obergrenzen für die maximalen Output-Kosten pro Aufruf.
Standardmodus als Default verwenden. Wechseln Sie nur in den schnellen Modus, wenn ein Mensch in Echtzeit wartet.
Nutzung und Limits beobachten. Ratenbegrenzungen und Ausgaben steigen zusammen. Die Änderung der wöchentlichen Claude Code-Limits ist eine Erinnerung, Kontingente aktiv zu verfolgen.

Eine einfache Kostenformel für interne Dashboards:

Kosten =
(input_tokens / 1.000.000 * input_price)
+
(output_tokens / 1.000.000 * output_price)

Für den Standardmodus:

Kosten =
(input_tokens / 1.000.000 * 5)
+
(output_tokens / 1.000.000 * 25)

Tatsächliche Ausgaben mit Apidog verfolgen

Geschätzte Kosten und Produktionskosten driften schnell auseinander, weil reale Antworten unterschiedlich lang sind und Tool-Aufrufe variieren. Messen Sie deshalb die tatsächliche Nutzung pro Aufruf.

Die Messages API gibt dafür ein usage-Objekt zurück, das Eingabe- und Ausgabetoken meldet.

Apidog hilft dabei, diesen Ablauf praktisch zu testen:

Erstellen Sie eine echte Opus-4.8-Anfrage.
Senden Sie denselben Prompt mit unterschiedlichen effort-Werten.
Lesen Sie den usage-Block in der Antwort.
Vergleichen Sie Eingabe- und Ausgabetoken pro Variante.
Speichern Sie die Requests für wiederholbare Tests.
Simulieren Sie den Endpunkt, wenn Sie entwickeln und testen möchten, ohne Tokens auszugeben.

Beispielhafte Testmatrix:

Test	`effort`	Ziel
A	`low`	minimale Kosten prüfen
B	`high`	Qualitäts-Baseline prüfen
C	`xhigh`	Coding- oder Reasoning-Qualität prüfen

Vergleichen Sie danach nicht nur die Qualität, sondern auch die Output-Tokens. Genau dort entstehen die größten Kostenunterschiede.

FAQ

Wie viel kostet Claude Opus 4.8?

Claude Opus 4.8 kostet im Standardmodus 5 US-Dollar pro Million Eingabetoken und 25 US-Dollar pro Million Ausgabetoken. Der schnelle Modus kostet 10 US-Dollar pro Million Eingabetoken und 50 US-Dollar pro Million Ausgabetoken.

Ist Opus 4.8 teurer als Opus 4.7?

Nein. Die Token-Raten sind identisch. Ein Upgrade von Opus 4.7 auf Opus 4.8 ändert den Basispreis nicht.

Was ist der Unterschied zwischen Standardmodus und Schnellmodus?

Der Schnellmodus verdoppelt die Token-Rate und streamt die Ausgabe etwa 2,5-mal schneller. Verwenden Sie ihn nur, wenn Latenz für einen wartenden Benutzer wichtig ist.

Wie senke ich meine Opus-4.8-Kosten?

Reduzieren Sie effort bei einfachen Aufgaben, cachen Sie wiederholte Prompt-Inhalte, bündeln Sie nicht dringende Aufgaben über die Batch API und setzen Sie max_tokens knapp. Ausgabetoken sind der Hauptkostentreiber.

Spart Prompt-Caching wirklich Geld?

Ja. Nachdem der erste Aufruf den Cache geschrieben hat, wird wiederholte Eingabe zu einem deutlich niedrigeren Tarif gelesen, ungefähr zu einem Zehntel des normalen Eingabetarifs. Langkontext-Agenten profitieren am stärksten.

Wie viele Ausgabetoken kann Opus 4.8 produzieren?

Bis zu 128K über die synchrone Messages API und bis zu 300K über die Batch API mit dem Beta-Header output-300k-2026-03-24.

Wo sehe ich die Token-Nutzung pro Aufruf?

Im usage-Objekt jeder Messages-API-Antwort. Tools wie Apidog zeigen diese Werte an, damit Sie Kosten über verschiedene effort-Level vergleichen können.

DEV Community

Claude Opus 4.8 Preise: Die vollständige Kostenaufschlüsselung

Die Preisliste

Wann Sie den schnellen Modus verwenden sollten

Wie `effort` Ihre Rechnung verändert

Durchgerechnete Kostenszenarien

Szenario 1: Chatbot-Interaktion

Szenario 2: Agentische Codierungsaufgabe

Szenario 3: Nächtlicher Batch-Job

Prompt-Caching: die größte einzelne Ersparnis

Batch API für nicht dringende Workloads

Opus-Preise über Generationen hinweg

Checkliste zur Kostenoptimierung

Tatsächliche Ausgaben mit Apidog verfolgen

FAQ

Wie viel kostet Claude Opus 4.8?

Ist Opus 4.8 teurer als Opus 4.7?

Was ist der Unterschied zwischen Standardmodus und Schnellmodus?

Wie senke ich meine Opus-4.8-Kosten?

Spart Prompt-Caching wirklich Geld?

Wie viele Ausgabetoken kann Opus 4.8 produzieren?

Wo sehe ich die Token-Nutzung pro Aufruf?

Top comments (0)

Die Preisliste

Wann Sie den schnellen Modus verwenden sollten

Wie effort Ihre Rechnung verändert

Durchgerechnete Kostenszenarien

Szenario 1: Chatbot-Interaktion

Szenario 2: Agentische Codierungsaufgabe

Szenario 3: Nächtlicher Batch-Job

Prompt-Caching: die größte einzelne Ersparnis

Batch API für nicht dringende Workloads

Opus-Preise über Generationen hinweg

Checkliste zur Kostenoptimierung

Tatsächliche Ausgaben mit Apidog verfolgen

FAQ

Wie viel kostet Claude Opus 4.8?

Ist Opus 4.8 teurer als Opus 4.7?

Was ist der Unterschied zwischen Standardmodus und Schnellmodus?

Wie senke ich meine Opus-4.8-Kosten?

Spart Prompt-Caching wirklich Geld?

Wie viele Ausgabetoken kann Opus 4.8 produzieren?

Wo sehe ich die Token-Nutzung pro Aufruf?

Wie `effort` Ihre Rechnung verändert