Claude Opus 4.8 kostet im Standardmodus 5 US-Dollar pro Million Eingabetoken und 25 US-Dollar pro Million Ausgabetoken. Damit bleibt der Tarif gegenüber Opus 4.7 unverändert. Wenn Sie bereits für 4.7 budgetiert haben, ändert sich beim Upgrade also nicht der Basispreis. Entscheidend für Ihre tatsächliche Rechnung sind stattdessen die operativen Hebel: schneller Modus, effort, Prompt-Caching und Batch-Rabatte.
Dieser Leitfaden zeigt, was Sie praktisch bezahlen, wie Sie Kosten berechnen und welche Einstellungen Sie vor dem Produktivbetrieb testen sollten. Eine Modellübersicht finden Sie unter Was ist Claude Opus 4.8. Um mit der Implementierung zu beginnen, siehe den API-Leitfaden.
Die Preisliste
| Modus | Eingabe pro 1 Mio. Tokens | Ausgabe pro 1 Mio. Tokens | Geschwindigkeit |
|---|---|---|---|
| Standard | $5 | $25 | Basislinie |
| Schnell | $10 | $50 | 2,5x schnellere Ausgabe |
Zwei Punkte sind für die Implementierung wichtig:
- Ausgabetoken kosten fünfmal so viel wie Eingabetoken. Die Länge der Modellantworten bestimmt deshalb oft stärker die Rechnung als die Prompt-Größe.
- Der schnelle Modus verdoppelt den Tokenpreis. Dafür streamt die Ausgabe etwa 2,5-mal schneller.
Die aktuellen Tarife können Sie in Anthropic’s Preisdokumentation prüfen.
Wann Sie den schnellen Modus verwenden sollten
Verwenden Sie den Standardmodus als Default. Der schnelle Modus ist nur dann sinnvoll, wenn Latenz Teil des Produkterlebnisses ist.
Typische Fälle für den schnellen Modus:
- Live-Code-Assistenten
- interaktive Agenten
- Chat-UIs, bei denen Benutzer aktiv auf Streaming-Ausgabe warten
- Workflows, bei denen Antwortzeit wichtiger ist als Tokenkosten
Bleiben Sie beim Standardmodus für:
- Hintergrundjobs
- Agenten-Schleifen ohne wartenden Benutzer
- geplante Aufgaben
- Evaluierungen
- Batch-Verarbeitung
Praktische Regel:
Wartet ein Mensch in Echtzeit? -> Schnellmodus prüfen
Läuft der Job im Hintergrund? -> Standardmodus verwenden
Wie effort Ihre Rechnung verändert
Der effort-Parameter steuert, wie viele Token Opus 4.8 für die gesamte Antwort ausgibt, einschließlich Tool-Aufrufen. Da Ausgabetoken teuer sind, ist effort einer der wichtigsten Kostenhebel.
Die Stufen vom günstigsten zum teuersten Tokenverbrauch:
effort |
Typischer Einsatz | Kostenwirkung |
|---|---|---|
low |
Klassifizierung, kurze Antworten, einfache Extraktion | geringste Ausgabe |
medium |
ausgewogene Aufgaben | mittlere Ausgabe |
high |
gründliche Antworten, Standard | höhere Ausgabe |
xhigh |
komplexe Codierung, tieferes Reasoning | deutlich mehr Ausgabe |
max |
keine Einschränkungen | höchste Ausgabe |
Beispielhafte Zuordnung:
Klassifizierung -> low
FAQ-Antwort -> low oder medium
Zusammenfassung -> medium
Code-Review -> high
Agentische Codierung -> xhigh
Sehr komplexe Aufgaben -> max nur gezielt testen
Eine Klassifizierungsaufgabe mit low kann deutlich weniger Ausgabetoken benötigen als dieselbe Aufgabe mit high. Dasselbe Modell, derselbe Grundpreis, aber eine niedrigere Rechnung.
Anthropic’s Aufwandsrichtlinie beschreibt, wo jede Stufe die Qualität beibehält. Für die Praxis gilt: Setzen Sie effort pro Aufgabe, nicht global für die gesamte Anwendung.
Durchgerechnete Kostenszenarien
Alle Beispiele verwenden die Standardpreise:
Eingabe: $5 pro 1.000.000 Tokens
Ausgabe: $25 pro 1.000.000 Tokens
Die Zahlen sind illustrativ. Ihre tatsächlichen Token-Anzahlen hängen von Prompts, Antworten, Tool-Aufrufen und effort ab.
Szenario 1: Chatbot-Interaktion
Annahme:
1.000 Eingabetoken
500 Ausgabetoken
Berechnung:
Eingabe:
1.000 / 1.000.000 x $5 = $0.005
Ausgabe:
500 / 1.000.000 x $25 = $0.0125
Gesamt:
$0.0175, also ca. $0.018 pro Interaktion
Wenn Sie den gleichen Use Case mit low betreiben und die Ausgabe kürzer wird, können die Kosten pro Interaktion unter einen Cent fallen.
Szenario 2: Agentische Codierungsaufgabe
Annahme:
50.000 Eingabetoken Repo-Kontext
8.000 Ausgabetoken bei xhigh
Berechnung:
Eingabe:
50.000 / 1.000.000 x $5 = $0.25
Ausgabe:
8.000 / 1.000.000 x $25 = $0.20
Gesamt:
ca. $0.45 pro Aufgabe
Wenn derselbe 50K-Kontext über mehrere Aufrufe wiederverwendet wird, kann Prompt-Caching die wiederholten Eingabekosten stark senken. Bei ungefähr einem Zehntel des Eingabetarifs sinkt der wiederholte Eingabeteil von ca. $0.25 auf ca. $0.025, wodurch die Gesamtkosten in diesem Beispiel auf etwa $0.23 fallen.
Szenario 3: Nächtlicher Batch-Job
Annahme:
1.000.000 Eingabetoken
200.000 Ausgabetoken
50% Rabatt über Batch API
Berechnung:
Eingabe:
1.000.000 / 1.000.000 x $5 x 0.5 = $2.50
Ausgabe:
200.000 / 1.000.000 x $25 x 0.5 = $2.50
Gesamt:
ca. $5.00 für den gesamten Batch
Für Preisvergleiche mit günstigeren Modellen siehe die Gemini 3.5 Flash Preisaufschlüsselung und Xiaomi MiMo v2.5 API-Kosten.
Prompt-Caching: die größte einzelne Ersparnis
Wenn Sie bei jedem Aufruf denselben System-Prompt, dasselbe Dokument oder denselben Code-Kontext senden, zahlen Sie ohne Caching jedes Mal erneut für dieselben Eingabetoken.
Prompt-Caching reduziert diese wiederholten Kosten:
Erster Aufruf:
Cache wird geschrieben
Folgende Aufrufe:
Wiederholter Kontext wird günstiger aus dem Cache gelesen
Das lohnt sich besonders für:
- lange System-Prompts
- Dokumente, die über mehrere Anfragen hinweg gleich bleiben
- Repo-Kontext in Coding-Agenten
- mehrstufige Agenten-Workflows
- Evaluierungen mit identischem Kontext
Beispiel:
Ohne Cache:
50K Kontext x viele Aufrufe = hoher Eingabepreis pro Aufruf
Mit Cache:
erster Aufruf schreibt Cache
weitere Aufrufe lesen den wiederholten Kontext günstiger
Die wichtigste Implementierungsentscheidung: Trennen Sie stabilen Kontext von variablem Prompt-Inhalt. Alles, was über viele Aufrufe gleich bleibt, ist ein Kandidat für Caching.
Batch API für nicht dringende Workloads
Die Batch API ist für Jobs gedacht, bei denen Sie keine Echtzeit-Antwort benötigen. Sie senden mehrere Anfragen, erhalten die Ergebnisse innerhalb des Batch-Fensters zurück und zahlen weniger pro Token.
Geeignete Workloads:
- Evaluierungen
- Massen-Zusammenfassungen
- Datenbeschriftung
- Offline-Analysen
- geplante Verarbeitung
- Regressionstests für Prompts
Zusätzlich erhöht die Batch API die Ausgabegrenze: Opus 4.8 unterstützt über die Batch API mit dem Beta-Header output-300k-2026-03-24 bis zu 300K Ausgabetoken. Am synchronen Endpunkt liegt die Grenze bei 128K.
Praktische Regel:
Benutzer wartet auf Antwort? -> synchrone API
Job kann später fertig werden? -> Batch API prüfen
Opus-Preise über Generationen hinweg
Opus 4.8 hält den Preis von Opus 4.7. Der größere Preisrückgang fand bereits mit der 4.5-Generation statt.
| Modell | Eingabe pro 1 Mio. | Ausgabe pro 1 Mio. |
|---|---|---|
| Opus 4.1 | $15 | $75 |
| Opus 4.5 | $5 | $25 |
| Opus 4.6 | $5 | $25 |
| Opus 4.7 | $5 | $25 |
| Opus 4.8 | $5 | $25 |
Opus fiel von $15/$75 auf $5/$25 bei der 4.5-Generation und ist seitdem auf diesem Niveau geblieben. Sie erhalten Opus 4.8 zum Preisniveau von 4.5.
Für einen direkten Vergleich mit den Flaggschiffen anderer Anbieter siehe Opus 4.8 vs. GPT-5.5 vs. Gemini 3.5.
Checkliste zur Kostenoptimierung
Bevor Sie Opus 4.8 skalieren, prüfen Sie diese Punkte:
-
effortpro Aufgabe festlegen. Verwenden Sie nichthighfür einfache Klassifizierung oderxhighfür Nachschlagefunktionen. - Wiederholten Kontext cachen. System-Prompts, Dokumente und Codebasen sollten gecacht werden.
- Nicht dringende Workloads bündeln. Evaluierungen und Massenjobs gehören in die Batch API.
-
max_tokensbegrenzen. Setzen Sie sinnvolle Obergrenzen für die maximalen Output-Kosten pro Aufruf. - Standardmodus als Default verwenden. Wechseln Sie nur in den schnellen Modus, wenn ein Mensch in Echtzeit wartet.
- Nutzung und Limits beobachten. Ratenbegrenzungen und Ausgaben steigen zusammen. Die Änderung der wöchentlichen Claude Code-Limits ist eine Erinnerung, Kontingente aktiv zu verfolgen.
Eine einfache Kostenformel für interne Dashboards:
Kosten =
(input_tokens / 1.000.000 * input_price)
+
(output_tokens / 1.000.000 * output_price)
Für den Standardmodus:
Kosten =
(input_tokens / 1.000.000 * 5)
+
(output_tokens / 1.000.000 * 25)
Tatsächliche Ausgaben mit Apidog verfolgen
Geschätzte Kosten und Produktionskosten driften schnell auseinander, weil reale Antworten unterschiedlich lang sind und Tool-Aufrufe variieren. Messen Sie deshalb die tatsächliche Nutzung pro Aufruf.
Die Messages API gibt dafür ein usage-Objekt zurück, das Eingabe- und Ausgabetoken meldet.
Apidog hilft dabei, diesen Ablauf praktisch zu testen:
- Erstellen Sie eine echte Opus-4.8-Anfrage.
- Senden Sie denselben Prompt mit unterschiedlichen
effort-Werten. - Lesen Sie den
usage-Block in der Antwort. - Vergleichen Sie Eingabe- und Ausgabetoken pro Variante.
- Speichern Sie die Requests für wiederholbare Tests.
- Simulieren Sie den Endpunkt, wenn Sie entwickeln und testen möchten, ohne Tokens auszugeben.
Beispielhafte Testmatrix:
| Test | effort |
Ziel |
|---|---|---|
| A | low |
minimale Kosten prüfen |
| B | high |
Qualitäts-Baseline prüfen |
| C | xhigh |
Coding- oder Reasoning-Qualität prüfen |
Vergleichen Sie danach nicht nur die Qualität, sondern auch die Output-Tokens. Genau dort entstehen die größten Kostenunterschiede.
FAQ
Wie viel kostet Claude Opus 4.8?
Claude Opus 4.8 kostet im Standardmodus 5 US-Dollar pro Million Eingabetoken und 25 US-Dollar pro Million Ausgabetoken. Der schnelle Modus kostet 10 US-Dollar pro Million Eingabetoken und 50 US-Dollar pro Million Ausgabetoken.
Ist Opus 4.8 teurer als Opus 4.7?
Nein. Die Token-Raten sind identisch. Ein Upgrade von Opus 4.7 auf Opus 4.8 ändert den Basispreis nicht.
Was ist der Unterschied zwischen Standardmodus und Schnellmodus?
Der Schnellmodus verdoppelt die Token-Rate und streamt die Ausgabe etwa 2,5-mal schneller. Verwenden Sie ihn nur, wenn Latenz für einen wartenden Benutzer wichtig ist.
Wie senke ich meine Opus-4.8-Kosten?
Reduzieren Sie effort bei einfachen Aufgaben, cachen Sie wiederholte Prompt-Inhalte, bündeln Sie nicht dringende Aufgaben über die Batch API und setzen Sie max_tokens knapp. Ausgabetoken sind der Hauptkostentreiber.
Spart Prompt-Caching wirklich Geld?
Ja. Nachdem der erste Aufruf den Cache geschrieben hat, wird wiederholte Eingabe zu einem deutlich niedrigeren Tarif gelesen, ungefähr zu einem Zehntel des normalen Eingabetarifs. Langkontext-Agenten profitieren am stärksten.
Wie viele Ausgabetoken kann Opus 4.8 produzieren?
Bis zu 128K über die synchrone Messages API und bis zu 300K über die Batch API mit dem Beta-Header output-300k-2026-03-24.
Wo sehe ich die Token-Nutzung pro Aufruf?
Im usage-Objekt jeder Messages-API-Antwort. Tools wie Apidog zeigen diese Werte an, damit Sie Kosten über verschiedene effort-Level vergleichen können.

Top comments (0)