Anthropic hat Claude Opus 4.8 am 28. Mai 2026 veröffentlicht und am selben Tag über die Claude API, Claude Apps, Claude Code und die großen Cloud-Plattformen verfügbar gemacht. Das Modell ist für komplexe Schlussfolgerungen, langfristige agentische Codierung und hochautonome Arbeit ausgelegt. Die API-Modell-ID lautet claude-opus-4-8.
Wenn Sie bereits Opus 4.7 verwenden, ist die Migration in vielen Fällen ein Ein-Zeilen-Tausch der Modell-ID. Preis und Kontextfenster bleiben unverändert. Die relevante Änderung ist die Qualität: Laut der Ankündigung von Anthropic ist es bei Opus 4.8 etwa viermal unwahrscheinlicher als bei 4.7, dass ein Codefehler unbemerkt bleibt. Außerdem soll das Modell ehrlicher damit umgehen, was es nicht weiß.
Dieser Leitfaden zeigt, was sich geändert hat, wie Sie Opus 4.8 in bestehende API-Workflows einbauen und worauf Sie beim Testen achten sollten.
Die Kurzfassung
Die wichtigsten Fakten für die Implementierung:
-
Modell-ID:
claude-opus-4-8 - Verfügbarkeit: Claude API, AWS, Vertex AI, Microsoft Foundry, Claude Apps und Claude Code
- Preis: 5 $ pro Million Eingabe-Tokens, 25 $ pro Million Ausgabe-Tokens im Standardmodus
- Kontext: 1 Mio. Token Kontext, 128K Token Ausgabe
- Migration: In bestehenden Requests meist nur die Modell-ID ändern
Was neu oder wichtiger wird:
-
output_config.effortsteuert, wie gründlich Claude über die gesamte Antwort arbeitet - Adaptives Denken ersetzt manuelle
budget_tokens - Claude Code unterstützt dynamische Workflows mit vielen parallelen Sub-Agenten
- Tool-Aufrufe sollen effizienter und Codefehler häufiger erkannt werden
Für Kostenrechnungen und Token-Szenarien siehe die Opus 4.8 Preisübersicht. Für den Einstieg in die API siehe den Opus 4.8 API-Leitfaden.
Was ist wirklich neu in Opus 4.8?
Opus 4.8 behält die wichtigsten Spezifikationen von Opus 4.7 bei. Die Verbesserungen liegen vor allem im Modellverhalten.
1. Bessere Codequalität
Anthropic berichtet, dass Opus 4.8 im Vergleich zu Opus 4.7 etwa viermal weniger Codefehler unbemerkt durch die Überprüfung lässt.
Für Entwickler ist das besonders relevant bei:
- automatisierten Refactorings
- agentischen Coding-Loops
- generierten Pull-Request-Diffs
- komplexen Multi-File-Änderungen
- Tool-gestützten Code-Reviews
2. Ehrlicheres Verhalten bei Unsicherheit
Opus 4.8 soll Unsicherheit häufiger kennzeichnen und weniger unbegründete Aussagen machen. Für Agenten ist das praktisch wichtiger als ein einzelner Benchmark-Wert, weil unbeaufsichtigte Workflows oft Entscheidungen über mehrere Schritte treffen.
3. Effizientere Tool-Aufrufe
Das Modell soll Tools gezielter auswählen und weniger unnötige Aufrufe erzeugen. In Agenten-Schleifen kann das helfen bei:
- geringerer Latenz
- niedrigerem Token-Verbrauch
- weniger fehlerhaften Tool-Argumenten
- stabileren Multi-Step-Flows
4. Aufwandssteuerung über effort
Die wichtigste API-sichtbare Änderung ist der effort-Parameter.
Aufwandssteuerung: ein Modell, fünf Gänge
Opus 4.8 unterstützt den Parameter effort innerhalb von output_config.
Verfügbare Stufen:
lowmediumhighxhighmax
Der Standardwert ist high.
Beispiel-Request:
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"messages": [
{
"role": "user",
"content": "Refactor this module."
}
],
"output_config": {
"effort": "xhigh"
}
}
Wichtig: effort betrifft nicht nur interne Schlussfolgerungen. Der Parameter beeinflusst alle Tokens der Antwort, darunter:
- normalen Text
- Tool-Aufrufe
- Funktionsargumente
- Analyse- und Arbeitsaufwand
Praktische Faustregel:
| Use Case | Empfohlener Startwert |
|---|---|
| einfache Klassifizierung |
low oder medium
|
| normale Entwicklungsaufgaben | high |
| Refactoring über mehrere Dateien | xhigh |
| agentische Coding-Sessions | xhigh |
| sehr komplexe Planung oder Debugging |
max testen |
Anthropic empfiehlt, bei Coding- und Agentenaufgaben mit xhigh zu starten, high als Untergrenze für viele rechenintensive Aufgaben zu verwenden und erst nach eigenen Evaluierungen auf medium oder low zu wechseln.
Details stehen in der Effort-Dokumentation von Anthropic.
Adaptives Denken ersetzt manuelle Budgets
Opus 4.8 verwendet adaptives Denken.
Statt ein fixes Denkbudget zu setzen, aktivieren Sie:
{
"thinking": {
"type": "adaptive"
}
}
Das Modell entscheidet dann selbst, wann und wie viel es pro Anfrage denken soll.
Beispiel mit effort und adaptivem Denken:
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"thinking": {
"type": "adaptive"
},
"output_config": {
"effort": "xhigh"
},
"messages": [
{
"role": "user",
"content": "Analysiere diese Codebasis und schlage einen sicheren Refactoring-Plan vor."
}
]
}
Wichtig für Migrationen: Manuelles erweitertes Denken mit budget_tokens wird in Opus 4.8 nicht unterstützt und führt zu einem 400-Fehler. Wenn Sie dieses Muster aus einem älteren Opus-Setup übernommen haben, ersetzen Sie es durch adaptives Denken plus output_config.effort.
Die genaue Request-Struktur wird im Opus 4.8 API-Leitfaden beschrieben.
Dynamische Workflows in Claude Code
Das auffälligste neue Feature steckt in Claude Code: dynamische Workflows.
Damit kann eine einzelne Sitzung viele parallele Sub-Agenten starten, um große, verzweigte Aufgaben zu bearbeiten. Im Hintergrund kombiniert Claude Code dabei:
-
xhigh-Aufwand - Systemnachrichten mitten im Gespräch
- Orchestrierung mehrerer Worker-Agenten
Die Messages API akzeptiert Systemeingaben jetzt auch mitten im Gespräch, nicht nur am Anfang. Das ermöglicht einem Orchestrator-Agenten, während einer laufenden Aufgabe neue Worker zu erstellen oder deren Verhalten anzupassen.
Wenn Sie die Mechanik hinter diesem Muster verstehen möchten, lesen Sie den Claude Code Dynamic Workflows Deep-Dive. Für die Strukturierung von Agentenläufen siehe außerdem die Claude Code Agent Harness Aufschlüsselung.
Benchmark-Highlights
Anthropic hebt vor allem agentische Benchmarks hervor:
- Schlägt GPT-5.5 beim Super-Agent-Benchmark, der End-to-End-Aufgabenerfüllung misst
- Führt den Legal Agent Benchmark an und ist das erste Modell, das insgesamt 10 % darauf überschreitet
- 84 % bei Online-Mind2Web, einem Test für Web-Navigations-Agenten
Diese Werte sind vor allem für Agenten-Workflows relevant, nicht nur für normale Chat-Antworten.
Für einen direkten Vergleich mit anderen Modellen siehe Opus 4.8 vs. GPT-5.5 vs. Gemini 3.5. Der ältere Vergleich Gemini 3.5 vs. GPT-5.5 vs. Opus 4.7 bleibt als 4.7-Baseline nützlich.
Opus 4.8 vs. Opus 4.7 auf einen Blick
| Attribut | Opus 4.7 | Opus 4.8 |
|---|---|---|
| API-ID | claude-opus-4-7 |
claude-opus-4-8 |
| Eingabepreis | 5 $ / 1 Mio. Tokens | 5 $ / 1 Mio. Tokens |
| Ausgabepreis | 25 $ / 1 Mio. Tokens | 25 $ / 1 Mio. Tokens |
| Kontextfenster | 1 Mio. Tokens | 1 Mio. Tokens |
| Max. Ausgabe | 128K Tokens | 128K Tokens |
| Aufwandsstufen | niedrig bis max | niedrig bis max |
| Unerkannte Codefehler | Baseline | ~4x weniger |
| Ehrlichkeit / Alignment | Baseline | verbessert |
| Wissensstand | Jan 2026 | Jan 2026 |
Die Spezifikationen sind absichtlich nahezu identisch. Sie zahlen denselben Preis für ein Modell, das laut Anthropic weniger Fehler macht. Für viele Teams ist die Migration deshalb risikoarm, sollte aber trotzdem gegen echte Requests getestet werden.
So greifen Sie auf Claude Opus 4.8 zu
Sie haben vier Hauptoptionen.
1. Claude API
Verwenden Sie die Modell-ID claude-opus-4-8 mit dem Messages-Endpunkt.
Minimaler Payload:
{
"model": "claude-opus-4-8",
"max_tokens": 1024,
"messages": [
{
"role": "user",
"content": "Erkläre diesen Fehler und schlage einen Fix vor."
}
]
}
Startpunkt: Opus 4.8 API-Leitfaden
2. Claude Apps
Opus 4.8 ist auf claude.ai als High-End-Modell für kostenpflichtige Pläne verfügbar, mit begrenztem Zugriff im kostenlosen Plan.
3. Claude Code
Claude Code kann Opus 4.8 als Top-Modell verwenden. Dynamische Workflows werden relevant, wenn Sie im High-Effort-Modus arbeiten.
4. Cloud-Plattformen
Opus 4.8 ist verfügbar über:
- AWS Bedrock:
anthropic.claude-opus-4-8 - Vertex AI:
claude-opus-4-8 - Microsoft Foundry, dort mit einem Kontextfenster von 200K Tokens
Wenn Sie Opus 4.8 zuerst ohne kostenpflichtigen API-Plan ausprobieren möchten, siehe den Leitfaden wie Sie Opus 4.8 kostenlos nutzen können.
Wer sollte Opus 4.8 verwenden?
Opus 4.8 lohnt sich vor allem für anspruchsvolle Workloads.
Verwenden Sie es, wenn:
- Sie lange agentische Coding-Sessions ausführen
- stille Fehler in generiertem Code teuer wären
- Sie komplexe Tool-Ketten orchestrieren
- Sie unbeaufsichtigte Agenten mit gutem Urteilsvermögen brauchen
- die Aufgabe wirklich Spitzen-Reasoning erfordert
Verwenden Sie eher ein kleineres Modell oder niedrigeren effort, wenn:
- die Aufgabe stark latenzkritisch ist
- Sie sehr hohe Volumina verarbeiten
- einfache Klassifikation oder Extraktion ausreicht
- die Kosten pro Request wichtiger sind als maximale Qualität
Der praktische Vorteil von effort: Sie können innerhalb desselben Modells zwischen schnellerer und gründlicherer Bearbeitung wechseln.
Opus 4.8 testen, bevor Sie es bereitstellen
Ein Modelltausch ist einfach, aber nicht risikofrei. Prüfen Sie besonders:
- Streaming-Chunks
- Tool-Aufruf-Validierung
- neue
output_config-Payloads - adaptive Denkantworten
- Parser für Funktionsargumente
- Assertions für erwartete JSON-Schemas
- Token-Verbrauch pro
effort-Stufe
Empfohlener Migrationsablauf:
- Duplizieren Sie Ihre bestehende Opus-4.7-Anfrage.
- Ändern Sie nur
modelvonclaude-opus-4-7aufclaude-opus-4-8. - Führen Sie dieselben Testfälle gegen beide Modelle aus.
- Vergleichen Sie Ausgabequalität, Tool-Aufrufe, Latenz und Token-Verbrauch.
- Aktivieren Sie
thinking: { "type": "adaptive" }, falls Ihr Workflow Denken benötigt. - Ersetzen Sie alte
budget_tokens-Konfigurationen. - Testen Sie
effortmithighundxhigh. - Deployen Sie erst, wenn Parser und Tool-Schemas stabil bleiben.
Apidog kann dabei helfen, die Messages API in einem Workspace zu testen:
- Speichern Sie den Opus-4.8-Endpunkt als Request
- Fügen Sie Ihren
x-api-keyhinzu - Tauschen Sie
claude-opus-4-7gegenclaude-opus-4-8 - Vergleichen Sie Antworten direkt nebeneinander
- Prüfen Sie Streaming-Chunks mit Timing pro Chunk
- Ergänzen Sie Assertions für Schemaabweichungen
- Mocken Sie den Endpunkt, um nachgelagerten Code ohne Credit-Verbrauch zu testen
Laden Sie Apidog herunter, richten Sie eine Anfrage an den Messages-Endpunkt ein und fügen Sie das cURL-Snippet aus dem API-Leitfaden ein.
FAQ
Ist Claude Opus 4.8 besser als Opus 4.7?
Ja, laut Anthropic vor allem bei Qualität. Opus 4.8 soll etwa viermal mehr Codefehler abfangen, ehrlicher bei Unsicherheiten sein und Tools effizienter aufrufen. Preise, Kontextfenster und maximale Ausgabe bleiben identisch.
Wie viel kostet Opus 4.8?
Opus 4.8 kostet 5 $ pro Million Eingabe-Tokens und 25 $ pro Million Ausgabe-Tokens im Standardmodus. Der schnelle Modus kostet 10 $ und 50 $ für eine 2,5-mal schnellere Ausgabe. Die vollständige Berechnung finden Sie in der Preisübersicht.
Was ist das Kontextfenster für Opus 4.8?
Opus 4.8 unterstützt 1 Mio. Eingabe-Tokens und bis zu 128K Ausgabe-Tokens über die synchrone Messages API. Die Batch API unterstützt bis zu 300K Ausgabe-Tokens mit einem Beta-Header. Auf Microsoft Foundry beträgt das Kontextfenster 200K Tokens.
Unterstützt Opus 4.8 erweitertes Denken?
Opus 4.8 verwendet adaptives Denken mit:
{
"thinking": {
"type": "adaptive"
}
}
Manuelles Denken mit budget_tokens wird nicht unterstützt und führt zu einem 400-Fehler.
Was ist der effort-Parameter?
effort ist eine Einstellung innerhalb von output_config. Sie steuert, wie viele Tokens Claude für Text, Tool-Aufrufe und Schlussfolgerungen verwendet.
Verfügbare Werte:
lowmediumhighxhighmax
Standardwert ist high.
Kann ich Opus 4.8 kostenlos nutzen?
Es gibt keine kostenlose API-Stufe. Sie können Opus 4.8 aber im kostenlosen Plan unter claude.ai mit Einschränkungen oder über Testguthaben ausprobieren. Details stehen im Leitfaden zum kostenlosen Zugang.
Was sind Dynamische Workflows?
Dynamische Workflows sind eine Claude-Code-Funktion, die viele parallele Sub-Agenten in einer Sitzung startet. Sie basiert auf xhigh-Aufwand und Systemnachrichten mitten im Gespräch. Details finden Sie im Leitfaden zu Dynamischen Workflows.


Top comments (0)