Everlast AI for Everlast AI

Posted on May 31 • Originally published at kiberatung.de

Claude Opus 4.8: Ultra Code und Dynamic Workflows im Test

#claude #ki #ai #deutsch

Claude Opus 4.8 ist das neue Spitzenmodell von Anthropic. Es steuert mit Ultra Code und Dynamic Workflows ganze Agenten-Teams autonom. Wir zeigen, welche sieben Neuerungen Unternehmen sofort einen messbaren Vorteil bringen.

Was Claude Opus 4.8 besser macht

Auf den ersten Blick wirkt Claude Opus 4.8 wie ein kleiner Schritt. Die Benchmarks zeigen nur eine geringe Steigerung gegenüber Opus 4.7. In der Praxis ist der Sprung deutlich größer.

Auf SWE-bench Pro löst das Modell 69,2 Prozent der Aufgaben. Damit liegt es klar vor GPT-5.5. Artificial Analysis führt es aktuell als intelligentestes Modell überhaupt.

Der Preis bleibt identisch zu Opus 4.7. Pro generiertem Token wird Opus 4.8 sogar günstiger. Unternehmen bekommen also mehr Leistung ohne höheres Budget.

Sieben Neuerungen für den Arbeitsalltag

Auf dem OSWorld-Benchmark erreicht das Modell 83,4 Prozent. Dort bedient die KI einen Rechner eigenständig per Maus und Tastatur. Sie baut Excel-Pivottabellen und schreibt Slack-Nachrichten.

Der Fast Mode arbeitet jetzt dreimal günstiger als zuvor. Das adaptive Thinking lässt sich endlich abschalten. Du wählst fünf feste Stufen von low bis max selbst.

Auf der Vending Bench fällt Opus 4.8 zurück. Der Grund ist besseres Verhalten: Das Modell spricht keine Preise mehr heimlich ab. Es hält ethische Grenzen ein.

Dynamic Workflows und Ultra Code im Einsatz

Die zwei stärksten Funktionen heißen Dynamic Workflows und Ultra Code. Mit Dynamic Workflows startest du keine Subagenten mehr per Hand. Das System orchestriert dutzende bis hunderte Agenten selbst.

Du aktivierst Ultra Code als Effort-Stufe über extra high. Danach gibst du den Befehl Workflow ein. Die Agenten arbeiten dann Stunden am Stück an einer Aufgabe.

Ein Beispiel aus unserem Team zeigt die Wirkung. Agenten haben über Nacht 202 Portale gescannt. Sie meldeten unsere Software Voicely per agentmail bei 50 Verzeichnissen an. Mehr Kontext dazu liefert unser Überblick zum AI-Automations-Manager.

Self Improving Agents bei Codex

OpenAI verfolgt mit Codex einen ähnlichen Trend. Steuerberater-Agenten verbessern sich dort in einem geschlossenen Loop. Der Mensch korrigiert Entwürfe, die KI misst jede Abweichung.

Codex gruppiert ähnliche Fehler und leitet klare Prüfziele ab. Im Test stieg die Genauigkeit in sechs Wochen von 25 auf 86 Prozent. Bei 7.000 Steuererklärungen erreichte das System bis zu 97 Prozent.

Weltmodelle als nächste Stufe nach den LLMs

Viele Forscher fragen, ob große Sprachmodelle allein weiterführen. Eine Antwort sind Weltmodelle. Das Startup Odyssey hat dazu das Multi-Agent-Weltmodell Agora-1 veröffentlicht.

Dr. Jenny Seidenschwarz erklärt den Unterschied im Interview. Ein Weltmodell sagt nicht nur das nächste Wort vorher. Es modelliert den kompletten Zustand der Welt im Pixel-Raum.

In Agora-1 verändern bis zu vier Akteure eine Szene gleichzeitig. Für die Robotik ist das zentral. Ein Roboter lernt physikalische Regeln wie das Fallen eines Glases als Basiswissen.

Humanoide Roboter und die Agentenökonomie

Boston Dynamics zeigt mit Atlas einen sauberen Rabona auf dem Fußballfeld. China vergibt als erstes Land digitale Ausweise für Roboter. Erfasst sind bereits über 28.000 Geräte von mehr als 100 Herstellern.

Daraus folgt die Geschäftsidee der Woche. Frag nicht nur, welche Probleme von Menschen du löst. Frag, welche Software du als MCP für Agenten bereitstellen kannst.

Fazit: Was Claude Opus 4.8 für Unternehmen bedeutet

Der größte Hebel von Claude Opus 4.8 liegt nicht im Benchmark. Er liegt in der Kombination aus Ultra Code und Dynamic Workflows. Lang laufende Aufgaben erledigen Agenten jetzt autonom im Hintergrund.

Wer KI gewinnbringend einsetzt, sollte beide Funktionen testen. Der Trend zu autonomen Self-Improving-Loops beschleunigt sich. Weltmodelle wie Agora-1 deuten die nächste Stufe bereits an.

Häufige Fragen

Was ist neu an Claude Opus 4.8?

Claude Opus 4.8 bringt sieben praktische Neuerungen. Der Preis bleibt gleich wie bei Opus 4.7, pro Token ist es sogar günstiger. Neu sind ein dreimal günstigerer Fast Mode und fünf feste Thinking-Stufen. Die größten Hebel sind die Dynamic Workflows und der Ultra Code Modus. Damit orchestriert das Modell ganze Agenten-Teams ohne manuelles Setup.

Was sind Dynamic Workflows?

Dynamic Workflows starten und steuern Subagenten automatisch. Du baust kein Agenten-Team mehr selbst auf. Das System launcht dutzende bis hunderte Agenten und verteilt die Arbeit. Diese Agenten arbeiten Stunden am Stück an einer Aufgabe. Damit eignen sie sich für lang laufende Jobs im Hintergrund.

Wie schneidet Claude Opus 4.8 in Benchmarks ab?

Auf SWE-bench Pro löst Claude Opus 4.8 rund 69,2 Prozent der Aufgaben. Damit liegt es vor GPT-5.5. Auf OSWorld erreicht es 83,4 Prozent und übertrifft den menschlichen Referenzwert. Auf der Vending Bench fällt es zurück, weil es ehrlicher agiert. Artificial Analysis führt es als intelligentestes verfügbares Modell.

Was ist ein Weltmodell?

Ein Weltmodell sagt nicht nur das nächste Wort vorher. Es modelliert den kompletten Zustand einer Umgebung, oft im Pixel-Raum. Nutzer interagieren mit der erzeugten Szene direkt. Das Startup Odyssey zeigt das mit dem Modell Agora-1. Für die Robotik liefert es physikalisches Basiswissen wie Schwerkraft und Greifen.

DEV Community