Emre Demir

Posted on Jun 22 • Originally published at apidog.com

Fugu Ultra vs Fable 5 vs Mythos: Sakana Orchestrator im Vergleich mit The Frontier

Fugu Ultra ist Sakana AIs Top-Variante von Fugu. Die Veröffentlichung positioniert Fugu Ultra als System auf Augenhöhe mit aktuellen Spitzenmodellen, nicht als eindeutigen Sieger. Laut Sakana steht Fugu Ultra „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“ bei Engineering-, wissenschaftlichen und Reasoning-Benchmarks. Wichtig: Fugu ist kein einzelnes Modell, sondern ein Orchestrator, der Modelle anderer Anbieter aufrufen kann. Vergleichen Sie daher Systemqualität, nicht nur Modellgewichte. Details finden Sie auf der Sakana Fugu Release-Seite; eine ausführlichere Einordnung steht in Was ist Sakana Fugu.

Testen Sie Apidog noch heute

Was Sie konkret vergleichen

Fugu ist ein Multi-Agenten-Orchestrierungssystem, das sich über eine OpenAI-kompatible API wie ein einzelnes Basismodell verwenden lässt. Sakana beschreibt es als trainiertes Sprachmodell, das auf Delegation, Agentenkommunikation und Synthese spezialisiert ist. Pro Anfrage entscheidet Fugu, ob es direkt antwortet oder mehrere LLMs koordiniert, einschließlich rekursiver Instanzen von sich selbst.

Fable 5 und Mythos sind anders einzuordnen: Es sind einzelne Anthropic-Modelle. Fable 5 ist das leistungsstärkste allgemein verfügbare Modell von Anthropic und gehört zur „Mythos-Klasse“. Mythos Preview wurde am 7. April 2026 veröffentlicht und von Anthropic als zu gefährlich für eine allgemeine Veröffentlichung beschrieben. Sakana vergleicht Fugu Ultra mit Mythos Preview, nicht mit dem aktuellen Mythos 5. Die Anthropic-Seite des Vergleichs behandeln Fable 5 vs. Mythos 5 und das Modell der Mythos-Klasse erklärt.

Der Kernvergleich lautet also:

Fugu Ultra: orchestriertes System aus mehreren Modellen
Fable 5 / Mythos Preview: einzelne Modelle
Bewertung: Systemleistung vs. Einzelmodellleistung

Diese Unterscheidung beeinflusst, wie Sie Benchmarks, Kosten und Integrationsentscheidungen lesen sollten.

Fugu und Fugu Ultra in der Praxis

Sakana liefert zwei Varianten über einen Endpunkt aus:

Fugu: ausgewogene Variante für Alltag, Coding, Code-Reviews, Chatbots und interaktive Services
Fugu Ultra: qualitätsorientierte Variante für Forschung, Paper-Replikation, Cybersecurity-Analysen sowie Literatur- oder Patentprüfungen

Die Beta und ein Teil der Berichterstattung verwendeten den Namen „Fugu Mini“. Die Release-Seite nennt jedoch Fugu und Fugu Ultra; verwenden Sie diese Namen in Implementierungen und Dokumentation.

Orchestrator vs. Einzelmodell: die wichtigste Architekturgrenze

Fugu ist ein Orchestrator. Wenn Fugu eine starke Antwort erzeugt, kann diese Antwort dadurch entstanden sein, dass Fugu ein anderes Spitzenmodell aufgerufen, dessen Ergebnis geprüft und mit weiteren Agentenantworten synthetisiert hat. Dazu können Opus 4.8, Gemini oder rekursive Fugu-Instanzen gehören.

Das ist eine echte Fähigkeit. Sie ist aber nicht dasselbe wie ein einzelnes Modell, das mit seinen eigenen Gewichten ein anderes Modell übertrifft.

Beispielhafte Lesart:

Ungenau: „Fugu schlägt Fable 5.“
Präziser: „Ein orchestriertes System erreicht eine mit Fable 5 vergleichbare Systemqualität.“
Noch präziser: „Fugu Ultra erreicht laut Sakana bei bestimmten Benchmarks eine Spitzenklasse-vergleichbare Qualität, unter anderem durch dynamische Modellkoordination.“

Fable 5 und Mythos antworten aus eigenen Parametern. Bei ihnen gibt es kein Modellteam hinter dem API-Aufruf.

Eine detailliertere Benchmark-Einordnung finden Sie in Sakana Fugu Benchmarks.

Claim 1: Gleichwertigkeit mit Fable 5 und Mythos Preview

Sakanas erste Kernaussage ist Gleichwertigkeit. Fugu Ultra stehe bei Engineering-, wissenschaftlichen und Reasoning-Benchmarks „Schulter an Schulter“ mit Fable 5 und Mythos Preview.

Lesen Sie das wörtlich:

Es ist keine Aussage, dass Fugu Ultra gewinnt.
Es ist eine Aussage, dass Fugu Ultra mithält.
Es bezieht sich auf Mythos Preview, nicht auf Mythos 5.

Das ist relevant, weil Anthropic laut Stand 9. Juni 2026 Fable 5 und Mythos 5 mit 10 $ pro Million Input-Token und 50 $ pro Million Output listet, während Mythos Preview bei 25 $ Input und 125 $ Output lag. Mythos Preview ist für reproduzierbare Vergleiche nachvollziehbar, entspricht aber nicht zwingend der aktuellen Anthropic-Obergrenze.

Wenn Fugu Ultra Fable-5-ähnliche Qualität erreicht, indem es mehrere Modelle orchestriert, ist die Systemleistung trotzdem nützlich. Sie sollten sie nur nicht mit Einzelmodellleistung verwechseln. Für die Einzelmodell-Seite siehe Claude Fable 5 vs. Opus 4.8.

Claim 2: Wo Sakana Überlegenheit behauptet

Die zweite Behauptung ist enger. Laut Sakana übertrifft Fugu drei Spitzenmodelle bei bestimmten Anwendungen konstant:

Gemini 3.1 Pro (high)
Opus 4.8 (max)
GPT 5.5 (xhigh)

Die genannten Anwendungen sind:

AutoResearch
Rubik's Cube
mechanische Konstruktion
Analyse japanischer Handschriften
One-Shot-Schach
Finanzzeitreihenprognose

Das sind Anwendungsergebnisse, keine universellen Benchmark-Siege. Genau hier kann Orchestrierung stark sein: planen, delegieren, prüfen, wiederholen.

Eine korrekte technische Zusammenfassung lautet:

Fugus Koordinationsschicht kann bei strukturierten, überprüfbaren Aufgaben messbaren Mehrwert liefern, teilweise genug, um ein einzelnes Spitzenmodell in dieser konkreten Aufgabe zu übertreffen.

Wenn dieser Gewinn durch Aufruf eines verglichenen Modells innerhalb der Fugu-Schleife entsteht, bleibt es ein Systemgewinn, aber kein Beweis für überlegene Modellgewichte.

Vergleichstabelle

Lesen Sie zuerst die Zeile „Art des Systems“. Sie ist entscheidend.

Dimension	Fugu / Fugu Ultra	Fable 5	Mythos (Preview / 5)
Art des Systems	Orchestrator: trainierter Dirigent, der mehrere LLMs aufruft, einschließlich sich selbst	Einzelnes Anthropic-Modell	Einzelnes Anthropic-Modell
Anbieter	Sakana AI	Anthropic	Anthropic
Sakanas Behauptung vs. dieses Modell	Gleichwertigkeit („Schulter an Schulter“) mit Fable 5 und Mythos Preview	Genannter Gleichwertigkeits-Peer	Genannter Gleichwertigkeits-Peer: Preview, nicht 5
Separate Überlegenheitsbehauptung	Vs. Gemini 3.1 Pro, Opus 4.8, GPT 5.5 bei genannten Anwendungen	Nicht das Überlegenheitsziel	Nicht das Überlegenheitsziel
Preisgestaltung	Gemeldete Stufen + PAYG, alle Fugu-Zahlen prüfen	$10 Input / $50 Output pro 1 Mio. Token	Preview $25 Input / $125 Output; Mythos 5 $10 / $50
API-Schnittstelle	Ein OpenAI-kompatibler Endpunkt für beide Varianten	Anthropic API	Anthropic API
Stärke	Strukturierte mehrstufige Aufgaben, Routing, Governance	Allgemeine Spitzenqualität, GA-sicher	Rohe Spitzenobergrenze

Die Fugu-Preisangaben sind gemeldet, aber nicht direkt aus der Release-Seite bestätigt. Behandeln Sie jede Fugu-Dollarzahl als unbestätigt, bis Sie sie live in Ihrer Konsole prüfen. Eine genauere Betrachtung der Fable-5-Ergebnisse finden Sie unter Claude Fable 5 Benchmarks.

Preisgestaltung: was Sie vor der Implementierung prüfen sollten

Sakana bestätigt eine Preisstruktur:

Abonnementstufen für täglichen Gebrauch
Pay-as-you-go für größere und Enterprise-Workloads

Die Struktur ist bestätigt. Die konkreten Zahlen sollten Sie live prüfen.

Stand 22.06.2026 stammen gemeldete Preise aus JS-gerenderten oder sekundären Quellen, nicht eindeutig von der Release-Seite. Gemeldet wurden:

Abos bei 20 $, 100 $ und 200 $ pro Monat für beide Modelle
Einführungsaktion mit kostenlosem zweitem Monat bei Abo vor Ende Juli 2026
Pay-as-you-go ungefähr:
- 5 $ Input pro Million Token
- 30 $ Output pro Million Token
- 0,50 $ für gecachte Daten pro Million Token
- Kontextzuschlag über 272.000 Token
Basisvariante „Fugu“ möglicherweise zum Standardtarif des aufgerufenen zugrunde liegenden Modells
kein eigenständiger kostenloser Tarif bekannt

Praktische Empfehlung:

Öffnen Sie Ihre Sakana-Konsole.
Prüfen Sie die aktuellen Preise.
Dokumentieren Sie die Werte mit Datum in Ihrem internen Architektur- oder Kosten-ADR.
Führen Sie eigene Kostenläufe mit realen Prompts aus.
Budgetieren Sie erst danach.

Forschungshintergrund: was belegt ist und was nicht

Sakana hat Orchestrierung nicht erfunden. Mixture-of-Agents von Together AI (ICLR 2025) zeigte bereits, dass orchestrierte Modelle einzelne Modelle schlagen können.

Fugus engerer Beitrag ist eine gelernte, adaptive, kosten-selektive Topologie, die hinter einem einzigen API-Endpunkt ausgeliefert wird.

Zwei ICLR-2026-Papiere stehen hinter der Forschungslinie:

Trinity, “An Evolved LLM Coordinator” (arXiv:2512.04695)

Koordinator mit unter 20.000 Parametern, optimiert durch ableitungsfreie Evolution, mit Denker-, Arbeiter- und Prüferrollen.
Conductor, “Learning to Orchestrate Agents in Natural Language” (arXiv:2512.04388)

7B-Modell, trainiert mit Reinforcement Learning, lernt Kommunikationsstruktur und soll Mixture-of-Agents zu geringeren Kosten übertreffen.

Verwechseln Sie diese Arbeiten nicht mit Produktdetails. Die offizielle Veröffentlichung nennt keine Produktparameterzahl. Eine direkte Übertragung der 7B-Angabe auf Fugu selbst wäre eine Schlussfolgerung Dritter.

Technisch unterscheidet sich Fugu von benachbarten Ansätzen so:

Router wie OpenRouter oder Martian wählen ein Modell und leiten weiter.
Agenten-Frameworks wie Swarm, AutoGen oder LangGraph lassen Sie selbst den Koordinator bauen.
Fugu trainiert den Koordinator und versteckt ihn hinter einem einzigen OpenAI-kompatiblen Aufruf.

Fugu in einen API-Testworkflow integrieren

Fugu stellt einen OpenAI-kompatiblen Endpunkt bereit. Sie können daher vorhandene OpenAI-Clients weiterverwenden und nur base_url, API-Key und Modell-ID anpassen.

Wichtig: Die Basis-URL ist Stand 22.06.2026 auf keiner öffentlichen Seite verlässlich dokumentiert. Kopieren Sie sie aus Ihrer Sakana-Konsole unter console.sakana.ai. Verwenden Sie keine zufällig geteilten Hosts.

Gemeldete Modell-IDs sind:

fugu
fugu-ultra

Bestätigen Sie die exakten IDs in der Konsole, bevor Sie sie in produktionsnahen Code übernehmen.

Beispiel: OpenAI-kompatibler Python-Client

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_SAKANA_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)

response = client.chat.completions.create(
    model="fugu-ultra",  # in der Sakana-Konsole bestätigen
    messages=[
        {
            "role": "system",
            "content": "You are a careful code reviewer."
        },
        {
            "role": "user",
            "content": "Review this pull request for security issues."
        },
    ],
)

print(response.choices[0].message.content)

Da Fugu das OpenAI Chat Completions-Format nutzt (OpenAI API-Referenz), können Sie es wie jeden anderen kompatiblen Modellendpunkt testen.

Fugu mit Apidog testen

Ein praktischer Testaufbau:

Öffnen Sie Apidog.
Erstellen Sie eine neue HTTP-Anfrage gegen die Fugu-Basis-URL aus Ihrer Sakana-Konsole.
Setzen Sie Header und Body wie bei einer OpenAI Chat Completions-Anfrage.
Verwenden Sie fugu-ultra als Modell-ID, sofern die Konsole diese ID bestätigt.
Speichern Sie die Anfrage als wiederverwendbaren Testfall.
Duplizieren Sie die Anfrage für Fable 5 oder Opus 4.8.
Führen Sie alle Varianten mit identischen Prompts aus.
Bewerten Sie Antwortqualität, Latenz, Kosten und Compliance-Spuren.

Beispiel-Body:

{
  "model": "fugu-ultra",
  "messages": [
    {
      "role": "system",
      "content": "Du bist ein sorgfältiger Security-Code-Reviewer."
    },
    {
      "role": "user",
      "content": "Prüfe diesen Pull Request auf Security-Probleme und priorisiere die Findings."
    }
  ]
}

Damit machen Sie Sakanas Gleichwertigkeitsbehauptung messbar: nicht über Marketingtabellen, sondern über Ihre eigenen Prompts, Daten und Bewertungskriterien. Laden Sie Apidog herunter, um den Vergleich als API-Testsetup aufzubauen.

Compliance-Prüfung nicht vergessen

Sakana beschreibt Fugus Agenten als austauschbar. Bestimmte Agenten können aus Daten- oder Compliance-Gründen aus dem Pool ausgeschlossen werden. Sakana sagt außerdem, dass Fugu dynamisch Anbieterbeschränkungen umgeht.

Wenn Sie in einem regulierten Kontext testen:

definieren Sie erlaubte und ausgeschlossene Anbieter
aktivieren Sie verfügbare Opt-out-Mechanismen
prüfen Sie Antwortspuren oder Logs, falls verfügbar
testen Sie, ob ausgeschlossene Anbieter tatsächlich nicht verwendet werden
dokumentieren Sie das Verhalten für Security- und Compliance-Reviews

Entscheidungshilfe für Teams

Fugu Ultra ist dann interessant, wenn Ihre Aufgaben diese Eigenschaften haben:

mehrstufig
überprüfbar
rechercheintensiv
fehleranfällig bei Einzelantworten
wertvoll genug, um höhere Orchestrierungskosten zu rechtfertigen

Typische Kandidaten:

komplexe Code-Reviews
Security-Assessments
AutoResearch-Workflows
Patent- oder Literaturanalysen
Entscheidungsunterstützung mit mehreren Prüfschritten
strukturierte Prognose- oder Planungsaufgaben

Weniger naheliegend ist Fugu Ultra für:

einfache Chatbot-Antworten
Latenz-kritische UI-Interaktionen
günstige Massenklassifikation
Aufgaben, bei denen ein einzelnes günstigeres Modell stabil genug ist

Fazit

Sakana liefert mit Fugu einen trainierten Dirigenten als sauberen API-Endpunkt. Das ist technisch nützlich, vor allem bei strukturierten Aufgaben, bei denen Planung, Delegation und Verifikation bessere Ergebnisse liefern können als ein einzelner Modellaufruf.

Gleichzeitig sollten Sie die Claims korrekt lesen:

Fugu Ultra wird als gleichwertig mit Fable 5 und Mythos Preview beschrieben, nicht als klar überlegen.
Die Überlegenheitsbehauptungen gelten für bestimmte Anwendungen und gegen einen anderen Modellsatz.
Fugu ist ein Orchestrator, kein einzelnes Modell.
Ergebnisse können durch Aufruf derselben Spitzenmodelle entstehen, mit denen Fugu verglichen wird.
Preiszahlen für Fugu sollten Sie vor Budgetentscheidungen live prüfen.

Der richtige nächste Schritt ist kein Hype und keine Ablehnung. Bauen Sie einen reproduzierbaren Test gegen Ihre eigenen Prompts, vergleichen Sie Fugu Ultra mit Fable 5 und Opus 4.8, messen Sie Qualität, Latenz und Kosten, und entscheiden Sie dann, ob die Koordinationsschicht den Aufpreis rechtfertigt.

Häufig gestellte Fragen

Schlägt Fugu Ultra Fable 5?

Nein. Sakana behauptet das nicht. Die Aussage lautet, dass Fugu Ultra „Schulter an Schulter“ mit Fable 5 und Mythos Preview steht. Das ist eine Gleichwertigkeitsbehauptung. Da Fugu ein Orchestrator ist, können starke Ergebnisse durch Weiterleitung an andere Spitzenmodelle entstehen. Siehe Fable 5 vs. Mythos 5 für die Einzelmodell-Seite.

Was meint Sakana mit „Fugu übertrifft Opus 4.8“?

Das ist eine separate, engere Behauptung. Sie gilt für spezifische Anwendungen wie AutoResearch, One-Shot-Schach und Finanzzeitreihenprognose, nicht für allgemeine Benchmarks. Wenn Fugu dabei Opus innerhalb seiner eigenen Schleife aufruft, ist das ein Systemgewinn, kein Einzelmodellgewinn.

Warum vergleicht Sakana mit Mythos Preview statt mit Mythos 5?

Mythos Preview war das April-2026-Spitzenmodell, das Anthropic als zu gefährlich zur Veröffentlichung beschrieb. Mythos 5 ist die aktuelle allgemein verfügbare Version. Sakana nennt im Vergleich die ältere Preview. Das kann für reproduzierbare Tests sinnvoll sein, bedeutet aber, dass die Gleichwertigkeitsbehauptung nicht gegen die heutige Obergrenze gemessen wird. Mehr dazu in das Modell der Mythos-Klasse erklärt.

Ist Fugu ein einzelnes Modell oder eine Gruppe von Modellen?

Fugu ist ein Orchestrator. Es delegiert Aufgaben an mehrere LLMs, einschließlich rekursiver Kopien von sich selbst, und präsentiert das Gesamtsystem über eine OpenAI-kompatible API wie ein Modell. Fable 5 und Mythos sind einzelne Anthropic-Modelle.

Wie teste ich Fugu selbst gegen Fable 5?

Richten Sie einen OpenAI-kompatiblen Client auf die Fugu-Basis-URL aus Ihrer Sakana-Konsole, setzen Sie das Modell auf fugu-ultra und führen Sie dieselben Prompts gegen Fable 5 oder Opus 4.8 aus. In Apidog können Sie jede Anfrage speichern, duplizieren und nebeneinander vergleichen.

Wie viel kostet Fugu im Vergleich zu Fable 5?

Die Preisstruktur ist bestätigt: Abonnementstufen plus Pay-as-you-go. Konkrete Fugu-Dollarzahlen waren Stand 22.06.2026 jedoch unbestätigt und sollten in der Konsole geprüft werden. Als Referenz listet Anthropic Fable 5 mit 10 $ pro Million Input-Token und 50 $ pro Million Output. Sakana Fugu Benchmarks verfolgt die Preisgestaltung, sobald sie bestätigt wird.

DEV Community