DEV Community

Cover image for Sakana Fugu Benchmarks: Was auf Augenhöhe mit Fable 5 wirklich bedeutet
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

Sakana Fugu Benchmarks: Was auf Augenhöhe mit Fable 5 wirklich bedeutet

Sakanas Fugu-Benchmarks sind vom Anbieter gemeldete Gleichstandsaussagen, keine unabhängig überprüften Leistungsübersichten. Laut Sakanas Veröffentlichungsseite steht Fugu Ultra bei Ingenieurs-, wissenschaftlichen und Denkaufgaben „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“, und Fugu „übertrifft durchweg“ Gemini 3.1 Pro, Opus 4.8 und GPT 5.5 in einer Reihe namentlich genannter Anwendungen. Der wichtige Kontext vor jeder Zahl: Fugu ist ein Orchestrator, der Grenzmodelle anderer Anbieter aufruft. Seine Ergebnisse sind daher keine Siege eines Einzelmodells, anders als bei Fable 5.

Testen Sie Apidog noch heute

Was Fugu tatsächlich ist

Fugu ist kein einzelnes Basismodell. Es ist ein Multi-Agenten-Orchestrierungssystem, das hinter einer OpenAI-kompatiblen API wie ein Modell bereitgestellt wird.

Sakana beschreibt Fugu als ein trainiertes Sprachmodell, das auf drei Aufgaben spezialisiert ist:

  • Delegation
  • Agentenkommunikation
  • Synthese von Arbeitsergebnissen

Das System kann mehrere LLMs koordinieren, einschließlich rekursiver Instanzen seiner selbst. Pro Anfrage entscheidet Fugu, ob es direkt antwortet oder ein Agententeam zusammenstellt.

Für Benchmarks ist das entscheidend:

  • Bei einem normalen Modell misst eine Punktzahl die Leistung der eigenen Modellgewichte.
  • Bei Fugu kann eine Punktzahl aus der Kombination mehrerer aufgerufener Frontier-Modelle entstehen.
  • Ein Ergebnis wie „schlägt Opus 4.8“ kann also bedeuten: Fugu ruft Opus 4.8 auf, kombiniert es mit weiteren Modellen und synthetisiert die Antwort.

Das ist ein Modell-von-Modellen-Ergebnis, kein Einzelmodell-Ergebnis. Mehr Architekturkontext finden Sie im Erklärungsartikel zu Sakana Fugu.

Die Gleichstandsaussage richtig lesen

Sakana formuliert die erste Benchmark-Aussage vorsichtig:

Fugu Ultra steht bei Ingenieurs-, wissenschaftlichen und Denk-Benchmarks „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“.

Das ist keine „Fugu schlägt Fable 5“-Aussage. Es ist eine Gleichstandsaussage.

Wichtig sind zwei Details:

  1. Der Vergleich nennt Mythos Preview, nicht das aktuell allgemein verfügbare Mythos 5. Wenn Sie den Unterschied einordnen möchten, lesen Sie den Erklärer zur Mythos-Klasse.
  2. Es gibt keine reproduzierbare Benchmark-Tabelle. Sakana veröffentlicht keine vollständige Methodik, kein aufgabenbezogenes Punkteschema und keine unabhängige Replikation.

Praktisch heißt das: Behandeln Sie „Schulter an Schulter“ als Anbieterbehauptung, nicht als extern validierte Messung.

Die stärkere Behauptung: „übertrifft durchweg“

Sakana macht zusätzlich eine stärkere Aussage. Laut Sakana übertrifft Fugu diese konfigurierten Konkurrenten in bestimmten Anwendungen „durchweg“:

  • Gemini 3.1 Pro, Einstellung „hoch“
  • Opus 4.8, Einstellung „max“
  • GPT 5.5, Einstellung „sehr hoch“

Die genannten Anwendungen sind:

  • AutoResearch
  • Rubik’s Cube
  • Mechanisches Design
  • Japanische Handschriftenanalyse
  • One-Shot-Schach
  • Finanzzeitreihenprognose

Das sind keine klassischen akademischen Benchmark-Suites. Es sind End-to-End-Anwendungen. Genau dort kann ein Orchestrator stark sein, weil er Teilprobleme an unterschiedliche Modelle delegiert und die Ergebnisse zusammenführt.

Die korrekte Interpretation lautet daher:

  • Ja, Fugu kann als System in solchen Aufgaben sehr leistungsfähig sein.
  • Nein, daraus folgt nicht automatisch, dass ein einzelnes Sakana-Modell Opus, Gemini oder GPT in reiner Denkfähigkeit schlägt.
  • Formulieren Sie nicht „Fugu schlägt Fable 5“. Das behauptet Sakana nicht.

Warum unabhängige Verifikation schwierig ist

Noch keine unabhängige Replikation. Stand 22.06.2026 werden die Fugu-Benchmark-Angaben vom Anbieter gemeldet, auf Sakanas eigener Einrichtung gemessen und mit von Sakana gewählten Konkurrentenkonfigurationen verglichen. Keine dritte Partei hat diese Aufgaben öffentlich reproduziert, kein aufgabenbezogenes Punkteschema wurde veröffentlicht und kein Evaluierungssystem wurde freigegeben.

Das ist am Starttag eines Modells nicht ungewöhnlich. Bei Fugu ist die Reproduktion aber zusätzlich schwieriger, weil das System dynamisch orchestriert.

Um einen klassischen Modellbenchmark zu reproduzieren, brauchen Sie:

  1. das Modell
  2. den Test
  3. die Bewertungsmethodik

Um Fugus Ergebnisse zu reproduzieren, brauchen Sie zusätzlich:

  1. Zugriff auf alle zugrunde liegenden Modelle
  2. dieselben Modellversionen
  3. dieselben Anstrengungseinstellungen
  4. dieselbe Orchestrierungstopologie
  5. dieselben Routing-Entscheidungen pro Aufgabe

Da Fugu seine Agententopologie pro Anfrage anpassen kann, müssen zwei Läufe desselben Prompts nicht zwingend dasselbe interne Team verwenden. Für Nutzer ist das nützlich. Für Benchmark-Reproduktion ist es ein Problem.

Deshalb bleibt auch der Vergleich Fugu Ultra vs. Fable 5 vs. Mythos sinnvollerweise qualitativ.

Forschung hinter Fugu: Trinity und Conductor

Sakanas Produktkommunikation stützt sich auf echte Forschung. Zwei ICLR-2026-Papiere sind relevant, sollten aber nicht als Produktspezifikationen gelesen werden.

Trinity

Trinity, „Ein entwickelter LLM-Koordinator“ (arXiv:2512.04695), beschreibt einen Koordinator mit unter 20.000 Parametern.

Eigenschaften:

  • Rollen wie Denker, Arbeiter und Verifizierer
  • Optimierung durch ableitungsfreie Evolution
  • kein klassisches Training per Gradientenabstieg

Conductor

Conductor, „Lernen, Agenten in natürlicher Sprache zu orchestrieren“ (arXiv:2512.04388), beschreibt ein 7B-Modell, das mit Reinforcement Learning trainiert wurde.

Eigenschaften:

  • lernt Kommunikationsstrukturen zwischen Agenten
  • wird als effizienter als Mixture-of-Agents beschrieben
  • ist methodisch und größenmäßig ein anderes System als Trinity

Wichtig: Keines der beiden Papiere ist ein Spezifikationsblatt des ausgelieferten Fugu-Produkts. Die offizielle Veröffentlichung nennt keine Produktparameteranzahl.

Was als gesichert gilt und was nicht

Punkt Was Sakana / Quellen sagen Vertrauenswürdigkeit
Systemtyp Multi-Agenten-Orchestrator hinter einem Modell Auf Veröffentlichungsseite angegeben
Varianten Fugu, ausgewogen und geringe Latenz; Fugu Ultra, maximale Qualität Auf Veröffentlichungsseite angegeben
Alter Beta-Name Kleine Variante wurde in Beta und Presse „Fugu Mini“ genannt Historisch
API-Schnittstelle OpenAI-kompatibler Endpunkt für beide Varianten Auf Veröffentlichungsseite angegeben
Zugrunde liegende Modelle Ruft mehrere Frontier-LLMs auf, einschließlich rekursiver Selbstaufrufe Auf Veröffentlichungsseite angegeben
Produktparameteranzahl Nicht veröffentlicht; 7B-/Conductor-Spezifika sind Schlussfolgerungen Dritter [PRÜFEN]
Benchmark-Methodik Vom Anbieter gemeldet, Sakanas eigene Einrichtung, kein öffentliches System [PRÜFEN]

Die Namensgebung ist wichtig: Die kleine Variante wurde während der etwa 500 Nutzer umfassenden Beta-Phase um den 24.–25. April 2026 „Fugu Mini“ genannt. Die Veröffentlichungsseite verwendet „Fugu“ und „Fugu Ultra“. Verwenden Sie in neuen Integrationen die aktuellen Namen.

So testen Sie Fugu selbst

Sie können Sakanas Benchmarks nicht vollständig überprüfen. Sie können aber Ihre eigenen Aufgaben messen.

Da Fugu das OpenAI-Chat-Completions-Protokoll spricht, können Sie einen bestehenden OpenAI-Client auf Fugus Basis-URL konfigurieren.

Die Basis-URL war mit Stand 22.06.2026 nicht öffentlich dokumentiert. Kopieren Sie sie daher aus Ihrer Konsole unter console.sakana.ai und verwenden Sie keinen erfundenen Host.

Das Muster entspricht der Standard-OpenAI-Chat-Completions-Anfrage:

from openai import OpenAI

# Kopieren Sie die echte Basis-URL aus console.sakana.ai.
client = OpenAI(
    api_key="YOUR_FUGU_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)

resp = client.chat.completions.create(
    model="fugu-ultra",  # "fugu" für die ausgewogene Variante; IDs in der Konsole prüfen
    messages=[
        {
            "role": "system",
            "content": "You are a precise code reviewer."
        },
        {
            "role": "user",
            "content": "Review this function for security issues:\n<Code hier einfügen>"
        },
    ],
)

print(resp.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Die bisher gemeldeten Modell-IDs sind:

  • fugu
  • fugu-ultra

Es kann auch datierte Varianten geben. Prüfen Sie die exakten IDs in der Konsole und hardcoden Sie sie nicht blind in produktive Konfigurationen.

Was Sie messen sollten

Für Dev-Teams sind diese Metriken wichtiger als Anbieter-Benchmarks:

  • Antwortqualität auf Ihren echten Prompts
  • Latenz pro Anfrage
  • Token-Nutzung
  • Kosten pro Aufgabe
  • Fehlerraten und Statuscodes
  • Stabilität über mehrere Läufe desselben Prompts

Da Fugu pro Anfrage entscheiden kann, ob es direkt antwortet oder ein Team zusammenstellt, können Latenz und Kosten zwischen Läufen variieren. Loggen Sie beides.

Ein einfaches Evaluierungs-Setup:

import time
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_FUGU_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)

prompts = [
    "Analysiere diesen Pull Request auf Race Conditions:\n<Diff>",
    "Erstelle Testfälle für diese API-Spezifikation:\n<Spec>",
    "Finde potenzielle SQL-Injection-Risiken:\n<Code>",
]

for prompt in prompts:
    start = time.time()

    resp = client.chat.completions.create(
        model="fugu-ultra",
        messages=[
            {"role": "system", "content": "Antworte präzise und technisch."},
            {"role": "user", "content": prompt},
        ],
    )

    latency = time.time() - start

    print("Prompt:", prompt[:80])
    print("Latenz:", round(latency, 2), "s")
    print("Antwort:", resp.choices[0].message.content[:500])
    print("Usage:", getattr(resp, "usage", None))
    print("-" * 80)
Enter fullscreen mode Exit fullscreen mode

Fugu in einem Apidog-Workflow testen

Sie brauchen kein neues Benchmark-Framework, um Anbieterbehauptungen praktisch zu prüfen. Sie brauchen ein Setup, mit dem Sie denselben Prompt an mehrere Endpunkte senden und die Ergebnisse vergleichen.

Apidog Workflow

Mit Apidog können Sie den Fugu-Endpunkt als OpenAI-kompatible API registrieren, Evaluierungs-Prompts als Anfragen speichern und sie wiederholbar als Testszenario ausführen.

Ein praktischer Vergleich sieht so aus:

  1. Legen Sie eine Umgebung für Fugu an.
  2. Legen Sie weitere Umgebungen für Fable 5, Opus oder andere Modelle an.
  3. Speichern Sie identische Prompts als Requests.
  4. Führen Sie die Requests gegen alle Endpunkte aus.
  5. Vergleichen Sie:
    • Antworttext
    • Statuscode
    • Latenz
    • Token-Nutzung
    • Kosten, sofern verfügbar

Das ist nützlicher als eine Benchmark-Gleichstandsaussage ohne veröffentlichte Methodik. Wenn Sie Fugus adaptives Routing bewerten möchten, wiederholen Sie dieselben Prompts mehrfach und protokollieren Sie, wie stark Antwortzeit und Token-Nutzung schwanken.

Häufig gestellte Fragen

Schlägt Fugu Fable 5 bei Benchmarks?

Nein. Sakana behauptet einen Gleichstand: Fugu Ultra stehe „Schulter an Schulter mit“ Fable 5 und Mythos Preview. Die separate „übertrifft“-Aussage bezieht sich auf Gemini 3.1 Pro, Opus 4.8 und GPT 5.5 in spezifischen Anwendungen, nicht auf Fable 5. Für die Einzelmodellseite siehe die Claude Fable 5 Benchmarks.

Sind die Fugu-Benchmark-Zahlen unabhängig überprüft?

Nein. Stand 22.06.2026 werden die Zahlen vom Anbieter auf Sakanas eigener Einrichtung gemeldet. Keine dritte Partei hat die Aufgaben öffentlich reproduziert, und kein Evaluierungssystem wurde veröffentlicht. Behandeln Sie die Angaben als Behauptungen, bis sie extern repliziert wurden.

Warum ist Fugus Orchestrator-Design für Benchmarks wichtig?

Weil Fugu andere Grenzmodelle aufrufen kann. Ein Ergebnis wie „schlägt Opus 4.8“ kann von einem System stammen, das Opus 4.8 nutzt, weitere Modelle ergänzt und die Ergebnisse synthetisiert. Das ist ein Systemvergleich, kein sauberer Einzelmodellvergleich. Fable 5 und die Mythos-Linie sind einzelne Anthropic-Modelle.

Gegen welches Mythos hat Sakana verglichen?

Gegen Mythos Preview vom April, nicht gegen das aktuelle Mythos 5. Einige Sekundärartikel nennen die falsche Version. Der Mythos-Klasse-Erklärer erklärt den Unterschied zwischen Preview und ausgelieferter Version.

Was ist der Unterschied zwischen Trinity und Conductor?

Trinity (arXiv:2512.04695) ist ein Koordinator mit unter 20.000 Parametern, optimiert durch Evolution. Conductor (arXiv:2512.04388) ist ein 7B-Modell, das mit Reinforcement Learning trainiert wurde. Es sind unterschiedliche Forschungsansätze. Keines ist eine bestätigte Produktspezifikation von Fugu.

Wie kann ich Fugus Leistung selbst testen?

Richten Sie einen OpenAI-kompatiblen Client auf die Fugu-Basis-URL aus console.sakana.ai ein. Senden Sie Ihre echten Aufgaben und messen Sie Qualität, Latenz und Kosten. Registrieren Sie den Endpunkt zusätzlich in Apidog, um Fugu mit den Modellen zu vergleichen, die Sie bereits verwenden.

Top comments (0)