Emre Demir

Posted on Jun 22 • Originally published at apidog.com

Sakana Fugu Benchmarks: Was auf Augenhöhe mit Fable 5 wirklich bedeutet

Sakanas Fugu-Benchmarks sind vom Anbieter gemeldete Gleichstandsaussagen, keine unabhängig überprüften Leistungsübersichten. Laut Sakanas Veröffentlichungsseite steht Fugu Ultra bei Ingenieurs-, wissenschaftlichen und Denkaufgaben „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“, und Fugu „übertrifft durchweg“ Gemini 3.1 Pro, Opus 4.8 und GPT 5.5 in einer Reihe namentlich genannter Anwendungen. Der wichtige Kontext vor jeder Zahl: Fugu ist ein Orchestrator, der Grenzmodelle anderer Anbieter aufruft. Seine Ergebnisse sind daher keine Siege eines Einzelmodells, anders als bei Fable 5.

Testen Sie Apidog noch heute

Was Fugu tatsächlich ist

Fugu ist kein einzelnes Basismodell. Es ist ein Multi-Agenten-Orchestrierungssystem, das hinter einer OpenAI-kompatiblen API wie ein Modell bereitgestellt wird.

Sakana beschreibt Fugu als ein trainiertes Sprachmodell, das auf drei Aufgaben spezialisiert ist:

Delegation
Agentenkommunikation
Synthese von Arbeitsergebnissen

Das System kann mehrere LLMs koordinieren, einschließlich rekursiver Instanzen seiner selbst. Pro Anfrage entscheidet Fugu, ob es direkt antwortet oder ein Agententeam zusammenstellt.

Für Benchmarks ist das entscheidend:

Bei einem normalen Modell misst eine Punktzahl die Leistung der eigenen Modellgewichte.
Bei Fugu kann eine Punktzahl aus der Kombination mehrerer aufgerufener Frontier-Modelle entstehen.
Ein Ergebnis wie „schlägt Opus 4.8“ kann also bedeuten: Fugu ruft Opus 4.8 auf, kombiniert es mit weiteren Modellen und synthetisiert die Antwort.

Das ist ein Modell-von-Modellen-Ergebnis, kein Einzelmodell-Ergebnis. Mehr Architekturkontext finden Sie im Erklärungsartikel zu Sakana Fugu.

Die Gleichstandsaussage richtig lesen

Sakana formuliert die erste Benchmark-Aussage vorsichtig:

Fugu Ultra steht bei Ingenieurs-, wissenschaftlichen und Denk-Benchmarks „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“.

Das ist keine „Fugu schlägt Fable 5“-Aussage. Es ist eine Gleichstandsaussage.

Wichtig sind zwei Details:

Der Vergleich nennt Mythos Preview, nicht das aktuell allgemein verfügbare Mythos 5. Wenn Sie den Unterschied einordnen möchten, lesen Sie den Erklärer zur Mythos-Klasse.
Es gibt keine reproduzierbare Benchmark-Tabelle. Sakana veröffentlicht keine vollständige Methodik, kein aufgabenbezogenes Punkteschema und keine unabhängige Replikation.

Praktisch heißt das: Behandeln Sie „Schulter an Schulter“ als Anbieterbehauptung, nicht als extern validierte Messung.

Die stärkere Behauptung: „übertrifft durchweg“

Sakana macht zusätzlich eine stärkere Aussage. Laut Sakana übertrifft Fugu diese konfigurierten Konkurrenten in bestimmten Anwendungen „durchweg“:

Gemini 3.1 Pro, Einstellung „hoch“
Opus 4.8, Einstellung „max“
GPT 5.5, Einstellung „sehr hoch“

Die genannten Anwendungen sind:

AutoResearch
Rubik’s Cube
Mechanisches Design
Japanische Handschriftenanalyse
One-Shot-Schach
Finanzzeitreihenprognose

Das sind keine klassischen akademischen Benchmark-Suites. Es sind End-to-End-Anwendungen. Genau dort kann ein Orchestrator stark sein, weil er Teilprobleme an unterschiedliche Modelle delegiert und die Ergebnisse zusammenführt.

Die korrekte Interpretation lautet daher:

Ja, Fugu kann als System in solchen Aufgaben sehr leistungsfähig sein.
Nein, daraus folgt nicht automatisch, dass ein einzelnes Sakana-Modell Opus, Gemini oder GPT in reiner Denkfähigkeit schlägt.
Formulieren Sie nicht „Fugu schlägt Fable 5“. Das behauptet Sakana nicht.

Warum unabhängige Verifikation schwierig ist

Noch keine unabhängige Replikation. Stand 22.06.2026 werden die Fugu-Benchmark-Angaben vom Anbieter gemeldet, auf Sakanas eigener Einrichtung gemessen und mit von Sakana gewählten Konkurrentenkonfigurationen verglichen. Keine dritte Partei hat diese Aufgaben öffentlich reproduziert, kein aufgabenbezogenes Punkteschema wurde veröffentlicht und kein Evaluierungssystem wurde freigegeben.

Das ist am Starttag eines Modells nicht ungewöhnlich. Bei Fugu ist die Reproduktion aber zusätzlich schwieriger, weil das System dynamisch orchestriert.

Um einen klassischen Modellbenchmark zu reproduzieren, brauchen Sie:

das Modell
den Test
die Bewertungsmethodik

Um Fugus Ergebnisse zu reproduzieren, brauchen Sie zusätzlich:

Zugriff auf alle zugrunde liegenden Modelle
dieselben Modellversionen
dieselben Anstrengungseinstellungen
dieselbe Orchestrierungstopologie
dieselben Routing-Entscheidungen pro Aufgabe

Da Fugu seine Agententopologie pro Anfrage anpassen kann, müssen zwei Läufe desselben Prompts nicht zwingend dasselbe interne Team verwenden. Für Nutzer ist das nützlich. Für Benchmark-Reproduktion ist es ein Problem.

Deshalb bleibt auch der Vergleich Fugu Ultra vs. Fable 5 vs. Mythos sinnvollerweise qualitativ.

Forschung hinter Fugu: Trinity und Conductor

Sakanas Produktkommunikation stützt sich auf echte Forschung. Zwei ICLR-2026-Papiere sind relevant, sollten aber nicht als Produktspezifikationen gelesen werden.

Trinity

Trinity, „Ein entwickelter LLM-Koordinator“ (arXiv:2512.04695), beschreibt einen Koordinator mit unter 20.000 Parametern.

Eigenschaften:

Rollen wie Denker, Arbeiter und Verifizierer
Optimierung durch ableitungsfreie Evolution
kein klassisches Training per Gradientenabstieg

Conductor

Conductor, „Lernen, Agenten in natürlicher Sprache zu orchestrieren“ (arXiv:2512.04388), beschreibt ein 7B-Modell, das mit Reinforcement Learning trainiert wurde.

Eigenschaften:

lernt Kommunikationsstrukturen zwischen Agenten
wird als effizienter als Mixture-of-Agents beschrieben
ist methodisch und größenmäßig ein anderes System als Trinity

Wichtig: Keines der beiden Papiere ist ein Spezifikationsblatt des ausgelieferten Fugu-Produkts. Die offizielle Veröffentlichung nennt keine Produktparameteranzahl.

Was als gesichert gilt und was nicht

Punkt	Was Sakana / Quellen sagen	Vertrauenswürdigkeit
Systemtyp	Multi-Agenten-Orchestrator hinter einem Modell	Auf Veröffentlichungsseite angegeben
Varianten	Fugu, ausgewogen und geringe Latenz; Fugu Ultra, maximale Qualität	Auf Veröffentlichungsseite angegeben
Alter Beta-Name	Kleine Variante wurde in Beta und Presse „Fugu Mini“ genannt	Historisch
API-Schnittstelle	OpenAI-kompatibler Endpunkt für beide Varianten	Auf Veröffentlichungsseite angegeben
Zugrunde liegende Modelle	Ruft mehrere Frontier-LLMs auf, einschließlich rekursiver Selbstaufrufe	Auf Veröffentlichungsseite angegeben
Produktparameteranzahl	Nicht veröffentlicht; 7B-/Conductor-Spezifika sind Schlussfolgerungen Dritter	[PRÜFEN]
Benchmark-Methodik	Vom Anbieter gemeldet, Sakanas eigene Einrichtung, kein öffentliches System	[PRÜFEN]

Die Namensgebung ist wichtig: Die kleine Variante wurde während der etwa 500 Nutzer umfassenden Beta-Phase um den 24.–25. April 2026 „Fugu Mini“ genannt. Die Veröffentlichungsseite verwendet „Fugu“ und „Fugu Ultra“. Verwenden Sie in neuen Integrationen die aktuellen Namen.

So testen Sie Fugu selbst

Sie können Sakanas Benchmarks nicht vollständig überprüfen. Sie können aber Ihre eigenen Aufgaben messen.

Da Fugu das OpenAI-Chat-Completions-Protokoll spricht, können Sie einen bestehenden OpenAI-Client auf Fugus Basis-URL konfigurieren.

Die Basis-URL war mit Stand 22.06.2026 nicht öffentlich dokumentiert. Kopieren Sie sie daher aus Ihrer Konsole unter console.sakana.ai und verwenden Sie keinen erfundenen Host.

Das Muster entspricht der Standard-OpenAI-Chat-Completions-Anfrage:

from openai import OpenAI

# Kopieren Sie die echte Basis-URL aus console.sakana.ai.
client = OpenAI(
    api_key="YOUR_FUGU_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)

resp = client.chat.completions.create(
    model="fugu-ultra",  # "fugu" für die ausgewogene Variante; IDs in der Konsole prüfen
    messages=[
        {
            "role": "system",
            "content": "You are a precise code reviewer."
        },
        {
            "role": "user",
            "content": "Review this function for security issues:\n<Code hier einfügen>"
        },
    ],
)

print(resp.choices[0].message.content)

Die bisher gemeldeten Modell-IDs sind:

fugu
fugu-ultra

Es kann auch datierte Varianten geben. Prüfen Sie die exakten IDs in der Konsole und hardcoden Sie sie nicht blind in produktive Konfigurationen.

Was Sie messen sollten

Für Dev-Teams sind diese Metriken wichtiger als Anbieter-Benchmarks:

Antwortqualität auf Ihren echten Prompts
Latenz pro Anfrage
Token-Nutzung
Kosten pro Aufgabe
Fehlerraten und Statuscodes
Stabilität über mehrere Läufe desselben Prompts

Da Fugu pro Anfrage entscheiden kann, ob es direkt antwortet oder ein Team zusammenstellt, können Latenz und Kosten zwischen Läufen variieren. Loggen Sie beides.

Ein einfaches Evaluierungs-Setup:

import time
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_FUGU_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)

prompts = [
    "Analysiere diesen Pull Request auf Race Conditions:\n<Diff>",
    "Erstelle Testfälle für diese API-Spezifikation:\n<Spec>",
    "Finde potenzielle SQL-Injection-Risiken:\n<Code>",
]

for prompt in prompts:
    start = time.time()

    resp = client.chat.completions.create(
        model="fugu-ultra",
        messages=[
            {"role": "system", "content": "Antworte präzise und technisch."},
            {"role": "user", "content": prompt},
        ],
    )

    latency = time.time() - start

    print("Prompt:", prompt[:80])
    print("Latenz:", round(latency, 2), "s")
    print("Antwort:", resp.choices[0].message.content[:500])
    print("Usage:", getattr(resp, "usage", None))
    print("-" * 80)

Fugu in einem Apidog-Workflow testen

Sie brauchen kein neues Benchmark-Framework, um Anbieterbehauptungen praktisch zu prüfen. Sie brauchen ein Setup, mit dem Sie denselben Prompt an mehrere Endpunkte senden und die Ergebnisse vergleichen.

Mit Apidog können Sie den Fugu-Endpunkt als OpenAI-kompatible API registrieren, Evaluierungs-Prompts als Anfragen speichern und sie wiederholbar als Testszenario ausführen.

Ein praktischer Vergleich sieht so aus:

Legen Sie eine Umgebung für Fugu an.
Legen Sie weitere Umgebungen für Fable 5, Opus oder andere Modelle an.
Speichern Sie identische Prompts als Requests.
Führen Sie die Requests gegen alle Endpunkte aus.
Vergleichen Sie:
- Antworttext
- Statuscode
- Latenz
- Token-Nutzung
- Kosten, sofern verfügbar

Das ist nützlicher als eine Benchmark-Gleichstandsaussage ohne veröffentlichte Methodik. Wenn Sie Fugus adaptives Routing bewerten möchten, wiederholen Sie dieselben Prompts mehrfach und protokollieren Sie, wie stark Antwortzeit und Token-Nutzung schwanken.

Häufig gestellte Fragen

Schlägt Fugu Fable 5 bei Benchmarks?

Nein. Sakana behauptet einen Gleichstand: Fugu Ultra stehe „Schulter an Schulter mit“ Fable 5 und Mythos Preview. Die separate „übertrifft“-Aussage bezieht sich auf Gemini 3.1 Pro, Opus 4.8 und GPT 5.5 in spezifischen Anwendungen, nicht auf Fable 5. Für die Einzelmodellseite siehe die Claude Fable 5 Benchmarks.

Sind die Fugu-Benchmark-Zahlen unabhängig überprüft?

Nein. Stand 22.06.2026 werden die Zahlen vom Anbieter auf Sakanas eigener Einrichtung gemeldet. Keine dritte Partei hat die Aufgaben öffentlich reproduziert, und kein Evaluierungssystem wurde veröffentlicht. Behandeln Sie die Angaben als Behauptungen, bis sie extern repliziert wurden.

Warum ist Fugus Orchestrator-Design für Benchmarks wichtig?

Weil Fugu andere Grenzmodelle aufrufen kann. Ein Ergebnis wie „schlägt Opus 4.8“ kann von einem System stammen, das Opus 4.8 nutzt, weitere Modelle ergänzt und die Ergebnisse synthetisiert. Das ist ein Systemvergleich, kein sauberer Einzelmodellvergleich. Fable 5 und die Mythos-Linie sind einzelne Anthropic-Modelle.

Gegen welches Mythos hat Sakana verglichen?

Gegen Mythos Preview vom April, nicht gegen das aktuelle Mythos 5. Einige Sekundärartikel nennen die falsche Version. Der Mythos-Klasse-Erklärer erklärt den Unterschied zwischen Preview und ausgelieferter Version.

Was ist der Unterschied zwischen Trinity und Conductor?

Trinity (arXiv:2512.04695) ist ein Koordinator mit unter 20.000 Parametern, optimiert durch Evolution. Conductor (arXiv:2512.04388) ist ein 7B-Modell, das mit Reinforcement Learning trainiert wurde. Es sind unterschiedliche Forschungsansätze. Keines ist eine bestätigte Produktspezifikation von Fugu.

Wie kann ich Fugus Leistung selbst testen?

Richten Sie einen OpenAI-kompatiblen Client auf die Fugu-Basis-URL aus console.sakana.ai ein. Senden Sie Ihre echten Aufgaben und messen Sie Qualität, Latenz und Kosten. Registrieren Sie den Endpunkt zusätzlich in Apidog, um Fugu mit den Modellen zu vergleichen, die Sie bereits verwenden.

DEV Community