Sakanas Fugu-Benchmarks sind vom Anbieter gemeldete Gleichstandsaussagen, keine unabhängig überprüften Leistungsübersichten. Laut Sakanas Veröffentlichungsseite steht Fugu Ultra bei Ingenieurs-, wissenschaftlichen und Denkaufgaben „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“, und Fugu „übertrifft durchweg“ Gemini 3.1 Pro, Opus 4.8 und GPT 5.5 in einer Reihe namentlich genannter Anwendungen. Der wichtige Kontext vor jeder Zahl: Fugu ist ein Orchestrator, der Grenzmodelle anderer Anbieter aufruft. Seine Ergebnisse sind daher keine Siege eines Einzelmodells, anders als bei Fable 5.
Was Fugu tatsächlich ist
Fugu ist kein einzelnes Basismodell. Es ist ein Multi-Agenten-Orchestrierungssystem, das hinter einer OpenAI-kompatiblen API wie ein Modell bereitgestellt wird.
Sakana beschreibt Fugu als ein trainiertes Sprachmodell, das auf drei Aufgaben spezialisiert ist:
- Delegation
- Agentenkommunikation
- Synthese von Arbeitsergebnissen
Das System kann mehrere LLMs koordinieren, einschließlich rekursiver Instanzen seiner selbst. Pro Anfrage entscheidet Fugu, ob es direkt antwortet oder ein Agententeam zusammenstellt.
Für Benchmarks ist das entscheidend:
- Bei einem normalen Modell misst eine Punktzahl die Leistung der eigenen Modellgewichte.
- Bei Fugu kann eine Punktzahl aus der Kombination mehrerer aufgerufener Frontier-Modelle entstehen.
- Ein Ergebnis wie „schlägt Opus 4.8“ kann also bedeuten: Fugu ruft Opus 4.8 auf, kombiniert es mit weiteren Modellen und synthetisiert die Antwort.
Das ist ein Modell-von-Modellen-Ergebnis, kein Einzelmodell-Ergebnis. Mehr Architekturkontext finden Sie im Erklärungsartikel zu Sakana Fugu.
Die Gleichstandsaussage richtig lesen
Sakana formuliert die erste Benchmark-Aussage vorsichtig:
Fugu Ultra steht bei Ingenieurs-, wissenschaftlichen und Denk-Benchmarks „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“.
Das ist keine „Fugu schlägt Fable 5“-Aussage. Es ist eine Gleichstandsaussage.
Wichtig sind zwei Details:
- Der Vergleich nennt Mythos Preview, nicht das aktuell allgemein verfügbare Mythos 5. Wenn Sie den Unterschied einordnen möchten, lesen Sie den Erklärer zur Mythos-Klasse.
- Es gibt keine reproduzierbare Benchmark-Tabelle. Sakana veröffentlicht keine vollständige Methodik, kein aufgabenbezogenes Punkteschema und keine unabhängige Replikation.
Praktisch heißt das: Behandeln Sie „Schulter an Schulter“ als Anbieterbehauptung, nicht als extern validierte Messung.
Die stärkere Behauptung: „übertrifft durchweg“
Sakana macht zusätzlich eine stärkere Aussage. Laut Sakana übertrifft Fugu diese konfigurierten Konkurrenten in bestimmten Anwendungen „durchweg“:
- Gemini 3.1 Pro, Einstellung „hoch“
- Opus 4.8, Einstellung „max“
- GPT 5.5, Einstellung „sehr hoch“
Die genannten Anwendungen sind:
- AutoResearch
- Rubik’s Cube
- Mechanisches Design
- Japanische Handschriftenanalyse
- One-Shot-Schach
- Finanzzeitreihenprognose
Das sind keine klassischen akademischen Benchmark-Suites. Es sind End-to-End-Anwendungen. Genau dort kann ein Orchestrator stark sein, weil er Teilprobleme an unterschiedliche Modelle delegiert und die Ergebnisse zusammenführt.
Die korrekte Interpretation lautet daher:
- Ja, Fugu kann als System in solchen Aufgaben sehr leistungsfähig sein.
- Nein, daraus folgt nicht automatisch, dass ein einzelnes Sakana-Modell Opus, Gemini oder GPT in reiner Denkfähigkeit schlägt.
- Formulieren Sie nicht „Fugu schlägt Fable 5“. Das behauptet Sakana nicht.
Warum unabhängige Verifikation schwierig ist
Noch keine unabhängige Replikation. Stand 22.06.2026 werden die Fugu-Benchmark-Angaben vom Anbieter gemeldet, auf Sakanas eigener Einrichtung gemessen und mit von Sakana gewählten Konkurrentenkonfigurationen verglichen. Keine dritte Partei hat diese Aufgaben öffentlich reproduziert, kein aufgabenbezogenes Punkteschema wurde veröffentlicht und kein Evaluierungssystem wurde freigegeben.
Das ist am Starttag eines Modells nicht ungewöhnlich. Bei Fugu ist die Reproduktion aber zusätzlich schwieriger, weil das System dynamisch orchestriert.
Um einen klassischen Modellbenchmark zu reproduzieren, brauchen Sie:
- das Modell
- den Test
- die Bewertungsmethodik
Um Fugus Ergebnisse zu reproduzieren, brauchen Sie zusätzlich:
- Zugriff auf alle zugrunde liegenden Modelle
- dieselben Modellversionen
- dieselben Anstrengungseinstellungen
- dieselbe Orchestrierungstopologie
- dieselben Routing-Entscheidungen pro Aufgabe
Da Fugu seine Agententopologie pro Anfrage anpassen kann, müssen zwei Läufe desselben Prompts nicht zwingend dasselbe interne Team verwenden. Für Nutzer ist das nützlich. Für Benchmark-Reproduktion ist es ein Problem.
Deshalb bleibt auch der Vergleich Fugu Ultra vs. Fable 5 vs. Mythos sinnvollerweise qualitativ.
Forschung hinter Fugu: Trinity und Conductor
Sakanas Produktkommunikation stützt sich auf echte Forschung. Zwei ICLR-2026-Papiere sind relevant, sollten aber nicht als Produktspezifikationen gelesen werden.
Trinity
Trinity, „Ein entwickelter LLM-Koordinator“ (arXiv:2512.04695), beschreibt einen Koordinator mit unter 20.000 Parametern.
Eigenschaften:
- Rollen wie Denker, Arbeiter und Verifizierer
- Optimierung durch ableitungsfreie Evolution
- kein klassisches Training per Gradientenabstieg
Conductor
Conductor, „Lernen, Agenten in natürlicher Sprache zu orchestrieren“ (arXiv:2512.04388), beschreibt ein 7B-Modell, das mit Reinforcement Learning trainiert wurde.
Eigenschaften:
- lernt Kommunikationsstrukturen zwischen Agenten
- wird als effizienter als Mixture-of-Agents beschrieben
- ist methodisch und größenmäßig ein anderes System als Trinity
Wichtig: Keines der beiden Papiere ist ein Spezifikationsblatt des ausgelieferten Fugu-Produkts. Die offizielle Veröffentlichung nennt keine Produktparameteranzahl.
Was als gesichert gilt und was nicht
| Punkt | Was Sakana / Quellen sagen | Vertrauenswürdigkeit |
|---|---|---|
| Systemtyp | Multi-Agenten-Orchestrator hinter einem Modell | Auf Veröffentlichungsseite angegeben |
| Varianten | Fugu, ausgewogen und geringe Latenz; Fugu Ultra, maximale Qualität | Auf Veröffentlichungsseite angegeben |
| Alter Beta-Name | Kleine Variante wurde in Beta und Presse „Fugu Mini“ genannt | Historisch |
| API-Schnittstelle | OpenAI-kompatibler Endpunkt für beide Varianten | Auf Veröffentlichungsseite angegeben |
| Zugrunde liegende Modelle | Ruft mehrere Frontier-LLMs auf, einschließlich rekursiver Selbstaufrufe | Auf Veröffentlichungsseite angegeben |
| Produktparameteranzahl | Nicht veröffentlicht; 7B-/Conductor-Spezifika sind Schlussfolgerungen Dritter | [PRÜFEN] |
| Benchmark-Methodik | Vom Anbieter gemeldet, Sakanas eigene Einrichtung, kein öffentliches System | [PRÜFEN] |
Die Namensgebung ist wichtig: Die kleine Variante wurde während der etwa 500 Nutzer umfassenden Beta-Phase um den 24.–25. April 2026 „Fugu Mini“ genannt. Die Veröffentlichungsseite verwendet „Fugu“ und „Fugu Ultra“. Verwenden Sie in neuen Integrationen die aktuellen Namen.
So testen Sie Fugu selbst
Sie können Sakanas Benchmarks nicht vollständig überprüfen. Sie können aber Ihre eigenen Aufgaben messen.
Da Fugu das OpenAI-Chat-Completions-Protokoll spricht, können Sie einen bestehenden OpenAI-Client auf Fugus Basis-URL konfigurieren.
Die Basis-URL war mit Stand 22.06.2026 nicht öffentlich dokumentiert. Kopieren Sie sie daher aus Ihrer Konsole unter console.sakana.ai und verwenden Sie keinen erfundenen Host.
Das Muster entspricht der Standard-OpenAI-Chat-Completions-Anfrage:
from openai import OpenAI
# Kopieren Sie die echte Basis-URL aus console.sakana.ai.
client = OpenAI(
api_key="YOUR_FUGU_API_KEY",
base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)
resp = client.chat.completions.create(
model="fugu-ultra", # "fugu" für die ausgewogene Variante; IDs in der Konsole prüfen
messages=[
{
"role": "system",
"content": "You are a precise code reviewer."
},
{
"role": "user",
"content": "Review this function for security issues:\n<Code hier einfügen>"
},
],
)
print(resp.choices[0].message.content)
Die bisher gemeldeten Modell-IDs sind:
fugufugu-ultra
Es kann auch datierte Varianten geben. Prüfen Sie die exakten IDs in der Konsole und hardcoden Sie sie nicht blind in produktive Konfigurationen.
Was Sie messen sollten
Für Dev-Teams sind diese Metriken wichtiger als Anbieter-Benchmarks:
- Antwortqualität auf Ihren echten Prompts
- Latenz pro Anfrage
- Token-Nutzung
- Kosten pro Aufgabe
- Fehlerraten und Statuscodes
- Stabilität über mehrere Läufe desselben Prompts
Da Fugu pro Anfrage entscheiden kann, ob es direkt antwortet oder ein Team zusammenstellt, können Latenz und Kosten zwischen Läufen variieren. Loggen Sie beides.
Ein einfaches Evaluierungs-Setup:
import time
from openai import OpenAI
client = OpenAI(
api_key="YOUR_FUGU_API_KEY",
base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)
prompts = [
"Analysiere diesen Pull Request auf Race Conditions:\n<Diff>",
"Erstelle Testfälle für diese API-Spezifikation:\n<Spec>",
"Finde potenzielle SQL-Injection-Risiken:\n<Code>",
]
for prompt in prompts:
start = time.time()
resp = client.chat.completions.create(
model="fugu-ultra",
messages=[
{"role": "system", "content": "Antworte präzise und technisch."},
{"role": "user", "content": prompt},
],
)
latency = time.time() - start
print("Prompt:", prompt[:80])
print("Latenz:", round(latency, 2), "s")
print("Antwort:", resp.choices[0].message.content[:500])
print("Usage:", getattr(resp, "usage", None))
print("-" * 80)
Fugu in einem Apidog-Workflow testen
Sie brauchen kein neues Benchmark-Framework, um Anbieterbehauptungen praktisch zu prüfen. Sie brauchen ein Setup, mit dem Sie denselben Prompt an mehrere Endpunkte senden und die Ergebnisse vergleichen.
Mit Apidog können Sie den Fugu-Endpunkt als OpenAI-kompatible API registrieren, Evaluierungs-Prompts als Anfragen speichern und sie wiederholbar als Testszenario ausführen.
Ein praktischer Vergleich sieht so aus:
- Legen Sie eine Umgebung für Fugu an.
- Legen Sie weitere Umgebungen für Fable 5, Opus oder andere Modelle an.
- Speichern Sie identische Prompts als Requests.
- Führen Sie die Requests gegen alle Endpunkte aus.
- Vergleichen Sie:
- Antworttext
- Statuscode
- Latenz
- Token-Nutzung
- Kosten, sofern verfügbar
Das ist nützlicher als eine Benchmark-Gleichstandsaussage ohne veröffentlichte Methodik. Wenn Sie Fugus adaptives Routing bewerten möchten, wiederholen Sie dieselben Prompts mehrfach und protokollieren Sie, wie stark Antwortzeit und Token-Nutzung schwanken.
Häufig gestellte Fragen
Schlägt Fugu Fable 5 bei Benchmarks?
Nein. Sakana behauptet einen Gleichstand: Fugu Ultra stehe „Schulter an Schulter mit“ Fable 5 und Mythos Preview. Die separate „übertrifft“-Aussage bezieht sich auf Gemini 3.1 Pro, Opus 4.8 und GPT 5.5 in spezifischen Anwendungen, nicht auf Fable 5. Für die Einzelmodellseite siehe die Claude Fable 5 Benchmarks.
Sind die Fugu-Benchmark-Zahlen unabhängig überprüft?
Nein. Stand 22.06.2026 werden die Zahlen vom Anbieter auf Sakanas eigener Einrichtung gemeldet. Keine dritte Partei hat die Aufgaben öffentlich reproduziert, und kein Evaluierungssystem wurde veröffentlicht. Behandeln Sie die Angaben als Behauptungen, bis sie extern repliziert wurden.
Warum ist Fugus Orchestrator-Design für Benchmarks wichtig?
Weil Fugu andere Grenzmodelle aufrufen kann. Ein Ergebnis wie „schlägt Opus 4.8“ kann von einem System stammen, das Opus 4.8 nutzt, weitere Modelle ergänzt und die Ergebnisse synthetisiert. Das ist ein Systemvergleich, kein sauberer Einzelmodellvergleich. Fable 5 und die Mythos-Linie sind einzelne Anthropic-Modelle.
Gegen welches Mythos hat Sakana verglichen?
Gegen Mythos Preview vom April, nicht gegen das aktuelle Mythos 5. Einige Sekundärartikel nennen die falsche Version. Der Mythos-Klasse-Erklärer erklärt den Unterschied zwischen Preview und ausgelieferter Version.
Was ist der Unterschied zwischen Trinity und Conductor?
Trinity (arXiv:2512.04695) ist ein Koordinator mit unter 20.000 Parametern, optimiert durch Evolution. Conductor (arXiv:2512.04388) ist ein 7B-Modell, das mit Reinforcement Learning trainiert wurde. Es sind unterschiedliche Forschungsansätze. Keines ist eine bestätigte Produktspezifikation von Fugu.
Wie kann ich Fugus Leistung selbst testen?
Richten Sie einen OpenAI-kompatiblen Client auf die Fugu-Basis-URL aus console.sakana.ai ein. Senden Sie Ihre echten Aufgaben und messen Sie Qualität, Latenz und Kosten. Registrieren Sie den Endpunkt zusätzlich in Apidog, um Fugu mit den Modellen zu vergleichen, die Sie bereits verwenden.

Top comments (0)