DEV Community

Cover image for Sakana Fugu API in Apidog testen
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

Sakana Fugu API in Apidog testen

Um die Sakana Fugu API in Apidog zu testen, erstellen Sie eine neue HTTP-Anfrage auf Fugu’s OpenAI-kompatiblen Pfad /chat/completions, setzen einen Authorization: Bearer-Header mit Ihrem Schlüssel und senden eine Chat-Completions-Nutzlast mit model: "fugu" oder model: "fugu-ultra". Da Fugu einen OpenAI-kompatiblen Endpunkt bereitstellt, können Sie Tools nutzen, die das OpenAI-Chat-Format sprechen. Apidog hilft dabei, Streaming-Deltas zu inspizieren, Anfragevarianten zu speichern, Antworten zu vergleichen und Latenz sowie usage pro Lauf sichtbar zu machen.

Apidog noch heute ausprobieren

Wenn Sie statt des Test-und-Beobachtungs-Workflows eine Code-First-Integration suchen, lesen Sie den begleitenden Leitfaden zur Verwendung der Sakana Fugu API. Dieser Artikel bleibt bewusst innerhalb von Apidog.

Was Sie mit Fugu tatsächlich testen

Fugu ist kein einfaches Chat-Modell. Laut Sakana ist es ein Multi-Agenten-Orchestrierungssystem, das hinter einer einzelnen API als Basismodell erscheint. Ein trainiertes Sprachmodell spezialisiert sich auf Delegation, Agentenkommunikation und Arbeitssynthese und koordiniert dynamisch mehrere LLMs, einschließlich rekursiver Instanzen seiner selbst.

Für den Hintergrund der Orchestrierung siehe den Erklärer, was Sakana Fugu ist.

Das ist für Tests wichtig: Wenn Sie eine Anfrage senden, entscheidet Fugu, ob es direkt antwortet oder intern ein Agenten-Team zusammenstellt. Sie sehen nur eine Antwort, aber die Arbeit dahinter kann mehrere Modelle durchlaufen haben.

Messen Sie deshalb nicht nur Inhalt und Token, sondern vor allem:

  • Latenz: Hinweis darauf, ob Fugu direkt oder über einen Orchestrierungssprung geantwortet hat.
  • Streaming-Verhalten: Wann kommt das erste Delta? Wie konstant streamt die Antwort?
  • usage-Objekt: Token-Kosten des übergeordneten Fugu-Aufrufs.
  • Antwortqualität zwischen Varianten: fugu gegen fugu-ultra.

Zwei Varianten verwenden denselben Endpunkt:

  • Fugu: ausgewogene Variante mit niedrigerer Latenz für Codierung, Code-Review, Chatbots und interaktive Dienste.
  • Fugu Ultra: Variante für maximale Antwortqualität bei KI-Forschung, Reproduktion von Veröffentlichungen, Cybersicherheitsanalyse sowie Literatur- oder Patentforschung.

Die Beta und ein Teil der frühen Berichterstattung nannten die kleinere Variante „Fugu Mini“. Die Release-Seite führt „Fugu“ und „Fugu Ultra“, verwenden Sie daher diese Namen. „Mini“ ist die alte Beta-Bezeichnung.

Basis-URL und API-Schlüssel abrufen

Fugu liegt hinter einer Login-Schranke. Melden Sie sich unter console.sakana.ai mit Google oder E-Mail an. Dort kopieren Sie:

  1. Ihren API-Schlüssel
  2. die Basis-URL

Wichtiger Stand vom 22.06.2026: Die Basis-URL ist auf keiner öffentlichen Sakana-Seite veröffentlicht. Raten Sie sie nicht. Kopieren Sie den Host aus der Konsole und speichern Sie ihn als Variable.

In diesem Artikel steht der Platzhalter:

<YOUR_FUGU_BASE_URL_FROM_CONSOLE>
Enter fullscreen mode Exit fullscreen mode

Ersetzen Sie ihn durch den Wert aus Ihrer Sakana-Konsole.

Prüfen Sie außerdem live in der Konsole, ob Selbstregistrierung vollständig geöffnet ist und ob es regionale Einschränkungen, etwa EU/EWR-Beschränkungen, gibt.

Fugu-Anfrage in Apidog einrichten

Erstellen Sie in Apidog ein neues Projekt und danach eine neue HTTP-Anfrage.

1. Umgebungsvariablen anlegen

Speichern Sie keine Geheimnisse direkt in der URL oder im Body. Legen Sie stattdessen eine Apidog-Umgebung an, zum Beispiel:

Fugu Prod
Enter fullscreen mode Exit fullscreen mode

Fügen Sie zwei Variablen hinzu:

Variable Wert
fugu_base_url Ihre Basis-URL aus der Sakana-Konsole
fugu_key Ihr Sakana-API-Schlüssel

Danach verwenden Sie in jeder Anfrage:

{{fugu_base_url}}/chat/completions
Enter fullscreen mode Exit fullscreen mode

und im Header:

Bearer {{fugu_key}}
Enter fullscreen mode Exit fullscreen mode

So wechseln Sie später zwischen Staging- und Produktionsschlüssel über die Umgebung, statt mehrere gespeicherte Requests zu bearbeiten. Das entspricht dem gleichen Muster wie im Claude Code mit OpenRouter Walkthrough: Basis-URL und Bearer-Token leiten einen OpenAI-kompatiblen Client auf ein anderes Backend um.

2. HTTP-Methode, URL und Header setzen

Konfigurieren Sie die Anfrage so:

POST {{fugu_base_url}}/chat/completions
Enter fullscreen mode Exit fullscreen mode

Header:

Authorization: Bearer {{fugu_key}}
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

3. JSON-Body für die ausgewogene Variante einfügen

Nutzen Sie zunächst fugu:

{
  "model": "fugu",
  "messages": [
    {
      "role": "system",
      "content": "You are a concise API testing assistant."
    },
    {
      "role": "user",
      "content": "Summarize what an SSE delta is in two sentences."
    }
  ],
  "stream": false
}
Enter fullscreen mode Exit fullscreen mode

Die Struktur entspricht der OpenAI-Chat-Completions-Referenz. Das ist der Kern eines OpenAI-kompatiblen Endpunkts: Sie ändern Basis-URL, API-Schlüssel und Modell-ID, aber nicht das grundsätzliche Chat-Format.

Bei der Einführung wurden die Modell-IDs fugu und fugu-ultra genannt. Es kann außerdem datierte Varianten wie fugu-ultra-20260615 geben. Bestätigen Sie die exakte ID in der Konsole, statt datierte Strings fest zu codieren, da solche IDs rotieren können.

Senden Sie die Anfrage. Erwartet wird ein normales Chat-Completion-Objekt mit:

  • choices
  • message
  • usage

Speichern Sie die Anfrage in Apidog als:

Fugu ausgewogen
Enter fullscreen mode Exit fullscreen mode

Fugu Ultra als zweite Anfrage speichern

Duplizieren Sie die gespeicherte Anfrage und ändern Sie nur das Feld model.

Beispiel:

{
  "model": "fugu-ultra",
  "messages": [
    {
      "role": "user",
      "content": "Reproduce the core result of the Trinity coordinator paper in plain language and note one limitation."
    }
  ],
  "stream": false
}
Enter fullscreen mode Exit fullscreen mode

Speichern Sie diese Variante als:

Fugu Ultra
Enter fullscreen mode Exit fullscreen mode

Jetzt haben Sie zwei Requests:

Anfrage Endpunkt Unterschied
Fugu ausgewogen /chat/completions "model": "fugu"
Fugu Ultra /chat/completions "model": "fugu-ultra"

Senden Sie denselben Prompt an beide Varianten und vergleichen Sie:

  • Antwortzeit
  • Antwortlänge
  • Qualität
  • usage.total_tokens
  • Stabilität über mehrere Läufe

Apidog speichert einen Antwortverlauf pro Anfrage. Dadurch können Sie Tests wiederholen und prüfen, ob Latenz und Antworten stabil bleiben oder stark vom Prompt abhängen. Für größere Sequenzen ist der API-Test-Orchestrierungsleitfaden hilfreich.

SSE-Streaming-Deltas inspizieren

Streaming ist besonders interessant, weil Fugu auch bei internem Orchestrierungsaufwand Tokens streamen kann, sobald sie finalisiert werden.

Setzen Sie im Body:

{
  "model": "fugu-ultra",
  "messages": [
    {
      "role": "user",
      "content": "Walk through a one-shot chess opening analysis, step by step."
    }
  ],
  "stream": true
}
Enter fullscreen mode Exit fullscreen mode

Bei aktiviertem Streaming kommt die Antwort als:

Content-Type: text/event-stream
Enter fullscreen mode Exit fullscreen mode

Der Stream besteht aus data:-Chunks. Beispiel:

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"content":"The"},"finish_reason":null}]}

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"content":" Sicilian"},"finish_reason":null}]}

data: [DONE]
Enter fullscreen mode Exit fullscreen mode

Das delta-Objekt enthält den inkrementellen Inhalt. Typisch ist:

  1. Der erste Chunk enthält häufig die Rolle.
  2. Danach folgen content-Fragmente.
  3. Am Ende erscheint ein finish_reason.
  4. Der Stream endet mit:
data: [DONE]
Enter fullscreen mode Exit fullscreen mode

Achten Sie bei Ultra auf die Zeit bis zum ersten Delta. Eine längere Pause vor dem ersten Token, gefolgt von konstantem Streaming, ist ein praktisches Signal dafür, dass Fugu zunächst intern koordiniert hat. Die ausgewogene Variante beginnt tendenziell früher mit dem Streaming, weil sie häufiger direkt antwortet.

usage lesen und Token-Kosten vergleichen

Für nicht-streamende Aufrufe sehen Sie in der Antwort einen usage-Block:

{
  "usage": {
    "prompt_tokens": 38,
    "completion_tokens": 412,
    "total_tokens": 450
  }
}
Enter fullscreen mode Exit fullscreen mode

Diese Werte sind die Token-Zählungen des übergeordneten Fugu-Aufrufs.

Wichtig: Fugu ist ein Orchestrator, der laut Sakana Spitzenmodelle anderer Anbieter aufrufen kann, einschließlich rekursiver Instanzen seiner selbst. Das sichtbare usage-Objekt ist daher die Abrechnung Ihrer Anfrage an Fugu. Es ist kein detaillierter Trace jedes nachgeschalteten Modells, das Fugu möglicherweise intern verwendet hat.

Laut Sakana besteht die Preisstruktur aus Abonnementstufen für täglichen Gebrauch plus einem Pay-as-you-go-Plan für größere und Unternehmens-Workloads.

Als Vergleichspunkt: Anthropic’s veröffentlichte Preise vom 09.06.2026 für Fable 5 und Mythos 5 lagen bei 10 $ pro 1 Mio. Eingabetokens und 50 $ pro 1 Mio. Ausgabetokens. Der Claude Fable 5 API-Leitfaden zeigt diesen Endpunkt, falls Sie eine Einzelmodell-Baseline im selben Apidog-Projekt testen möchten.

Latenz des Orchestrierungssprungs messen

Der wichtigste Vergleich ist einfach:

  1. Verwenden Sie denselben Prompt.
  2. Senden Sie ihn an „Fugu ausgewogen“.
  3. Senden Sie ihn an „Fugu Ultra“.
  4. Lesen Sie in Apidog die Antwortzeit beider Ergebnisse.
  5. Wiederholen Sie den Test mehrfach.

Die ausgewogene Variante sollte in vielen Fällen schneller antworten. Laut Sakana ist fugu auf geringe Latenz und interaktive Dienste ausgerichtet, während fugu-ultra maximale Qualität für Forschungsaufgaben priorisiert.

Das Latenzdelta ist Ihr sichtbares Signal für den Orchestrierungssprung. Wenn Ultra länger braucht, kann diese zusätzliche Zeit darauf hindeuten, dass Fugu intern ein Team koordiniert, statt in einem einzelnen Durchlauf zu antworten.

Geeignete Testaufgaben aus Sakana’s Anwendungsliste sind zum Beispiel:

  • AutoResearch
  • mechanisches Design
  • Finanzzeitreihenprognose
  • One-Shot-Schachanalyse

Laut Sakana übertrifft Fugu Gemini 3.1 Pro, Opus 4.8 und GPT 5.5 bei diesen spezifischen Anwendungen durchweg. Lesen Sie diese Aussage präzise: Fugu kann diese Ergebnisse erzielen, indem es Modelle aufruft und deren Ausgaben synthetisiert. Ein „schlägt Opus 4.8“-Resultat kann daher ein Modell-von-Modellen-Ergebnis sein, kein Einzelmodell-Sieg.

Sakana positioniert Fugu Ultra außerdem so, dass es bei technischen und logischen Benchmarks mit Fable 5 und der älteren Mythos Preview gleichauf liegt. Das ist eine Gleichheitsbehauptung, keine „schlägt“-Behauptung.

Testen Sie deshalb mit Ihren eigenen Prompts und bewerten Sie die Ergebnisse anhand Ihrer Anforderungen.

Agenten-Routing und Governance prüfen

Fugu’s Release-Seite beschreibt Mechanismen, die sich direkt testen lassen, sofern Ihre Konsole entsprechende Steuerungen freigibt:

  • Agenten im Pool sind austauschbar.
  • Teams können bestimmte Agenten aus Daten- oder Compliance-Gründen abwählen.
  • Fugu kann dynamisch mit Anbieterbeschränkungen umgehen.

Falls Sie Agentenpool-Steuerungen sehen:

  1. Ändern Sie die zulässigen Modelle oder Agenten.
  2. Führen Sie Ihre gespeicherten Apidog-Anfragen erneut aus.
  3. Vergleichen Sie Antwort, Latenz und usage.
  4. Dokumentieren Sie, ob sich Routing und Ergebnisqualität verändern.

Die Forschungslinie dahinter ist zitierfähig. Zwei ICLR-2026-Papiere bilden laut Artikelkontext die Grundlage:

Verwechseln Sie diese Arbeiten nicht: Sie nutzen unterschiedliche Methoden und Größen. Eine konkrete Parameteranzahl dem ausgelieferten Produkt zuzuordnen, wäre eine Schlussfolgerung Dritter und keine offizielle Angabe.

So passt der Test in Ihren Apidog-Workflow

Der Vorteil gegenüber einem einmaligen curl-Aufruf ist Wiederholbarkeit.

In Apidog können Sie:

  • fugu und fugu-ultra als getrennte Anfragevarianten speichern
  • Basis-URL und Schlüssel als Umgebung verwalten
  • denselben Prompt mehrfach ausführen
  • Antworten und Latenzen vergleichen
  • usage direkt in der Antwort prüfen
  • Modell-ID- oder Schlüsselwechsel über Umgebungsvariablen durchführen

Wenn Fugu eine Modell-ID rotiert oder Sie von Staging auf Produktion wechseln, ändern Sie eine Variable. Alle gespeicherten Requests folgen automatisch.

Das ist die Test-und-Beobachtungs-Schleife:

  1. Request einmal erstellen.
  2. Varianten speichern.
  3. Prompts austauschen.
  4. Latenz, Streaming und Token-Verbrauch beobachten.
  5. Ergebnisse zwischen fugu und fugu-ultra vergleichen.

Sakana leitet seinen Namen vom japanischen Wort für Fisch ab. Das „Fischschwarm“-Branding passt zu einem Orchestrator, der viele Modelle zu einer Antwort koordiniert. Fugu, der Kugelfisch, ist eine Delikatesse, die nur durch sorgfältige Zubereitung sicher ist. Als Metapher passt das zur Agenten-Orchestrierung, bleibt aber eine Metapher und kein Benchmark.

Richten Sie Ihre OpenAI-kompatiblen Anfragen auf Fugu, speichern Sie Ihre Varianten und nutzen Sie Apidog, um zu sehen, wie sich der Orchestrator unter realen Prompts verhält. Beginnen Sie mit demselben Prompt für beide Varianten und messen Sie den Orchestrierungssprung selbst.

Häufig gestellte Fragen

Welche Basis-URL verwende ich, um Fugu in Apidog zu testen?

Kopieren Sie die Basis-URL aus console.sakana.ai, nachdem Sie sich angemeldet haben. Sakana hat den Host ab dem 22.06.2026 auf keiner öffentlichen Seite veröffentlicht. Raten Sie ihn nicht.

Speichern Sie ihn als Apidog-Umgebungsvariable und verwenden Sie:

{{fugu_base_url}}/chat/completions
Enter fullscreen mode Exit fullscreen mode

Benötige ich ein spezielles SDK, um Fugu aufzurufen?

Nein. Fugu bietet einen OpenAI-kompatiblen Endpunkt. Jeder OpenAI-Client oder jedes Tool, das das OpenAI-Chat-Format spricht, kann mit Basis-URL- und Schlüsseländerung verwendet werden.

Dasselbe Umleitungsmuster sehen Sie im Claude Code mit OpenRouter Leitfaden.

Wie teste ich Streaming-Antworten von Fugu?

Setzen Sie im JSON-Body:

{
  "stream": true
}
Enter fullscreen mode Exit fullscreen mode

Die Antwort kommt als text/event-stream mit data:-Chunks. Diese Chunks enthalten inkrementellen delta-Inhalt und enden mit:

data: [DONE]
Enter fullscreen mode Exit fullscreen mode

Apidog rendert den SSE-Stream live, sodass Sie sehen können, wann das erste Delta eintrifft und wie gleichmäßig Tokens gestreamt werden.

Was ist der Unterschied zwischen Fugu und Fugu Ultra?

fugu ist die ausgewogene, latenzarme Variante für tägliches Codieren, Review-Aufgaben und Chatbots.

fugu-ultra zielt auf maximale Antwortqualität für Forschung, Reproduktion von Veröffentlichungen und Sicherheitsanalysen.

Beide Varianten laufen über denselben Endpunkt. Sie unterscheiden sich im Request nur durch das Feld:

{
  "model": "fugu"
}
Enter fullscreen mode Exit fullscreen mode

oder:

{
  "model": "fugu-ultra"
}
Enter fullscreen mode Exit fullscreen mode

Warum ist Fugu Ultra langsamer als die ausgewogene Variante?

Die zusätzliche Latenz ist der sichtbare Orchestrierungssprung. Laut Sakana kann Fugu direkt antworten oder ein Team von Modellen zusammenstellen. Ultra tendiert zu tieferer Koordination für höhere Qualität.

Die langsamere Antwortzeit in Apidog ist daher ein praktisches Signal dafür, dass Fugu mehr interne Koordination ausgeführt haben könnte.

Sind Fugu’s Benchmark-Gewinne Einzelmodell-Ergebnisse?

Nein. Fugu ist ein Orchestrator, der Spitzenmodelle anderer Anbieter aufrufen kann, einschließlich rekursiver Instanzen seiner selbst.

Ein Ergebnis, das laut Sakana „Opus 4.8 schlägt“, kann durch den Aufruf von Opus und die Synthese seiner Ausgabe entstehen. Behandeln Sie Fugu’s Zahlen daher als Modell-von-Modellen-Ergebnisse, nicht als Einzelmodell-Gewinne, und validieren Sie sie mit Ihren eigenen Prompts.

Top comments (0)