Akira

Posted on Jun 22 • Originally published at apidog.com

サカナフグベンチマーク：「Fable 5と肩を並べる」性能の実態

SakanaのFuguベンチマークは、独立検証済みのスコアカードではなく、ベンダー報告の同等性・優位性の主張として読むべきです。Sakanaのリリースページでは、Fugu Ultraはエンジニアリング、科学、推論タスクで「Fable 5やMythos Previewのような主要モデルと肩を並べる」とされ、Fuguは特定のアプリケーションでGemini 3.1 Pro、Opus 4.8、GPT 5.5を「一貫して上回る」とされています。ただし、Fuguは他ベンダーのフロンティアモデルを呼び出すオーケストレーターであり、Fable 5のような単一モデルの勝利とは同じ意味ではありません。

今すぐApidogを試す

Fuguとは何か：単一モデルではなくオーケストレーター

Fuguは単一の基盤モデルではありません。OpenAI互換APIの背後で、複数のLLMを動的に使い分けるマルチエージェント・オーケストレーションシステムです。

SakanaはFuguを、以下に特化した訓練済み言語モデルとして説明しています。

タスク委任
エージェント間通信
複数モデルの出力統合
必要に応じた再帰的な自己呼び出し

つまり、Fuguはリクエストごとに「自分で直接回答するか」「複数モデルのチームを組むか」を判断します。

この設計が、ベンチマークの読み方を変えます。通常の単一モデルのスコアは、そのモデル自身のウェイトによる性能を示します。一方、Fuguのスコアは、FuguがOpus 4.8、GPT 5.5、Gemini 3.1 Proなどを呼び出し、結果を統合した性能を示している可能性があります。

したがって、「FuguがOpus 4.8を上回った」という結果は、FuguがOpusを利用し、他のモデルと組み合わせた結果かもしれません。これは実用上は重要な能力ですが、単一モデル同士の比較ではありません。アーキテクチャの詳細は、Sakana Fuguとは何かについての解説で詳しく説明されています。

主張1：「Fable 5およびMythos Previewと肩を並べる」

Sakanaによる最初の主張は、Fugu Ultraがエンジニアリング、科学、推論ベンチマークで「Fable 5やMythos Previewのような主要モデルと肩を並べる」というものです。

ここで重要なのは、「上回る」ではなく「肩を並べる」という表現です。SakanaはFugu Ultraをフロンティアリーダーではなく、フロンティア級の同等モデルとして位置付けています。

確認すべきポイントは2つあります。

1つ目は、比較対象が「Mythos Preview」である点です。これはAnthropicがリリースするには危険すぎると述べた4月のフロンティアモデルであり、現在一般に利用可能なMythos 5ではありません。Mythosクラスのモデルについて理解している場合、Previewと出荷版が別物であることは重要です。

2つ目は、この主張を第三者が再実行できる形のベンチマークテーブルが公開されていない点です。公開された方法論、タスク別スコア、評価ハーネス、第三者再現はありません。したがって、「肩を並べる」はベンダーによる内部結果の表現として扱うべきです。

主張2：特定アプリケーションで「一貫して上回る」

Sakanaの2つ目の主張は、より強いものです。

Sakanaによると、Fuguは特定のアプリケーションで以下の競合を「一貫して上回る」とされています。

Gemini 3.1 Pro（高）
Opus 4.8（最大）
GPT 5.5（超高）

対象アプリケーションは次の通りです。

AutoResearch
ルービックキューブ
機械設計
日本語手書き文字解析
ワンショットチェス
金融時系列予測

これは標準的な学術ベンチマークではなく、アプリケーションレベルのエンドツーエンド評価です。こうしたタスクでは、オーケストレーターが有利になる場合があります。サブタスクを得意なモデルに振り分け、結果を統合できるからです。

ただし、ここでも比較の性質を誤読してはいけません。Fuguが上回ったとされる競合の一部は、Fugu自身が内部で呼び出せるモデルです。たとえば「AutoResearchでOpus 4.8を上回る」という結果は、FuguがOpusを呼び出し、さらに他のモデルも使って統合した結果である可能性があります。

これは有用な能力ですが、「Sakanaの単一モデルがOpusより優れている」という意味ではありません。また、Sakanaは「FuguがFable 5を上回る」とは主張していません。同等性の主張と優位性の主張は、対象モデルが異なります。

なぜ独立検証が難しいのか

まだ独立した再現はありません。

2026年6月22日現在、Fuguのベンチマーク数値はすべてSakana自身のセットアップで測定されたベンダー報告値です。競合モデルの努力設定もSakanaが選択しています。第三者による再実行、タスク別スコアグリッド、評価ハーネスの公開はありません。これらは測定済み事実ではなく、検証待ちの主張として扱うべきです。

これはSakanaだけの問題ではありません。多くの新モデルはリリース時点ではベンダー報告から始まります。ただし、Fuguの場合はオーケストレーション構造のため、再現がさらに難しくなります。

単一モデルのベンチマークを再現するには、モデルとテストセットがあれば足ります。Fuguを再現するには、それに加えて以下が必要になります。

Fugu本体へのアクセス
Fuguがルーティングする基礎モデルへのアクセス
同じモデルバージョン
同じ努力設定
同じオーケストレーション・トポロジー
同じプロンプト実行条件

さらに、Fuguはタスクに応じて内部チーム構成を動的に変える可能性があります。同じプロンプトを2回投げても、内部で同じモデル構成が使われるとは限りません。これはユーザーにとっては便利な機能ですが、ベンチマーク再現性にとっては課題です。

そのため、現時点で明確な直接比較表を作るのは困難です。「FuguがX点を獲得した」といった二次情報は慎重に扱うべきです。特に、Mythos Previewと現在のMythosを混同している記述には注意してください。Fugu Ultra vs Fable 5 vs Mythosの比較が定性的な比較に留まるのも、このためです。

項目	Trinity	Conductor
論文	arXiv:2512.04695	arXiv:2512.04388
サイズ	2万パラメータ未満	7B
学習方法	進化	強化学習
役割	LLMコーディネーター	エージェント通信構造の学習
製品Fuguの仕様か	いいえ	いいえ

仕様として確認できること・未確認のこと

合理的に確認できる情報と、まだ未確認の情報を分けると次の通りです。

項目	Sakana / 情報源が述べていること	信頼度
システムタイプ	単一モデルの背後にあるマルチエージェントオーケストレーター	リリースページに記載
バリアント	Fugu（バランス型、低レイテンシー）とFugu Ultra（最大品質）	リリースページに記載
旧ベータ名	ベータ版およびプレスでは小型バリアントは「Fugu Mini」と呼ばれていた	過去の経緯
APIインターフェース	OpenAI互換のエンドポイントが1つ、両バリアント共通	リリースページに記載
基礎モデル	再帰的に自身を含む複数のフロンティアLLMを呼び出す	リリースページに記載
製品のパラメータ数	未公開。7B / Conductorの詳細は第三者の推論	[検証]
ベンチマーク方法論	ベンダー報告、Sakana独自のセットアップ、ハーネスは未公開	[検証]

命名にも注意してください。小型バリアントは、2026年4月24日から25日頃に開始された約500人規模のベータで「Fugu Mini」と呼ばれていました。現在のリリースページでは「Fugu」と「Fugu Ultra」が使われています。記事や実装では現在の名称を使うのが安全です。

自分でFuguを評価する手順

Sakanaのベンチマークを完全に再現することはできません。ただし、自分のユースケースでFuguを評価することはできます。

FuguはOpenAIのチャット補完プロトコルに対応しているため、既存のOpenAIクライアントのbase_urlをFuguのURLに向けるだけで試せます。SDK移行は不要です。

2026年6月22日現在、FuguのベースURLは公開ページには掲載されていません。console.sakana.aiのコンソールからコピーし、非公式のホスト名を使わないでください。

from openai import OpenAI

# サインイン後、console.sakana.aiから実際のベースURLをコピーしてください。
client = OpenAI(
    api_key="YOUR_FUGU_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)

resp = client.chat.completions.create(
    model="fugu-ultra",  # バランス型は "fugu"。正確なIDはコンソールで確認してください。
    messages=[
        {"role": "system", "content": "あなたは正確なコードレビューアです。"},
        {
            "role": "user",
            "content": "この関数のセキュリティ問題をレビューしてください。\n<コードを貼り付け>",
        },
    ],
)

print(resp.choices[0].message.content)

報告されているモデルIDはfuguとfugu-ultraですが、日付付きIDが使われる可能性もあります。設定ファイルに固定する前に、必ずコンソールで確認してください。

評価時は、少なくとも次を記録します。

入力プロンプト
モデルID
レイテンシー
コスト
トークン使用量
出力品質
同一プロンプトを複数回実行したときのばらつき

Fuguはリクエストごとに直接回答するか、内部チームを組むかを判断します。そのため、同じプロンプトでもレイテンシーやコストが変動する可能性があります。単発の結果ではなく、複数回の実行結果を比較してください。

評価プロンプトの作り方

AutoResearchやワンショットチェスのような公開デモタスクではなく、自分のプロダクトで実際に使うタスクを評価するのが重要です。

たとえば、開発者向けには次のような評価セットが使えます。

1. API仕様からOpenAPI Schemaを生成する
2. 既存コードのセキュリティレビューを行う
3. SQLクエリのパフォーマンス問題を指摘する
4. 不完全なエラーログから原因候補を列挙する
5. 日本語の仕様文からテストケースを生成する

比較対象には、すでに使っている単一モデルを含めます。

- Fugu
- Fugu Ultra
- Fable 5
- Opus 4.8
- GPT 5.5
- Gemini 3.1 Pro

評価では、単に「どの出力がよさそうか」ではなく、基準を固定してください。

- 正確性: 事実誤りがないか
- 完全性: 必要な観点を網羅しているか
- 実装可能性: そのまま使えるコードや手順になっているか
- 安全性: 危険な提案をしていないか
- コスト: トークン使用量と課金が許容範囲か
- レイテンシー: 本番ワークフローに組み込める速度か

Apidogで比較テストを組む

ベンダーのベンチマーク主張を検証するために、特別な評価基盤を最初から作る必要はありません。同じプロンプトを複数のエンドポイントに送り、レスポンスを並べて比較できれば十分です。

Apidogを使うと、FuguエンドポイントをOpenAI互換APIとして登録し、評価プロンプトをリクエストとして保存できます。Fugu、Fable 5、Opusなどのエンドポイントを同じ環境に置き、同一入力で比較できます。

実装イメージは次の通りです。

FuguのOpenAI互換エンドポイントを登録する
Fable 5やOpusなど、比較対象のエンドポイントも登録する
同じ評価プロンプトをリクエストとして保存する
テストシナリオとしてまとめて実行する
出力、ステータスコード、レイテンシー、トークン使用量を比較する
モデル更新時に同じシナリオを再実行する

Fuguの適応型ルーティングによるコストやレイテンシーの変動を追跡したい場合は、応答時間やトークン数にアサーションを設定します。これにより、ベンダーの抽象的な同等性主張よりも、自分のワークロードに対する実測値を得られます。

よくある質問

FuguはベンチマークでFable 5を上回っていますか？

いいえ。Sakanaはそのような主張をしていません。Sakanaの主張は、Fugu Ultraが「Fable 5およびMythos Previewと肩を並べる」という同等性です。「上回る」という別の主張は、特定アプリケーションにおけるGemini 3.1 Pro、Opus 4.8、GPT 5.5が対象であり、Fable 5ではありません。単一モデル側の比較については、Claude Fable 5のベンチマークを参照してください。

Fuguのベンチマーク数値は独立検証されていますか？

いいえ。2026年6月22日現在、数値はSakana自身のセットアップで測定されたベンダー報告値です。第三者による再実行、評価ハーネス公開、タスク別スコアグリッドはありません。再現されるまでは、主張として扱うべきです。

Fuguがオーケストレーターであることはなぜ重要ですか？

Fuguは他ベンダーのフロンティアモデルを呼び出して出力を統合できます。そのため、「Opus 4.8を上回る」という結果が、FuguがOpusを呼び出して活用した結果である可能性があります。これは単一モデルの勝利ではなく、モデル群を統合するシステムの結果です。Fable 5やMythosラインのような単一モデルと直接比較する場合は、この違いを明示する必要があります。

SakanaはどのMythosと比較しましたか？

Mythos Previewです。これはAnthropicがリリースするには危険すぎると述べた古い4月のフロンティアモデルであり、現在のMythos 5ではありません。Mythosクラスの解説では、Previewと出荷版の違いが説明されています。

TrinityとConductorの違いは何ですか？

Trinity（arXiv:2512.04695）は、進化によって最適化された2万パラメータ未満のコーディネーターです。Conductor（arXiv:2512.04388）は、強化学習で訓練された7Bモデルです。手法もサイズも異なります。どちらも製品版Fuguの仕様書として公開されているわけではありません。

Fuguの性能を自分でテストするには？

console.sakana.aiからFuguのベースURLを取得し、OpenAI互換クライアントのbase_urlに設定します。そのうえで、自分の実タスクを送信し、品質、レイテンシー、コスト、トークン使用量を記録してください。ApidogにFuguと比較対象モデルのエンドポイントを登録すれば、同一プロンプトで継続的に比較できます。

DEV Community