SakanaのFuguベンチマークは、独立検証済みのスコアカードではなく、ベンダー報告の同等性・優位性の主張として読むべきです。Sakanaのリリースページでは、Fugu Ultraはエンジニアリング、科学、推論タスクで「Fable 5やMythos Previewのような主要モデルと肩を並べる」とされ、Fuguは特定のアプリケーションでGemini 3.1 Pro、Opus 4.8、GPT 5.5を「一貫して上回る」とされています。ただし、Fuguは他ベンダーのフロンティアモデルを呼び出すオーケストレーターであり、Fable 5のような単一モデルの勝利とは同じ意味ではありません。
Fuguとは何か:単一モデルではなくオーケストレーター
Fuguは単一の基盤モデルではありません。OpenAI互換APIの背後で、複数のLLMを動的に使い分けるマルチエージェント・オーケストレーションシステムです。
SakanaはFuguを、以下に特化した訓練済み言語モデルとして説明しています。
- タスク委任
- エージェント間通信
- 複数モデルの出力統合
- 必要に応じた再帰的な自己呼び出し
つまり、Fuguはリクエストごとに「自分で直接回答するか」「複数モデルのチームを組むか」を判断します。
この設計が、ベンチマークの読み方を変えます。通常の単一モデルのスコアは、そのモデル自身のウェイトによる性能を示します。一方、Fuguのスコアは、FuguがOpus 4.8、GPT 5.5、Gemini 3.1 Proなどを呼び出し、結果を統合した性能を示している可能性があります。
したがって、「FuguがOpus 4.8を上回った」という結果は、FuguがOpusを利用し、他のモデルと組み合わせた結果かもしれません。これは実用上は重要な能力ですが、単一モデル同士の比較ではありません。アーキテクチャの詳細は、Sakana Fuguとは何かについての解説で詳しく説明されています。
主張1:「Fable 5およびMythos Previewと肩を並べる」
Sakanaによる最初の主張は、Fugu Ultraがエンジニアリング、科学、推論ベンチマークで「Fable 5やMythos Previewのような主要モデルと肩を並べる」というものです。
ここで重要なのは、「上回る」ではなく「肩を並べる」という表現です。SakanaはFugu Ultraをフロンティアリーダーではなく、フロンティア級の同等モデルとして位置付けています。
確認すべきポイントは2つあります。
1つ目は、比較対象が「Mythos Preview」である点です。これはAnthropicがリリースするには危険すぎると述べた4月のフロンティアモデルであり、現在一般に利用可能なMythos 5ではありません。Mythosクラスのモデルについて理解している場合、Previewと出荷版が別物であることは重要です。
2つ目は、この主張を第三者が再実行できる形のベンチマークテーブルが公開されていない点です。公開された方法論、タスク別スコア、評価ハーネス、第三者再現はありません。したがって、「肩を並べる」はベンダーによる内部結果の表現として扱うべきです。
主張2:特定アプリケーションで「一貫して上回る」
Sakanaの2つ目の主張は、より強いものです。
Sakanaによると、Fuguは特定のアプリケーションで以下の競合を「一貫して上回る」とされています。
- Gemini 3.1 Pro(高)
- Opus 4.8(最大)
- GPT 5.5(超高)
対象アプリケーションは次の通りです。
- AutoResearch
- ルービックキューブ
- 機械設計
- 日本語手書き文字解析
- ワンショットチェス
- 金融時系列予測
これは標準的な学術ベンチマークではなく、アプリケーションレベルのエンドツーエンド評価です。こうしたタスクでは、オーケストレーターが有利になる場合があります。サブタスクを得意なモデルに振り分け、結果を統合できるからです。
ただし、ここでも比較の性質を誤読してはいけません。Fuguが上回ったとされる競合の一部は、Fugu自身が内部で呼び出せるモデルです。たとえば「AutoResearchでOpus 4.8を上回る」という結果は、FuguがOpusを呼び出し、さらに他のモデルも使って統合した結果である可能性があります。
これは有用な能力ですが、「Sakanaの単一モデルがOpusより優れている」という意味ではありません。また、Sakanaは「FuguがFable 5を上回る」とは主張していません。同等性の主張と優位性の主張は、対象モデルが異なります。
なぜ独立検証が難しいのか
まだ独立した再現はありません。
2026年6月22日現在、Fuguのベンチマーク数値はすべてSakana自身のセットアップで測定されたベンダー報告値です。競合モデルの努力設定もSakanaが選択しています。第三者による再実行、タスク別スコアグリッド、評価ハーネスの公開はありません。これらは測定済み事実ではなく、検証待ちの主張として扱うべきです。
これはSakanaだけの問題ではありません。多くの新モデルはリリース時点ではベンダー報告から始まります。ただし、Fuguの場合はオーケストレーション構造のため、再現がさらに難しくなります。
単一モデルのベンチマークを再現するには、モデルとテストセットがあれば足ります。Fuguを再現するには、それに加えて以下が必要になります。
- Fugu本体へのアクセス
- Fuguがルーティングする基礎モデルへのアクセス
- 同じモデルバージョン
- 同じ努力設定
- 同じオーケストレーション・トポロジー
- 同じプロンプト実行条件
さらに、Fuguはタスクに応じて内部チーム構成を動的に変える可能性があります。同じプロンプトを2回投げても、内部で同じモデル構成が使われるとは限りません。これはユーザーにとっては便利な機能ですが、ベンチマーク再現性にとっては課題です。
そのため、現時点で明確な直接比較表を作るのは困難です。「FuguがX点を獲得した」といった二次情報は慎重に扱うべきです。特に、Mythos Previewと現在のMythosを混同している記述には注意してください。Fugu Ultra vs Fable 5 vs Mythosの比較が定性的な比較に留まるのも、このためです。
関連研究:TrinityとConductor
Sakanaの主張は、関連する研究の流れに基づいています。ただし、以下の論文は製品ベンチマークではなく、研究記録として読むべきです。
1つ目は、Trinity「進化したLLMコーディネーター」(arXiv:2512.04695)です。Trinityは、Thinker、Worker、Verifierの役割を持つ、2万パラメータ未満のコーディネーターです。勾配降下ではなく、派生フリー進化によって最適化されています。
2つ目は、Conductor「自然言語でエージェントをオーケストレートすることを学ぶ」(arXiv:2512.04388)です。Conductorは、エージェント間の通信構造を学習する強化学習で訓練された7Bモデルです。論文では、より低コストでMixture-of-Agentsを上回ると主張されています。
この2つを混同しないでください。
| 項目 | Trinity | Conductor |
|---|---|---|
| 論文 | arXiv:2512.04695 | arXiv:2512.04388 |
| サイズ | 2万パラメータ未満 | 7B |
| 学習方法 | 進化 | 強化学習 |
| 役割 | LLMコーディネーター | エージェント通信構造の学習 |
| 製品Fuguの仕様か | いいえ | いいえ |
公式リリースでは、製品版Fuguのパラメータ数は公開されていません。7Bという数字や特定のベースモデルを製品版Fuguに直接対応付けるのは、第三者による推測です。
仕様として確認できること・未確認のこと
合理的に確認できる情報と、まだ未確認の情報を分けると次の通りです。
| 項目 | Sakana / 情報源が述べていること | 信頼度 |
|---|---|---|
| システムタイプ | 単一モデルの背後にあるマルチエージェントオーケストレーター | リリースページに記載 |
| バリアント | Fugu(バランス型、低レイテンシー)とFugu Ultra(最大品質) | リリースページに記載 |
| 旧ベータ名 | ベータ版およびプレスでは小型バリアントは「Fugu Mini」と呼ばれていた | 過去の経緯 |
| APIインターフェース | OpenAI互換のエンドポイントが1つ、両バリアント共通 | リリースページに記載 |
| 基礎モデル | 再帰的に自身を含む複数のフロンティアLLMを呼び出す | リリースページに記載 |
| 製品のパラメータ数 | 未公開。7B / Conductorの詳細は第三者の推論 | [検証] |
| ベンチマーク方法論 | ベンダー報告、Sakana独自のセットアップ、ハーネスは未公開 | [検証] |
命名にも注意してください。小型バリアントは、2026年4月24日から25日頃に開始された約500人規模のベータで「Fugu Mini」と呼ばれていました。現在のリリースページでは「Fugu」と「Fugu Ultra」が使われています。記事や実装では現在の名称を使うのが安全です。
自分でFuguを評価する手順
Sakanaのベンチマークを完全に再現することはできません。ただし、自分のユースケースでFuguを評価することはできます。
FuguはOpenAIのチャット補完プロトコルに対応しているため、既存のOpenAIクライアントのbase_urlをFuguのURLに向けるだけで試せます。SDK移行は不要です。
2026年6月22日現在、FuguのベースURLは公開ページには掲載されていません。console.sakana.aiのコンソールからコピーし、非公式のホスト名を使わないでください。
from openai import OpenAI
# サインイン後、console.sakana.aiから実際のベースURLをコピーしてください。
client = OpenAI(
api_key="YOUR_FUGU_API_KEY",
base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)
resp = client.chat.completions.create(
model="fugu-ultra", # バランス型は "fugu"。正確なIDはコンソールで確認してください。
messages=[
{"role": "system", "content": "あなたは正確なコードレビューアです。"},
{
"role": "user",
"content": "この関数のセキュリティ問題をレビューしてください。\n<コードを貼り付け>",
},
],
)
print(resp.choices[0].message.content)
報告されているモデルIDはfuguとfugu-ultraですが、日付付きIDが使われる可能性もあります。設定ファイルに固定する前に、必ずコンソールで確認してください。
評価時は、少なくとも次を記録します。
- 入力プロンプト
- モデルID
- レイテンシー
- コスト
- トークン使用量
- 出力品質
- 同一プロンプトを複数回実行したときのばらつき
Fuguはリクエストごとに直接回答するか、内部チームを組むかを判断します。そのため、同じプロンプトでもレイテンシーやコストが変動する可能性があります。単発の結果ではなく、複数回の実行結果を比較してください。
評価プロンプトの作り方
AutoResearchやワンショットチェスのような公開デモタスクではなく、自分のプロダクトで実際に使うタスクを評価するのが重要です。
たとえば、開発者向けには次のような評価セットが使えます。
1. API仕様からOpenAPI Schemaを生成する
2. 既存コードのセキュリティレビューを行う
3. SQLクエリのパフォーマンス問題を指摘する
4. 不完全なエラーログから原因候補を列挙する
5. 日本語の仕様文からテストケースを生成する
比較対象には、すでに使っている単一モデルを含めます。
- Fugu
- Fugu Ultra
- Fable 5
- Opus 4.8
- GPT 5.5
- Gemini 3.1 Pro
評価では、単に「どの出力がよさそうか」ではなく、基準を固定してください。
- 正確性: 事実誤りがないか
- 完全性: 必要な観点を網羅しているか
- 実装可能性: そのまま使えるコードや手順になっているか
- 安全性: 危険な提案をしていないか
- コスト: トークン使用量と課金が許容範囲か
- レイテンシー: 本番ワークフローに組み込める速度か
Apidogで比較テストを組む
ベンダーのベンチマーク主張を検証するために、特別な評価基盤を最初から作る必要はありません。同じプロンプトを複数のエンドポイントに送り、レスポンスを並べて比較できれば十分です。
Apidogを使うと、FuguエンドポイントをOpenAI互換APIとして登録し、評価プロンプトをリクエストとして保存できます。Fugu、Fable 5、Opusなどのエンドポイントを同じ環境に置き、同一入力で比較できます。
実装イメージは次の通りです。
- FuguのOpenAI互換エンドポイントを登録する
- Fable 5やOpusなど、比較対象のエンドポイントも登録する
- 同じ評価プロンプトをリクエストとして保存する
- テストシナリオとしてまとめて実行する
- 出力、ステータスコード、レイテンシー、トークン使用量を比較する
- モデル更新時に同じシナリオを再実行する
Fuguの適応型ルーティングによるコストやレイテンシーの変動を追跡したい場合は、応答時間やトークン数にアサーションを設定します。これにより、ベンダーの抽象的な同等性主張よりも、自分のワークロードに対する実測値を得られます。
よくある質問
FuguはベンチマークでFable 5を上回っていますか?
いいえ。Sakanaはそのような主張をしていません。Sakanaの主張は、Fugu Ultraが「Fable 5およびMythos Previewと肩を並べる」という同等性です。「上回る」という別の主張は、特定アプリケーションにおけるGemini 3.1 Pro、Opus 4.8、GPT 5.5が対象であり、Fable 5ではありません。単一モデル側の比較については、Claude Fable 5のベンチマークを参照してください。
Fuguのベンチマーク数値は独立検証されていますか?
いいえ。2026年6月22日現在、数値はSakana自身のセットアップで測定されたベンダー報告値です。第三者による再実行、評価ハーネス公開、タスク別スコアグリッドはありません。再現されるまでは、主張として扱うべきです。
Fuguがオーケストレーターであることはなぜ重要ですか?
Fuguは他ベンダーのフロンティアモデルを呼び出して出力を統合できます。そのため、「Opus 4.8を上回る」という結果が、FuguがOpusを呼び出して活用した結果である可能性があります。これは単一モデルの勝利ではなく、モデル群を統合するシステムの結果です。Fable 5やMythosラインのような単一モデルと直接比較する場合は、この違いを明示する必要があります。
SakanaはどのMythosと比較しましたか?
Mythos Previewです。これはAnthropicがリリースするには危険すぎると述べた古い4月のフロンティアモデルであり、現在のMythos 5ではありません。Mythosクラスの解説では、Previewと出荷版の違いが説明されています。
TrinityとConductorの違いは何ですか?
Trinity(arXiv:2512.04695)は、進化によって最適化された2万パラメータ未満のコーディネーターです。Conductor(arXiv:2512.04388)は、強化学習で訓練された7Bモデルです。手法もサイズも異なります。どちらも製品版Fuguの仕様書として公開されているわけではありません。
Fuguの性能を自分でテストするには?
console.sakana.aiからFuguのベースURLを取得し、OpenAI互換クライアントのbase_urlに設定します。そのうえで、自分の実タスクを送信し、品質、レイテンシー、コスト、トークン使用量を記録してください。ApidogにFuguと比較対象モデルのエンドポイントを登録すれば、同一プロンプトで継続的に比較できます。

Top comments (0)