DEV Community

Cover image for サカナフグ ベンチマーク:「Fable 5と肩を並べる」性能の実態
Akira
Akira

Posted on • Originally published at apidog.com

サカナフグ ベンチマーク:「Fable 5と肩を並べる」性能の実態

SakanaのFuguベンチマークは、独立検証済みのスコアカードではなく、ベンダー報告の同等性・優位性の主張として読むべきです。Sakanaのリリースページでは、Fugu Ultraはエンジニアリング、科学、推論タスクで「Fable 5やMythos Previewのような主要モデルと肩を並べる」とされ、Fuguは特定のアプリケーションでGemini 3.1 Pro、Opus 4.8、GPT 5.5を「一貫して上回る」とされています。ただし、Fuguは他ベンダーのフロンティアモデルを呼び出すオーケストレーターであり、Fable 5のような単一モデルの勝利とは同じ意味ではありません。

今すぐApidogを試す

Fuguとは何か:単一モデルではなくオーケストレーター

Fuguは単一の基盤モデルではありません。OpenAI互換APIの背後で、複数のLLMを動的に使い分けるマルチエージェント・オーケストレーションシステムです。

SakanaはFuguを、以下に特化した訓練済み言語モデルとして説明しています。

  • タスク委任
  • エージェント間通信
  • 複数モデルの出力統合
  • 必要に応じた再帰的な自己呼び出し

つまり、Fuguはリクエストごとに「自分で直接回答するか」「複数モデルのチームを組むか」を判断します。

この設計が、ベンチマークの読み方を変えます。通常の単一モデルのスコアは、そのモデル自身のウェイトによる性能を示します。一方、Fuguのスコアは、FuguがOpus 4.8、GPT 5.5、Gemini 3.1 Proなどを呼び出し、結果を統合した性能を示している可能性があります。

したがって、「FuguがOpus 4.8を上回った」という結果は、FuguがOpusを利用し、他のモデルと組み合わせた結果かもしれません。これは実用上は重要な能力ですが、単一モデル同士の比較ではありません。アーキテクチャの詳細は、Sakana Fuguとは何かについての解説で詳しく説明されています。

主張1:「Fable 5およびMythos Previewと肩を並べる」

Sakanaによる最初の主張は、Fugu Ultraがエンジニアリング、科学、推論ベンチマークで「Fable 5やMythos Previewのような主要モデルと肩を並べる」というものです。

ここで重要なのは、「上回る」ではなく「肩を並べる」という表現です。SakanaはFugu Ultraをフロンティアリーダーではなく、フロンティア級の同等モデルとして位置付けています。

確認すべきポイントは2つあります。

1つ目は、比較対象が「Mythos Preview」である点です。これはAnthropicがリリースするには危険すぎると述べた4月のフロンティアモデルであり、現在一般に利用可能なMythos 5ではありません。Mythosクラスのモデルについて理解している場合、Previewと出荷版が別物であることは重要です。

2つ目は、この主張を第三者が再実行できる形のベンチマークテーブルが公開されていない点です。公開された方法論、タスク別スコア、評価ハーネス、第三者再現はありません。したがって、「肩を並べる」はベンダーによる内部結果の表現として扱うべきです。

主張2:特定アプリケーションで「一貫して上回る」

Sakanaの2つ目の主張は、より強いものです。

Sakanaによると、Fuguは特定のアプリケーションで以下の競合を「一貫して上回る」とされています。

  • Gemini 3.1 Pro(高)
  • Opus 4.8(最大)
  • GPT 5.5(超高)

対象アプリケーションは次の通りです。

  • AutoResearch
  • ルービックキューブ
  • 機械設計
  • 日本語手書き文字解析
  • ワンショットチェス
  • 金融時系列予測

これは標準的な学術ベンチマークではなく、アプリケーションレベルのエンドツーエンド評価です。こうしたタスクでは、オーケストレーターが有利になる場合があります。サブタスクを得意なモデルに振り分け、結果を統合できるからです。

ただし、ここでも比較の性質を誤読してはいけません。Fuguが上回ったとされる競合の一部は、Fugu自身が内部で呼び出せるモデルです。たとえば「AutoResearchでOpus 4.8を上回る」という結果は、FuguがOpusを呼び出し、さらに他のモデルも使って統合した結果である可能性があります。

これは有用な能力ですが、「Sakanaの単一モデルがOpusより優れている」という意味ではありません。また、Sakanaは「FuguがFable 5を上回る」とは主張していません。同等性の主張と優位性の主張は、対象モデルが異なります。

なぜ独立検証が難しいのか

まだ独立した再現はありません。

2026年6月22日現在、Fuguのベンチマーク数値はすべてSakana自身のセットアップで測定されたベンダー報告値です。競合モデルの努力設定もSakanaが選択しています。第三者による再実行、タスク別スコアグリッド、評価ハーネスの公開はありません。これらは測定済み事実ではなく、検証待ちの主張として扱うべきです。

これはSakanaだけの問題ではありません。多くの新モデルはリリース時点ではベンダー報告から始まります。ただし、Fuguの場合はオーケストレーション構造のため、再現がさらに難しくなります。

単一モデルのベンチマークを再現するには、モデルとテストセットがあれば足ります。Fuguを再現するには、それに加えて以下が必要になります。

  • Fugu本体へのアクセス
  • Fuguがルーティングする基礎モデルへのアクセス
  • 同じモデルバージョン
  • 同じ努力設定
  • 同じオーケストレーション・トポロジー
  • 同じプロンプト実行条件

さらに、Fuguはタスクに応じて内部チーム構成を動的に変える可能性があります。同じプロンプトを2回投げても、内部で同じモデル構成が使われるとは限りません。これはユーザーにとっては便利な機能ですが、ベンチマーク再現性にとっては課題です。

そのため、現時点で明確な直接比較表を作るのは困難です。「FuguがX点を獲得した」といった二次情報は慎重に扱うべきです。特に、Mythos Previewと現在のMythosを混同している記述には注意してください。Fugu Ultra vs Fable 5 vs Mythosの比較が定性的な比較に留まるのも、このためです。

関連研究:TrinityとConductor

Sakanaの主張は、関連する研究の流れに基づいています。ただし、以下の論文は製品ベンチマークではなく、研究記録として読むべきです。

1つ目は、Trinity「進化したLLMコーディネーター」(arXiv:2512.04695)です。Trinityは、Thinker、Worker、Verifierの役割を持つ、2万パラメータ未満のコーディネーターです。勾配降下ではなく、派生フリー進化によって最適化されています。

2つ目は、Conductor「自然言語でエージェントをオーケストレートすることを学ぶ」(arXiv:2512.04388)です。Conductorは、エージェント間の通信構造を学習する強化学習で訓練された7Bモデルです。論文では、より低コストでMixture-of-Agentsを上回ると主張されています。

この2つを混同しないでください。

項目 Trinity Conductor
論文 arXiv:2512.04695 arXiv:2512.04388
サイズ 2万パラメータ未満 7B
学習方法 進化 強化学習
役割 LLMコーディネーター エージェント通信構造の学習
製品Fuguの仕様か いいえ いいえ

公式リリースでは、製品版Fuguのパラメータ数は公開されていません。7Bという数字や特定のベースモデルを製品版Fuguに直接対応付けるのは、第三者による推測です。

仕様として確認できること・未確認のこと

合理的に確認できる情報と、まだ未確認の情報を分けると次の通りです。

項目 Sakana / 情報源が述べていること 信頼度
システムタイプ 単一モデルの背後にあるマルチエージェントオーケストレーター リリースページに記載
バリアント Fugu(バランス型、低レイテンシー)とFugu Ultra(最大品質) リリースページに記載
旧ベータ名 ベータ版およびプレスでは小型バリアントは「Fugu Mini」と呼ばれていた 過去の経緯
APIインターフェース OpenAI互換のエンドポイントが1つ、両バリアント共通 リリースページに記載
基礎モデル 再帰的に自身を含む複数のフロンティアLLMを呼び出す リリースページに記載
製品のパラメータ数 未公開。7B / Conductorの詳細は第三者の推論 [検証]
ベンチマーク方法論 ベンダー報告、Sakana独自のセットアップ、ハーネスは未公開 [検証]

命名にも注意してください。小型バリアントは、2026年4月24日から25日頃に開始された約500人規模のベータで「Fugu Mini」と呼ばれていました。現在のリリースページでは「Fugu」と「Fugu Ultra」が使われています。記事や実装では現在の名称を使うのが安全です。

自分でFuguを評価する手順

Sakanaのベンチマークを完全に再現することはできません。ただし、自分のユースケースでFuguを評価することはできます。

FuguはOpenAIのチャット補完プロトコルに対応しているため、既存のOpenAIクライアントのbase_urlをFuguのURLに向けるだけで試せます。SDK移行は不要です。

2026年6月22日現在、FuguのベースURLは公開ページには掲載されていません。console.sakana.aiのコンソールからコピーし、非公式のホスト名を使わないでください。

from openai import OpenAI

# サインイン後、console.sakana.aiから実際のベースURLをコピーしてください。
client = OpenAI(
    api_key="YOUR_FUGU_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)

resp = client.chat.completions.create(
    model="fugu-ultra",  # バランス型は "fugu"。正確なIDはコンソールで確認してください。
    messages=[
        {"role": "system", "content": "あなたは正確なコードレビューアです。"},
        {
            "role": "user",
            "content": "この関数のセキュリティ問題をレビューしてください。\n<コードを貼り付け>",
        },
    ],
)

print(resp.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

報告されているモデルIDはfugufugu-ultraですが、日付付きIDが使われる可能性もあります。設定ファイルに固定する前に、必ずコンソールで確認してください。

評価時は、少なくとも次を記録します。

  • 入力プロンプト
  • モデルID
  • レイテンシー
  • コスト
  • トークン使用量
  • 出力品質
  • 同一プロンプトを複数回実行したときのばらつき

Fuguはリクエストごとに直接回答するか、内部チームを組むかを判断します。そのため、同じプロンプトでもレイテンシーやコストが変動する可能性があります。単発の結果ではなく、複数回の実行結果を比較してください。

評価プロンプトの作り方

AutoResearchやワンショットチェスのような公開デモタスクではなく、自分のプロダクトで実際に使うタスクを評価するのが重要です。

たとえば、開発者向けには次のような評価セットが使えます。

1. API仕様からOpenAPI Schemaを生成する
2. 既存コードのセキュリティレビューを行う
3. SQLクエリのパフォーマンス問題を指摘する
4. 不完全なエラーログから原因候補を列挙する
5. 日本語の仕様文からテストケースを生成する
Enter fullscreen mode Exit fullscreen mode

比較対象には、すでに使っている単一モデルを含めます。

- Fugu
- Fugu Ultra
- Fable 5
- Opus 4.8
- GPT 5.5
- Gemini 3.1 Pro
Enter fullscreen mode Exit fullscreen mode

評価では、単に「どの出力がよさそうか」ではなく、基準を固定してください。

- 正確性: 事実誤りがないか
- 完全性: 必要な観点を網羅しているか
- 実装可能性: そのまま使えるコードや手順になっているか
- 安全性: 危険な提案をしていないか
- コスト: トークン使用量と課金が許容範囲か
- レイテンシー: 本番ワークフローに組み込める速度か
Enter fullscreen mode Exit fullscreen mode

Apidogで比較テストを組む

ベンダーのベンチマーク主張を検証するために、特別な評価基盤を最初から作る必要はありません。同じプロンプトを複数のエンドポイントに送り、レスポンスを並べて比較できれば十分です。

Apidogを使うと、FuguエンドポイントをOpenAI互換APIとして登録し、評価プロンプトをリクエストとして保存できます。Fugu、Fable 5、Opusなどのエンドポイントを同じ環境に置き、同一入力で比較できます。

実装イメージは次の通りです。

  1. FuguのOpenAI互換エンドポイントを登録する
  2. Fable 5やOpusなど、比較対象のエンドポイントも登録する
  3. 同じ評価プロンプトをリクエストとして保存する
  4. テストシナリオとしてまとめて実行する
  5. 出力、ステータスコード、レイテンシー、トークン使用量を比較する
  6. モデル更新時に同じシナリオを再実行する

Fuguの適応型ルーティングによるコストやレイテンシーの変動を追跡したい場合は、応答時間やトークン数にアサーションを設定します。これにより、ベンダーの抽象的な同等性主張よりも、自分のワークロードに対する実測値を得られます。

よくある質問

FuguはベンチマークでFable 5を上回っていますか?

いいえ。Sakanaはそのような主張をしていません。Sakanaの主張は、Fugu Ultraが「Fable 5およびMythos Previewと肩を並べる」という同等性です。「上回る」という別の主張は、特定アプリケーションにおけるGemini 3.1 Pro、Opus 4.8、GPT 5.5が対象であり、Fable 5ではありません。単一モデル側の比較については、Claude Fable 5のベンチマークを参照してください。

Fuguのベンチマーク数値は独立検証されていますか?

いいえ。2026年6月22日現在、数値はSakana自身のセットアップで測定されたベンダー報告値です。第三者による再実行、評価ハーネス公開、タスク別スコアグリッドはありません。再現されるまでは、主張として扱うべきです。

Fuguがオーケストレーターであることはなぜ重要ですか?

Fuguは他ベンダーのフロンティアモデルを呼び出して出力を統合できます。そのため、「Opus 4.8を上回る」という結果が、FuguがOpusを呼び出して活用した結果である可能性があります。これは単一モデルの勝利ではなく、モデル群を統合するシステムの結果です。Fable 5やMythosラインのような単一モデルと直接比較する場合は、この違いを明示する必要があります。

SakanaはどのMythosと比較しましたか?

Mythos Previewです。これはAnthropicがリリースするには危険すぎると述べた古い4月のフロンティアモデルであり、現在のMythos 5ではありません。Mythosクラスの解説では、Previewと出荷版の違いが説明されています。

TrinityとConductorの違いは何ですか?

Trinity(arXiv:2512.04695)は、進化によって最適化された2万パラメータ未満のコーディネーターです。Conductor(arXiv:2512.04388)は、強化学習で訓練された7Bモデルです。手法もサイズも異なります。どちらも製品版Fuguの仕様書として公開されているわけではありません。

Fuguの性能を自分でテストするには?

console.sakana.aiからFuguのベースURLを取得し、OpenAI互換クライアントのbase_urlに設定します。そのうえで、自分の実タスクを送信し、品質、レイテンシー、コスト、トークン使用量を記録してください。ApidogにFuguと比較対象モデルのエンドポイントを登録すれば、同一プロンプトで継続的に比較できます。

Top comments (0)