Lucas

Posted on Jun 22 • Originally published at apidog.com

Fugu Ultra vs Fable 5 vs Mythos: O Sakana Orchestrator Se Compara Aos Líderes

Fugu Ultra é a variante principal do Fugu da Sakana AI. O ponto mais importante para desenvolvedores: trate o lançamento como uma alegação de paridade com modelos de fronteira, não como uma vitória direta sobre eles. Segundo a Sakana, o Fugu Ultra “fica ombro a ombro com modelos líderes como Fable 5 e Mythos Preview” em benchmarks de engenharia, ciência e raciocínio. Mas Fugu é um orquestrador que pode chamar modelos de outros fornecedores; Fable 5 e Mythos são modelos únicos. Isso muda como você deve interpretar resultados, custos e testes. Veja a página de lançamento do Sakana Fugu e a análise em o que é Sakana Fugu.

Experimente o Apidog hoje

O que você está comparando

Antes de comparar Fugu Ultra com Fable 5 ou Mythos, separe as categorias:

Fugu / Fugu Ultra: sistema de orquestração multiagente exposto por uma API compatível com OpenAI.
Fable 5: modelo Anthropic único, de uso geral.
Mythos Preview / Mythos 5: modelos Anthropic únicos, com diferenças de versão importantes.

A Sakana descreve o Fugu como um modelo de linguagem treinado para delegação, comunicação entre agentes e síntese de trabalho. Em vez de sempre responder sozinho, ele decide se deve responder diretamente ou montar uma equipe de modelos, incluindo possíveis chamadas recursivas a si mesmo.

Fable 5 e Mythos funcionam de forma diferente: eles respondem a partir de seus próprios parâmetros. A comparação, portanto, não é “modelo contra modelo” no sentido estrito. É um sistema de modelos contra modelos únicos.

A Sakana compara o Fugu Ultra com Fable 5 e Mythos Preview, não com o Mythos 5 atual. Para contexto sobre o lado Anthropic, veja Fable 5 vs Mythos 5 e o modelo classe Mythos explicado.

Fugu e Fugu Ultra em termos práticos

A Sakana apresenta duas variantes por um único endpoint:

Fugu: variante balanceada, de menor latência, indicada para tarefas diárias, codificação, revisão de código, chatbots e serviços interativos.
Fugu Ultra: variante focada em qualidade máxima de resposta, indicada para pesquisa em IA, reprodução de artigos, análise de cibersegurança e investigação de literatura ou patentes.

Durante a beta, parte da imprensa usou o nome “Fugu Mini” para a variante menor. Na página de lançamento, os nomes oficiais são Fugu e Fugu Ultra.

Por que “orquestrador vs. modelo único” importa

Esta é a distinção operacional mais importante.

Quando o Fugu gera uma resposta forte, ele pode ter:

respondido diretamente;
chamado outro modelo de fronteira;
chamado vários modelos;
usado instâncias recursivas de si mesmo;
sintetizado e verificado respostas intermediárias.

Isso significa que, se o Fugu “supera” um modelo em uma tarefa, esse resultado pode ter sido obtido chamando esse mesmo tipo de modelo dentro do fluxo.

Exemplo conceitual:

Usuário → Fugu
        → chama Modelo A
        → chama Modelo B
        → verifica respostas
        → sintetiza saída final

Isso pode ser extremamente útil em produção, mas não é o mesmo que um único modelo superar outro com seus próprios pesos.

Portanto, a leitura correta é:

Um sistema orquestrado pode alcançar qualidade comparável à fronteira, em parte por rotear tarefas para modelos de fronteira e coordenar suas respostas.

Para uma análise mais detalhada dos benchmarks, veja benchmarks do Sakana Fugu.

Alegação principal: paridade com Fable 5 e Mythos Preview

A primeira alegação da Sakana é de paridade. Segundo a empresa, o Fugu Ultra fica “ombro a ombro” com Fable 5 e Mythos Preview em benchmarks de engenharia, ciência e raciocínio.

Isso não significa:

Fugu Ultra > Fable 5

Significa algo mais próximo de:

Fugu Ultra ≈ Fable 5 / Mythos Preview em benchmarks específicos

Há dois detalhes que você deve considerar antes de usar essa comparação em decisões técnicas.

1. Mythos Preview não é Mythos 5

A Sakana cita Mythos Preview, o modelo de fronteira anterior, não o Mythos 5 atual.

Segundo os preços da Anthropic em 9 de junho de 2026:

Fable 5 e Mythos 5: US$ 10 por 1M tokens de entrada e US$ 50 por 1M tokens de saída.
Mythos Preview: US$ 25 por 1M tokens de entrada e US$ 125 por 1M tokens de saída.

A comparação com Mythos Preview pode ser reproduzível, mas não representa necessariamente o teto atual da linha Mythos.

2. A paridade é em nível de sistema

Se o Fugu Ultra alcança desempenho similar ao Fable 5 usando uma equipe de modelos, a paridade é real no nível do sistema. Mas isso não prova que um único modelo interno do Fugu tenha igualado o Fable 5 sozinho.

Para contexto sobre o posicionamento do Fable 5, veja Claude Fable 5 vs Opus 4.8.

Alegação separada: onde a Sakana afirma que o Fugu supera outros modelos

A Sakana também faz uma segunda alegação, separada da comparação com Fable 5 e Mythos Preview.

Segundo a empresa, o Fugu “supera consistentemente” estes modelos em aplicações específicas:

Gemini 3.1 Pro, configuração alta;
Opus 4.8, configuração máxima;
GPT 5.5, configuração extra alta.

As aplicações citadas são:

AutoResearch;
Cubo Mágico;
Design Mecânico;
Análise de Caligrafia Japonesa;
Xadrez One-Shot;
Previsão de Séries Temporais Financeiras.

Essa alegação é mais restrita do que “Fugu supera modelos de fronteira”. Ela significa:

Em tarefas estruturadas e verificáveis, uma camada de coordenação pode adicionar valor suficiente para superar um único modelo de fronteira naquela tarefa específica.

Isso faz sentido para casos com múltiplas etapas, validação e tentativa/erro. Exemplos:

Problema complexo
→ dividir em subtarefas
→ enviar subtarefas a modelos/agentes
→ comparar respostas
→ verificar inconsistências
→ produzir síntese final

Esse padrão tende a funcionar melhor em tarefas como pesquisa, análise de segurança, xadrez ou problemas com critérios objetivos de verificação.

Tabela de comparação

Dimensão	Fugu / Fugu Ultra	Fable 5	Mythos (Preview / 5)
Tipo de sistema	Orquestrador: condutor treinado que invoca múltiplos LLMs, incluindo a si mesmo	Modelo Anthropic único	Modelo Anthropic único
Fornecedor	Sakana AI	Anthropic	Anthropic
Alegação da Sakana vs este modelo	Paridade (“ombro a ombro”) com Fable 5 e Mythos Preview	Par de paridade nomeado	Par de paridade nomeado: Preview, não 5
Alegação separada de superação	Vs Gemini 3.1 Pro, Opus 4.8 e GPT 5.5 em aplicações nomeadas	Não é o alvo da alegação de superação	Não é o alvo da alegação de superação
Preços	Camadas reportadas + PAYG; valores ainda devem ser verificados	US$ 10 entrada / US$ 50 saída por 1M tokens	Preview: US$ 25 entrada / US$ 125 saída; Mythos 5: US$ 10 / US$ 50
Superfície da API	Endpoint compatível com OpenAI	API Anthropic	API Anthropic
Melhor encaixe	Tarefas estruturadas, multi-etapas, roteamento e governança	Uso geral com qualidade de fronteira	Teto bruto de fronteira

Os preços de Fugu reportados não vêm todos da página pública de lançamento. Trate os valores como não verificados até confirmá-los no console. Para uma análise das pontuações do Fable 5, veja benchmarks do Claude Fable 5.

Como avaliar preços sem se enganar

A Sakana confirmou a estrutura geral:

planos de assinatura para uso diário;
plano pay-as-you-go para cargas maiores e uso empresarial.

Em 22/06/2026, os valores reportados incluem:

planos de US$ 20, US$ 100 e US$ 200 por mês;
promoção de segundo mês gratuito para assinaturas antes do fim de julho de 2026;
PAYG aproximado de US$ 5 por 1M tokens de entrada;
US$ 30 por 1M tokens de saída;
US$ 0,50 por 1M tokens em cache;
sobretaxa para contexto acima de 272K tokens;
variante base “Fugu” possivelmente faturada com base no modelo subjacente invocado.

Use esses números apenas como referência preliminar. Para estimativa real:

abra o console da Sakana;
confirme o preço da variante que você vai usar;
rode um conjunto pequeno de prompts representativos;
registre tokens de entrada, saída e cache;
calcule custo por tarefa, não apenas custo por token.

Exemplo de planilha simples:

Caso de uso | Modelo | Tokens entrada | Tokens saída | Custo estimado | Resultado aceito?
PR review   | Fugu Ultra | 18.000 | 4.000 | ... | Sim/Não
Pesquisa    | Fugu Ultra | 40.000 | 8.000 | ... | Sim/Não
Chatbot     | Fugu       | 2.000  | 700   | ... | Sim/Não

O que a pesquisa por trás do Fugu prova — e o que não prova

A Sakana não inventou a orquestração. Trabalhos como Mixture-of-Agents da Together AI, no ICLR 2025, já mostraram que modelos orquestrados podem superar um único modelo em certos cenários.

A diferença do Fugu está em empacotar a coordenação como produto:

topologia aprendida;
orquestração adaptativa;
seleção sensível a custo;
endpoint único;
condutor treinado por trás da chamada.

Dois trabalhos relacionados ao ICLR 2026 aparecem como base conceitual:

Trinity, “Um Coordenador LLM Evoluído” (arXiv:2512.04695);
Conductor, “Aprendendo a Orquestrar Agentes em Linguagem Natural” (arXiv:2512.04388).

Mas não confunda esses artigos com especificações diretas do produto final. Eles usam métodos e tamanhos diferentes:

Trinity: coordenador com menos de 20 mil parâmetros, otimizado por evolução sem derivada;
Conductor: modelo de 7B treinado com aprendizado por reforço.

A página oficial do Fugu não fornece a contagem de parâmetros do produto. Portanto, aplicar diretamente os detalhes de 7B ao Fugu lançado é inferência, não fato declarado.

Como testar Fugu em um fluxo compatível com OpenAI

O Fugu expõe um endpoint compatível com OpenAI. Na prática, isso significa que você pode adaptar um cliente OpenAI existente trocando:

api_key;
base_url;
model.

A URL base não estava publicada publicamente em 22/06/2026. Copie a URL real do seu console em console.sakana.ai.

Exemplo em Python:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_SAKANA_API_KEY",
    base_url="<SUA_URL_BASE_FUGU_DO_CONSOLE>",  # copie de console.sakana.ai
)

response = client.chat.completions.create(
    model="fugu-ultra",  # confirme o ID exato no console
    messages=[
        {
            "role": "system",
            "content": "Você é um revisor de código cuidadoso."
        },
        {
            "role": "user",
            "content": "Revise esta pull request em busca de problemas de segurança."
        },
    ],
)

print(response.choices[0].message.content)

Se você quiser testar a variante balanceada:

response = client.chat.completions.create(
    model="fugu",
    messages=[
        {"role": "user", "content": "Resuma este diff e destaque riscos."}
    ],
)

Confirme os IDs exatos no console antes de fixá-los em produção. As strings reportadas são fugu e fugu-ultra, mas podem existir formas datadas.

Como comparar Fugu Ultra, Fable 5 e Opus 4.8 com seus próprios prompts

Como o Fugu usa o formato de chat completions compatível com OpenAI (referência da API OpenAI), você pode montar uma avaliação prática sem depender apenas de benchmarks públicos.

No Apidog, siga este fluxo:

crie uma nova requisição HTTP;
configure a URL base copiada do console da Sakana;
defina o método e o path conforme o endpoint compatível com OpenAI;
adicione o cabeçalho de autorização;
salve o corpo com model: "fugu-ultra";
duplique a requisição para outros modelos;
execute os mesmos prompts lado a lado;
compare as respostas com critérios objetivos.

Exemplo de corpo JSON:

{
  "model": "fugu-ultra",
  "messages": [
    {
      "role": "system",
      "content": "Você é um engenheiro de segurança sênior. Responda com achados priorizados."
    },
    {
      "role": "user",
      "content": "Analise este trecho de código e identifique vulnerabilidades exploráveis."
    }
  ]
}

Critérios úteis para comparar saídas:

- Encontrou o bug principal?
- Produziu falso positivo crítico?
- Explicou impacto?
- Sugeriu correção implementável?
- Citou trechos específicos do código?
- Manteve-se dentro do escopo?
- Custo por execução foi aceitável?

Essa abordagem transforma a alegação de paridade em uma medição dentro do seu domínio. Você pode baixar o Apidog para configurar essas comparações como casos reutilizáveis.

Ponto operacional: governança e exclusão de agentes

Para equipes com requisitos de compliance, a parte de roteamento é tão importante quanto a qualidade da resposta.

A Sakana afirma que:

os agentes do Fugu são intercambiáveis;
você pode excluir agentes específicos do pool;
o Fugu roteia dinamicamente contornando restrições de provedor.

Se você trabalha em ambiente regulado, teste isso explicitamente:

defina quais provedores/modelos não podem receber dados;
configure a exclusão no console;
envie prompts com dados de teste sensíveis;
verifique rastreamentos/logs da resposta;
confirme que provedores excluídos não aparecem no fluxo.

Checklist mínimo:

[ ] Provedores permitidos documentados
[ ] Provedores bloqueados configurados
[ ] Logs revisados
[ ] Dados sensíveis mascarados quando necessário
[ ] Custo por chamada registrado
[ ] Resultado validado por humano em tarefas críticas

Veredito técnico

O caso a favor do Fugu Ultra:

oferece um endpoint único para orquestração multiagente;
usa uma linha de pesquisa relevante sobre condutores treinados;
pode ser forte em tarefas estruturadas e verificáveis;
adiciona uma camada de coordenação útil para revisão, pesquisa e análise;
permite pensar em governança de roteamento como parte do produto.

O caso para moderação:

a alegação principal é de paridade, não de superioridade;
a comparação usa Mythos Preview, não Mythos 5;
as alegações de superação são sobre aplicações específicas;
o sistema pode alcançar resultados chamando modelos de fronteira externos;
preços reportados devem ser verificados antes de qualquer decisão de produção.

Para a maioria das equipes, a melhor decisão é prática: rode Fugu Ultra contra Fable 5, Opus 4.8 ou outros modelos nos seus próprios casos de uso. Meça qualidade, custo, latência, rastreabilidade e conformidade. Se a orquestração melhora seus resultados o suficiente para justificar o custo, o Fugu faz sentido. Caso contrário, um modelo único pode ser mais simples e previsível.

Perguntas Frequentes

O Fugu Ultra supera o Fable 5?

Não. A Sakana não afirma isso. Segundo a empresa, o Fugu Ultra fica “ombro a ombro” com Fable 5 e Mythos Preview. Isso é uma alegação de paridade. Veja Fable 5 vs Mythos 5 para o lado do modelo único.

O que significa dizer que o Fugu supera o Opus 4.8?

Essa é uma alegação separada e aplicada a tarefas específicas, como AutoResearch, xadrez one-shot e previsão de séries temporais financeiras. Como o Fugu é um orquestrador, ele pode obter parte desse resultado chamando outros modelos dentro do fluxo. É uma vitória em nível de sistema, não necessariamente de um único modelo.

Por que a Sakana compara com Mythos Preview e não Mythos 5?

Porque a comparação nomeia o Mythos Preview, modelo de fronteira anterior da Anthropic. Isso pode tornar o teste mais reproduzível, mas não significa que a paridade foi medida contra o teto atual da família Mythos. Veja o modelo classe Mythos explicado.

Fugu é um modelo único ou um grupo de modelos?

É um sistema orquestrado. Fugu atua como um condutor treinado que pode delegar trabalho a múltiplos LLMs, incluindo cópias recursivas de si mesmo. Fable 5 e Mythos são modelos únicos.

Como testo o Fugu contra o Fable 5 por conta própria?

Use a URL base do console da Sakana com um cliente compatível com OpenAI, defina model como fugu-ultra e execute os mesmos prompts contra os modelos que você quer comparar. No Apidog, salve cada modelo como uma requisição e compare as respostas lado a lado.

Quanto custa o Fugu em comparação com o Fable 5?

A estrutura de preços do Fugu foi confirmada como assinatura mais pay-as-you-go, mas os valores reportados ainda devem ser verificados no console. Como referência, a Anthropic lista o Fable 5 a US$ 10 por 1M tokens de entrada e US$ 50 por 1M tokens de saída. O artigo sobre benchmarks do Sakana Fugu acompanha os dados conforme são confirmados.

DEV Community