Fugu Ultra é a variante principal do Fugu da Sakana AI. O ponto mais importante para desenvolvedores: trate o lançamento como uma alegação de paridade com modelos de fronteira, não como uma vitória direta sobre eles. Segundo a Sakana, o Fugu Ultra “fica ombro a ombro com modelos líderes como Fable 5 e Mythos Preview” em benchmarks de engenharia, ciência e raciocínio. Mas Fugu é um orquestrador que pode chamar modelos de outros fornecedores; Fable 5 e Mythos são modelos únicos. Isso muda como você deve interpretar resultados, custos e testes. Veja a página de lançamento do Sakana Fugu e a análise em o que é Sakana Fugu.
O que você está comparando
Antes de comparar Fugu Ultra com Fable 5 ou Mythos, separe as categorias:
- Fugu / Fugu Ultra: sistema de orquestração multiagente exposto por uma API compatível com OpenAI.
- Fable 5: modelo Anthropic único, de uso geral.
- Mythos Preview / Mythos 5: modelos Anthropic únicos, com diferenças de versão importantes.
A Sakana descreve o Fugu como um modelo de linguagem treinado para delegação, comunicação entre agentes e síntese de trabalho. Em vez de sempre responder sozinho, ele decide se deve responder diretamente ou montar uma equipe de modelos, incluindo possíveis chamadas recursivas a si mesmo.
Fable 5 e Mythos funcionam de forma diferente: eles respondem a partir de seus próprios parâmetros. A comparação, portanto, não é “modelo contra modelo” no sentido estrito. É um sistema de modelos contra modelos únicos.
A Sakana compara o Fugu Ultra com Fable 5 e Mythos Preview, não com o Mythos 5 atual. Para contexto sobre o lado Anthropic, veja Fable 5 vs Mythos 5 e o modelo classe Mythos explicado.
Fugu e Fugu Ultra em termos práticos
A Sakana apresenta duas variantes por um único endpoint:
- Fugu: variante balanceada, de menor latência, indicada para tarefas diárias, codificação, revisão de código, chatbots e serviços interativos.
- Fugu Ultra: variante focada em qualidade máxima de resposta, indicada para pesquisa em IA, reprodução de artigos, análise de cibersegurança e investigação de literatura ou patentes.
Durante a beta, parte da imprensa usou o nome “Fugu Mini” para a variante menor. Na página de lançamento, os nomes oficiais são Fugu e Fugu Ultra.
Por que “orquestrador vs. modelo único” importa
Esta é a distinção operacional mais importante.
Quando o Fugu gera uma resposta forte, ele pode ter:
- respondido diretamente;
- chamado outro modelo de fronteira;
- chamado vários modelos;
- usado instâncias recursivas de si mesmo;
- sintetizado e verificado respostas intermediárias.
Isso significa que, se o Fugu “supera” um modelo em uma tarefa, esse resultado pode ter sido obtido chamando esse mesmo tipo de modelo dentro do fluxo.
Exemplo conceitual:
Usuário → Fugu
→ chama Modelo A
→ chama Modelo B
→ verifica respostas
→ sintetiza saída final
Isso pode ser extremamente útil em produção, mas não é o mesmo que um único modelo superar outro com seus próprios pesos.
Portanto, a leitura correta é:
Um sistema orquestrado pode alcançar qualidade comparável à fronteira, em parte por rotear tarefas para modelos de fronteira e coordenar suas respostas.
Para uma análise mais detalhada dos benchmarks, veja benchmarks do Sakana Fugu.
Alegação principal: paridade com Fable 5 e Mythos Preview
A primeira alegação da Sakana é de paridade. Segundo a empresa, o Fugu Ultra fica “ombro a ombro” com Fable 5 e Mythos Preview em benchmarks de engenharia, ciência e raciocínio.
Isso não significa:
Fugu Ultra > Fable 5
Significa algo mais próximo de:
Fugu Ultra ≈ Fable 5 / Mythos Preview em benchmarks específicos
Há dois detalhes que você deve considerar antes de usar essa comparação em decisões técnicas.
1. Mythos Preview não é Mythos 5
A Sakana cita Mythos Preview, o modelo de fronteira anterior, não o Mythos 5 atual.
Segundo os preços da Anthropic em 9 de junho de 2026:
- Fable 5 e Mythos 5: US$ 10 por 1M tokens de entrada e US$ 50 por 1M tokens de saída.
- Mythos Preview: US$ 25 por 1M tokens de entrada e US$ 125 por 1M tokens de saída.
A comparação com Mythos Preview pode ser reproduzível, mas não representa necessariamente o teto atual da linha Mythos.
2. A paridade é em nível de sistema
Se o Fugu Ultra alcança desempenho similar ao Fable 5 usando uma equipe de modelos, a paridade é real no nível do sistema. Mas isso não prova que um único modelo interno do Fugu tenha igualado o Fable 5 sozinho.
Para contexto sobre o posicionamento do Fable 5, veja Claude Fable 5 vs Opus 4.8.
Alegação separada: onde a Sakana afirma que o Fugu supera outros modelos
A Sakana também faz uma segunda alegação, separada da comparação com Fable 5 e Mythos Preview.
Segundo a empresa, o Fugu “supera consistentemente” estes modelos em aplicações específicas:
- Gemini 3.1 Pro, configuração alta;
- Opus 4.8, configuração máxima;
- GPT 5.5, configuração extra alta.
As aplicações citadas são:
- AutoResearch;
- Cubo Mágico;
- Design Mecânico;
- Análise de Caligrafia Japonesa;
- Xadrez One-Shot;
- Previsão de Séries Temporais Financeiras.
Essa alegação é mais restrita do que “Fugu supera modelos de fronteira”. Ela significa:
Em tarefas estruturadas e verificáveis, uma camada de coordenação pode adicionar valor suficiente para superar um único modelo de fronteira naquela tarefa específica.
Isso faz sentido para casos com múltiplas etapas, validação e tentativa/erro. Exemplos:
Problema complexo
→ dividir em subtarefas
→ enviar subtarefas a modelos/agentes
→ comparar respostas
→ verificar inconsistências
→ produzir síntese final
Esse padrão tende a funcionar melhor em tarefas como pesquisa, análise de segurança, xadrez ou problemas com critérios objetivos de verificação.
Tabela de comparação
| Dimensão | Fugu / Fugu Ultra | Fable 5 | Mythos (Preview / 5) |
|---|---|---|---|
| Tipo de sistema | Orquestrador: condutor treinado que invoca múltiplos LLMs, incluindo a si mesmo | Modelo Anthropic único | Modelo Anthropic único |
| Fornecedor | Sakana AI | Anthropic | Anthropic |
| Alegação da Sakana vs este modelo | Paridade (“ombro a ombro”) com Fable 5 e Mythos Preview | Par de paridade nomeado | Par de paridade nomeado: Preview, não 5 |
| Alegação separada de superação | Vs Gemini 3.1 Pro, Opus 4.8 e GPT 5.5 em aplicações nomeadas | Não é o alvo da alegação de superação | Não é o alvo da alegação de superação |
| Preços | Camadas reportadas + PAYG; valores ainda devem ser verificados | US$ 10 entrada / US$ 50 saída por 1M tokens | Preview: US$ 25 entrada / US$ 125 saída; Mythos 5: US$ 10 / US$ 50 |
| Superfície da API | Endpoint compatível com OpenAI | API Anthropic | API Anthropic |
| Melhor encaixe | Tarefas estruturadas, multi-etapas, roteamento e governança | Uso geral com qualidade de fronteira | Teto bruto de fronteira |
Os preços de Fugu reportados não vêm todos da página pública de lançamento. Trate os valores como não verificados até confirmá-los no console. Para uma análise das pontuações do Fable 5, veja benchmarks do Claude Fable 5.
Como avaliar preços sem se enganar
A Sakana confirmou a estrutura geral:
- planos de assinatura para uso diário;
- plano pay-as-you-go para cargas maiores e uso empresarial.
Em 22/06/2026, os valores reportados incluem:
- planos de US$ 20, US$ 100 e US$ 200 por mês;
- promoção de segundo mês gratuito para assinaturas antes do fim de julho de 2026;
- PAYG aproximado de US$ 5 por 1M tokens de entrada;
- US$ 30 por 1M tokens de saída;
- US$ 0,50 por 1M tokens em cache;
- sobretaxa para contexto acima de 272K tokens;
- variante base “Fugu” possivelmente faturada com base no modelo subjacente invocado.
Use esses números apenas como referência preliminar. Para estimativa real:
- abra o console da Sakana;
- confirme o preço da variante que você vai usar;
- rode um conjunto pequeno de prompts representativos;
- registre tokens de entrada, saída e cache;
- calcule custo por tarefa, não apenas custo por token.
Exemplo de planilha simples:
Caso de uso | Modelo | Tokens entrada | Tokens saída | Custo estimado | Resultado aceito?
PR review | Fugu Ultra | 18.000 | 4.000 | ... | Sim/Não
Pesquisa | Fugu Ultra | 40.000 | 8.000 | ... | Sim/Não
Chatbot | Fugu | 2.000 | 700 | ... | Sim/Não
O que a pesquisa por trás do Fugu prova — e o que não prova
A Sakana não inventou a orquestração. Trabalhos como Mixture-of-Agents da Together AI, no ICLR 2025, já mostraram que modelos orquestrados podem superar um único modelo em certos cenários.
A diferença do Fugu está em empacotar a coordenação como produto:
- topologia aprendida;
- orquestração adaptativa;
- seleção sensível a custo;
- endpoint único;
- condutor treinado por trás da chamada.
Dois trabalhos relacionados ao ICLR 2026 aparecem como base conceitual:
- Trinity, “Um Coordenador LLM Evoluído” (arXiv:2512.04695);
- Conductor, “Aprendendo a Orquestrar Agentes em Linguagem Natural” (arXiv:2512.04388).
Mas não confunda esses artigos com especificações diretas do produto final. Eles usam métodos e tamanhos diferentes:
- Trinity: coordenador com menos de 20 mil parâmetros, otimizado por evolução sem derivada;
- Conductor: modelo de 7B treinado com aprendizado por reforço.
A página oficial do Fugu não fornece a contagem de parâmetros do produto. Portanto, aplicar diretamente os detalhes de 7B ao Fugu lançado é inferência, não fato declarado.
Como testar Fugu em um fluxo compatível com OpenAI
O Fugu expõe um endpoint compatível com OpenAI. Na prática, isso significa que você pode adaptar um cliente OpenAI existente trocando:
-
api_key; -
base_url; -
model.
A URL base não estava publicada publicamente em 22/06/2026. Copie a URL real do seu console em console.sakana.ai.
Exemplo em Python:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_SAKANA_API_KEY",
base_url="<SUA_URL_BASE_FUGU_DO_CONSOLE>", # copie de console.sakana.ai
)
response = client.chat.completions.create(
model="fugu-ultra", # confirme o ID exato no console
messages=[
{
"role": "system",
"content": "Você é um revisor de código cuidadoso."
},
{
"role": "user",
"content": "Revise esta pull request em busca de problemas de segurança."
},
],
)
print(response.choices[0].message.content)
Se você quiser testar a variante balanceada:
response = client.chat.completions.create(
model="fugu",
messages=[
{"role": "user", "content": "Resuma este diff e destaque riscos."}
],
)
Confirme os IDs exatos no console antes de fixá-los em produção. As strings reportadas são fugu e fugu-ultra, mas podem existir formas datadas.
Como comparar Fugu Ultra, Fable 5 e Opus 4.8 com seus próprios prompts
Como o Fugu usa o formato de chat completions compatível com OpenAI (referência da API OpenAI), você pode montar uma avaliação prática sem depender apenas de benchmarks públicos.
No Apidog, siga este fluxo:
- crie uma nova requisição HTTP;
- configure a URL base copiada do console da Sakana;
- defina o método e o path conforme o endpoint compatível com OpenAI;
- adicione o cabeçalho de autorização;
- salve o corpo com
model: "fugu-ultra"; - duplique a requisição para outros modelos;
- execute os mesmos prompts lado a lado;
- compare as respostas com critérios objetivos.
Exemplo de corpo JSON:
{
"model": "fugu-ultra",
"messages": [
{
"role": "system",
"content": "Você é um engenheiro de segurança sênior. Responda com achados priorizados."
},
{
"role": "user",
"content": "Analise este trecho de código e identifique vulnerabilidades exploráveis."
}
]
}
Critérios úteis para comparar saídas:
- Encontrou o bug principal?
- Produziu falso positivo crítico?
- Explicou impacto?
- Sugeriu correção implementável?
- Citou trechos específicos do código?
- Manteve-se dentro do escopo?
- Custo por execução foi aceitável?
Essa abordagem transforma a alegação de paridade em uma medição dentro do seu domínio. Você pode baixar o Apidog para configurar essas comparações como casos reutilizáveis.
Ponto operacional: governança e exclusão de agentes
Para equipes com requisitos de compliance, a parte de roteamento é tão importante quanto a qualidade da resposta.
A Sakana afirma que:
- os agentes do Fugu são intercambiáveis;
- você pode excluir agentes específicos do pool;
- o Fugu roteia dinamicamente contornando restrições de provedor.
Se você trabalha em ambiente regulado, teste isso explicitamente:
- defina quais provedores/modelos não podem receber dados;
- configure a exclusão no console;
- envie prompts com dados de teste sensíveis;
- verifique rastreamentos/logs da resposta;
- confirme que provedores excluídos não aparecem no fluxo.
Checklist mínimo:
[ ] Provedores permitidos documentados
[ ] Provedores bloqueados configurados
[ ] Logs revisados
[ ] Dados sensíveis mascarados quando necessário
[ ] Custo por chamada registrado
[ ] Resultado validado por humano em tarefas críticas
Veredito técnico
O caso a favor do Fugu Ultra:
- oferece um endpoint único para orquestração multiagente;
- usa uma linha de pesquisa relevante sobre condutores treinados;
- pode ser forte em tarefas estruturadas e verificáveis;
- adiciona uma camada de coordenação útil para revisão, pesquisa e análise;
- permite pensar em governança de roteamento como parte do produto.
O caso para moderação:
- a alegação principal é de paridade, não de superioridade;
- a comparação usa Mythos Preview, não Mythos 5;
- as alegações de superação são sobre aplicações específicas;
- o sistema pode alcançar resultados chamando modelos de fronteira externos;
- preços reportados devem ser verificados antes de qualquer decisão de produção.
Para a maioria das equipes, a melhor decisão é prática: rode Fugu Ultra contra Fable 5, Opus 4.8 ou outros modelos nos seus próprios casos de uso. Meça qualidade, custo, latência, rastreabilidade e conformidade. Se a orquestração melhora seus resultados o suficiente para justificar o custo, o Fugu faz sentido. Caso contrário, um modelo único pode ser mais simples e previsível.
Perguntas Frequentes
O Fugu Ultra supera o Fable 5?
Não. A Sakana não afirma isso. Segundo a empresa, o Fugu Ultra fica “ombro a ombro” com Fable 5 e Mythos Preview. Isso é uma alegação de paridade. Veja Fable 5 vs Mythos 5 para o lado do modelo único.
O que significa dizer que o Fugu supera o Opus 4.8?
Essa é uma alegação separada e aplicada a tarefas específicas, como AutoResearch, xadrez one-shot e previsão de séries temporais financeiras. Como o Fugu é um orquestrador, ele pode obter parte desse resultado chamando outros modelos dentro do fluxo. É uma vitória em nível de sistema, não necessariamente de um único modelo.
Por que a Sakana compara com Mythos Preview e não Mythos 5?
Porque a comparação nomeia o Mythos Preview, modelo de fronteira anterior da Anthropic. Isso pode tornar o teste mais reproduzível, mas não significa que a paridade foi medida contra o teto atual da família Mythos. Veja o modelo classe Mythos explicado.
Fugu é um modelo único ou um grupo de modelos?
É um sistema orquestrado. Fugu atua como um condutor treinado que pode delegar trabalho a múltiplos LLMs, incluindo cópias recursivas de si mesmo. Fable 5 e Mythos são modelos únicos.
Como testo o Fugu contra o Fable 5 por conta própria?
Use a URL base do console da Sakana com um cliente compatível com OpenAI, defina model como fugu-ultra e execute os mesmos prompts contra os modelos que você quer comparar. No Apidog, salve cada modelo como uma requisição e compare as respostas lado a lado.
Quanto custa o Fugu em comparação com o Fable 5?
A estrutura de preços do Fugu foi confirmada como assinatura mais pay-as-you-go, mas os valores reportados ainda devem ser verificados no console. Como referência, a Anthropic lista o Fable 5 a US$ 10 por 1M tokens de entrada e US$ 50 por 1M tokens de saída. O artigo sobre benchmarks do Sakana Fugu acompanha os dados conforme são confirmados.


Top comments (0)