Lucas

Posted on Jun 22 • Originally published at apidog.com

Sakana Fugu Benchmarks: O Que Lado a Lado Com Fable 5 Realmente Significa

Os benchmarks Fugu da Sakana são alegações de paridade reportadas pelo fornecedor, não scorecards verificados independentemente. Segundo a página de lançamento da Sakana, o Fugu Ultra “se iguala a modelos líderes como Fable 5 e Mythos Preview” em tarefas de engenharia, científicas e de raciocínio, e o Fugu “supera consistentemente” Gemini 3.1 Pro, Opus 4.8 e GPT 5.5 em um conjunto nomeado de aplicações. Antes de interpretar qualquer número, considere o ponto central: Fugu é um orquestrador que chama modelos de fronteira de outros fornecedores, então seus resultados não são vitórias de modelo único da mesma forma que os do Fable 5 são.

Experimente o Apidog hoje

O que o Fugu realmente é

Fugu não é um único modelo de fundação. É um sistema de orquestração multiagente exposto como um único modelo por trás de uma API compatível com OpenAI.

Na prática, ele pode:

responder diretamente;
delegar partes da tarefa para outros LLMs;
chamar instâncias recursivas de si mesmo;
sintetizar várias respostas em uma saída final.

A Sakana descreve o Fugu como um modelo de linguagem treinado para delegação, comunicação entre agentes e síntese de trabalho. O título do lançamento resume a proposta: “Um Modelo Para Comandar Todos Eles”.

Isso muda como você deve ler os benchmarks.

Quando um modelo tradicional publica uma pontuação, o número representa aquele modelo executando a tarefa com seus próprios pesos. Quando o Fugu publica uma pontuação, o resultado pode envolver Fugu chamando Opus 4.8, GPT 5.5, Gemini 3.1 Pro ou outros modelos, e depois combinando as respostas.

Ou seja: um resultado como “supera Opus 4.8” pode ser um resultado de sistema, não de um único modelo Sakana isolado. Para mais contexto de arquitetura, veja o explicador sobre o que é Sakana Fugu.

Como interpretar a alegação “ombro a ombro com Fable 5 e Mythos Preview”

A primeira alegação da Sakana é de paridade.

Segundo a empresa, o Fugu Ultra “se iguala a modelos líderes como Fable 5 e Mythos Preview” em benchmarks de engenharia, científicos e de raciocínio.

Leia isso literalmente:

a Sakana não diz que o Fugu Ultra supera o Fable 5;
a alegação é “se iguala”;
o rival citado é Mythos Preview, não Mythos 5 atual;
a comparação não vem acompanhada de metodologia pública reproduzível.

Esse detalhe importa. O Mythos Preview é o modelo de fronteira de abril que a Anthropic descreveu como perigoso demais para ser lançado. Ele não é o mesmo artefato que a linha Mythos lançada depois. Se você acompanhou o modelo de classe Mythos, trate Preview e linha lançada como coisas diferentes.

A forma operacional correta de ler essa alegação é:

“A Sakana afirma internamente que o Fugu Ultra atinge paridade com Fable 5 e Mythos Preview em certas classes de tarefas.”

Não leia como:

“Fugu supera Fable 5.”

Essa segunda frase não foi alegada.

Como interpretar a alegação “supera consistentemente”

A segunda alegação é mais forte, mas mira outro conjunto de concorrentes.

Segundo a Sakana, o Fugu “supera consistentemente” estes modelos configurados:

Gemini 3.1 Pro, com esforço alto;
Opus 4.8, com esforço máximo;
GPT 5.5, com esforço altíssimo.

As aplicações nomeadas são:

AutoResearch;
Cubo Mágico;
Projeto Mecânico;
Análise de Caligrafia Japonesa;
Xadrez de Uma Jogada;
Previsão de Séries Temporais Financeiras.

Essas tarefas parecem avaliações de aplicação de ponta a ponta, não uma suíte acadêmica padrão. Isso favorece um orquestrador: ele pode decompor um problema, rotear subproblemas para modelos diferentes e sintetizar uma resposta final.

Essa é uma capacidade útil. Mas ela não prova que um único modelo Sakana supera Opus, Gemini ou GPT em raciocínio bruto.

A leitura prática é:

Alegação	Como ler
Fugu Ultra “se iguala” a Fable 5 e Mythos Preview	Alegação de paridade reportada pelo fornecedor
Fugu “supera” Gemini 3.1 Pro, Opus 4.8 e GPT 5.5	Alegação de sistema/orquestração em aplicações específicas
Fugu supera Fable 5	Não foi alegado pela Sakana
Fugu é um modelo único melhor que Opus	Não é uma conclusão suportada pelos dados publicados

Por que os números ainda não são verificáveis

Nenhuma replicação independente ainda. Cada número de benchmark do Fugu nesta página é relatado pelo fornecedor, medido na própria configuração da Sakana, com configurações de concorrentes que a Sakana escolheu. Até 22/06/2026, nenhum terceiro executou essas tarefas novamente, nenhuma grade de pontuação por tarefa foi publicada e nenhum sistema de avaliação foi lançado. A postura correta é tratar tudo isso como alegação, não medição independente.

Isso não é específico da Sakana. É comum em lançamentos de modelos.

A diferença é que a arquitetura do Fugu torna a reprodução mais difícil.

Para reproduzir um benchmark de modelo único, você precisa de:

acesso ao modelo;
conjunto de testes;
configuração de inferência;
métrica.

Para reproduzir o Fugu, você precisaria também de:

acesso ao próprio Fugu;
acesso aos modelos subjacentes chamados pelo Fugu;
mesmas versões dos modelos;
mesmas configurações de esforço;
mesma lógica de roteamento;
mesma topologia de agentes;
mesma política de adaptação por tarefa.

Como o Fugu pode rotear dinamicamente e adaptar a equipe interna por prompt, duas execuções podem não usar exatamente a mesma composição interna.

Isso é bom para o usuário final, porque o sistema pode escolher caminhos diferentes conforme a tarefa. Mas é ruim para reprodutibilidade de benchmark.

Por isso, evite confiar em números soltos como “Fugu obteve X” quando vierem de fontes secundárias. Algumas fontes também confundem os rivais, por exemplo citando Mythos atual quando a comparação publicada fala em Mythos Preview. Pela mesma razão, a comparação Fugu Ultra vs Fable 5 vs Mythos permanece qualitativa.

Pesquisas relacionadas: Trinity e Conductor

O marketing da Sakana se apoia em pesquisas reais, mas os artigos não devem ser lidos como folhas de especificação do produto lançado.

Dois trabalhos citados são relevantes:

Trinity, “Um Coordenador LLM Evoluído” (arXiv:2512.04695);
Conductor, “Aprendendo a Orquestrar Agentes em Linguagem Natural” (arXiv:2512.04388).

Resumo prático:

Trabalho	O que é	Observação
Trinity	Coordenador com menos de 20.000 parâmetros	Otimizado por evolução sem gradiente
Conductor	Modelo 7B treinado com aprendizado por reforço	Aprende estrutura de comunicação entre agentes

Não confunda os dois.

Também não assuma que qualquer especificação desses artigos descreve exatamente o Fugu lançado. A página oficial não publica a contagem de parâmetros do produto. Mapear “7B” diretamente para o Fugu é inferência de terceiros.

Especificações conhecidas vs. não confirmadas

Item	O que a Sakana / fontes dizem	Confiança
Tipo de sistema	Orquestrador multiagente por trás de um modelo	Declarado na página de lançamento
Variantes	Fugu, balanceado e baixa latência; Fugu Ultra, qualidade máxima	Declarado na página de lançamento
Antigo nome beta	A variante pequena foi chamada de “Fugu Mini” no beta e na imprensa	Histórico
Superfície da API	Endpoint compatível com OpenAI, ambas as variantes	Declarado na página de lançamento
Modelos subjacentes	Chama múltiplos LLMs de fronteira, incluindo recursivamente a si mesmo	Declarado na página de lançamento
Contagem de parâmetros do produto	Não publicada; detalhes de 7B / Conductor são inferência de terceiros	[VERIFICAR]
Metodologia de benchmark	Relatada pelo fornecedor, configuração própria da Sakana, nenhum sistema de avaliação lançado	[VERIFICAR]

Nota de nomenclatura: a variante pequena foi chamada de “Fugu Mini” durante o beta de aproximadamente 500 usuários lançado por volta de 24-25 de abril de 2026. A página de lançamento usa “Fugu” e “Fugu Ultra”. Use os nomes atuais.

Como testar o Fugu no seu próprio ambiente

Você não consegue verificar os benchmarks internos da Sakana sem a metodologia e o sistema de avaliação. Mas consegue executar seus próprios testes.

Como o Fugu expõe uma API compatível com OpenAI, o fluxo básico é:

copiar a URL base no console da Sakana;
configurar um cliente OpenAI apontando para essa URL;
enviar tarefas reais do seu domínio;
registrar qualidade, latência e custo;
comparar contra os modelos que você já usa.

A URL base não estava publicada em página pública até 22/06/2026. Copie a URL diretamente de console.sakana.ai depois de fazer login. Não use hosts inventados.

Exemplo em Python, seguindo o padrão de chat completions da OpenAI:

from openai import OpenAI

# Copie a URL base real de console.sakana.ai depois de fazer login.
client = OpenAI(
    api_key="SUA_CHAVE_API_FUGU",
    base_url="<SUA_URL_BASE_FUGU_DO_CONSOLE>",
)

resp = client.chat.completions.create(
    model="fugu-ultra",  # use "fugu" para a variante balanceada; confirme o ID no console
    messages=[
        {
            "role": "system",
            "content": "Você é um revisor de código preciso."
        },
        {
            "role": "user",
            "content": "Revise esta função em busca de problemas de segurança:\n<cole o código>"
        },
    ],
)

print(resp.choices[0].message.content)

As strings de ID de modelo relatadas até agora são fugu e fugu-ultra, possivelmente com formato datado. Confirme os IDs exatos no console antes de fixá-los em produção.

Como o Fugu pode decidir por requisição se responde diretamente ou monta uma equipe de agentes, monitore pelo menos:

latência total;
custo;
tokens de entrada;
tokens de saída;
taxa de erro;
qualidade da resposta;
consistência entre execuções.

Um exemplo simples de estrutura de log:

{
  "provider": "sakana",
  "model": "fugu-ultra",
  "task_id": "security-review-001",
  "latency_ms": 18420,
  "input_tokens": 1420,
  "output_tokens": 860,
  "status": 200,
  "quality_score": 4
}

Execute seus testes com tarefas que importam para seu produto. Não use apenas AutoResearch, xadrez de uma jogada ou exemplos genéricos se sua carga real é revisão de PR, geração de documentação, triagem de tickets ou análise de logs.

Como comparar Fugu, Fable 5 e Opus no Apidog

Você não precisa de uma ferramenta nova para acreditar ou desacreditar benchmarks de fornecedor. Você precisa de um jeito repetível de enviar o mesmo prompt para vários endpoints e comparar os resultados.

O Apidog permite registrar o endpoint do Fugu como uma API compatível com OpenAI, salvar seus prompts de avaliação como requisições e executá-los como um cenário de teste.

Um fluxo prático:

Crie um ambiente para cada provedor/modelo:
- Fugu;
- Fugu Ultra;
- Fable 5;
- Opus;
- outro modelo de referência que você já usa.
Defina variáveis por ambiente:
- base_url;
- api_key;
- model.
Crie uma requisição padrão de chat completions.
Use o mesmo corpo para todos os modelos.

Exemplo de corpo:

{
  "model": "{{model}}",
  "messages": [
    {
      "role": "system",
      "content": "Você é um assistente técnico especializado em revisão de APIs."
    },
    {
      "role": "user",
      "content": "Analise esta especificação OpenAPI e identifique problemas de segurança, inconsistências e melhorias:\n{{openapi_spec}}"
    }
  ]
}

Capture métricas por execução:
- status code;
- tempo de resposta;
- corpo da resposta;
- uso de tokens, se disponível;
- custo estimado;
- avaliação manual ou automatizada da qualidade.
Rode o mesmo cenário quando uma nova versão de modelo for lançada.

Esse tipo de teste é mais útil do que uma alegação de paridade sem metodologia pública. Ele mede o que afeta sua aplicação: qualidade, custo, latência e estabilidade no seu conjunto de tarefas.

Perguntas frequentes

O Fugu supera o Fable 5 nos benchmarks?

Não. A Sakana não alegou isso. A alegação publicada é de paridade: o Fugu Ultra “se iguala a” Fable 5 e Mythos Preview, segundo a Sakana. A alegação separada de “supera” mira Gemini 3.1 Pro, Opus 4.8 e GPT 5.5 em aplicações específicas, não Fable 5. Para o lado de modelo único dessa comparação, veja os benchmarks do Claude Fable 5.

Os números de benchmark do Fugu são verificados independentemente?

Não. Até 22/06/2026, os números são reportados pelo fornecedor, medidos na configuração da própria Sakana, com configurações de esforço escolhidas pela Sakana. Nenhum terceiro executou novamente as tarefas e nenhum sistema de avaliação foi publicado.

Por que importa que o Fugu seja um orquestrador?

Porque o Fugu pode chamar modelos de fronteira de outros fornecedores, incluindo recursivamente a si mesmo. Assim, um resultado “supera Opus 4.8” pode envolver o próprio Opus como parte do sistema. Isso é uma vitória de orquestração, não uma prova de que um único modelo Sakana supera Opus em isolamento.

Fable 5 e a linha Mythos são modelos Anthropic únicos, o que torna a comparação direta um caso de “apples-to-oranges”.

Contra qual Mythos a Sakana comparou?

Contra o Mythos Preview mais antigo de abril, não contra o Mythos 5 atual. Alguns artigos secundários citam a versão errada. O explicador da classe Mythos aborda a diferença entre o Preview e a linha lançada.

Qual é a diferença entre Trinity e Conductor?

Trinity e Conductor são dois trabalhos diferentes da ICLR 2026.

Trinity (arXiv:2512.04695) é um coordenador com menos de 20.000 parâmetros otimizado por evolução.
Conductor (arXiv:2512.04388) é um modelo 7B treinado com aprendizado por reforço.

Eles usam métodos diferentes e têm tamanhos diferentes. Nenhum dos dois deve ser tratado como especificação exata do produto Fugu lançado.

Como testar o desempenho do Fugu por conta própria?

Aponte um cliente compatível com OpenAI para a URL base do Fugu obtida em console.sakana.ai, envie suas próprias tarefas e meça qualidade, latência e custo. Para comparar com outros modelos, registre o endpoint no Apidog, execute prompts idênticos e capture as métricas em um único fluxo.

DEV Community