Lucas

Posted on Jun 10 • Originally published at apidog.com

Claude Fable 5 Benchmarks: O que os números dizem

Quando a Anthropic lançou o Claude Fable 5 em 9 de junho de 2026, ela o posicionou como estado da arte em quase todos os benchmarks relatados. Há uma ressalva importante: o anúncio trouxe principalmente posicionamentos em rankings, não tabelas completas com pontuações copiáveis. Portanto, use estes resultados como sinais direcionais e valide o modelo com seus próprios prompts antes de decidir por adoção. Para uma comparação mais ampla, veja também Opus 4.8 contra GPT-5.5 e Gemini 3.5.

Experimente o Apidog hoje

O Fable 5 está disponível por US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, sob o ID de modelo claude-fable-5. Ele fica acima do Opus 4.8 em capacidade e preço, e a Anthropic o apresenta como o Claude publicamente disponível mais forte para engenharia de software, trabalho de conhecimento, visão computacional e pesquisa científica.

Em resumo

O Claude Fable 5 aparece em primeiro lugar entre modelos de fronteira no FrontierCode e no FrontierBench, ambos da Cognition. Ele também é descrito como estado da arte no CursorBench e como o modelo com maior pontuação no Finance Benchmark da Hebbia.

Na prática, o sinal mais relevante é este: o Fable 5 parece forte em tarefas longas, multi-etapas e com muito contexto. Ainda assim, como as pontuações públicas exatas são limitadas, trate os rankings como direcionais, não como prova final de desempenho no seu caso de uso.

O que o resultado principal significa

A Anthropic afirma que o Fable 5 é estado da arte em quase todos os benchmarks executados, cobrindo:

engenharia de software;
trabalho de conhecimento;
visão computacional;
pesquisa científica;
tarefas autônomas de longa duração.

Essa afirmação não significa que o Fable 5 vença todos os testes por grande margem. Também não significa que todos os resultados já foram reproduzidos por laboratórios independentes. O ponto mais útil é a consistência: um modelo que fica perto do topo em codificação, documentos, finanças, visão e ciência tende a ser mais interessante para aplicações reais do que um modelo excelente em apenas um benchmark isolado.

Se você está avaliando se vale pagar mais pelo Fable 5, olhe menos para um gráfico específico e mais para a amplitude dos resultados. Para entender o modelo em detalhes, consulte o que é o Claude Fable 5.

Outro ponto recorrente é o trabalho de longo prazo. A Anthropic afirma que o Fable 5 “mantém o foco em milhões de tokens em tarefas de longa duração” e trabalha autonomamente por mais tempo do que qualquer Claude anterior. Isso é importante porque muitos benchmarks modernos não medem apenas uma resposta correta, mas a capacidade de manter plano, contexto e consistência em várias etapas.

Benchmarks de codificação: FrontierCode e CursorBench

A codificação é onde a história do Fable 5 fica mais concreta.

No FrontierCode, avaliação de codificação da Cognition, a Anthropic relata que o Fable 5 é o modelo de fronteira com maior pontuação. Mais importante: ele mantém essa liderança mesmo com esforço médio.

Esse detalhe importa. Em modelos de fronteira, “esforço” geralmente está ligado ao quanto de computação de inferência, raciocínio ou tentativas o modelo usa. Um modelo que lidera com esforço médio pode ser mais útil no dia a dia do que um modelo que só alcança bons resultados em configurações caras.

No CursorBench, a Anthropic descreve o Fable 5 como estado da arte e enfatiza que o modelo abriu uma classe de problemas de longo prazo que estavam fora do alcance de modelos anteriores. Esse benchmark é relevante para fluxos reais de engenharia, porque avalia tarefas com múltiplos arquivos e múltiplas etapas, não apenas geração de funções isoladas.

A leitura prática para desenvolvedores:

se você usa agentes de codificação para editar vários arquivos;
se o fluxo envolve executar testes, corrigir falhas e iterar;
se o projeto exige manter contexto por muito tempo;

então os resultados em FrontierCode e CursorBench são mais relevantes do que benchmarks simples de autocomplete.

Conhecimento e finanças: Finance Benchmark da Hebbia

Fora do código, o resultado mais claro vem do Finance Benchmark, desenvolvido pela Hebbia, empresa focada em IA para fluxos financeiros e jurídicos com muitos documentos.

Segundo a Anthropic, o Fable 5 alcança a maior pontuação entre os modelos avaliados nesse benchmark. Os ganhos aparecem principalmente em:

raciocínio sobre documentos;
interpretação de gráficos;
leitura de tabelas.

Isso é relevante porque análise financeira raramente é uma pergunta simples. Normalmente envolve ler PDFs longos, localizar números em páginas diferentes, comparar texto com gráficos e extrair valores corretos de tabelas densas.

Também há um componente de visão computacional. Em documentos reais, tabelas e gráficos podem aparecer como imagens, layouts mistos ou PDFs mal estruturados. Um bom resultado nesse benchmark sugere que o Fable 5 pode ser útil em pipelines onde a entrada não é um JSON limpo, mas um relatório financeiro, contrato, extrato ou apresentação.

Casos de uso prováveis:

extração de dados de PDFs;
análise de contratos;
leitura de relatórios financeiros;
reconciliação de tabelas e gráficos;
workflows internos de due diligence.

Ainda assim, valide com seus próprios documentos antes de confiar em qualquer benchmark.

Raciocínio de longo prazo: FrontierBench da Cognition

A segunda avaliação da Cognition, o FrontierBench, é onde a Anthropic posiciona o Fable 5 como modelo forte para autonomia de longa duração.

A ideia central é medir se o modelo consegue manter objetivo, plano e contexto ao longo de uma tarefa grande. Isso é diferente de responder a uma pergunta isolada. Em tarefas longas, o modelo precisa:

lembrar decisões anteriores;
manter consistência;
não se perder no próprio raciocínio intermediário;
continuar avançando mesmo com muitos tokens de contexto.

A Anthropic relata o Fable 5 como o modelo com maior pontuação no FrontierBench e conecta esse resultado à capacidade de “manter foco em milhões de tokens”.

Esse também é o tipo de resultado mais difícil de verificar externamente. Avaliar tarefas longas exige definir como pontuar progresso parcial, como detectar desvios e como evitar que o modelo “pareça ocupado” sem realmente avançar. Portanto, trate o FrontierBench como um sinal forte de direção, mas ainda dependente de metodologia.

Em conjunto com o CursorBench, a mensagem é consistente: a vantagem do Fable 5 parece estar menos em responder uma pergunta difícil e mais em não desmoronar durante uma tarefa longa.

Evidências de uso real além dos benchmarks

Benchmarks ajudam, mas implantações reais podem ser mais informativas. A Anthropic destacou dois exemplos.

O primeiro é uma migração de base de código da Stripe. Segundo a Anthropic, o Fable 5 migrou uma base Ruby de 50 milhões de linhas para a Stripe em um único dia, trabalho que a equipe estimava levar dois meses ou mais.

Esse caso é relevante porque uma migração grande não é apenas um problema de “inteligência”. É uma tarefa repetitiva, extensa e com muito contexto, espalhada por muitos arquivos. Pequenas inconsistências podem quebrar builds ou testes. O sinal principal é a capacidade de sustentar alterações corretas e consistentes em escala.

O segundo exemplo é um teste com Slay the Spire, usado para avaliar memória. Com memória de arquivo persistente habilitada, o Fable 5 mostrou melhoria de 3 vezes em relação ao Opus 4.8 no jogo.

O ponto técnico é que o modelo podia escrever notas em arquivos e relê-las em execuções posteriores, acumulando estratégia. Isso sugere que o Fable 5 pode se beneficiar bastante quando conectado a ferramentas e memória durável, em vez de operar sempre do zero.

Para agentes autônomos, isso importa. Se o seu sistema permite que o modelo use arquivos, banco de dados, logs, histórico ou memória persistente, o comportamento real pode ser melhor do que o observado em prompts isolados.

Como interpretar esses resultados

Use os benchmarks como entrada para decisão, não como decisão final.

1. Os donos dos benchmarks são parceiros

FrontierCode e FrontierBench vêm da Cognition. O Finance Benchmark vem da Hebbia. São organizações relevantes, mas fazem parte da narrativa de lançamento. Isso não invalida os resultados, mas reforça a necessidade de reprodução independente.

Para contexto adicional, compare com análises neutras, como MiniMax M3 versus Opus 4.7 versus GPT-5.5.

2. Configurações de “esforço” mudam o resultado

O resultado do FrontierCode foi relatado com esforço médio, o que é positivo. Mas esforço é uma variável importante.

Ao comparar modelos, verifique:

nível de esforço;
número de tentativas;
temperatura;
limite de tokens;
ferramentas disponíveis;
se houve retry automático.

Sem isso, duas pontuações podem não ser comparáveis.

3. As pontuações públicas são limitadas

O anúncio da Anthropic relatou principalmente rankings e gráficos em imagem. Por isso, ainda há pouca informação pública em formato tabular verificável.

Quando Cognition e Hebbia publicarem tabelas próprias, prefira essas fontes.

4. Ranking não é margem

“Maior pontuação” informa a posição, não a diferença. Um modelo pode liderar por pouco ou por muito. Sem a margem, é difícil decidir se o ganho justifica o preço.

Antes de integrar, confirme IDs, preços e limites atuais na visão geral dos modelos.

Execute seu próprio benchmark com o Apidog

O benchmark mais confiável é aquele que usa seus prompts, seus dados e sua definição de “bom”.

Você não precisa montar uma infraestrutura complexa. Uma avaliação simples já ajuda a comparar Fable 5 com Opus 4.8 em três dimensões:

qualidade da saída;
latência;
custo por chamada.

Abaixo está um fluxo simples usando o Apidog, uma plataforma para projetar, testar e documentar APIs.

1. Crie uma requisição POST para a API do Claude

No Apidog, crie uma requisição reutilizável:

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

Use uma variável de ambiente para ANTHROPIC_API_KEY, em vez de colar a chave diretamente na requisição.

2. Use um prompt parecido com seu caso real

Evite prompts artificiais. Escolha algo que represente o trabalho que você espera automatizar.

Exemplo para codificação:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refatorar este método Ruby para usar argumentos de palavra-chave e adicionar testes RSpec. Retorne apenas o código atualizado:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

3. Execute contra o Fable 5

Rode a chamada com:

"model": "claude-fable-5"

Salve a resposta.

4. Duplique a requisição e troque o modelo

Agora duplique a requisição e altere apenas o campo model:

"model": "claude-opus-4-8"

Mantenha o mesmo prompt, max_tokens e demais parâmetros. Assim, qualquer diferença relevante vem do modelo, não da configuração.

5. Compare qualidade, latência e custo

Avalie cada resposta com uma rubrica simples.

Exemplo:

Critério	Pergunta
Correção	O código compila?
Cobertura	Os testes cobrem casos importantes?
Segurança	A resposta evita mudanças perigosas?
Manutenção	O código ficou mais claro?
Aderência	O modelo seguiu exatamente a instrução?

Depois, compare os sinais operacionais:

Latência: o Apidog mostra o tempo de resposta da requisição.
Tokens: a resposta do Claude inclui usage.input_tokens e usage.output_tokens.
Custo: multiplique os tokens pelas taxas publicadas.

Para o Fable 5:

custo_entrada = input_tokens / 1_000_000 * 10
custo_saida   = output_tokens / 1_000_000 * 50
custo_total   = custo_entrada + custo_saida

Para o Opus 4.8, usando os valores citados no artigo:

custo_entrada = input_tokens / 1_000_000 * 5
custo_saida   = output_tokens / 1_000_000 * 25
custo_total   = custo_entrada + custo_saida

6. Repita com 5 a 10 prompts reais

Um único prompt não prova muita coisa. Monte um conjunto pequeno com tarefas representativas, por exemplo:

refatoração de código;
correção de bug;
geração de testes;
leitura de documento;
extração de dados de tabela;
resumo técnico;
planejamento multi-etapas.

Depois compare:

modelo vencedor = melhor qualidade aceitável / custo e latência toleráveis

Esse benchmark caseiro não substitui avaliações públicas, mas responde à pergunta que realmente importa: o Fable 5 melhora os seus fluxos o bastante para justificar o preço?

Você pode baixar o Apidog e configurar esse teste em poucos minutos. Para analisar custos em mais detalhes, veja o guia de preços do Fable 5.

DEV Community