Em 9 de junho de 2026, a Anthropic lançou dois modelos: o Claude Fable 5, disponível para uso geral, e o Claude Mythos 5, restrito a parceiros autorizados. O Fable 5 representa uma mudança de tier na linha de modelos da empresa: é o primeiro da classe Mythos a ser liberado para desenvolvedores e times de engenharia via API e planos Enterprise baseados em consumo.
O que torna esse lançamento relevante para arquitetos e tech leads não é o hype em torno do nome, mas os números de performance em tarefas longas e complexas, a arquitetura de segurança com fallback automático, e as implicações de custo para pipelines agentic.
Benchmarks de coding: onde o ganho aparece
O Fable 5 marca 80,3% no SWE-Bench Pro, contra 69,2% do Opus 4.8, 58,6% do GPT-5.5 e 54,2% do Gemini 3.1 Pro. No SWE-Bench Verified, chega a 95,0%. No FrontierCode Diamond, que é um conjunto de problemas mais difícil e menos saturado, a diferença é ainda mais expressiva: 29,3% para o Fable 5, 13,4% para o Opus 4.8 e apenas 5,7% para o GPT-5.5.
A Anthropic observa que quanto mais longa e complexa a tarefa, maior é a vantagem do Fable 5. Um parceiro citado no anúncio, o Stripe, relatou que o modelo "compressed months of engineering into days". Ou seja, o ganho de performance se manifesta principalmente em tarefas que exigem raciocínio encadeado sobre grandes bases de código, e não em problemas isolados de curta duração.
Visão, long-context e pesquisa científica
Além de coding, o Fable 5 apresenta capacidades concretas em outras áreas. Em visão, o modelo extraiu números precisos de figuras científicas, reconstruiu o código-fonte de uma aplicação web a partir de screenshots e completou o jogo Pokémon FireRed usando somente a entrada visual. Para long-context, melhorias de memória produziram performance 3x melhor em testes com o jogo Slay the Spire.
O Claude Mythos 5 foi avaliado em domínios científicos com resultados verificáveis. Em comparações cegas, cientistas da Anthropic preferiram as hipóteses de biologia molecular do Mythos 5 em aproximadamente 80% dos casos. Uma hipótese sobre um mecanismo novo em uma proteína de E. coli foi corroborada de forma independente por outro laboratório. Em pesquisa autônoma de genômica, o modelo superou publicações da revista Science com um modelo 100x menor.
Arquitetura de segurança: classificadores com fallback
A Anthropic introduz uma abordagem nova para segurança no Fable 5: três classificadores monitoram continuamente as solicitações em domínios sensíveis.
- Cybersecurity: bloqueia tarefas de exploração e ataque ofensivo.
- Biologia e química: bloqueia pesquisa dual-use, como design de vírus.
- Distillation: bloqueia tentativas de extrair os pesos do modelo para treinar concorrentes.
Quando um classificador dispara, a solicitação é delegada automaticamente ao Claude Opus 4.8, e o usuário é notificado. Segundo a Anthropic, isso ocorre em menos de 5% das sessões. Mais de 1.000 horas de red-teaming externo não encontraram jailbreaks universais nesses classificadores.
Para equipes que constroem sobre o modelo, isso tem uma implicação prática: tarefas que ficam próximas de domínios sensíveis (um assistente de segurança ofensiva, por exemplo) vão receber respostas do Opus 4.8, o que afeta a consistência do output e a latência esperada.
Outros aspectos de segurança: dados são retidos por 30 dias para monitoramento, mas não são usados para treinar novos modelos. Em avaliações automatizadas de alinhamento, o Mythos 5 apresentou comportamento classificado como "low" em desalinhamento, comparável ao Claude Opus 4.8.
Disponibilidade e custo
O Fable 5 está disponível imediatamente no Claude API e em planos Enterprise baseados em consumo. O rollout para planos de assinatura ocorre em etapas até 22 de junho. O preço é $10 por milhão de tokens de entrada e $50 por milhão de tokens de saída. Segundo a Anthropic, isso é menos da metade do que era cobrado pelo Claude Mythos Preview.
Para times que operam pipelines agentic com muitas chamadas encadeadas, o custo de $50/M em output merece atenção no planejamento de capacidade. O ganho de performance nos benchmarks é real, mas a decisão de migrar deve considerar o perfil de tarefas do time, o volume de tokens gerados por execução e o comportamento esperado em solicitações que acionem os classificadores de fallback.
Como foi visto, o Fable 5 representa um avanço mensurável em coding agentic e tarefas longas. Devemos analisar o cenário do nosso time, avaliar o perfil de tarefas e os impactos de custo antes de migrar em produção. Como o time de vocês está planejando avaliar o Fable 5?
Top comments (0)