Se você está usando o Claude Fable 5 via API e algumas respostas parecem diferentes em temas específicos, provavelmente está vendo as salvaguardas do modelo em ação. O Fable 5 foi lançado em 9 de junho de 2026 com o ID claude-fable-5 e inclui roteamento automático de segurança: em certas consultas sensíveis, a resposta é gerada pelo Claude Opus 4.8, não pelo Fable 5 completo.
TL;DR
O Claude Fable 5 usa classificadores para detectar consultas em três áreas sensíveis:
- Cibersegurança ofensiva
- Biologia e química de alto risco
- Destilação de modelos
Quando uma consulta é classificada como sensível, ela é roteada para o Claude Opus 4.8. Isso acontece em menos de 5% das sessões em média. Você não configura nada, não muda o ID do modelo e o preço permanece o mesmo.
Como o roteamento de segurança funciona
Ao chamar o modelo:
{
"model": "claude-fable-5",
"messages": [
{
"role": "user",
"content": "Seu prompt aqui"
}
]
}
a Anthropic executa classificadores antes de gerar a resposta. Esses classificadores verificam se o prompt se enquadra em uma das categorias protegidas.
Na maioria dos casos, o fluxo é simples:
Prompt do usuário
-> Classificadores
-> Claude Fable 5
-> Resposta
Quando o prompt é sensível, o fluxo muda:
Prompt do usuário
-> Classificadores
-> Claude Opus 4.8
-> Resposta pela mesma chamada de API
Do ponto de vista da sua aplicação, a chamada continua usando claude-fable-5. A diferença é que a resposta pode ter sido produzida pelo Opus 4.8.
Isso importa porque os modelos podem ter diferenças de estilo, profundidade e comportamento em tópicos sensíveis. Se você estiver avaliando qualidade de resposta, consistência ou cobertura de casos extremos, precisa considerar esse fallback.
Para entender a classe de modelo, veja também o que é um modelo de classe Mythos.
As três áreas protegidas
As salvaguardas do Claude Fable 5 cobrem três categorias. Elas não bloqueiam todo conteúdo desses domínios; o foco é reduzir riscos em capacidades consideradas mais sensíveis.
1. Cibersegurança
A primeira categoria é cibersegurança ofensiva. Isso inclui consultas relacionadas a:
- Desenvolvimento de exploits
- Fluxos de trabalho ofensivos
- Tarefas agênticas de hacking
- Aceleração de ataques
Quando o classificador detecta esse tipo de solicitação, a resposta é roteada para o Opus 4.8.
A intenção não é bloquear segurança defensiva, educação ou perguntas comuns de engenharia. O objetivo é evitar que o Fable 5 avance tarefas ofensivas de alto risco.
Na prática, se você cria ferramentas de segurança, inclua prompts defensivos e ofensivos simulados nos seus testes para entender onde o comportamento muda.
2. Biologia e química
A segunda categoria envolve consultas de biologia e química associadas a capacidades de maior risco, como design de AAV e temas relacionados a armas biológicas.
A maioria das perguntas científicas, médicas e educacionais deve seguir normalmente. O fallback é direcionado a uma faixa mais restrita de conteúdo perigoso.
Se seu produto atua em biotecnologia, saúde, química ou educação científica, teste prompts representativos antes de colocar o fluxo em produção.
3. Destilação de modelos
A terceira área é destilação de modelos.
Isso cobre tentativas de extrair comportamento do modelo para treinar ou reproduzir modelos concorrentes, por exemplo por meio de sondagem sistemática.
Diferente das duas primeiras categorias, aqui o risco principal não é dano físico, mas proteção do próprio modelo. O mecanismo, porém, é o mesmo:
Consulta suspeita de destilação
-> Classificador
-> Fallback para Opus 4.8
Como isso aparece na sua aplicação
O ponto mais importante: normalmente você não recebe um erro.
A chamada continua retornando uma resposta válida. O que pode mudar é o comportamento da resposta em tópicos protegidos.
Você pode observar diferenças como:
- Tom diferente
- Menos profundidade em certas instruções
- Mais cautela em tópicos sensíveis
- Respostas que parecem menos alinhadas ao perfil esperado do Fable 5
Como o fallback acontece na mesma chamada e com o mesmo ID de modelo, você não deve depender de uma única resposta para inferir qual modelo gerou a saída.
Uma abordagem prática é criar uma suíte de prompts.
Exemplo de estrutura:
tests/
general/
coding-prompts.txt
writing-prompts.txt
cybersecurity/
defensive-prompts.txt
offensive-boundary-prompts.txt
biology-chemistry/
educational-prompts.txt
boundary-prompts.txt
model-distillation/
extraction-like-prompts.txt
Para cada prompt, registre:
{
"prompt_id": "cyber-defense-001",
"category": "cybersecurity",
"expected_behavior": "resposta defensiva útil",
"observed_behavior": "preencher após execução",
"notes": "comparar tom, profundidade e completude"
}
Você pode executar esses prompts em uma ferramenta como Apidog, salvar coleções e repetir os testes quando mudar prompts, parâmetros ou fluxos do produto.
Por que rotear em vez de recusar
Uma recusa rígida é simples, mas também pode bloquear usos legítimos.
Exemplos de consultas legítimas que podem tocar áreas sensíveis:
- Um pesquisador de segurança analisando defesa
- Um estudante fazendo uma pergunta de biologia
- Um desenvolvedor depurando comportamento que parece adversarial
- Uma equipe de produto testando limites de segurança
O roteamento é uma alternativa mais flexível. Em vez de encerrar a interação, o sistema delega a resposta ao Opus 4.8, cujo comportamento nesses tópicos é considerado mais apropriado para exposição ampla.
O resultado prático é:
Tópicos comuns -> Fable 5 completo
Tópicos protegidos -> Opus 4.8
Assim, o Fable 5 continua disponível para a maioria dos casos, enquanto capacidades de maior risco são tratadas por um caminho mais controlado.
A Anthropic descreve sua abordagem geral na página de segurança e escalonamento responsável. Os detalhes de lançamento estão no anúncio do Fable 5 e Mythos 5.
Fable 5 vs Mythos 5
O Claude Mythos 5 é a contraparte do Fable 5 com salvaguardas suspensas em algumas áreas. Ele não é apresentado como uma arquitetura diferente ou como um modelo geralmente mais capaz; é o mesmo modelo subjacente com parte do roteamento removida.
Essa diferença muda o perfil de risco. Por isso, o Mythos 5 não é público. O acesso é restrito a parceiros do Projeto Glasswing, incluindo ciberdefensores, provedores de infraestrutura e pesquisadores de biologia selecionados.
Para uma comparação mais direta, veja Fable 5 vs Mythos 5.
Para a maioria dos desenvolvedores, a conclusão é simples:
- Você usa
claude-fable-5 - As salvaguardas fazem parte do modelo
- Não há flag pública para desativá-las
- O acesso ao Mythos 5 não é feito por configuração de API
O que implementar no seu app
Para aplicações comuns, você não precisa alterar o código.
Use normalmente:
{
"model": "claude-fable-5",
"messages": [
{
"role": "user",
"content": "Explique como estruturar testes unitários para esta função."
}
]
}
As salvaguardas são automáticas e ficam do lado da Anthropic.
Mas se seu produto atua em cibersegurança, biologia, química ou avaliação de modelos, trate o fallback como parte do design.
Checklist prático
Antes de lançar, valide:
- [ ] Seus prompts principais foram testados com
claude-fable-5 - [ ] Você tem casos de teste para domínios sensíveis, se aplicável
- [ ] Sua UX não depende de respostas extremamente específicas nesses tópicos
- [ ] Seus logs registram prompt, categoria e comportamento observado
- [ ] Sua equipe entende que o fallback não gera erro de API
- [ ] Seus testes cobrem mudanças de tom, profundidade e cautela
Exemplo de matriz de avaliação
| ID do prompt | Categoria | Resultado esperado | Resultado observado | Ação |
|-------------|-----------|-------------------|---------------------|------|
| gen-001 | Geral | Resposta completa pelo Fable 5 | OK | Nenhuma |
| cyber-001 | Segurança defensiva | Explicação segura e útil | OK | Nenhuma |
| cyber-002 | Limite ofensivo | Resposta cautelosa/fallback | Diferente do padrão | Ajustar UX |
| bio-001 | Educação científica | Resposta educacional | OK | Nenhuma |
| distill-001 | Extração de modelo | Comportamento controlado | OK | Documentar |
Custos
O preço permanece inalterado: US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída. O fallback para Opus 4.8 não muda sua faixa de preço.
Para detalhes, consulte o guia de preços do Claude Fable 5.
Como testar o fallback
Uma forma prática de avaliar o comportamento é criar uma coleção de chamadas de API e executá-la repetidamente.
Fluxo sugerido:
- Separe prompts por categoria.
- Execute todos contra
claude-fable-5. - Registre as respostas.
- Compare tom, completude e restrições.
- Atualize seus prompts ou sua UX quando encontrar comportamento diferente.
- Repita antes de releases importantes.
Exemplo de registro simples:
{
"model": "claude-fable-5",
"prompt_category": "cybersecurity",
"prompt_id": "cyber-002",
"response_quality": "acceptable",
"behavior_notes": "Resposta mais cautelosa do que prompts gerais",
"requires_product_change": false
}
O guia de uso da API do Opus 4.8 também é útil, já que esse é o modelo usado no fallback para tópicos sensíveis.
Conclusão
As salvaguardas do Claude Fable 5 são uma camada automática de roteamento. Uma pequena parcela de solicitações sensíveis é enviada ao Claude Opus 4.8, enquanto o restante usa a capacidade completa do Fable 5.
Para a maioria dos aplicativos, isso não exige configuração. Para produtos em cibersegurança, biologia, química ou avaliação de modelos, o melhor próximo passo é montar uma suíte de prompts, executar testes pela API e documentar onde o comportamento muda.
Para continuar, veja:
Quando estiver pronto para testar prompts e comparar respostas, o Apidog pode ser usado para organizar e repetir suas chamadas de API.



Top comments (0)