Lucas

Posted on Jun 10 • Originally published at apidog.com

Como os Mecanismos de Segurança do Claude Fable 5 Funcionam (Roteamento Explicado)

Se você está usando o Claude Fable 5 via API e algumas respostas parecem diferentes em temas específicos, provavelmente está vendo as salvaguardas do modelo em ação. O Fable 5 foi lançado em 9 de junho de 2026 com o ID claude-fable-5 e inclui roteamento automático de segurança: em certas consultas sensíveis, a resposta é gerada pelo Claude Opus 4.8, não pelo Fable 5 completo.

Experimente o Apidog hoje

TL;DR

O Claude Fable 5 usa classificadores para detectar consultas em três áreas sensíveis:

Cibersegurança ofensiva
Biologia e química de alto risco
Destilação de modelos

Quando uma consulta é classificada como sensível, ela é roteada para o Claude Opus 4.8. Isso acontece em menos de 5% das sessões em média. Você não configura nada, não muda o ID do modelo e o preço permanece o mesmo.

Como o roteamento de segurança funciona

Ao chamar o modelo:

{
  "model": "claude-fable-5",
  "messages": [
    {
      "role": "user",
      "content": "Seu prompt aqui"
    }
  ]
}

a Anthropic executa classificadores antes de gerar a resposta. Esses classificadores verificam se o prompt se enquadra em uma das categorias protegidas.

Na maioria dos casos, o fluxo é simples:

Prompt do usuário
  -> Classificadores
  -> Claude Fable 5
  -> Resposta

Quando o prompt é sensível, o fluxo muda:

Prompt do usuário
  -> Classificadores
  -> Claude Opus 4.8
  -> Resposta pela mesma chamada de API

Do ponto de vista da sua aplicação, a chamada continua usando claude-fable-5. A diferença é que a resposta pode ter sido produzida pelo Opus 4.8.

Isso importa porque os modelos podem ter diferenças de estilo, profundidade e comportamento em tópicos sensíveis. Se você estiver avaliando qualidade de resposta, consistência ou cobertura de casos extremos, precisa considerar esse fallback.

Para entender a classe de modelo, veja também o que é um modelo de classe Mythos.

As três áreas protegidas

As salvaguardas do Claude Fable 5 cobrem três categorias. Elas não bloqueiam todo conteúdo desses domínios; o foco é reduzir riscos em capacidades consideradas mais sensíveis.

1. Cibersegurança

A primeira categoria é cibersegurança ofensiva. Isso inclui consultas relacionadas a:

Desenvolvimento de exploits
Fluxos de trabalho ofensivos
Tarefas agênticas de hacking
Aceleração de ataques

Quando o classificador detecta esse tipo de solicitação, a resposta é roteada para o Opus 4.8.

A intenção não é bloquear segurança defensiva, educação ou perguntas comuns de engenharia. O objetivo é evitar que o Fable 5 avance tarefas ofensivas de alto risco.

Na prática, se você cria ferramentas de segurança, inclua prompts defensivos e ofensivos simulados nos seus testes para entender onde o comportamento muda.

2. Biologia e química

A segunda categoria envolve consultas de biologia e química associadas a capacidades de maior risco, como design de AAV e temas relacionados a armas biológicas.

A maioria das perguntas científicas, médicas e educacionais deve seguir normalmente. O fallback é direcionado a uma faixa mais restrita de conteúdo perigoso.

Se seu produto atua em biotecnologia, saúde, química ou educação científica, teste prompts representativos antes de colocar o fluxo em produção.

3. Destilação de modelos

A terceira área é destilação de modelos.

Isso cobre tentativas de extrair comportamento do modelo para treinar ou reproduzir modelos concorrentes, por exemplo por meio de sondagem sistemática.

Diferente das duas primeiras categorias, aqui o risco principal não é dano físico, mas proteção do próprio modelo. O mecanismo, porém, é o mesmo:

Consulta suspeita de destilação
  -> Classificador
  -> Fallback para Opus 4.8

Como isso aparece na sua aplicação

O ponto mais importante: normalmente você não recebe um erro.

A chamada continua retornando uma resposta válida. O que pode mudar é o comportamento da resposta em tópicos protegidos.

Você pode observar diferenças como:

Tom diferente
Menos profundidade em certas instruções
Mais cautela em tópicos sensíveis
Respostas que parecem menos alinhadas ao perfil esperado do Fable 5

Como o fallback acontece na mesma chamada e com o mesmo ID de modelo, você não deve depender de uma única resposta para inferir qual modelo gerou a saída.

Uma abordagem prática é criar uma suíte de prompts.

Exemplo de estrutura:

tests/
  general/
    coding-prompts.txt
    writing-prompts.txt
  cybersecurity/
    defensive-prompts.txt
    offensive-boundary-prompts.txt
  biology-chemistry/
    educational-prompts.txt
    boundary-prompts.txt
  model-distillation/
    extraction-like-prompts.txt

Para cada prompt, registre:

{
  "prompt_id": "cyber-defense-001",
  "category": "cybersecurity",
  "expected_behavior": "resposta defensiva útil",
  "observed_behavior": "preencher após execução",
  "notes": "comparar tom, profundidade e completude"
}

Você pode executar esses prompts em uma ferramenta como Apidog, salvar coleções e repetir os testes quando mudar prompts, parâmetros ou fluxos do produto.

Por que rotear em vez de recusar

Uma recusa rígida é simples, mas também pode bloquear usos legítimos.

Exemplos de consultas legítimas que podem tocar áreas sensíveis:

Um pesquisador de segurança analisando defesa
Um estudante fazendo uma pergunta de biologia
Um desenvolvedor depurando comportamento que parece adversarial
Uma equipe de produto testando limites de segurança

O roteamento é uma alternativa mais flexível. Em vez de encerrar a interação, o sistema delega a resposta ao Opus 4.8, cujo comportamento nesses tópicos é considerado mais apropriado para exposição ampla.

O resultado prático é:

Tópicos comuns -> Fable 5 completo
Tópicos protegidos -> Opus 4.8

Assim, o Fable 5 continua disponível para a maioria dos casos, enquanto capacidades de maior risco são tratadas por um caminho mais controlado.

A Anthropic descreve sua abordagem geral na página de segurança e escalonamento responsável. Os detalhes de lançamento estão no anúncio do Fable 5 e Mythos 5.

Fable 5 vs Mythos 5

O Claude Mythos 5 é a contraparte do Fable 5 com salvaguardas suspensas em algumas áreas. Ele não é apresentado como uma arquitetura diferente ou como um modelo geralmente mais capaz; é o mesmo modelo subjacente com parte do roteamento removida.

Essa diferença muda o perfil de risco. Por isso, o Mythos 5 não é público. O acesso é restrito a parceiros do Projeto Glasswing, incluindo ciberdefensores, provedores de infraestrutura e pesquisadores de biologia selecionados.

Para uma comparação mais direta, veja Fable 5 vs Mythos 5.

Para a maioria dos desenvolvedores, a conclusão é simples:

Você usa claude-fable-5
As salvaguardas fazem parte do modelo
Não há flag pública para desativá-las
O acesso ao Mythos 5 não é feito por configuração de API

O que implementar no seu app

Para aplicações comuns, você não precisa alterar o código.

Use normalmente:

{
  "model": "claude-fable-5",
  "messages": [
    {
      "role": "user",
      "content": "Explique como estruturar testes unitários para esta função."
    }
  ]
}

As salvaguardas são automáticas e ficam do lado da Anthropic.

Mas se seu produto atua em cibersegurança, biologia, química ou avaliação de modelos, trate o fallback como parte do design.

Checklist prático

Antes de lançar, valide:

[ ] Seus prompts principais foram testados com claude-fable-5
[ ] Você tem casos de teste para domínios sensíveis, se aplicável
[ ] Sua UX não depende de respostas extremamente específicas nesses tópicos
[ ] Seus logs registram prompt, categoria e comportamento observado
[ ] Sua equipe entende que o fallback não gera erro de API
[ ] Seus testes cobrem mudanças de tom, profundidade e cautela

Exemplo de matriz de avaliação

| ID do prompt | Categoria | Resultado esperado | Resultado observado | Ação |
|-------------|-----------|-------------------|---------------------|------|
| gen-001 | Geral | Resposta completa pelo Fable 5 | OK | Nenhuma |
| cyber-001 | Segurança defensiva | Explicação segura e útil | OK | Nenhuma |
| cyber-002 | Limite ofensivo | Resposta cautelosa/fallback | Diferente do padrão | Ajustar UX |
| bio-001 | Educação científica | Resposta educacional | OK | Nenhuma |
| distill-001 | Extração de modelo | Comportamento controlado | OK | Documentar |

Custos

O preço permanece inalterado: US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída. O fallback para Opus 4.8 não muda sua faixa de preço.

Para detalhes, consulte o guia de preços do Claude Fable 5.

Como testar o fallback

Uma forma prática de avaliar o comportamento é criar uma coleção de chamadas de API e executá-la repetidamente.

Fluxo sugerido:

Separe prompts por categoria.
Execute todos contra claude-fable-5.
Registre as respostas.
Compare tom, completude e restrições.
Atualize seus prompts ou sua UX quando encontrar comportamento diferente.
Repita antes de releases importantes.

Exemplo de registro simples:

{
  "model": "claude-fable-5",
  "prompt_category": "cybersecurity",
  "prompt_id": "cyber-002",
  "response_quality": "acceptable",
  "behavior_notes": "Resposta mais cautelosa do que prompts gerais",
  "requires_product_change": false
}

O guia de uso da API do Opus 4.8 também é útil, já que esse é o modelo usado no fallback para tópicos sensíveis.

Conclusão

As salvaguardas do Claude Fable 5 são uma camada automática de roteamento. Uma pequena parcela de solicitações sensíveis é enviada ao Claude Opus 4.8, enquanto o restante usa a capacidade completa do Fable 5.

Para a maioria dos aplicativos, isso não exige configuração. Para produtos em cibersegurança, biologia, química ou avaliação de modelos, o melhor próximo passo é montar uma suíte de prompts, executar testes pela API e documentar onde o comportamento muda.

Para continuar, veja:

Quando estiver pronto para testar prompts e comparar respostas, o Apidog pode ser usado para organizar e repetir suas chamadas de API.

DEV Community