Lucas

Posted on Jun 12 • Originally published at apidog.com

Claude Fable 5 e Mudanças na API Mythos: O que ainda funciona (e como testar)

A Anthropic lançou as linhas de modelos Fable e Mythos com regras que mudam o que você precisa validar em produção. Dois pontos concentraram a discussão: uma janela de retenção de dados de 30 dias para tráfego Fable e Mythos e mudanças em barreiras de segurança (guardrails) que podem alterar recusas, respostas e comportamento de streaming. Se sua aplicação usa a API Claude em produção, trate isso como uma mudança operacional: não reescreva tudo, mas teste as suposições que seu código faz.

Experimente o Apidog hoje

Este guia foca no que afeta implementação: o que mudou, o que continua igual e como verificar sua integração com o Apidog. A ação mais segura agora é simples: criar baselines, adicionar asserções e automatizar testes para detectar mudanças de comportamento antes dos usuários.

O que realmente mudou

Separe a discussão em três partes. Cada uma exige uma resposta técnica diferente.

1. Retenção de dados

A principal mudança relatada é uma janela de retenção de 30 dias aplicada a solicitações Fable e Mythos. Na prática, dados de requisição e resposta associados a esses modelos podem ser mantidos por um período fixo.

Para equipes com requisitos de privacidade ou conformidade, isso afeta o que você pode declarar aos seus próprios usuários. Se sua política diz que prompts não são retidos, o comportamento do provedor upstream passa a fazer parte dessa afirmação.

Ação prática:

Revise quais dados você envia para Fable e Mythos.
Remova informações sensíveis desnecessárias dos prompts.
Documente a retenção upstream na sua análise de risco.
Verifique a documentação atual da Anthropic para os termos oficiais.

2. Barreiras de segurança (guardrails)

Outro ponto envolve mudanças nos guardrails, especialmente em Fable. O problema para desenvolvedores não é a existência de filtros de segurança, mas a possibilidade de mudança silenciosa de comportamento.

Um prompt que ontem gerava uma resposta válida pode hoje:

ser recusado;
ser parcialmente reescrito;
ter o streaming interrompido;
retornar uma estrutura diferente da esperada;
acionar um caminho de erro que seu app não trata bem.

Ação prática: trate recusas como parte do contrato da sua aplicação. Elas precisam de testes, assim como respostas 200.

3. Acesso programático

A superfície principal da API não foi substituída. Em geral, continuam funcionando:

chaves de API;
cabeçalho x-api-key;
endpoint de messages;
campo model;
system;
array messages;
max_tokens;
uso de ferramentas;
streaming via eventos enviados pelo servidor.

O risco está menos no contrato HTTP e mais no comportamento retornado pela API.

Resumo: o formato continua estável, mas recusas, latência, conteúdo gerado e retenção precisam ser verificados.

O que ainda funciona

Antes de alterar código, confirme o que não mudou.

Autenticação: chaves de API e o cabeçalho x-api-key continuam funcionando. Não há necessidade automática de rotação por causa dessas mudanças. Consulte a referência da API da Anthropic para o contrato atual.
API de Mensagens: o corpo da requisição, model, max_tokens, system e messages seguem o mesmo padrão.
Uso de ferramentas: definições de ferramentas e o ciclo tool_use / tool_result continuam aplicáveis.
Streaming: eventos enviados pelo servidor continuam transmitindo tokens. O que pode mudar é o conteúdo do stream quando um guardrail intervém.
IDs de modelo: fixar um ID completo de modelo reduz o risco de deriva silenciosa causada por aliases flutuantes.

Portanto, não comece por uma reescrita. Comece por verificação.

Como testar sua integração com Apidog

Um cliente de API ajuda a transformar a discussão em evidência. Com o Apidog, você pode criar requisições, salvar baselines, simular respostas upstream e executar verificações automatizadas.

Se você está migrando do Postman ou quer padronizar testes, veja também este guia sobre testes de API sem Postman.

1. Capture um baseline conhecido e bom

Crie uma requisição no Apidog para a API de Mensagens usando um prompt representativo de produção. Evite exemplos genéricos: teste um fluxo real do seu produto.

Exemplo:

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

{
  "model": "claude-fable-5",
  "max_tokens": 1024,
  "messages": [
    {
      "role": "user",
      "content": "Summarize this support ticket and label its priority: ..."
    }
  ]
}

Boas práticas:

Use variável de ambiente para ANTHROPIC_API_KEY.
Fixe o ID completo do modelo quando possível.
Salve a resposta como baseline.
Repita isso para cada prompt crítico da aplicação.

O mesmo padrão se aplica se você estiver testando Claude, o SDK do Claude Code ou outro fluxo que use a mesma chave.

2. Adicione asserções em vez de inspecionar manualmente

Um baseline só é útil se puder falhar automaticamente.

No Apidog, adicione verificações como:

status HTTP deve ser 200;
stop_reason deve ser end_turn;
a resposta deve conter o campo que seu app parseia;
a latência deve ficar abaixo do timeout definido;
o corpo não deve conter formato de recusa inesperado.

Exemplo de regra conceitual:

// Exemplo de lógica de validação
assert(response.status === 200)
assert(response.body.stop_reason === "end_turn")
assert(response.body.content[0].text.includes("priority"))

Com isso, você passa a ter um teste de regressão de comportamento. Se uma mudança de guardrail alterar a saída, o teste falha.

Essa é a mesma disciplina usada em teste de contrato de API: você fixa as expectativas que seu código downstream assume.

3. Teste recusas e guardrails de propósito

Não teste apenas o caminho feliz. Crie uma coleção com prompts próximos aos limites de conteúdo do seu produto.

Inclua casos como:

conteúdo aceito, mas sensível;
conteúdo que deve gerar recusa;
prompt que exige resposta estruturada;
prompt longo;
prompt com contexto ambíguo;
prompt que historicamente causou resposta instável.

Para cada caso, salve:

status;
stop_reason;
formato da resposta;
mensagem de recusa, se houver;
comportamento no streaming;
tempo de resposta.

A meta não é contornar guardrails. A meta é garantir que seu app saiba lidar com eles.

4. Simule a Anthropic para não depender da API real no CI

Sua suíte de CI não deve depender sempre de um upstream pago, com limite de taxa e comportamento variável.

Use o servidor mock do Apidog para criar um endpoint compatível com a API de Mensagens. Configure respostas pré-definidas para:

resposta bem-sucedida;
recusa;
erro de autenticação;
erro de limite de taxa;
timeout;
resposta truncada;
formato inesperado.

Durante desenvolvimento e CI, aponte sua aplicação para o mock:

ANTHROPIC_BASE_URL=https://mock.example.com/v1
ANTHROPIC_API_KEY=test-key

Em produção, use a URL real novamente:

ANTHROPIC_BASE_URL=https://api.anthropic.com/v1
ANTHROPIC_API_KEY=real-key

Isso permite testar seu parser, tratamento de erro e fluxos de fallback sem gastar tokens.

Se você está criando agentes, o mesmo padrão é útil para uma boa configuração de teste de agente de IA.

5. Audite payloads sensíveis à retenção

Se a retenção de 30 dias impacta sua conformidade, o ponto mais importante é controlar o que sai do seu sistema.

Faça uma auditoria dos payloads enviados:

quais endpoints são chamados;
quais campos do usuário entram no prompt;
se há dados pessoais desnecessários;
se há logs duplicando o conteúdo;
se staging e produção enviam dados diferentes;
se prompts incluem anexos, tickets ou conversas completas sem necessidade.

No Apidog, revise o histórico das requisições e use isso para identificar payloads que podem ser reduzidos.

Exemplo de melhoria:

{
  "content": "Classifique a prioridade deste ticket. Não inclua dados pessoais na resposta. Ticket: {{ticket_sanitizado}}"
}

Em vez de enviar o ticket bruto inteiro, envie uma versão sanitizada quando possível.

Você não controla a política de retenção da Anthropic, mas controla o que entrega ao provedor.

6. Teste carga, latência e timeouts

Mudanças silenciosas aparecem com frequência sob carga. Execute a mesma requisição várias vezes e observe:

aumento de latência;
falhas intermitentes;
respostas parciais;
streams interrompidos;
timeouts;
recusas inconsistentes;
erros de limite de taxa.

Defina no seu cliente:

timeout explícito;
número máximo de retries;
backoff exponencial;
tratamento de resposta parcial;
fallback quando o modelo não responder.

Exemplo de política simples:

const MAX_RETRIES = 2

async function callClaude(payload) {
  for (let attempt = 0; attempt <= MAX_RETRIES; attempt++) {
    try {
      return await sendRequest(payload, { timeout: 15000 })
    } catch (error) {
      if (attempt === MAX_RETRIES) throw error
      await sleep(500 * Math.pow(2, attempt))
    }
  }
}

Se você já está vendo lentidão upstream, este guia sobre corrigir timeouts de requisição upstream se aplica diretamente.

Checklist prático

Use esta lista para revisar sua integração:

[ ] Fixar IDs completos de modelo em produção.
[ ] Evitar aliases flutuantes para fluxos críticos.
[ ] Salvar uma resposta baseline para cada prompt importante.
[ ] Adicionar asserções para status, stop_reason e campos parseados.
[ ] Testar caminhos de recusa e guardrails.
[ ] Capturar formatos de erro e validar que continuam tratáveis.
[ ] Criar mocks da API de Mensagens para CI.
[ ] Auditar payloads enviados considerando retenção de 30 dias.
[ ] Remover dados sensíveis desnecessários dos prompts.
[ ] Testar timeout, retry e comportamento sob carga.

Essa verificação não depende de novas declarações públicas. Você controla os testes da sua aplicação.

FAQ

Preciso alterar minhas chaves de API por causa das mudanças no Fable e Mythos?

Não. A autenticação não foi alterada. Rotação regular de chaves continua sendo boa prática, mas essas mudanças não exigem rotação automática.

Meu código atual da API de Mensagens vai quebrar?

O contrato principal de requisição e resposta continua estável. O risco maior está no comportamento: recusas, latência, conteúdo transmitido e respostas afetadas por guardrails.

O que significa a retenção de 30 dias?

Relatos descrevem uma janela de retenção de 30 dias aplicada ao tráfego Fable e Mythos. Se sua política de privacidade depende do comportamento de retenção upstream, revise quais dados você envia e consulte a documentação oficial atual da Anthropic.

Como detecto mudanças em guardrails antes dos usuários?

Salve baselines para prompts próximos aos limites do seu produto, adicione asserções e execute os testes em agenda no Apidog. Quando o comportamento mudar, o teste falha.

Posso testar sem gastar tokens?

Sim. Use o servidor mock do Apidog para reproduzir respostas capturadas, incluindo recusas e erros. Assim, desenvolvimento e CI não precisam chamar a API real.

Conclusão

As mudanças em Fable e Mythos são relevantes, mas para a maioria dos desenvolvedores não indicam uma API quebrada. Chaves, chamadas de Mensagens, ferramentas e streaming continuam disponíveis. O risco está no comportamento que pode mudar silenciosamente: recusas, latência, estrutura da resposta e retenção de dados.

A resposta prática é: fixe modelos, capture baselines, adicione asserções, teste recusas e use mocks para manter seu CI previsível. Baixe o Apidog e substitua “acho que ainda funciona” por “eu testei e tenho evidência”.

DEV Community