O preço do Claude Fable 5 começa em $10 por milhão de tokens de entrada e $50 por milhão de tokens de saída na API da Anthropic. Para integrar o modelo em produção, trate o custo como uma função direta de tokens enviados e gerados. Este guia mostra as taxas da API, o impacto nos planos Pro e Max, exemplos com aritmética real e formas práticas de reduzir gastos ao usar o Fable 5 em aplicações, agentes e fluxos de desenvolvimento.
TL;DR
O Claude Fable 5 custa:
- Entrada: $10 por 1 milhão de tokens
- Saída: $50 por 1 milhão de tokens
-
Modelo da API:
claude-fable-5
De 9 de junho a 22 de junho de 2026, ele está incluído gratuitamente nos planos Pro, Max, Team e Enterprise baseados em assentos. A partir de 23 de junho de 2026, o uso nesses planos passa a consumir créditos medidos nas mesmas taxas de token da API.
Preço do Claude Fable 5 em resumo
Use esta tabela para estimar rapidamente o custo de uma chamada:
| Tipo de token | Preço por 1M tokens | Preço por 1K tokens | O que conta |
|---|---|---|---|
| Entrada | $10.00 | $0.01 | Prompt, mensagem do sistema, histórico, contexto, documentos e definições de ferramentas |
| Saída | $50.00 | $0.05 | Resposta gerada, raciocínio produzido e argumentos de chamadas de ferramenta |
A fórmula básica é:
custo = (tokens_entrada / 1_000_000) * 10
+ (tokens_saida / 1_000_000) * 50
Exemplo rápido:
Entrada: 2.000 tokens * $10 / 1.000.000 = $0.02
Saída: 600 tokens * $50 / 1.000.000 = $0.03
Total: $0.05
O ID do modelo é:
claude-fable-5
Os tokens de saída custam 5x mais que os tokens de entrada. Isso significa que controlar o tamanho das respostas costuma ter impacto direto no custo.
Você pode confirmar as taxas atuais na página de preços da Anthropic e na documentação de modelos e preços. Para comparação com modelos mais baratos, veja também o guia sobre Claude Opus 4.8.
O que você paga na API
A Anthropic cobra separadamente por tokens de entrada e tokens de saída.
Tokens de entrada
Tokens de entrada incluem tudo que você envia ao modelo:
- prompt do usuário
- mensagem do sistema
- histórico de conversa
- documentos recuperados
- contexto de código
- definições de ferramentas
- JSON de chamadas e schemas
Eles custam:
$10 por 1M tokens
$0.01 por 1K tokens
Tokens de saída
Tokens de saída incluem tudo que o modelo gera:
- resposta final
- texto intermediário produzido
- argumentos de tool calls
- raciocínio gerado pelo modelo, quando aplicável
Eles custam:
$50 por 1M tokens
$0.05 por 1K tokens
Não há uma taxa fixa adicional por requisição. O custo total é a soma dos tokens de entrada e saída em cada chamada.
A Anthropic posiciona o Fable 5 como “menos da metade do preço do Claude Mythos Preview”. O modelo irmão restrito, Claude Mythos 5, tem a mesma taxa de $10 de entrada e $50 de saída, então alternar entre esses dois modelos não muda o custo por token.
Se você precisa entender as capacidades antes de estimar orçamento, veja o que é o Claude Fable 5.
Inclusão no plano vs. créditos de uso
O preço da API é direto, mas os planos de assinatura seguem uma janela específica.
De 9 a 22 de junho de 2026
O Claude Fable 5 está incluído sem custo adicional nos planos:
- Pro
- Max
- Team
- Enterprise baseado em assentos
Durante esse período, o uso do modelo não consome saldo medido nesses planos.
A partir de 23 de junho de 2026
O Fable 5 deixa de fazer parte do conjunto incluído nesses planos. Depois dessa data, o uso passa a consumir créditos medidos nas mesmas taxas da API:
Entrada: $10 / 1M tokens
Saída: $50 / 1M tokens
A Anthropic informou que planeja restaurar algum acesso padrão ao plano quando a capacidade permitir, mas o comportamento que você deve usar para orçamento é o de cobrança medida.
Planos Enterprise baseados em consumo
Nos planos Enterprise baseados em consumo, o Fable 5 está disponível desde o lançamento e já é cobrado por uso.
Se sua dúvida for sobre acesso, não apenas faturamento, veja como acessar o Claude Fable 5.
Exemplos práticos de custo
A fórmula será sempre:
(tokens_entrada / 1.000.000) * 10
+
(tokens_saida / 1.000.000) * 50
Exemplo 1: turno de chatbot de suporte
Cenário:
- 1.500 tokens de entrada
- 500 tokens de saída
Cálculo:
Entrada: 1.500 / 1.000.000 * $10 = $0.015
Saída: 500 / 1.000.000 * $50 = $0.025
Total: $0.04 por turno
Se o chatbot processar 1.000 turnos por dia:
1.000 * $0.04 = $40/dia
Estimativa mensal:
$40 * 30 = $1.200/mês
Exemplo 2: geração de código
Cenário:
- 8.000 tokens de entrada
- 3.000 tokens de saída
Esse caso pode incluir arquivo atual, trechos relacionados, instruções e resposta com explicação.
Cálculo:
Entrada: 8.000 / 1.000.000 * $10 = $0.08
Saída: 3.000 / 1.000.000 * $50 = $0.15
Total: $0.23 por solicitação
Mesmo com mais tokens de entrada, a saída domina o custo:
$0.15 de $0.23 vêm da saída
Por isso, limitar respostas longas é uma das otimizações mais efetivas.
Exemplo 3: agente com contexto grande
Cenário:
- 300.000 tokens de entrada
- 50.000 tokens de saída
Esse padrão aparece em agentes que leem bases de código, documentos ou executam várias etapas.
Cálculo:
Entrada: 300.000 / 1.000.000 * $10 = $3.00
Saída: 50.000 / 1.000.000 * $50 = $2.50
Total: $5.50 por execução
Se uma equipe executar isso 200 vezes por dia:
200 * $5.50 = $1.100/dia
Esse é o tipo de carga em que cache de prompts pode reduzir bastante o custo.
Como reduzir sua conta do Claude Fable 5
Depois de decidir usar o Fable 5, aplique estas otimizações no design da aplicação.
1. Use cache de prompts para contexto estável
Leituras do cache custam cerca de 0,1x o preço de entrada. Isso reduz a entrada em cache para aproximadamente:
$1 por 1M tokens
Gravações no cache custam cerca de 1,25x o preço de entrada, aproximadamente:
$12.50 por 1M tokens para TTL de 5 minutos
Cache compensa quando o mesmo contexto é reutilizado várias vezes.
No exemplo do agente:
- entrada total: 300.000 tokens
- contexto estável em cache: 250.000 tokens
- entrada nova: 50.000 tokens
- saída: 50.000 tokens
Sem cache:
Entrada: $3.00
Saída: $2.50
Total: $5.50
Com cache:
250.000 tokens em cache * $1 / 1.000.000 = $0.25
50.000 tokens novos * $10 / 1.000.000 = $0.50
50.000 tokens saída * $50 / 1.000.000 = $2.50
Total: $3.25
2. Use a API de Lotes para tarefas assíncronas
Para trabalhos que não precisam de resposta imediata, como:
- classificação em massa
- processamento noturno de documentos
- extração de dados
- análise de logs
- enriquecimento de registros
A API de Lotes oferece cerca de 50% de desconto.
Isso transforma aproximadamente:
Entrada: $10 -> $5 por 1M tokens
Saída: $50 -> $25 por 1M tokens
Se a tarefa tolera atraso, use lote por padrão.
3. Escolha o modelo certo por tipo de tarefa
Nem toda requisição precisa do Fable 5.
Use roteamento por complexidade:
Tarefa simples -> modelo mais barato
Tarefa de rotina -> Opus 4.8, Sonnet 4.6 ou Haiku 4.5
Tarefa difícil -> Fable 5
Raciocínio complexo -> Fable 5
Um roteador simples pode usar regras como:
function escolherModelo({ tipo, criticidade, tamanhoContexto }) {
if (criticidade === "alta") return "claude-fable-5";
if (tipo === "raciocinio_complexo") return "claude-fable-5";
if (tamanhoContexto > 100_000) return "claude-fable-5";
return "modelo-mais-barato";
}
Se 80% do tráfego for roteado para modelos mais baratos, a conta total pode cair significativamente.
4. Defina max_tokens com limite realista
Como saída custa $50 por milhão de tokens, evite deixar a geração aberta.
Exemplo de configuração:
{
"model": "claude-fable-5",
"max_tokens": 800,
"messages": [
{
"role": "user",
"content": "Resuma este documento em até 10 bullet points."
}
]
}
Se uma resposta cair de 3.000 para 1.500 tokens:
3.000 tokens de saída = $0.15
1.500 tokens de saída = $0.075
Você reduz pela metade o custo de saída dessa chamada.
5. Peça formatos de resposta curtos
Se você precisa de JSON, peça apenas os campos necessários.
Evite:
Explique em detalhes sua resposta e depois retorne um JSON completo.
Prefira:
Retorne apenas JSON válido, sem explicações.
Use somente os campos: status, score, reason.
Limite reason a 240 caracteres.
Isso reduz tokens de saída e melhora previsibilidade.
6. Use streaming para interromper respostas cedo
Streaming não muda o preço por token, mas permite parar a geração quando você já tem o necessário.
Isso é útil para:
- interfaces de chat
- respostas longas
- geração de código
- depuração interativa
- agentes com passos intermediários
Combine streaming com max_tokens para evitar respostas maiores que o necessário.
Rastreie os gastos do Claude Fable 5 com Apidog
A forma mais prática de controlar custo durante o desenvolvimento é observar o uso de tokens em cada requisição, não apenas na fatura do fim do mês.
O Apidog é um cliente de API que você pode usar para enviar solicitações à API da Anthropic e inspecionar a resposta retornada.
Ao chamar claude-fable-5, verifique o objeto usage na resposta:
{
"usage": {
"input_tokens": 1500,
"output_tokens": 500
}
}
Calcule o custo da chamada assim:
const inputTokens = 1500;
const outputTokens = 500;
const custo =
inputTokens * 0.00001 +
outputTokens * 0.00005;
console.log(custo); // 0.04
Ou como função reutilizável:
function calcularCustoFable5({ inputTokens, outputTokens }) {
const precoEntradaPorToken = 10 / 1_000_000;
const precoSaidaPorToken = 50 / 1_000_000;
return (
inputTokens * precoEntradaPorToken +
outputTokens * precoSaidaPorToken
);
}
console.log(
calcularCustoFable5({
inputTokens: 8000,
outputTokens: 3000
})
); // 0.23
Um fluxo de trabalho prático:
- Configure a requisição da API da Anthropic no Apidog.
- Use o modelo
claude-fable-5. - Salve prompts representativos como exemplos.
- Execute variações do prompt.
- Compare
input_tokenseoutput_tokens. - Ajuste mensagem do sistema, contexto e formato de saída.
- Defina
max_tokenscom base nos resultados reais.
Isso mostra rapidamente quando uma mudança no prompt aumenta centenas ou milhares de tokens.
Você pode baixar o Apidog e combinar com o guia da API do Claude Fable 5 para configurar a estrutura da requisição. Se estiver controlando orçamento durante a janela de inclusão, veja também como usar o Claude Fable 5 gratuitamente.
O Apidog também mantém histórico de solicitações, o que ajuda a comparar chamadas anteriores e estimar o custo de novos recursos. Tratar o Apidog como camada de inspeção de custos durante o desenvolvimento evita surpresas quando o tráfego cresce.
Checklist de implementação
Antes de colocar o Claude Fable 5 em produção, valide:
- [ ] Você está usando o modelo
claude-fable-5. - [ ] Cada chamada registra
input_tokenseoutput_tokens. - [ ] O custo por chamada é calculado no ambiente de teste.
- [ ]
max_tokensestá limitado por caso de uso. - [ ] Prompts pedem respostas concisas.
- [ ] Contexto estável usa cache de prompts quando possível.
- [ ] Tarefas assíncronas usam API de Lotes.
- [ ] Chamadas simples são roteadas para modelos mais baratos.
- [ ] Estimativas mensais usam as taxas de $10/$50, não apenas a janela gratuita.
Conclusão
O preço do Claude Fable 5 se resume a dois números:
Entrada: $10 por 1M tokens
Saída: $50 por 1M tokens
A janela gratuita nos planos Pro, Max, Team e Enterprise baseados em assentos vai até 22 de junho de 2026. A partir de 23 de junho de 2026, o uso passa a consumir créditos medidos.
Para controlar custo em produção, meça tokens por requisição, limite a saída, use cache para contexto repetido, processe cargas assíncronas em lote e roteie tarefas simples para modelos mais baratos. O próximo passo é enviar uma requisição real para claude-fable-5, ler o objeto usage e calcular o custo com dados reais. Você pode baixar o Apidog para fazer essa primeira chamada e acompanhar o custo durante a iteração.


Top comments (0)