Lucas

Posted on Jun 10 • Originally published at apidog.com

Claude Fable 5 Preços: Análise Completa de Custos (2026)

O preço do Claude Fable 5 começa em $10 por milhão de tokens de entrada e $50 por milhão de tokens de saída na API da Anthropic. Para integrar o modelo em produção, trate o custo como uma função direta de tokens enviados e gerados. Este guia mostra as taxas da API, o impacto nos planos Pro e Max, exemplos com aritmética real e formas práticas de reduzir gastos ao usar o Fable 5 em aplicações, agentes e fluxos de desenvolvimento.

Experimente o Apidog hoje

TL;DR

O Claude Fable 5 custa:

Entrada: $10 por 1 milhão de tokens
Saída: $50 por 1 milhão de tokens
Modelo da API: claude-fable-5

De 9 de junho a 22 de junho de 2026, ele está incluído gratuitamente nos planos Pro, Max, Team e Enterprise baseados em assentos. A partir de 23 de junho de 2026, o uso nesses planos passa a consumir créditos medidos nas mesmas taxas de token da API.

Preço do Claude Fable 5 em resumo

Use esta tabela para estimar rapidamente o custo de uma chamada:

Tipo de token	Preço por 1M tokens	Preço por 1K tokens	O que conta
Entrada	$10.00	$0.01	Prompt, mensagem do sistema, histórico, contexto, documentos e definições de ferramentas
Saída	$50.00	$0.05	Resposta gerada, raciocínio produzido e argumentos de chamadas de ferramenta

A fórmula básica é:

custo = (tokens_entrada / 1_000_000) * 10
      + (tokens_saida / 1_000_000) * 50

Exemplo rápido:

Entrada: 2.000 tokens * $10 / 1.000.000 = $0.02
Saída:     600 tokens * $50 / 1.000.000 = $0.03
Total: $0.05

O ID do modelo é:

claude-fable-5

Os tokens de saída custam 5x mais que os tokens de entrada. Isso significa que controlar o tamanho das respostas costuma ter impacto direto no custo.

Você pode confirmar as taxas atuais na página de preços da Anthropic e na documentação de modelos e preços. Para comparação com modelos mais baratos, veja também o guia sobre Claude Opus 4.8.

O que você paga na API

A Anthropic cobra separadamente por tokens de entrada e tokens de saída.

Tokens de entrada

Tokens de entrada incluem tudo que você envia ao modelo:

prompt do usuário
mensagem do sistema
histórico de conversa
documentos recuperados
contexto de código
definições de ferramentas
JSON de chamadas e schemas

Eles custam:

$10 por 1M tokens
$0.01 por 1K tokens

Tokens de saída

Tokens de saída incluem tudo que o modelo gera:

resposta final
texto intermediário produzido
argumentos de tool calls
raciocínio gerado pelo modelo, quando aplicável

Eles custam:

$50 por 1M tokens
$0.05 por 1K tokens

Não há uma taxa fixa adicional por requisição. O custo total é a soma dos tokens de entrada e saída em cada chamada.

A Anthropic posiciona o Fable 5 como “menos da metade do preço do Claude Mythos Preview”. O modelo irmão restrito, Claude Mythos 5, tem a mesma taxa de $10 de entrada e $50 de saída, então alternar entre esses dois modelos não muda o custo por token.

Se você precisa entender as capacidades antes de estimar orçamento, veja o que é o Claude Fable 5.

Inclusão no plano vs. créditos de uso

O preço da API é direto, mas os planos de assinatura seguem uma janela específica.

De 9 a 22 de junho de 2026

O Claude Fable 5 está incluído sem custo adicional nos planos:

Pro
Max
Team
Enterprise baseado em assentos

Durante esse período, o uso do modelo não consome saldo medido nesses planos.

A partir de 23 de junho de 2026

O Fable 5 deixa de fazer parte do conjunto incluído nesses planos. Depois dessa data, o uso passa a consumir créditos medidos nas mesmas taxas da API:

Entrada: $10 / 1M tokens
Saída:   $50 / 1M tokens

A Anthropic informou que planeja restaurar algum acesso padrão ao plano quando a capacidade permitir, mas o comportamento que você deve usar para orçamento é o de cobrança medida.

Planos Enterprise baseados em consumo

Nos planos Enterprise baseados em consumo, o Fable 5 está disponível desde o lançamento e já é cobrado por uso.

Se sua dúvida for sobre acesso, não apenas faturamento, veja como acessar o Claude Fable 5.

Exemplos práticos de custo

A fórmula será sempre:

(tokens_entrada / 1.000.000) * 10
+
(tokens_saida / 1.000.000) * 50

Exemplo 1: turno de chatbot de suporte

Cenário:

1.500 tokens de entrada
500 tokens de saída

Cálculo:

Entrada: 1.500 / 1.000.000 * $10 = $0.015
Saída:     500 / 1.000.000 * $50 = $0.025

Total: $0.04 por turno

Se o chatbot processar 1.000 turnos por dia:

1.000 * $0.04 = $40/dia

Estimativa mensal:

$40 * 30 = $1.200/mês

Exemplo 2: geração de código

Cenário:

8.000 tokens de entrada
3.000 tokens de saída

Esse caso pode incluir arquivo atual, trechos relacionados, instruções e resposta com explicação.

Cálculo:

Entrada: 8.000 / 1.000.000 * $10 = $0.08
Saída:   3.000 / 1.000.000 * $50 = $0.15

Total: $0.23 por solicitação

Mesmo com mais tokens de entrada, a saída domina o custo:

$0.15 de $0.23 vêm da saída

Por isso, limitar respostas longas é uma das otimizações mais efetivas.

Exemplo 3: agente com contexto grande

Cenário:

300.000 tokens de entrada
50.000 tokens de saída

Esse padrão aparece em agentes que leem bases de código, documentos ou executam várias etapas.

Cálculo:

Entrada: 300.000 / 1.000.000 * $10 = $3.00
Saída:    50.000 / 1.000.000 * $50 = $2.50

Total: $5.50 por execução

Se uma equipe executar isso 200 vezes por dia:

200 * $5.50 = $1.100/dia

Esse é o tipo de carga em que cache de prompts pode reduzir bastante o custo.

Como reduzir sua conta do Claude Fable 5

Depois de decidir usar o Fable 5, aplique estas otimizações no design da aplicação.

1. Use cache de prompts para contexto estável

Leituras do cache custam cerca de 0,1x o preço de entrada. Isso reduz a entrada em cache para aproximadamente:

$1 por 1M tokens

Gravações no cache custam cerca de 1,25x o preço de entrada, aproximadamente:

$12.50 por 1M tokens para TTL de 5 minutos

Cache compensa quando o mesmo contexto é reutilizado várias vezes.

No exemplo do agente:

entrada total: 300.000 tokens
contexto estável em cache: 250.000 tokens
entrada nova: 50.000 tokens
saída: 50.000 tokens

Sem cache:

Entrada: $3.00
Saída:   $2.50
Total:   $5.50

Com cache:

250.000 tokens em cache * $1 / 1.000.000  = $0.25
50.000 tokens novos * $10 / 1.000.000    = $0.50
50.000 tokens saída * $50 / 1.000.000    = $2.50

Total: $3.25

2. Use a API de Lotes para tarefas assíncronas

Para trabalhos que não precisam de resposta imediata, como:

classificação em massa
processamento noturno de documentos
extração de dados
análise de logs
enriquecimento de registros

A API de Lotes oferece cerca de 50% de desconto.

Isso transforma aproximadamente:

Entrada: $10 -> $5 por 1M tokens
Saída:   $50 -> $25 por 1M tokens

Se a tarefa tolera atraso, use lote por padrão.

3. Escolha o modelo certo por tipo de tarefa

Nem toda requisição precisa do Fable 5.

Use roteamento por complexidade:

Tarefa simples        -> modelo mais barato
Tarefa de rotina      -> Opus 4.8, Sonnet 4.6 ou Haiku 4.5
Tarefa difícil        -> Fable 5
Raciocínio complexo   -> Fable 5

Um roteador simples pode usar regras como:

function escolherModelo({ tipo, criticidade, tamanhoContexto }) {
  if (criticidade === "alta") return "claude-fable-5";
  if (tipo === "raciocinio_complexo") return "claude-fable-5";
  if (tamanhoContexto > 100_000) return "claude-fable-5";

  return "modelo-mais-barato";
}

Se 80% do tráfego for roteado para modelos mais baratos, a conta total pode cair significativamente.

4. Defina `max_tokens` com limite realista

Como saída custa $50 por milhão de tokens, evite deixar a geração aberta.

Exemplo de configuração:

{
  "model": "claude-fable-5",
  "max_tokens": 800,
  "messages": [
    {
      "role": "user",
      "content": "Resuma este documento em até 10 bullet points."
    }
  ]
}

Se uma resposta cair de 3.000 para 1.500 tokens:

3.000 tokens de saída = $0.15
1.500 tokens de saída = $0.075

Você reduz pela metade o custo de saída dessa chamada.

5. Peça formatos de resposta curtos

Se você precisa de JSON, peça apenas os campos necessários.

Evite:

Explique em detalhes sua resposta e depois retorne um JSON completo.

Prefira:

Retorne apenas JSON válido, sem explicações.
Use somente os campos: status, score, reason.
Limite reason a 240 caracteres.

Isso reduz tokens de saída e melhora previsibilidade.

6. Use streaming para interromper respostas cedo

Streaming não muda o preço por token, mas permite parar a geração quando você já tem o necessário.

Isso é útil para:

interfaces de chat
respostas longas
geração de código
depuração interativa
agentes com passos intermediários

Combine streaming com max_tokens para evitar respostas maiores que o necessário.

Rastreie os gastos do Claude Fable 5 com Apidog

A forma mais prática de controlar custo durante o desenvolvimento é observar o uso de tokens em cada requisição, não apenas na fatura do fim do mês.

O Apidog é um cliente de API que você pode usar para enviar solicitações à API da Anthropic e inspecionar a resposta retornada.

Ao chamar claude-fable-5, verifique o objeto usage na resposta:

{
  "usage": {
    "input_tokens": 1500,
    "output_tokens": 500
  }
}

Calcule o custo da chamada assim:

const inputTokens = 1500;
const outputTokens = 500;

const custo =
  inputTokens * 0.00001 +
  outputTokens * 0.00005;

console.log(custo); // 0.04

Ou como função reutilizável:

function calcularCustoFable5({ inputTokens, outputTokens }) {
  const precoEntradaPorToken = 10 / 1_000_000;
  const precoSaidaPorToken = 50 / 1_000_000;

  return (
    inputTokens * precoEntradaPorToken +
    outputTokens * precoSaidaPorToken
  );
}

console.log(
  calcularCustoFable5({
    inputTokens: 8000,
    outputTokens: 3000
  })
); // 0.23

Um fluxo de trabalho prático:

Configure a requisição da API da Anthropic no Apidog.
Use o modelo claude-fable-5.
Salve prompts representativos como exemplos.
Execute variações do prompt.
Compare input_tokens e output_tokens.
Ajuste mensagem do sistema, contexto e formato de saída.
Defina max_tokens com base nos resultados reais.

Isso mostra rapidamente quando uma mudança no prompt aumenta centenas ou milhares de tokens.

Você pode baixar o Apidog e combinar com o guia da API do Claude Fable 5 para configurar a estrutura da requisição. Se estiver controlando orçamento durante a janela de inclusão, veja também como usar o Claude Fable 5 gratuitamente.

O Apidog também mantém histórico de solicitações, o que ajuda a comparar chamadas anteriores e estimar o custo de novos recursos. Tratar o Apidog como camada de inspeção de custos durante o desenvolvimento evita surpresas quando o tráfego cresce.

Checklist de implementação

Antes de colocar o Claude Fable 5 em produção, valide:

[ ] Você está usando o modelo claude-fable-5.
[ ] Cada chamada registra input_tokens e output_tokens.
[ ] O custo por chamada é calculado no ambiente de teste.
[ ] max_tokens está limitado por caso de uso.
[ ] Prompts pedem respostas concisas.
[ ] Contexto estável usa cache de prompts quando possível.
[ ] Tarefas assíncronas usam API de Lotes.
[ ] Chamadas simples são roteadas para modelos mais baratos.
[ ] Estimativas mensais usam as taxas de $10/$50, não apenas a janela gratuita.

Conclusão

O preço do Claude Fable 5 se resume a dois números:

Entrada: $10 por 1M tokens
Saída:   $50 por 1M tokens

A janela gratuita nos planos Pro, Max, Team e Enterprise baseados em assentos vai até 22 de junho de 2026. A partir de 23 de junho de 2026, o uso passa a consumir créditos medidos.

Para controlar custo em produção, meça tokens por requisição, limite a saída, use cache para contexto repetido, processe cargas assíncronas em lote e roteie tarefas simples para modelos mais baratos. O próximo passo é enviar uma requisição real para claude-fable-5, ler o objeto usage e calcular o custo com dados reais. Você pode baixar o Apidog para fazer essa primeira chamada e acompanhar o custo durante a iteração.

DEV Community

Claude Fable 5 Preços: Análise Completa de Custos (2026)

TL;DR

Preço do Claude Fable 5 em resumo

O que você paga na API

Tokens de entrada

Tokens de saída

Inclusão no plano vs. créditos de uso

De 9 a 22 de junho de 2026

A partir de 23 de junho de 2026

Planos Enterprise baseados em consumo

Exemplos práticos de custo

Exemplo 1: turno de chatbot de suporte

Exemplo 2: geração de código

Exemplo 3: agente com contexto grande

Como reduzir sua conta do Claude Fable 5

1. Use cache de prompts para contexto estável

2. Use a API de Lotes para tarefas assíncronas

3. Escolha o modelo certo por tipo de tarefa

4. Defina `max_tokens` com limite realista

5. Peça formatos de resposta curtos

6. Use streaming para interromper respostas cedo

Rastreie os gastos do Claude Fable 5 com Apidog

Checklist de implementação

Conclusão

Top comments (0)

TL;DR

Preço do Claude Fable 5 em resumo

O que você paga na API

Tokens de entrada

Tokens de saída

Inclusão no plano vs. créditos de uso

De 9 a 22 de junho de 2026

A partir de 23 de junho de 2026

Planos Enterprise baseados em consumo

Exemplos práticos de custo

Exemplo 1: turno de chatbot de suporte

Exemplo 2: geração de código

Exemplo 3: agente com contexto grande

Como reduzir sua conta do Claude Fable 5

1. Use cache de prompts para contexto estável

2. Use a API de Lotes para tarefas assíncronas

3. Escolha o modelo certo por tipo de tarefa

4. Defina max_tokens com limite realista

5. Peça formatos de resposta curtos

6. Use streaming para interromper respostas cedo

Rastreie os gastos do Claude Fable 5 com Apidog

Checklist de implementação

Conclusão

4. Defina `max_tokens` com limite realista