Claude Opus 4.8 custa US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída no modo padrão. É a mesma taxa do Opus 4.7, então o upgrade não muda o preço base. O que muda sua fatura real são as escolhas de implementação: modo rápido, nível de effort, cache de prompt, Batch API e limites de saída.
Este guia mostra como estimar e reduzir custos na prática. Para uma visão geral do modelo, consulte o que é Claude Opus 4.8. Para começar a construir, consulte o guia da API.
Tabela de preços
| Modo | Entrada por 1M de tokens | Saída por 1M de tokens | Velocidade |
|---|---|---|---|
| Padrão | US$ 5 | US$ 25 | linha de base |
| Rápido | US$ 10 | US$ 50 | 2.5x mais rápido na saída |
Dois pontos importam para implementação:
- Tokens de saída custam 5x mais que tokens de entrada. Respostas longas pesam mais na fatura do que prompts longos.
- Modo rápido dobra o custo por token. Use apenas quando a latência afetar diretamente a experiência do usuário.
Você pode confirmar as taxas atuais na documentação de preços da Anthropic.
Quando usar o modo rápido
Use o modo padrão por padrão.
Use o modo rápido quando um usuário estiver esperando em tempo real, por exemplo:
- assistentes de codificação ao vivo;
- agentes interativos;
- chatbots com streaming visível;
- fluxos em que a latência é parte do produto.
Evite o modo rápido para:
- jobs em segundo plano;
- loops de agentes sem interação humana imediata;
- tarefas agendadas;
- pipelines de avaliação;
- processamento em lote.
Regra prática:
Usuário esperando agora? Considere modo rápido.
Job assíncrono? Use modo padrão.
Como o effort muda sua fatura
O parâmetro effort controla quantos tokens o Opus 4.8 gasta ao gerar a resposta, incluindo chamadas de ferramentas. Como tokens de saída são a parte mais cara, reduzir effort em tarefas simples reduz custo diretamente.
Níveis, do menor para o maior gasto:
| Nível | Uso recomendado |
|---|---|
low |
classificação, extração simples, respostas curtas |
medium |
tarefas gerais com equilíbrio entre custo e qualidade |
high |
padrão, respostas mais completas |
xhigh |
codificação, raciocínio profundo, uso mais intenso de ferramentas |
max |
sem restrições, maior gasto |
Exemplo de decisão:
Classificar ticket de suporte -> low
Resumir documento simples -> medium
Resolver bug em repositório -> xhigh
Exploração sem limite rígido de custo -> max
Uma tarefa de classificação em low pode consumir uma fração dos tokens de saída que consumiria em high. A taxa por token é a mesma, mas a quantidade de tokens muda.
O guia de esforço da Anthropic explica onde cada nível preserva qualidade. Na prática: não use high como padrão global sem medir.
Cenários de custo práticos
Os exemplos abaixo usam o preço padrão:
Entrada: US$ 5 / 1M tokens
Saída: US$ 25 / 1M tokens
São valores ilustrativos. Sua contagem real depende do prompt, resposta, ferramentas e nível de effort.
Cenário 1: interação de chatbot
Entrada:
1.000 tokens de entrada
500 tokens de saída
Cálculo:
Entrada = 1.000 / 1.000.000 x US$ 5 = US$ 0,005
Saída = 500 / 1.000.000 x US$ 25 = US$ 0,0125
Total ≈ US$ 0,018 por interação
Otimização:
- use
lowoumediumpara respostas simples; - limite
max_tokens; - evite respostas desnecessariamente longas.
Com effort: low, a saída tende a diminuir, reduzindo o custo por interação.
Cenário 2: tarefa de codificação agêntica
Entrada:
50.000 tokens de contexto de repositório
8.000 tokens de saída em xhigh
Cálculo:
Entrada = 50.000 / 1.000.000 x US$ 5 = US$ 0,25
Saída = 8.000 / 1.000.000 x US$ 25 = US$ 0,20
Total ≈ US$ 0,45 por tarefa
Otimização:
- use
xhighapenas quando a tarefa realmente exigir raciocínio profundo; - faça cache do contexto repetido do repositório;
- limite o contexto ao que é relevante.
Se o contexto de 50K tokens se repetir em várias chamadas, o cache de prompt pode reduzir a parte de entrada para aproximadamente US$ 0,025, cortando o total para cerca de US$ 0,23.
Cenário 3: job em lote noturno
Entrada:
1.000.000 tokens de entrada
200.000 tokens de saída
Batch API com 50% de desconto
Cálculo:
Entrada = 1.000.000 / 1.000.000 x US$ 5 x 0,5 = US$ 2,50
Saída = 200.000 / 1.000.000 x US$ 25 x 0,5 = US$ 2,50
Total ≈ US$ 5,00 para todo o lote
Use esse padrão para tarefas que não precisam responder imediatamente.
Para comparar com modelos mais baratos, veja a análise de preços do Gemini 3.5 Flash e o custo da API Xiaomi MiMo v2.5.
Cache de prompt: onde a economia costuma ser maior
Se você envia o mesmo prompt de sistema, documento ou base de código em várias chamadas, está pagando repetidamente por tokens que não mudam.
O cache de prompt reduz esse custo:
1ª chamada: grava o cache
Chamadas seguintes: leem o conteúdo repetido por uma fração da taxa normal
A leitura de entrada em cache é cobrada a aproximadamente um décimo da taxa de entrada normal após a gravação inicial.
Use cache para:
- prompts de sistema longos;
- documentação fixa;
- bases de código;
- contratos;
- políticas internas;
- contexto compartilhado entre chamadas de um agente.
Exemplo de impacto:
Contexto repetido: 50K tokens
Sem cache:
cada chamada paga 50K tokens de entrada
Com cache:
a primeira chamada grava o cache
as próximas chamadas leem o mesmo contexto com custo muito menor
Quanto maior e mais repetido o contexto, maior a economia.
Batch API e grandes saídas
A Batch API é útil quando você não precisa de resposta em tempo real. Você envia um conjunto de requisições, recebe os resultados dentro da janela de lote e paga menos por token.
Use para:
- avaliações;
- sumarização em massa;
- rotulagem de dados;
- extração estruturada;
- pipelines assíncronos;
- processamento noturno.
Além do desconto, a Batch API aumenta o limite de saída. O Opus 4.8 suporta:
Endpoint síncrono: até 128K tokens de saída
Batch API: até 300K tokens de saída com o header beta output-300k-2026-03-24
Use a Batch API quando minutos de latência forem aceitáveis.
Preços do Opus entre gerações
O Opus 4.8 mantém o preço do Opus 4.7. A queda relevante aconteceu na geração 4.5.
| Modelo | Entrada por 1M | Saída por 1M |
|---|---|---|
| Opus 4.1 | US$ 15 | US$ 75 |
| Opus 4.5 | US$ 5 | US$ 25 |
| Opus 4.6 | US$ 5 | US$ 25 |
| Opus 4.7 | US$ 5 | US$ 25 |
| Opus 4.8 | US$ 5 | US$ 25 |
O preço caiu de US$ 15/US$ 75 para US$ 5/US$ 25 na geração 4.5 e permaneceu nesse nível. Ou seja: você obtém o Opus 4.8 com a taxa introduzida no 4.5.
Para comparação direta contra outros modelos de ponta, veja Opus 4.8 vs GPT-5.5 vs Gemini 3.5.
Checklist de otimização de custos
Antes de escalar o Opus 4.8 em produção, revise:
-
Defina
effortpor tarefa. Não usehighpara classificação simples nemxhighpara consulta trivial. - Faça cache de contexto repetido. Prompts de sistema, documentos e bases de código devem ser cacheados.
- Use Batch API para o que não é urgente. Mova avaliações e jobs em massa para processamento em lote.
-
Defina
max_tokenscom cuidado. Isso limita o pior caso de custo por chamada. - Use modo padrão por padrão. Ative modo rápido apenas quando houver usuário esperando.
- Monitore uso e limites. Limites de taxa e gasto evoluem juntos; a mudança nos limites semanais do Claude Code é um lembrete para acompanhar sua cota.
Uma política simples para produção:
default_mode = standard
default_effort = medium
classification_effort = low
coding_agent_effort = xhigh
batch_for_async_jobs = true
cache_repeated_context = true
Rastreie seus gastos reais com Apidog
Estimativas e custos reais divergem rápido em produção. Respostas variam em tamanho, chamadas de ferramentas mudam e diferentes níveis de effort alteram a saída.
A forma prática de medir é inspecionar o objeto usage retornado por cada resposta da Messages API. Ele informa contagens de tokens de entrada e saída por chamada.
O Apidog ajuda a tornar isso visível:
- envie uma solicitação real para o Opus 4.8;
- leia o bloco
usagena resposta; - compare tokens entre
low,highexhighusando o mesmo prompt; - salve requisições para cada carga de trabalho;
- reexecute os testes quando seus prompts mudarem;
- simule endpoints para desenvolver sem gastar tokens.
Fluxo recomendado:
1. Crie uma requisição para o endpoint de Mensagens.
2. Execute com effort = low.
3. Copie o usage.input_tokens e usage.output_tokens.
4. Repita com effort = high.
5. Repita com effort = xhigh.
6. Compare custo, latência e qualidade.
7. Escolha o menor effort que mantém a qualidade necessária.
Exemplo de cálculo a partir do usage:
input_tokens = 1200
output_tokens = 700
custo_entrada = 1200 / 1_000_000 * 5
custo_saida = 700 / 1_000_000 * 25
custo_total = custo_entrada + custo_saida
Execute o mesmo prompt em low, high e xhigh. As contagens de tokens mostram quanto cada nível custa antes de você padronizar isso em produção.
FAQ
Quanto custa o Claude Opus 4.8?
US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída no modo padrão. O modo rápido custa US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída.
O Opus 4.8 é mais caro que o Opus 4.7?
Não. As taxas por token são idênticas, então migrar do 4.7 para o 4.8 não muda o preço base.
Qual é a diferença entre modo padrão e modo rápido?
O modo rápido dobra a taxa por token em troca de saída transmitida cerca de 2.5x mais rápido. Use apenas quando a latência for importante para um usuário esperando em tempo real.
Como reduzo custos com o Opus 4.8?
Reduza effort em tarefas simples, armazene em cache conteúdo repetido, use Batch API para jobs não urgentes, limite max_tokens e monitore tokens de saída.
O cache de prompt realmente economiza dinheiro?
Sim. Após a primeira chamada gravar o cache, a entrada repetida é lida a aproximadamente um décimo da taxa de entrada normal. Agentes de longo contexto tendem a economizar mais.
Quantos tokens de saída o Opus 4.8 pode produzir?
Até 128K na API de Mensagens síncrona e até 300K pela Batch API com o header beta output-300k-2026-03-24.
Onde vejo o uso de tokens por chamada?
No objeto usage de cada resposta da Messages API. Ferramentas como o Apidog exibem esses dados para comparar custo entre níveis de effort.

Top comments (0)