Lucas

Posted on Apr 24 • Originally published at apidog.com

Preços da API DeepSeek V4

DeepSeek publicou os preços do V4 no mesmo dia em que os modelos foram lançados, 23 de abril de 2026, redefinindo o patamar para IA de ponta. O V4-Flash opera a $0.14 por milhão de tokens de entrada e $0.28 por milhão de tokens de saída, enquanto o V4-Pro opera a $1.74 de entrada e $3.48 de saída. Ambos oferecem uma janela de contexto de 1M de tokens e até 384K tokens de saída, além de desconto agressivo por acerto de cache que reduz os custos de entrada em 80% a 90% em prompts repetidos.

Experimente o Apidog hoje

Este guia mostra a tabela completa de preços, como o cache de contexto altera o custo real por chamada, comparação com GPT-5.5 e Claude Opus, e quatro práticas para manter os gastos previsíveis usando o Apidog.

Para visão geral do produto, veja o que é DeepSeek V4. Para guia do desenvolvedor, veja como usar a API DeepSeek V4. Para caminhos gratuitos, veja como usar o DeepSeek V4 gratuitamente.

Resumo

V4-Flash: $0.14 / M de entrada (cache miss), $0.028 / M de entrada (cache hit), $0.28 / M de saída.
V4-Pro: $1.74 / M de entrada (cache miss), $0.145 / M de entrada (cache hit), $3.48 / M de saída.
Janela de contexto: 1M de tokens de entrada, 384K de tokens de saída.
Desconto por acerto de cache: aproximadamente 80% de desconto no Flash, 92% de desconto no Pro em prefixos repetidos.
deepseek-chat e deepseek-reasoner serão descontinuados em 24 de julho de 2026; cobrança mapeia para V4-Flash.
Com taxas de cache miss, o V4-Pro é ~2.9x mais barato que o GPT-5.5 na entrada e ~8.6x mais barato na saída.

A tabela de preços completa

Modelo	Entrada (cache miss)	Entrada (cache hit)	Saída	Contexto
`deepseek-v4-flash`	$0.14 / M	$0.028 / M	$0.28 / M	1M / 384K
`deepseek-v4-pro`	$1.74 / M	$0.145 / M	$3.48 / M	1M / 384K
`deepseek-chat` (descontinuado em 24/07/2026)	mapeia para V4-Flash sem raciocínio	—	—	—
`deepseek-reasoner` (descontinuado em 24/07/2026)	mapeia para V4-Flash com raciocínio	—	—	—

Três pontos práticos sobre a precificação:

Os preços são iguais, independentemente do uso de raciocínio. O ID do modelo define a taxa; o modo de raciocínio só altera o volume de tokens.
O desconto por acerto de cache é automático: qualquer chamada com prefixo repetido (mínimo 1.024 tokens, byte a byte) na mesma conta já obtém o desconto, sem necessidade de configuração.
Os IDs antigos deepseek-chat e deepseek-reasoner agora são aliases do V4-Flash. Se você não migrou, já está usando V4-Flash com os mesmos preços.

Cache de contexto na prática

O cache é a principal ferramenta para redução de custo no DeepSeek V4. Qualquer trecho repetido entre chamadas (prompts de sistema, esquemas de ferramentas, contexto RAG) paga só uma fração do valor nas execuções seguintes.

Exemplo prático:

Prompt de sistema fixo: 20.000 tokens
100 perguntas de usuário (200 tokens cada)

Sem cache:

Entrada: 100 × 20.200 × $1.74 / M = $3.52
Saída: 100 × 500 × $3.48 / M = $0.17
Total: $3.69

Com cache (após a primeira chamada):

Entrada da primeira chamada: 20.200 × $1.74 / M = $0.035
Próximos 99 prefixos com cache hit: 99 × 20.000 × $0.145 / M = $0.287
Turnos de usuário (cache miss): 99 × 200 × $1.74 / M = $0.034
Saída: 100 × 500 × $3.48 / M = $0.174
Total: $0.53

Ganho: 7x mais barato. No V4-Flash, o efeito é ainda mais expressivo.

Comparação com GPT-5.5 e Claude

A tabela abaixo facilita a comparação direta:

Modelo	Entrada (padrão)	Entrada (em cache)	Saída	Contexto
DeepSeek V4-Flash	$0.14 / M	$0.028 / M	$0.28 / M	1M
DeepSeek V4-Pro	$1.74 / M	$0.145 / M	$3.48 / M	1M
GPT-5.5	$5 / M	$1.25 / M	$30 / M	1M
GPT-5.5 Pro	$30 / M	—	$180 / M	1M
Claude Opus 4.6	$15 / M	$1.50 / M	$75 / M	200K

Destaques práticos:

V4-Pro é ~8.6x mais barato que GPT-5.5 em tokens de saída e 21x mais barato que Claude Opus 4.6.
Em entrada cacheada, V4-Pro é ~10x mais barato que GPT-5.5/Claude para prompts longos e contextos repetidos.
Performance: V4-Pro alcança ou supera GPT-5.5 em benchmarks de código (LiveCodeBench e Codeforces), custando uma fração do preço.
- Veja benchmarks completos.

Atenção: Claude ainda vence em recuperação de contexto longo e Gemini 3.1 Pro lidera o MMLU-Pro. Se sua aplicação depende de recuperação avançada em contexto extenso, teste antes de migrar.

Modelagem de custos para workloads comuns

Quatro padrões cobrem a maioria dos casos de uso. Veja o cálculo prático no V4-Pro (sem cache):

1. Loop de codificação de agente (50K contexto, 2K saída, 20 execuções)

Entrada: 50.000 × 20 × $1.74 / M = $1.74
Saída: 2.000 × 20 × $3.48 / M = $0.14
Custo por tarefa: ~$1.88

No GPT-5.5: ~$6.20 por tarefa.

2. Perguntas e Respostas em documentos longos (500K contexto, 1K saída)

Entrada: 500.000 × $1.74 / M = $0.87
Saída: 1.000 × $3.48 / M = $0.003
Custo por chamada: ~$0.87

No GPT-5.5: ~$2.53 por chamada.

3. Classificação de alto volume (2K contexto, 200 saída, 10.000 execuções)

Use V4-Flash para este caso.

Entrada: 2.000 × 10.000 × $0.14 / M = $2.80
Saída: 200 × 10.000 × $0.28 / M = $0.56
Custo total: ~$3.36

No GPT-5.5: ~$110.

4. Chatbot com prompt repetido (10K prompt, 500 tokens usuário, 1K saída, 1.000 sessões)

Entrada da primeira chamada: 10.500 × $1.74 / M = $0.018
Entrada com cache: 999 × 10.000 × $0.145 / M = $1.45
Usuário (cache miss): 999 × 500 × $1.74 / M = $0.87
Saída: 1.000 × 1.000 × $3.48 / M = $3.48
Custo total: ~$5.82

No GPT-5.5 com cache: ~$26.35.

Custos ocultos: o que monitorar

Após o primeiro mês, quatro fatores impactam o orçamento:

Inflação de tokens em raciocínio: thinking_max pode consumir de 3x a 10x mais tokens de saída. Controle via flag.
Crescimento silencioso do contexto: Loops de agente realimentam toda a conversa. Trunque ou resuma agressivamente.
Tempestades de retry: Bugs podem dobrar custos rapidamente. Implemente backoff exponencial e limite de tentativas.
Rotatividade de desenvolvimento: Testar prompts via curl reenvia todo o contexto. Com Apidog, variáveis e reexecuções são gratuitas.

Como monitorar custos no Apidog

Fluxo de trabalho recomendado:

Baixe o Apidog e armazene DEEPSEEK_API_KEY como variável secreta.
Salve uma requisição POST para https://api.deepseek.com/v1/chat/completions.
No painel de resposta, fixe usage.prompt_tokens, usage.completion_tokens e usage.reasoning_tokens. Veja o custo direto em cada chamada.
Parametrize model e thinking_mode para comparar V4-Flash vs V4-Pro e diferentes modos de raciocínio sem duplicar requests.
Espelhe a coleção para GPT-5.5 (veja o guia da API GPT-5.5). Assim, você compara ambos os provedores lado a lado.

Esse fluxo detecta cerca de 80% das surpresas de custo antes de chegarem na fatura.

Quatro regras para manter os gastos previsíveis

Use V4-Flash por padrão. Só migre ao V4-Pro quando a diferença de qualidade justificar.
Prefira Non-Think. Escale para Think High em tarefas complexas. Reserve Think Max para casos críticos.
Defina um limite para max_tokens. O teto de 384K é segurança, não objetivo. 2K atende a maioria das respostas reais.
Log de uso. Registre prompt_tokens, completion_tokens e reasoning_tokens por chamada. Alerta em picos de tokens de raciocínio previne custos inesperados.

FAQ

Existe um nível gratuito?

Não há API gratuita, mas novas contas podem receber crédito de teste. Para alternativas grátis, veja como usar o DeepSeek V4 gratuitamente.

Como funciona o desconto de cache?

Prefixos a partir de 1.024 tokens repetidos entre solicitações na mesma conta pagam a taxa reduzida. O cache é automático.

Modos de raciocínio custam mais?

A taxa por token é igual, mas modos de raciocínio consomem mais tokens. Monitore reasoning_tokens no retorno da API.

Os preços são estáveis?

DeepSeek pode alterar valores. Confira sempre a página oficial de preços antes de orçar.

A taxa de saída é igual entre V4-Pro e V4-Flash?

Não. V4-Pro cobra $3.48 / M na saída; V4-Flash $0.28 / M. O gap de 12.4x é a principal razão para usar o Flash padrão.

O endpoint Anthropic muda o preço?

Não. Tanto https://api.deepseek.com/anthropic quanto o endpoint OpenAI cobram as mesmas taxas.

DEV Community