A DeepSeek tornou permanente o desconto de 75% no DeepSeek-V4-Pro. A promoção, que terminaria em 31 de maio de 2026 às 15:59 UTC, virou preço de tabela: entrada a US$ 0,435 por milhão de tokens, saída a US$ 0,87 e acertos de cache a US$ 0,003625. Para quem mantém produtos com chamadas de LLM em produção, isso muda a conta de custo imediatamente.
TL;DR
- O preço da API DeepSeek-V4-Pro agora é permanente em 1/4 do valor original: US$ 0,435/MTok de entrada, US$ 0,87/MTok de saída e US$ 0,003625/MTok para acerto de cache.
- O desconto promocional de 75% não expira mais em 31 de maio de 2026. Sem reversão de preço.
- O V4-Pro fica aproximadamente 34x mais barato que o GPT-5.5 em tokens de saída, mantendo cerca de 95% do desempenho em muitos benchmarks públicos de codificação e raciocínio.
- O acerto de cache a US$ 0,003625/MTok é o ponto mais importante para agentes, RAG e prompts de sistema longos.
- Se você precificou recursos de IA usando GPT-5.5 ou Claude Opus 4.7 no último trimestre, vale refazer a estimativa de custo esta semana.
Por que isso importa para quem constrói APIs com LLM
Preços de LLM normalmente caem aos poucos. A DeepSeek fez diferente: rodou uma promoção agressiva em maio, viu adoção de desenvolvedores e decidiu manter o valor como preço permanente.
Se seu produto chama um LLM em caminho crítico — autocomplete, chat com RAG, revisão de código, agentes ou geração de conteúdo — a diferença entre US$ 3,48 e US$ 0,87 por milhão de tokens de saída aparece direto na fatura.
Exemplo rápido:
- Saída diária: 50 milhões de tokens
- Preço antigo: US$ 3,48/MTok
- Novo preço: US$ 0,87/MTok
Cálculo mensal aproximado:
Preço antigo:
50 MTok/dia × US$ 3,48 × 30 = US$ 5.220/mês
Preço novo:
50 MTok/dia × US$ 0,87 × 30 = US$ 1.305/mês
Economia:
US$ 3.915/mês
Construindo sobre o DeepSeek? O Apidog permite gerar, testar e monitorar chamadas de API V4-Pro em um único workspace, incluindo streaming, chamadas de ferramentas e validação de schema JSON.
Abaixo está o que mudou, como calcular impacto no seu produto e como testar uma migração com menor risco.
O que mudou no anúncio
O aviso oficial de preços da DeepSeek é curto, mas altera três pontos importantes:
O desconto de 75% virou permanente.
A promoção que iria até 31 de maio de 2026 às 15:59 UTC não será revertida. A tarifa promocional passa a ser a tarifa regular.O corte se aplica ao V4-Pro.
O DeepSeek-V4-Flash já era barato, com US$ 0,14/MTok de entrada e US$ 0,28/MTok de saída. O corte relevante agora está no modelo de nível mais alto. Para contexto, veja O que é DeepSeek V4.O preço de cache hit também caiu.
O acerto de cache foi reduzido para 1/10 do preço de lançamento, efetivo em 26 de abril de 2026 às 12:15 UTC. Combinado com o corte principal, o cache hit chega a US$ 0,003625/MTok.
Na prática, a DeepSeek está reduzindo a barreira para workloads com alto volume de inferência: agentes, copilotos, pipelines de RAG e automações com contexto longo.
Nova tabela de preços do DeepSeek-V4-Pro
Preços por 1 milhão de tokens, em USD:
| Tipo de token | Preço de tabela antigo | Novo preço permanente | Corte |
|---|---|---|---|
| Entrada, cache miss | US$ 1,74 | US$ 0,435 | 75% |
| Entrada, cache hit | US$ 0,0145 | US$ 0,003625 | 75% |
| Saída | US$ 3,48 | US$ 0,87 | 75% |
Pontos práticos:
- Tokens de saída tendem a dominar o custo em agentes, geração de código e respostas longas.
- A diferença entre cache miss e cache hit é enorme: aproximadamente 120:1.
- Prompts de sistema estáveis agora custam muito pouco quando o prefixo acerta o cache.
- Essas taxas se aplicam à API. O chat web da DeepSeek permanece gratuito para indivíduos.
Para mais detalhes sobre camadas de preço e trade-offs entre Flash e Pro, veja DeepSeek V4 API Pricing.
Comparação com GPT-5.5, Claude Opus 4.7 e Gemini 3.5 Flash
A comparação mais útil é contra os modelos usados em produção para tarefas de codificação, raciocínio e agentes.
| Modelo | Entrada, US$/MTok | Saída, US$/MTok | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro | US$ 0,435 | US$ 0,87 | 55,4% |
| GPT-5.5 | US$ 5,00 | US$ 30,00 | 58,6% |
| Claude Opus 4.7 | US$ 3,00 | US$ 15,00 | ~62% |
| Gemini 3.5 Flash | ~US$ 1,50 | ~US$ 9,00 | ~48% |
| DeepSeek-V4-Flash | US$ 0,14 | US$ 0,28 | ~42% |
Dois números importam:
- Em tokens de saída, o DeepSeek-V4-Pro é 34x mais barato que o GPT-5.5.
- Em benchmarks públicos, o V4-Pro fica entre 3 e 7 pontos percentuais do GPT-5.5 em muitas avaliações de codificação e raciocínio, segundo a comparação do DataCamp.
Isso não significa migrar tudo cegamente. Significa testar por rota:
- Use V4-Pro para tráfego comum e tarefas repetíveis.
- Mantenha modelos premium para casos críticos, planejamento complexo ou tarefas com maior risco.
- Use fallback quando a validação falhar.
Leituras relacionadas:
- DeepSeek V4 vs Claude Opus 4.5 para codificação
- GLM-5 vs DeepSeek V3 vs GPT-5: velocidade, custo e comparação prática para desenvolvedores
Como calcular o impacto no seu produto
Antes de migrar, estime seu custo por rota ou feature.
Use esta fórmula:
Custo = (tokens_entrada_cache_miss × preço_entrada)
+ (tokens_entrada_cache_hit × preço_cache_hit)
+ (tokens_saida × preço_saida)
Exemplo simples para 1 milhão de chamadas mensais:
Entrada média por chamada: 1.000 tokens
Saída média por chamada: 800 tokens
Volume: 1.000.000 chamadas/mês
Sem cache hit
Custo:
Entrada:
1.000.000 × 1.000 = 1.000 MTok
1.000 × US$ 0,435 = US$ 435
Saída:
1.000.000 × 800 = 800 MTok
800 × US$ 0,87 = US$ 696
Total:
US$ 1.131/mês
Agora com 70% dos tokens de entrada em cache hit:
Entrada cache miss:
300 MTok × US$ 0,435 = US$ 130,50
Entrada cache hit:
700 MTok × US$ 0,003625 = US$ 2,54
Saída:
800 MTok × US$ 0,87 = US$ 696
Total:
US$ 829,04/mês
A saída ainda domina, mas o cache reduz bastante o custo de entrada.
O detalhe mais importante: cache hit
O preço de saída chama atenção, mas o cache hit muda o design do sistema.
O cache de prompt da DeepSeek é acionado quando o prefixo da solicitação é idêntico byte a byte a uma solicitação anterior recente, dentro de uma janela de aproximadamente 30 minutos.
Em agentes e RAG, o prefixo normalmente inclui:
- prompt de sistema;
- instruções fixas;
- schemas de ferramentas;
- exemplos few-shot;
- regras de formatação;
- contratos de saída JSON.
Esse bloco pode ter entre 4.000 e 10.000 tokens. Se ele muda a cada request, você paga cache miss. Se ele permanece idêntico, você paga cache hit.
Exemplo de economia com cache
Suponha:
- 100.000 interações por dia;
- prompt de sistema com 6.000 tokens;
- mensagem média do usuário com 200 tokens;
- resposta média com 800 tokens;
- 90% dos tokens do prompt de sistema atingem cache.
Sem cache:
100.000 × 6.200 tokens = 620 MTok de entrada/dia
620 × US$ 0,435 = US$ 269,70/dia
Com 90% de cache no prompt fixo:
Entrada dinâmica:
100.000 × 200 = 20 MTok
20 × US$ 0,435 = US$ 8,70
Prompt fixo cache hit:
100.000 × 6.000 × 90% = 540 MTok
540 × US$ 0,003625 = US$ 1,96
Prompt fixo cache miss:
100.000 × 6.000 × 10% = 60 MTok
60 × US$ 0,435 = US$ 26,10
Total aproximado:
US$ 36,76/dia
O valor exato depende da distribuição de tokens, mas a conclusão é a mesma: prefixos estáveis reduzem custo de entrada de forma relevante.
Para entender melhor a mecânica, veja a análise sobre cache de prompt.
Como estruturar prompts para maximizar cache hit
Use estes padrões:
1. Separe prefixo fixo de conteúdo dinâmico
Evite colocar timestamps, IDs de usuário ou dados da sessão no prompt de sistema.
Ruim:
Você é um assistente para o usuário {{user_id}}.
Data atual: {{timestamp}}.
Sessão: {{session_id}}.
Siga estas regras...
Melhor:
Você é um assistente técnico.
Siga estas regras fixas...
Use o schema abaixo...
E envie dados dinâmicos na mensagem do usuário ou em um bloco posterior.
2. Mantenha ferramentas em ordem estável
Se você usa tool calling, não gere a lista de ferramentas em ordem variável.
Ruim:
{
"tools": [
"...ordem gerada dinamicamente..."
]
}
Melhor:
{
"tools": [
"search_docs",
"create_ticket",
"update_record"
]
}
A ordem e a serialização precisam ser estáveis para aumentar a chance de cache.
3. Ordene chunks de RAG de forma determinística
Se você injeta contexto recuperado, ordene por critério estável:
- score decrescente;
- ID do documento;
- posição no documento;
- hash do chunk.
Pequenas diferenças no prefixo podem invalidar o cache.
4. Faça uma chamada de aquecimento
Ao iniciar um agente ou serviço, envie uma solicitação com o prefixo completo antes do tráfego real.
Exemplo conceitual:
curl https://api.deepseek.com/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "SEU_MODELO_V4_PRO",
"messages": [
{
"role": "system",
"content": "SEU_PREFIXO_FIXO_COMPLETO"
},
{
"role": "user",
"content": "ping"
}
]
}'
Ajuste o nome do modelo e o formato final conforme a documentação oficial da DeepSeek.
Plano de migração em 5 etapas
A migração não precisa ser binária. O caminho mais seguro é mover tráfego por tipo de rota.
1. Meça a proporção saída:entrada
Analise suas rotas principais:
tokens_entrada_por_rota
tokens_saida_por_rota
custo_por_rota
latência_por_rota
taxa_de_erro_por_rota
Se 80% do gasto está em saída, a economia com V4-Pro tende a ser alta. Isso é comum em:
- agentes;
- geração de código;
- copilotos;
- chatbots;
- geração de relatórios;
- automações com respostas longas.
Se 80% está em entrada, como em RAG sobre documentos longos, o cache hit passa a ser o fator principal.
2. Rode uma avaliação com 100 amostras reais
Não dependa só de benchmark público.
Pegue 100 traces reais de produção e compare:
- modelo atual;
- DeepSeek-V4-Pro;
- mesmo prompt;
- mesma entrada;
- mesma validação.
Pontue critérios como:
- resposta correta;
- aderência ao formato;
- uso correto de ferramentas;
- completude;
- alucinação;
- latência;
- custo.
3. Faça roteamento por dificuldade
Um padrão comum:
Tráfego simples ou médio → DeepSeek-V4-Pro
Tráfego difícil ou crítico → modelo premium
Falha de validação → fallback
Isso permite capturar boa parte da economia sem trocar toda a arquitetura.
4. Trave os prefixos
Audite seus prompts.
Tudo que muda por request deve sair do prefixo fixo:
- timestamp;
- user ID;
- session ID;
- idioma detectado;
- permissões;
- metadados de request;
- chunks RAG variáveis.
Mantenha no prefixo apenas instruções estáveis, schemas e ferramentas.
5. Configure testes de regressão antes do rollout
Use respostas “golden” do modelo atual e compare com o V4-Pro.
O Apidog ajuda a testar chamadas, validar schema JSON e reproduzir requests. Você pode baixar o Apidog, importar uma coleção compatível com OpenAI, mudar a base URL para:
https://api.deepseek.com
E executar smoke tests lado a lado antes de enviar tráfego real.
Para um passo a passo do endpoint, veja Como usar a API DeepSeek V4.
Checklist rápido de implementação
Use este checklist antes de colocar V4-Pro em produção:
[ ] Levantei custo atual por rota.
[ ] Separei rotas simples, médias e críticas.
[ ] Rodei avaliação com amostras reais.
[ ] Comparei qualidade, latência e custo.
[ ] Validei schema de saída.
[ ] Configurei fallback.
[ ] Removi dados dinâmicos do prompt de sistema.
[ ] Ordenei ferramentas e chunks de forma determinística.
[ ] Medi cache hit/cache miss.
[ ] Rodei rollout gradual.
Como isso se compara a outras quedas de preço de 2026
A DeepSeek não é a única empresa reduzindo preços. O mercado de LLMs em 2026 está em compressão de margem:
- OpenAI O3 caiu 80% no início do ano. Veja a análise de preços do O3.
- Kimi K2 teve preços reajustados para competir com a camada V3 da DeepSeek. Veja os preços da API Kimi K2.
- Anthropic Claude manteve o preço do Opus, mas introduziu camadas Haiku e Sonnet mais baratas. Veja o detalhamento dos custos da API Claude.
A diferença do V4-Pro é que o corte atinge uma faixa de capacidade mais alta, não apenas uma camada econômica.
Próximos passos
A redução permanente do DeepSeek-V4-Pro muda a matemática de features com LLM.
Faça três coisas esta semana:
Audite suas três rotas mais caras de LLM.
Calcule entrada, saída, cache hit e custo mensal.Escolha uma rota para testar com V4-Pro.
Rode 100 amostras reais antes de migrar tráfego.Padronize seus prefixos.
Cache hit barato só funciona quando o prefixo é estável.
A promoção acabou. O desconto ficou.
Top comments (0)