Lucas

Posted on May 25 • Originally published at apidog.com

Corte de Preço Permanente de 75% do DeepSeek V4-Pro: O Que Significa Para Desenvolvedores (2026)

A DeepSeek tornou permanente o desconto de 75% no DeepSeek-V4-Pro. A promoção, que terminaria em 31 de maio de 2026 às 15:59 UTC, virou preço de tabela: entrada a US$ 0,435 por milhão de tokens, saída a US$ 0,87 e acertos de cache a US$ 0,003625. Para quem mantém produtos com chamadas de LLM em produção, isso muda a conta de custo imediatamente.

Experimente o Apidog hoje

TL;DR

O preço da API DeepSeek-V4-Pro agora é permanente em 1/4 do valor original: US$ 0,435/MTok de entrada, US$ 0,87/MTok de saída e US$ 0,003625/MTok para acerto de cache.
O desconto promocional de 75% não expira mais em 31 de maio de 2026. Sem reversão de preço.
O V4-Pro fica aproximadamente 34x mais barato que o GPT-5.5 em tokens de saída, mantendo cerca de 95% do desempenho em muitos benchmarks públicos de codificação e raciocínio.
O acerto de cache a US$ 0,003625/MTok é o ponto mais importante para agentes, RAG e prompts de sistema longos.
Se você precificou recursos de IA usando GPT-5.5 ou Claude Opus 4.7 no último trimestre, vale refazer a estimativa de custo esta semana.

Por que isso importa para quem constrói APIs com LLM

Preços de LLM normalmente caem aos poucos. A DeepSeek fez diferente: rodou uma promoção agressiva em maio, viu adoção de desenvolvedores e decidiu manter o valor como preço permanente.

Se seu produto chama um LLM em caminho crítico — autocomplete, chat com RAG, revisão de código, agentes ou geração de conteúdo — a diferença entre US$ 3,48 e US$ 0,87 por milhão de tokens de saída aparece direto na fatura.

Exemplo rápido:

Saída diária: 50 milhões de tokens
Preço antigo: US$ 3,48/MTok
Novo preço: US$ 0,87/MTok

Cálculo mensal aproximado:

Preço antigo:
50 MTok/dia × US$ 3,48 × 30 = US$ 5.220/mês

Preço novo:
50 MTok/dia × US$ 0,87 × 30 = US$ 1.305/mês

Economia:
US$ 3.915/mês

Construindo sobre o DeepSeek? O Apidog permite gerar, testar e monitorar chamadas de API V4-Pro em um único workspace, incluindo streaming, chamadas de ferramentas e validação de schema JSON.

Abaixo está o que mudou, como calcular impacto no seu produto e como testar uma migração com menor risco.

O que mudou no anúncio

O aviso oficial de preços da DeepSeek é curto, mas altera três pontos importantes:

O desconto de 75% virou permanente.

A promoção que iria até 31 de maio de 2026 às 15:59 UTC não será revertida. A tarifa promocional passa a ser a tarifa regular.
O corte se aplica ao V4-Pro.

O DeepSeek-V4-Flash já era barato, com US$ 0,14/MTok de entrada e US$ 0,28/MTok de saída. O corte relevante agora está no modelo de nível mais alto. Para contexto, veja O que é DeepSeek V4.
O preço de cache hit também caiu.

O acerto de cache foi reduzido para 1/10 do preço de lançamento, efetivo em 26 de abril de 2026 às 12:15 UTC. Combinado com o corte principal, o cache hit chega a US$ 0,003625/MTok.

Na prática, a DeepSeek está reduzindo a barreira para workloads com alto volume de inferência: agentes, copilotos, pipelines de RAG e automações com contexto longo.

Nova tabela de preços do DeepSeek-V4-Pro

Preços por 1 milhão de tokens, em USD:

Tipo de token	Preço de tabela antigo	Novo preço permanente	Corte
Entrada, cache miss	US$ 1,74	US$ 0,435	75%
Entrada, cache hit	US$ 0,0145	US$ 0,003625	75%
Saída	US$ 3,48	US$ 0,87	75%

Pontos práticos:

Tokens de saída tendem a dominar o custo em agentes, geração de código e respostas longas.
A diferença entre cache miss e cache hit é enorme: aproximadamente 120:1.
Prompts de sistema estáveis agora custam muito pouco quando o prefixo acerta o cache.
Essas taxas se aplicam à API. O chat web da DeepSeek permanece gratuito para indivíduos.

Para mais detalhes sobre camadas de preço e trade-offs entre Flash e Pro, veja DeepSeek V4 API Pricing.

Comparação com GPT-5.5, Claude Opus 4.7 e Gemini 3.5 Flash

A comparação mais útil é contra os modelos usados em produção para tarefas de codificação, raciocínio e agentes.

Modelo	Entrada, US$/MTok	Saída, US$/MTok	SWE-bench Pro
DeepSeek-V4-Pro	US$ 0,435	US$ 0,87	55,4%
GPT-5.5	US$ 5,00	US$ 30,00	58,6%
Claude Opus 4.7	US$ 3,00	US$ 15,00	~62%
Gemini 3.5 Flash	~US$ 1,50	~US$ 9,00	~48%
DeepSeek-V4-Flash	US$ 0,14	US$ 0,28	~42%

Dois números importam:

Em tokens de saída, o DeepSeek-V4-Pro é 34x mais barato que o GPT-5.5.
Em benchmarks públicos, o V4-Pro fica entre 3 e 7 pontos percentuais do GPT-5.5 em muitas avaliações de codificação e raciocínio, segundo a comparação do DataCamp.

Isso não significa migrar tudo cegamente. Significa testar por rota:

Use V4-Pro para tráfego comum e tarefas repetíveis.
Mantenha modelos premium para casos críticos, planejamento complexo ou tarefas com maior risco.
Use fallback quando a validação falhar.

Leituras relacionadas:

Como calcular o impacto no seu produto

Antes de migrar, estime seu custo por rota ou feature.

Use esta fórmula:

Custo = (tokens_entrada_cache_miss × preço_entrada)
      + (tokens_entrada_cache_hit × preço_cache_hit)
      + (tokens_saida × preço_saida)

Exemplo simples para 1 milhão de chamadas mensais:

Entrada média por chamada: 1.000 tokens
Saída média por chamada: 800 tokens
Volume: 1.000.000 chamadas/mês
Sem cache hit

Custo:

Entrada:
1.000.000 × 1.000 = 1.000 MTok
1.000 × US$ 0,435 = US$ 435

Saída:
1.000.000 × 800 = 800 MTok
800 × US$ 0,87 = US$ 696

Total:
US$ 1.131/mês

Agora com 70% dos tokens de entrada em cache hit:

Entrada cache miss:
300 MTok × US$ 0,435 = US$ 130,50

Entrada cache hit:
700 MTok × US$ 0,003625 = US$ 2,54

Saída:
800 MTok × US$ 0,87 = US$ 696

Total:
US$ 829,04/mês

A saída ainda domina, mas o cache reduz bastante o custo de entrada.

O detalhe mais importante: cache hit

O preço de saída chama atenção, mas o cache hit muda o design do sistema.

O cache de prompt da DeepSeek é acionado quando o prefixo da solicitação é idêntico byte a byte a uma solicitação anterior recente, dentro de uma janela de aproximadamente 30 minutos.

Em agentes e RAG, o prefixo normalmente inclui:

prompt de sistema;
instruções fixas;
schemas de ferramentas;
exemplos few-shot;
regras de formatação;
contratos de saída JSON.

Esse bloco pode ter entre 4.000 e 10.000 tokens. Se ele muda a cada request, você paga cache miss. Se ele permanece idêntico, você paga cache hit.

Exemplo de economia com cache

Suponha:

100.000 interações por dia;
prompt de sistema com 6.000 tokens;
mensagem média do usuário com 200 tokens;
resposta média com 800 tokens;
90% dos tokens do prompt de sistema atingem cache.

Sem cache:

100.000 × 6.200 tokens = 620 MTok de entrada/dia
620 × US$ 0,435 = US$ 269,70/dia

Com 90% de cache no prompt fixo:

Entrada dinâmica:
100.000 × 200 = 20 MTok
20 × US$ 0,435 = US$ 8,70

Prompt fixo cache hit:
100.000 × 6.000 × 90% = 540 MTok
540 × US$ 0,003625 = US$ 1,96

Prompt fixo cache miss:
100.000 × 6.000 × 10% = 60 MTok
60 × US$ 0,435 = US$ 26,10

Total aproximado:
US$ 36,76/dia

O valor exato depende da distribuição de tokens, mas a conclusão é a mesma: prefixos estáveis reduzem custo de entrada de forma relevante.

Para entender melhor a mecânica, veja a análise sobre cache de prompt.

Como estruturar prompts para maximizar cache hit

Use estes padrões:

1. Separe prefixo fixo de conteúdo dinâmico

Evite colocar timestamps, IDs de usuário ou dados da sessão no prompt de sistema.

Ruim:

Você é um assistente para o usuário {{user_id}}.
Data atual: {{timestamp}}.
Sessão: {{session_id}}.

Siga estas regras...

Melhor:

Você é um assistente técnico.
Siga estas regras fixas...
Use o schema abaixo...

E envie dados dinâmicos na mensagem do usuário ou em um bloco posterior.

2. Mantenha ferramentas em ordem estável

Se você usa tool calling, não gere a lista de ferramentas em ordem variável.

Ruim:

{
  "tools": [
    "...ordem gerada dinamicamente..."
  ]
}

Melhor:

{
  "tools": [
    "search_docs",
    "create_ticket",
    "update_record"
  ]
}

A ordem e a serialização precisam ser estáveis para aumentar a chance de cache.

3. Ordene chunks de RAG de forma determinística

Se você injeta contexto recuperado, ordene por critério estável:

score decrescente;
ID do documento;
posição no documento;
hash do chunk.

Pequenas diferenças no prefixo podem invalidar o cache.

4. Faça uma chamada de aquecimento

Ao iniciar um agente ou serviço, envie uma solicitação com o prefixo completo antes do tráfego real.

Exemplo conceitual:

curl https://api.deepseek.com/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "SEU_MODELO_V4_PRO",
    "messages": [
      {
        "role": "system",
        "content": "SEU_PREFIXO_FIXO_COMPLETO"
      },
      {
        "role": "user",
        "content": "ping"
      }
    ]
  }'

Ajuste o nome do modelo e o formato final conforme a documentação oficial da DeepSeek.

Plano de migração em 5 etapas

A migração não precisa ser binária. O caminho mais seguro é mover tráfego por tipo de rota.

1. Meça a proporção saída:entrada

Analise suas rotas principais:

tokens_entrada_por_rota
tokens_saida_por_rota
custo_por_rota
latência_por_rota
taxa_de_erro_por_rota

Se 80% do gasto está em saída, a economia com V4-Pro tende a ser alta. Isso é comum em:

agentes;
geração de código;
copilotos;
chatbots;
geração de relatórios;
automações com respostas longas.

Se 80% está em entrada, como em RAG sobre documentos longos, o cache hit passa a ser o fator principal.

2. Rode uma avaliação com 100 amostras reais

Não dependa só de benchmark público.

Pegue 100 traces reais de produção e compare:

modelo atual;
DeepSeek-V4-Pro;
mesmo prompt;
mesma entrada;
mesma validação.

Pontue critérios como:

resposta correta;
aderência ao formato;
uso correto de ferramentas;
completude;
alucinação;
latência;
custo.

3. Faça roteamento por dificuldade

Um padrão comum:

Tráfego simples ou médio → DeepSeek-V4-Pro
Tráfego difícil ou crítico → modelo premium
Falha de validação → fallback

Isso permite capturar boa parte da economia sem trocar toda a arquitetura.

4. Trave os prefixos

Audite seus prompts.

Tudo que muda por request deve sair do prefixo fixo:

timestamp;
user ID;
session ID;
idioma detectado;
permissões;
metadados de request;
chunks RAG variáveis.

Mantenha no prefixo apenas instruções estáveis, schemas e ferramentas.

5. Configure testes de regressão antes do rollout

Use respostas “golden” do modelo atual e compare com o V4-Pro.

O Apidog ajuda a testar chamadas, validar schema JSON e reproduzir requests. Você pode baixar o Apidog, importar uma coleção compatível com OpenAI, mudar a base URL para:

https://api.deepseek.com

E executar smoke tests lado a lado antes de enviar tráfego real.

Para um passo a passo do endpoint, veja Como usar a API DeepSeek V4.

Checklist rápido de implementação

Use este checklist antes de colocar V4-Pro em produção:

[ ] Levantei custo atual por rota.
[ ] Separei rotas simples, médias e críticas.
[ ] Rodei avaliação com amostras reais.
[ ] Comparei qualidade, latência e custo.
[ ] Validei schema de saída.
[ ] Configurei fallback.
[ ] Removi dados dinâmicos do prompt de sistema.
[ ] Ordenei ferramentas e chunks de forma determinística.
[ ] Medi cache hit/cache miss.
[ ] Rodei rollout gradual.

Como isso se compara a outras quedas de preço de 2026

A DeepSeek não é a única empresa reduzindo preços. O mercado de LLMs em 2026 está em compressão de margem:

OpenAI O3 caiu 80% no início do ano. Veja a análise de preços do O3.
Kimi K2 teve preços reajustados para competir com a camada V3 da DeepSeek. Veja os preços da API Kimi K2.
Anthropic Claude manteve o preço do Opus, mas introduziu camadas Haiku e Sonnet mais baratas. Veja o detalhamento dos custos da API Claude.

A diferença do V4-Pro é que o corte atinge uma faixa de capacidade mais alta, não apenas uma camada econômica.

Próximos passos

A redução permanente do DeepSeek-V4-Pro muda a matemática de features com LLM.

Faça três coisas esta semana:

Audite suas três rotas mais caras de LLM.

Calcule entrada, saída, cache hit e custo mensal.
Escolha uma rota para testar com V4-Pro.

Rode 100 amostras reais antes de migrar tráfego.
Padronize seus prefixos.

Cache hit barato só funciona quando o prefixo é estável.

A promoção acabou. O desconto ficou.

DEV Community