DEV Community

Cover image for Corte de Preço Permanente de 75% do DeepSeek V4-Pro: O Que Significa Para Desenvolvedores (2026)
Lucas
Lucas

Posted on • Originally published at apidog.com

Corte de Preço Permanente de 75% do DeepSeek V4-Pro: O Que Significa Para Desenvolvedores (2026)

A DeepSeek tornou permanente o desconto de 75% no DeepSeek-V4-Pro. A promoção, que terminaria em 31 de maio de 2026 às 15:59 UTC, virou preço de tabela: entrada a US$ 0,435 por milhão de tokens, saída a US$ 0,87 e acertos de cache a US$ 0,003625. Para quem mantém produtos com chamadas de LLM em produção, isso muda a conta de custo imediatamente.

Experimente o Apidog hoje

TL;DR

  • O preço da API DeepSeek-V4-Pro agora é permanente em 1/4 do valor original: US$ 0,435/MTok de entrada, US$ 0,87/MTok de saída e US$ 0,003625/MTok para acerto de cache.
  • O desconto promocional de 75% não expira mais em 31 de maio de 2026. Sem reversão de preço.
  • O V4-Pro fica aproximadamente 34x mais barato que o GPT-5.5 em tokens de saída, mantendo cerca de 95% do desempenho em muitos benchmarks públicos de codificação e raciocínio.
  • O acerto de cache a US$ 0,003625/MTok é o ponto mais importante para agentes, RAG e prompts de sistema longos.
  • Se você precificou recursos de IA usando GPT-5.5 ou Claude Opus 4.7 no último trimestre, vale refazer a estimativa de custo esta semana.

Por que isso importa para quem constrói APIs com LLM

Preços de LLM normalmente caem aos poucos. A DeepSeek fez diferente: rodou uma promoção agressiva em maio, viu adoção de desenvolvedores e decidiu manter o valor como preço permanente.

Se seu produto chama um LLM em caminho crítico — autocomplete, chat com RAG, revisão de código, agentes ou geração de conteúdo — a diferença entre US$ 3,48 e US$ 0,87 por milhão de tokens de saída aparece direto na fatura.

Exemplo rápido:

  • Saída diária: 50 milhões de tokens
  • Preço antigo: US$ 3,48/MTok
  • Novo preço: US$ 0,87/MTok

Cálculo mensal aproximado:

Preço antigo:
50 MTok/dia × US$ 3,48 × 30 = US$ 5.220/mês

Preço novo:
50 MTok/dia × US$ 0,87 × 30 = US$ 1.305/mês

Economia:
US$ 3.915/mês
Enter fullscreen mode Exit fullscreen mode

Construindo sobre o DeepSeek? O Apidog permite gerar, testar e monitorar chamadas de API V4-Pro em um único workspace, incluindo streaming, chamadas de ferramentas e validação de schema JSON.

Abaixo está o que mudou, como calcular impacto no seu produto e como testar uma migração com menor risco.

O que mudou no anúncio

O aviso oficial de preços da DeepSeek é curto, mas altera três pontos importantes:

  1. O desconto de 75% virou permanente.

    A promoção que iria até 31 de maio de 2026 às 15:59 UTC não será revertida. A tarifa promocional passa a ser a tarifa regular.

  2. O corte se aplica ao V4-Pro.

    O DeepSeek-V4-Flash já era barato, com US$ 0,14/MTok de entrada e US$ 0,28/MTok de saída. O corte relevante agora está no modelo de nível mais alto. Para contexto, veja O que é DeepSeek V4.

  3. O preço de cache hit também caiu.

    O acerto de cache foi reduzido para 1/10 do preço de lançamento, efetivo em 26 de abril de 2026 às 12:15 UTC. Combinado com o corte principal, o cache hit chega a US$ 0,003625/MTok.

Na prática, a DeepSeek está reduzindo a barreira para workloads com alto volume de inferência: agentes, copilotos, pipelines de RAG e automações com contexto longo.

Nova tabela de preços do DeepSeek-V4-Pro

Preços por 1 milhão de tokens, em USD:

Tipo de token Preço de tabela antigo Novo preço permanente Corte
Entrada, cache miss US$ 1,74 US$ 0,435 75%
Entrada, cache hit US$ 0,0145 US$ 0,003625 75%
Saída US$ 3,48 US$ 0,87 75%

Pontos práticos:

  • Tokens de saída tendem a dominar o custo em agentes, geração de código e respostas longas.
  • A diferença entre cache miss e cache hit é enorme: aproximadamente 120:1.
  • Prompts de sistema estáveis agora custam muito pouco quando o prefixo acerta o cache.
  • Essas taxas se aplicam à API. O chat web da DeepSeek permanece gratuito para indivíduos.

Para mais detalhes sobre camadas de preço e trade-offs entre Flash e Pro, veja DeepSeek V4 API Pricing.

Comparação com GPT-5.5, Claude Opus 4.7 e Gemini 3.5 Flash

A comparação mais útil é contra os modelos usados em produção para tarefas de codificação, raciocínio e agentes.

Modelo Entrada, US$/MTok Saída, US$/MTok SWE-bench Pro
DeepSeek-V4-Pro US$ 0,435 US$ 0,87 55,4%
GPT-5.5 US$ 5,00 US$ 30,00 58,6%
Claude Opus 4.7 US$ 3,00 US$ 15,00 ~62%
Gemini 3.5 Flash ~US$ 1,50 ~US$ 9,00 ~48%
DeepSeek-V4-Flash US$ 0,14 US$ 0,28 ~42%

Dois números importam:

Isso não significa migrar tudo cegamente. Significa testar por rota:

  • Use V4-Pro para tráfego comum e tarefas repetíveis.
  • Mantenha modelos premium para casos críticos, planejamento complexo ou tarefas com maior risco.
  • Use fallback quando a validação falhar.

Leituras relacionadas:

Como calcular o impacto no seu produto

Antes de migrar, estime seu custo por rota ou feature.

Use esta fórmula:

Custo = (tokens_entrada_cache_miss × preço_entrada)
      + (tokens_entrada_cache_hit × preço_cache_hit)
      + (tokens_saida × preço_saida)
Enter fullscreen mode Exit fullscreen mode

Exemplo simples para 1 milhão de chamadas mensais:

Entrada média por chamada: 1.000 tokens
Saída média por chamada: 800 tokens
Volume: 1.000.000 chamadas/mês
Sem cache hit
Enter fullscreen mode Exit fullscreen mode

Custo:

Entrada:
1.000.000 × 1.000 = 1.000 MTok
1.000 × US$ 0,435 = US$ 435

Saída:
1.000.000 × 800 = 800 MTok
800 × US$ 0,87 = US$ 696

Total:
US$ 1.131/mês
Enter fullscreen mode Exit fullscreen mode

Agora com 70% dos tokens de entrada em cache hit:

Entrada cache miss:
300 MTok × US$ 0,435 = US$ 130,50

Entrada cache hit:
700 MTok × US$ 0,003625 = US$ 2,54

Saída:
800 MTok × US$ 0,87 = US$ 696

Total:
US$ 829,04/mês
Enter fullscreen mode Exit fullscreen mode

A saída ainda domina, mas o cache reduz bastante o custo de entrada.

O detalhe mais importante: cache hit

O preço de saída chama atenção, mas o cache hit muda o design do sistema.

O cache de prompt da DeepSeek é acionado quando o prefixo da solicitação é idêntico byte a byte a uma solicitação anterior recente, dentro de uma janela de aproximadamente 30 minutos.

Em agentes e RAG, o prefixo normalmente inclui:

  • prompt de sistema;
  • instruções fixas;
  • schemas de ferramentas;
  • exemplos few-shot;
  • regras de formatação;
  • contratos de saída JSON.

Esse bloco pode ter entre 4.000 e 10.000 tokens. Se ele muda a cada request, você paga cache miss. Se ele permanece idêntico, você paga cache hit.

Exemplo de economia com cache

Suponha:

  • 100.000 interações por dia;
  • prompt de sistema com 6.000 tokens;
  • mensagem média do usuário com 200 tokens;
  • resposta média com 800 tokens;
  • 90% dos tokens do prompt de sistema atingem cache.

Sem cache:

100.000 × 6.200 tokens = 620 MTok de entrada/dia
620 × US$ 0,435 = US$ 269,70/dia
Enter fullscreen mode Exit fullscreen mode

Com 90% de cache no prompt fixo:

Entrada dinâmica:
100.000 × 200 = 20 MTok
20 × US$ 0,435 = US$ 8,70

Prompt fixo cache hit:
100.000 × 6.000 × 90% = 540 MTok
540 × US$ 0,003625 = US$ 1,96

Prompt fixo cache miss:
100.000 × 6.000 × 10% = 60 MTok
60 × US$ 0,435 = US$ 26,10

Total aproximado:
US$ 36,76/dia
Enter fullscreen mode Exit fullscreen mode

O valor exato depende da distribuição de tokens, mas a conclusão é a mesma: prefixos estáveis reduzem custo de entrada de forma relevante.

Para entender melhor a mecânica, veja a análise sobre cache de prompt.

Como estruturar prompts para maximizar cache hit

Use estes padrões:

1. Separe prefixo fixo de conteúdo dinâmico

Evite colocar timestamps, IDs de usuário ou dados da sessão no prompt de sistema.

Ruim:

Você é um assistente para o usuário {{user_id}}.
Data atual: {{timestamp}}.
Sessão: {{session_id}}.

Siga estas regras...
Enter fullscreen mode Exit fullscreen mode

Melhor:

Você é um assistente técnico.
Siga estas regras fixas...
Use o schema abaixo...
Enter fullscreen mode Exit fullscreen mode

E envie dados dinâmicos na mensagem do usuário ou em um bloco posterior.

2. Mantenha ferramentas em ordem estável

Se você usa tool calling, não gere a lista de ferramentas em ordem variável.

Ruim:

{
  "tools": [
    "...ordem gerada dinamicamente..."
  ]
}
Enter fullscreen mode Exit fullscreen mode

Melhor:

{
  "tools": [
    "search_docs",
    "create_ticket",
    "update_record"
  ]
}
Enter fullscreen mode Exit fullscreen mode

A ordem e a serialização precisam ser estáveis para aumentar a chance de cache.

3. Ordene chunks de RAG de forma determinística

Se você injeta contexto recuperado, ordene por critério estável:

  • score decrescente;
  • ID do documento;
  • posição no documento;
  • hash do chunk.

Pequenas diferenças no prefixo podem invalidar o cache.

4. Faça uma chamada de aquecimento

Ao iniciar um agente ou serviço, envie uma solicitação com o prefixo completo antes do tráfego real.

Exemplo conceitual:

curl https://api.deepseek.com/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "SEU_MODELO_V4_PRO",
    "messages": [
      {
        "role": "system",
        "content": "SEU_PREFIXO_FIXO_COMPLETO"
      },
      {
        "role": "user",
        "content": "ping"
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Ajuste o nome do modelo e o formato final conforme a documentação oficial da DeepSeek.

Plano de migração em 5 etapas

A migração não precisa ser binária. O caminho mais seguro é mover tráfego por tipo de rota.

1. Meça a proporção saída:entrada

Analise suas rotas principais:

tokens_entrada_por_rota
tokens_saida_por_rota
custo_por_rota
latência_por_rota
taxa_de_erro_por_rota
Enter fullscreen mode Exit fullscreen mode

Se 80% do gasto está em saída, a economia com V4-Pro tende a ser alta. Isso é comum em:

  • agentes;
  • geração de código;
  • copilotos;
  • chatbots;
  • geração de relatórios;
  • automações com respostas longas.

Se 80% está em entrada, como em RAG sobre documentos longos, o cache hit passa a ser o fator principal.

2. Rode uma avaliação com 100 amostras reais

Não dependa só de benchmark público.

Pegue 100 traces reais de produção e compare:

  • modelo atual;
  • DeepSeek-V4-Pro;
  • mesmo prompt;
  • mesma entrada;
  • mesma validação.

Pontue critérios como:

  • resposta correta;
  • aderência ao formato;
  • uso correto de ferramentas;
  • completude;
  • alucinação;
  • latência;
  • custo.

3. Faça roteamento por dificuldade

Um padrão comum:

Tráfego simples ou médio → DeepSeek-V4-Pro
Tráfego difícil ou crítico → modelo premium
Falha de validação → fallback
Enter fullscreen mode Exit fullscreen mode

Isso permite capturar boa parte da economia sem trocar toda a arquitetura.

4. Trave os prefixos

Audite seus prompts.

Tudo que muda por request deve sair do prefixo fixo:

  • timestamp;
  • user ID;
  • session ID;
  • idioma detectado;
  • permissões;
  • metadados de request;
  • chunks RAG variáveis.

Mantenha no prefixo apenas instruções estáveis, schemas e ferramentas.

5. Configure testes de regressão antes do rollout

Use respostas “golden” do modelo atual e compare com o V4-Pro.

O Apidog ajuda a testar chamadas, validar schema JSON e reproduzir requests. Você pode baixar o Apidog, importar uma coleção compatível com OpenAI, mudar a base URL para:

https://api.deepseek.com
Enter fullscreen mode Exit fullscreen mode

E executar smoke tests lado a lado antes de enviar tráfego real.

Para um passo a passo do endpoint, veja Como usar a API DeepSeek V4.

Checklist rápido de implementação

Use este checklist antes de colocar V4-Pro em produção:

[ ] Levantei custo atual por rota.
[ ] Separei rotas simples, médias e críticas.
[ ] Rodei avaliação com amostras reais.
[ ] Comparei qualidade, latência e custo.
[ ] Validei schema de saída.
[ ] Configurei fallback.
[ ] Removi dados dinâmicos do prompt de sistema.
[ ] Ordenei ferramentas e chunks de forma determinística.
[ ] Medi cache hit/cache miss.
[ ] Rodei rollout gradual.
Enter fullscreen mode Exit fullscreen mode

Como isso se compara a outras quedas de preço de 2026

A DeepSeek não é a única empresa reduzindo preços. O mercado de LLMs em 2026 está em compressão de margem:

A diferença do V4-Pro é que o corte atinge uma faixa de capacidade mais alta, não apenas uma camada econômica.

Próximos passos

A redução permanente do DeepSeek-V4-Pro muda a matemática de features com LLM.

Faça três coisas esta semana:

  1. Audite suas três rotas mais caras de LLM.

    Calcule entrada, saída, cache hit e custo mensal.

  2. Escolha uma rota para testar com V4-Pro.

    Rode 100 amostras reais antes de migrar tráfego.

  3. Padronize seus prefixos.

    Cache hit barato só funciona quando o prefixo é estável.

A promoção acabou. O desconto ficou.

Top comments (0)