DeepSeek V4 foi lançado em 23 de abril de 2026 com quatro checkpoints, uma API ao vivo e pesos licenciados pelo MIT no Hugging Face. Isso permite diferentes formas de uso: acesso instantâneo, chamadas de API para produção ou implantação on-premise. Este guia mostra como implementar cada opção, destacando prós, contras, pegadinhas e fornecendo um fluxo de prompt pronto para produção.
Se você busca apenas a visão geral do produto, leia o que é DeepSeek V4. Para um passo a passo da API, acesse o guia da API DeepSeek V4. Para opções gratuitas, veja como usar o DeepSeek V4 gratuitamente. Pronto para testar requisições reais? Baixe o Apidog e carregue a coleção pré-pronta.
TL;DR
- Caminho mais rápido: chat.deepseek.com. Chat web gratuito, V4-Pro padrão, três modos de raciocínio.
- Produção:
https://api.deepseek.com/v1/chat/completionscomdeepseek-v4-prooudeepseek-v4-flash. - Auto-hospedado: puxe os pesos do Hugging Face, execute os scripts
/inference. - Use Não-Pensar para roteamento/classificação, Pensar Alto para código/análise, Pensar Máximo apenas quando precisão for crítica.
- Configuração recomendada:
temperature=1.0, top_p=1.0. - Use o Apidog como cliente de API; formato OpenAI compatível permite reaproveitar requisições entre DeepSeek, OpenAI e Anthropic.
Escolha o caminho certo para sua carga de trabalho
Quatro opções práticas. Cada uma é melhor para um cenário:
| Caminho | Custo | Tempo de Configuração | Melhor para |
|---|---|---|---|
| chat.deepseek.com | Grátis | 30 segundos | Testes rápidos, uso ad-hoc |
| API DeepSeek | Cobrança por token | 5 minutos | Produção, agentes, jobs em lote |
| V4-Flash auto-hospedado | Só hardware | Algumas horas | Conformidade on-premise, inferência offline |
| V4-Pro auto-hospedado | Cluster | Um dia | Pesquisa, fine-tunes |
| OpenRouter / agregador | Cobrança por token | 2 minutos | Fallback multi-provedor |
Caminho 1: Usar V4 no chat web
- Acesse chat.deepseek.com.
- Faça login com e-mail, Google ou WeChat.
- O modelo V4-Pro é padrão; alterne o modo (Não-Pensar, Pensar Alto, Pensar Máximo) pelo botão do topo.
- Digite seu prompt.
O chat web aceita upload de arquivos, busca na web e suporta contexto de até 1 milhão de tokens. Limites de uso são por conta; uso intenso pode causar lentidão, raramente bloqueio.
Bons usos: diagnóstico rápido (colando stacktrace), resumo de PDFs grandes, comparar respostas com GPT-5.5/Claude. Maus usos: automação ou execuções reproduzíveis.
Caminho 2: Usar a API DeepSeek
Ideal para equipes. A API é compatível com o formato OpenAI, e os IDs são estáveis.
Obter uma chave
- Cadastre-se em platform.deepseek.com.
- Adicione método de pagamento (crédito inicial: $2).
- Crie uma chave em API Keys e salve a chave.
Exporte a chave para uso em clientes:
export DEEPSEEK_API_KEY="sk-..."
Requisição mínima viável
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refatore esta função Python para assíncrona. Responda apenas com o código."}
],
"thinking_mode": "thinking"
}'
Troque deepseek-v4-pro por deepseek-v4-flash para menor custo. Troque thinking por non-thinking para respostas mais rápidas.
Cliente Python
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "Você é um engenheiro sênior conciso."},
{"role": "user", "content": "Explique a pilha de atenção híbrida CSA+HCA."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
Cliente Node
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Escreva um fizzbuzz em Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
Para detalhes de parâmetros e erros, consulte o guia da API DeepSeek V4.
Caminho 3: Iterar com Apidog
Evite poluir seu terminal e desperdiçar créditos. Use o Apidog para gerenciar e reproduzir requisições de API de forma eficiente.
- Baixe o Apidog para Mac, Windows ou Linux.
- Crie um projeto de API e adicione uma requisição POST para
https://api.deepseek.com/v1/chat/completions. - Adicione
Authorization: Bearer {{DEEPSEEK_API_KEY}}como cabeçalho; armazene a chave nas variáveis de ambiente. - Cole o JSON do corpo e salve. A cada ajuste, basta clicar para executar novamente.
- Use o visualizador integrado para comparar respostas entre Non-Think e Think Max usando o mesmo prompt.
Na mesma coleção, adicione requisições para GPT-5.5 (OpenAI), Claude (Anthropic) e DeepSeek V4. Isso simplifica testes A/B e mantém o controle do uso em uma só interface. Para equipes já usando Apidog, basta trocar a base URL para migrar coleções existentes (saiba como).
Caminho 4: Auto-hospedar V4-Flash
Se compliance ou air-gap são requisitos, use a licença MIT e rode localmente.
Hardware
- V4-Flash (13B ativos, 284B total): 2–4 placas H100/H200/MI300X em FP8. Quantizado INT4 cabe em GPU de 80GB.
- V4-Pro (49B ativos, 1.6T total): cluster de 16–32 H100s para produção.
Obtenha os pesos
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
O download de V4-Flash (~500GB FP8) pode demorar. V4-Pro são múltiplos TBs.
Executar inferência
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
Com o vLLM rodando, aponte qualquer cliente OpenAI para http://localhost:8000/v1. A mesma coleção do Apidog funcionará com apenas troca da URL base.
Prompting V4 de forma eficaz
Recomendações para maximizar resultados:
-
Defina explicitamente o modo de raciocínio. Use
thinking_modeadequado à tarefa (não dependa do modelo escolher). - Prompts de sistema para persona/apresentação. Direcione formato/tarefa para a mensagem do usuário, não para o system.
- Inclua ambiente de teste para tarefas de código. Coloque o teste que falha junto ao prompt; o modelo tende a gerar código melhor.
Para contextos longos (100k+ tokens), coloque informações mais relevantes no início e no final.
Controle de custos
Três práticas para evitar surpresas na conta:
- Use V4-Flash como padrão. Só use V4-Pro onde a diferença de qualidade justificar.
- Prefira Non-Think. Suba para Think High se necessário; Think Max só para tarefas críticas.
-
Limite
max_tokens. 1M é o teto, não a meta. Normalmente 2.000 tokens de saída bastam.
No Apidog, defina variáveis de ambiente para DEEPSEEK_API_KEY e mantenha ambientes separados para testes vs produção. O Apidog mostra a contagem de tokens de cada resposta, facilitando identificar prompts longos demais.
Migrando do DeepSeek V3 ou outros modelos
-
De
deepseek-chat/deepseek-reasoner: Troque o modelo paradeepseek-v4-prooudeepseek-v4-flash. IDs antigos expiram em 24/07/2026. -
De OpenAI GPT-5.x: Troque a base URL para
https://api.deepseek.com/v1e o ID do modelo. Resto igual. Veja o guia da API GPT-5.5 para o formato paralelo. -
De Anthropic Claude: Aponte para
https://api.deepseek.com/anthropic(formato Anthropic) ou converta para OpenAI e use o endpoint principal.
FAQ
Preciso de conta paga para usar V4? Chat web é grátis. API exige recarga mínima de $2. Veja como usar o DeepSeek V4 gratuitamente para alternativas sem custo.
Qual variante usar por padrão? Comece com V4-Flash em Non-Think. Meça a qualidade e avance só se necessário.
Posso rodar V4 no meu MacBook? V4-Flash roda em M3/M4 Max com 128GB RAM (quantizado, devagar). V4-Pro não roda em laptop; use API ou chat web.
V4 suporta ferramentas/chamada de funções? Sim. O endpoint OpenAI aceita tools; as respostas trazem tool_calls. O endpoint Anthropic usa o esquema nativo da Anthropic.
Como faço streaming de respostas? Use stream: true na requisição. O retorno é SSE padrão OpenAI; qualquer lib de streaming OpenAI funciona.
Existe limite de taxa? API hospedada publica limites em api-docs.deepseek.com. No auto-hospedado, o limite é seu hardware.


Top comments (0)