O DeepSeek V4 foi lançado em 23 de abril de 2026 com pesos licenciados pelo MIT no Hugging Face. Essa escolha de licença facilita para equipes que querem IA de ponta rodando em hardware próprio. O V4-Flash (284B total, 13B ativo) roda em dois H100s em FP8; o V4-Pro (1.6T total, 49B ativo) exige um cluster, mas compete com GPT-5.5 e Claude Opus 4.6 em tarefas de código e raciocínio.
Este guia é um passo a passo para implantação local: requisitos de hardware, quantização, configurações de vLLM e SGLang, uso de ferramentas, e como validar seu servidor local usando o Apidog antes de redirecionar tráfego de produção.
Para uma visão geral do produto, veja o que é DeepSeek V4. Para integração via API hospedada, confira como usar a API DeepSeek V4. Para custos, veja preços da API DeepSeek V4.
TL;DR
- V4-Flash roda em 2 × H100 80GB em FP8, ou 1 × H100 em INT4 (~500GB de pesos em FP8).
- V4-Pro precisa de 16+ H100s em FP8 para produção; não recomendado para laptops.
-
vLLM é o caminho mais rápido para um servidor compatível com OpenAI (
vllm>=0.9.0já suporta o V4). - SGLang é a alternativa para equipes que focam em ferramentas e saída estruturada.
- Quantização para AWQ INT4 ou GPTQ INT4 permite rodar o V4-Flash em uma única GPU de 80GB com ~5% de perda de qualidade.
- Use o Apidog para testar seu endpoint local em
http://localhost:8000/v1usando a mesma coleção da API hospedada.
Quem deve hospedar por conta própria
Hospede o V4 localmente se sua equipe:
- Precisa de conformidade: setores como saúde, finanças, jurídico ou defesa, onde dados não podem sair da rede. Licença MIT → sem acordos extras ou transferência internacional de dados.
- Tem grandes cargas de trabalho estáveis: Acima de 200 bilhões de tokens/mês, hardware próprio compensa.
- Precisa de ajuste fino e pesquisa: Checkpoints Base servem para pré-treinamento contínuo e adaptação de domínio. MIT permite redistribuição comercial.
Quem não deve hospedar: prototipadores, equipes sem experiência em operações de GPU, ou workloads abaixo de US$ 200/mês em API hospedada.
Requisitos de hardware
O DeepSeek V4 usa precisão mista FP4 + FP8. Isso reduz o uso de memória real comparado ao número bruto de parâmetros.
| Variante | Total de parâmetros | Parâmetros ativos | VRAM FP8 | VRAM INT4 | Placas mínimas |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | 2 × H100 80GB (FP8) ou 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | 16 × H100 80GB (FP8) ou 8 × H100 (INT4) |
Notas:
- Memória MoE é o total, não apenas ativa.
- H200 e MI300X são mais eficientes (mais VRAM/placa).
- GPUs de consumidor não servem (nem RTX 5090).
- Apple Silicon (M3/M4 Max) roda com quantização pesada, mas apenas para desenvolvimento/testes.
Etapa 1: Baixar os pesos
Repositórios oficiais:
- deepseek-ai/DeepSeek-V4-Flash
- deepseek-ai/DeepSeek-V4-Pro
-
deepseek-ai/DeepSeek-V4-Flash-BaseeDeepSeek-V4-Pro-Basepara ajuste fino.
Instale o CLI e baixe os pesos:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Reserve ~500GB para o V4-Flash, vários TBs para o V4-Pro. Usuários na China: modelscope.cn é mais rápido.
Etapa 2: Escolha um mecanismo de serviço
- vLLM: melhor taxa de transferência, interface compatível com OpenAI, comunidade maior. Recomendado.
- SGLang: melhores recursos para ferramentas e saída estruturada; útil se depende de chamadas de funções.
Ambos já suportam DeepSeek V4.
Etapa 3: Sirva V4-Flash com vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
Sinalizadores úteis:
-
--tensor-parallel-size 2: divide entre 2 H100s. -
--max-model-len 1048576: ativa contexto de 1M tokens; reduza para liberar VRAM. -
--enable-prefix-caching: ativa cache de prefixo, acelerando prompts repetidos. -
--dtype auto: usa FP8 automaticamente.
Clientes OpenAI funcionam em http://localhost:8000/v1.
Etapa 4: Sirva V4-Pro com vLLM
V4-Pro exige cluster; ajuste os parâmetros de paralelismo:
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
Ajuste --max-model-len conforme a VRAM disponível.
Etapa 5: Sirva com SGLang (alternativa para uso de ferramentas)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang expõe /v1 compatível com OpenAI em http://localhost:30000/v1. O DSL lang facilita chamadas de função e saída JSON.
Etapa 6: Quantize para uma GPU única
Quantização INT4 permite rodar o V4-Flash em uma H100 de 80GB com perda mínima de qualidade.
AWQ (recomendado)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# Siga a receita de quantização GPTQ; processo semelhante ao AWQ.
Sirva o checkpoint quantizado com vLLM usando --quantization awq ou --quantization gptq.
Etapa 7: Teste com Apidog
Não envie produção direto para o novo servidor. Valide antes.
- Baixe o Apidog.
- Crie uma coleção apontando para
http://localhost:8000/v1/chat/completions. - Use o mesmo prompt de teste que na API hospedada e compare as respostas.
- Faça teste com contexto de 500K tokens para validar o cache KV.
- Execute um fluxo de chamada de ferramentas antes de conectar automações.
A coleção usada na API hospedada DeepSeek V4 funciona localmente mudando só o URL base.
Observabilidade e monitoramento
Monitore estas métricas desde o início:
-
Tokens por segundo (prompt e geração) — vLLM expõe em
/metricsformato Prometheus. -
Utilização da GPU —
nvidia-smiou DCGM; taxa <70% indica batch size subótimo. - Taxa de acerto do cache KV — vLLM mostra; queda sinaliza prompts não otimizados.
- Latência p50/p95/p99 — rastreamento padrão; p99 alto com p50 estável indica requisições problemáticas.
Envie todas para Grafana ou sua stack de observabilidade.
Ajuste fino dos checkpoints Base do V4
Checkpoints Base servem para pré-treinamento contínuo e SFT (fine-tuning supervisionado):
pip install "torch>=2.6" transformers accelerate peft trl
# SFT padrão com LoRA no V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
Full fine-tuning no V4-Pro é tarefa de pesquisa. LoRA adapters no V4-Flash-Base são o caminho prático para a maioria.
Armadilhas comuns
-
OOM (Out Of Memory) na inicialização: contexto alto demais ou paralelismo baixo. Diminua
--max-model-lenou aumente--tensor-parallel-size. - Primeira requisição lenta: vLLM compila kernels sob demanda; aqueça com request dummy.
- Erros de parsing em uso de ferramentas: DeepSeek difere levemente do OpenAI; use SDKs com suporte explícito ao V4.
- Erros FP8 em GPUs antigas: A100 não suporta FP8. Use BF16 e espere dobrar a necessidade de VRAM.
Quando a hospedagem própria compensa
Cálculo de breakeven, usando os preços da API DeepSeek V4:
- V4-Flash com 200B tokens in / 20B out/mês: ~$33,6K pela API. Uma máquina com 8 × H100 custa ~$20K/mês. Economia de ~40%.
- V4-Pro com 500B in / 50B out/mês: ~$1,04M na API. Cluster de 16 × H100 sai por ~$35K/mês. Economia >95%.
O ponto crítico para V4-Flash é em ~100B tokens/mês. Abaixo disso, a API hospedada é mais barata.
FAQ
Posso executar V4-Flash em uma A100?
Com quantização pesada e contexto reduzido, sim, mas é lento (5-15 tok/s). H100 é o hardware ideal.
O V4 suporta fine-tuning com LoRA?
Sim. Use checkpoints Base e pipelines TRL ou Axolotl. MoE não afeta o LoRA.
O servidor local é compatível com OpenAI?
Sim. vLLM e SGLang expõem /v1/chat/completions e /v1/completions. O guia da API hospedada funciona com localhost.
Como habilito modo de pensamento ("thinking mode")?
Inclua thinking_mode: "thinking" ou "thinking_max" na requisição. vLLM e SGLang encaminham ao modelo.
Consigo fazer streaming do servidor V4 local?
Sim. Use stream: true igual ao OpenAI ou API DeepSeek.
Forma mais barata de testar antes de comprar hardware?
Alugue uma H100 no RunPod ou Lambda, rode V4-Flash em INT4 e meça throughput real. Teste de $10–$30 resolve rápido.

Top comments (0)