DeepSeek V4 foi lançado em 23 de abril de 2026 e, ao contrário da maioria dos lançamentos de ponta, os caminhos gratuitos são reais. O chat web oficial executa o V4-Pro sem necessidade de cartão de crédito. Os pesos são licenciados pelo MIT e estão disponíveis para download hoje. Agregadores como OpenRouter e Chutes geralmente expõem camadas gratuitas poucos dias após um lançamento do DeepSeek. Somando tudo, você pode executar cargas de trabalho sérias do V4 a custo zero antes mesmo de decidir se deseja recarregar uma conta.
Este guia detalha todos os caminhos sem custo que podemos verificar, qual se adapta a cada caso de uso e como configurar uma coleção pronta para produção no Apidog para que a transição para a cobrança paga seja suave quando o uso aumentar.
Para uma visão geral do produto, consulte o que é DeepSeek V4. Para o guia completo da API, confira como usar a API do DeepSeek V4.
TL;DR
- chat.deepseek.com — chat web gratuito no V4-Pro com alternadores Think High e Think Max. Sem cartão. Funciona hoje.
- Pesos do Hugging Face + sua própria GPU — Licença MIT, V4-Flash roda em 2 a 4 H100s, V4-Pro precisa de um cluster.
- Camadas gratuitas do OpenRouter e Chutes — gateways de terceiros que geralmente abrem cota gratuita em modelos DeepSeek dentro de uma semana após o lançamento.
- Provedores de Inferência Hugging Face — um endpoint compartilhado e com limite de taxa que expõe o V4 para experimentação inicial.
- Créditos de teste do Kaggle, Colab e RunPod — computação gratuita para execuções únicas quando você quiser testar a auto-hospedagem.
- Todo caminho gratuito limita o uso. Para cargas de trabalho de produção, passe para a cobrança paga antes que o limite seja atingido.
Caminho 1: chat.deepseek.com (o caminho gratuito padrão)
O caminho gratuito mais rápido e confiável é a interface de chat oficial. O V4-Pro é o modelo padrão; o botão na parte superior do compositor alterna entre os modos de raciocínio Non-Think, Think High e Think Max.
Configuração
- Abra chat.deepseek.com.
- Faça login com e-mail, Google ou WeChat.
- Confirme que o modelo ativo é V4-Pro.
- Comece a digitar.
O que você obtém
- Janela de contexto completa de 1M tokens.
- Upload de arquivos para PDFs, imagens e pacotes de código.
- Pesquisa web sob demanda.
- Todos os três modos de raciocínio, incluindo Think Max.
- Histórico de conversas e pastas.
Como são os limites
O DeepSeek não publica um limite rígido de mensagens por dia; o nível gratuito é suavizado sob carga. O uso intenso pode atrasar respostas ou enfileirar solicitações, mas raramente bloqueia totalmente. Caso veja limites de taxa persistentes, diminua a cadência ou mude para a API.
Bons usos: comparar V4 com Claude em prompts difíceis, revisão arquitetônica colando um tarball, rodar Think Max em um contrato complexo.
Maus usos: automação, tarefas que precisam ser reproduzidas.
Caminho 2: Auto-hospede o V4-Flash na sua própria GPU
O V4-Flash é a variante licenciada pelo MIT que você pode auto-hospedar. Com 284B no total e 13B ativos, uma multi-H100 roda em FP8; quantização INT4 permite executar em uma única placa de 80GB.
O custo aqui é hardware, não licença. Se já possui GPU, é o caminho gratuito mais durável.
Baixe os pesos
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash
Aproximadamente 500GB em FP8 – reserve espaço em disco.
Sirva com vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto \
--port 8000
Com o serviço ativo, aponte qualquer cliente compatível com OpenAI para http://localhost:8000/v1. O endpoint aceita o mesmo formato da API paga do DeepSeek; o Apidog trata como outra URL base, e todas suas coleções salvas funcionam sem alterações.
Verificação da realidade do hardware
| Variante | Placas mínimas (FP8) | Placas mínimas (INT4) | Taxa de transferência realista |
|---|---|---|---|
| V4-Flash | 2 × H100 80GB | 1 × H100 80GB | 50 a 150 tok/s |
| V4-Pro | 16 × H100 80GB | 8 × H100 80GB | dependente do cluster |
Se não tem placas ociosas, geralmente vale mais a pena usar a API do que alugar GPUs. Auto-hospedagem serve melhor equipes com hardware próprio ou requisitos regulatórios.
Caminho 3: Nível gratuito do OpenRouter
OpenRouter é um gateway que agrega modelos abertos e fechados via uma única API. Normalmente libera nível gratuito em lançamentos DeepSeek; padrão válido desde V3.
Configuração
- Cadastre-se em openrouter.ai.
- Gere uma chave de API.
- No catálogo de modelos, busque
deepseek/deepseek-v4-prooudeepseek/deepseek-v4-flash. Variantes gratuitas costumam vir com:free. - Consuma via SDK compatível com OpenAI.
from openai import OpenAI
client = OpenAI(
api_key=OPENROUTER_KEY,
base_url="https://openrouter.ai/api/v1",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash:free",
messages=[{"role": "user", "content": "Escreva uma CLI Python para aumento de versão semver."}],
)
print(response.choices[0].message.content)
Limites
Em geral, algumas centenas de solicitações por dia por chave, com prioridade reduzida sob carga. Ótimo para prototipar, não para produção.
Caminho 4: Provedores de Inferência Hugging Face
Hugging Face oferece inferência hospedada dos checkpoints V4 logo após o lançamento. Limites de taxa são rigorosos e latência pode variar, mas é gratuito.
from huggingface_hub import InferenceClient
client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")
response = client.chat_completion(
messages=[{"role": "user", "content": "Resuma o relatório técnico do V4 em 5 pontos."}],
max_tokens=512,
)
print(response.choices[0].message.content)
O token HF é gratuito. Para cargas mais intensas, contas Pro oferecem limites mais flexíveis, ainda muito abaixo do custo da API oficial.
Caminho 5: Créditos de teste no Colab, Kaggle, RunPod e Lambda
Provedores de GPU oferecem créditos de teste que permitem experimentos pontuais com V4-Flash sem custo real.
- Google Colab. Nível gratuito T4 é pequeno para V4. Colab Pro+ oferece 500 unidades/mês, suficiente para alguns testes com V4-Flash em A100.
- Kaggle. Oferece horas semanais gratuitas em T4 e P100; suficiente apenas para experimentos pequenos.
- RunPod. US$ 10 de crédito cobre algumas horas em H100 – suficiente para rodar benchmarks e desligar.
- Lambda. Ofertas promocionais de horas grátis em H100/H200 – confira sempre a página de cadastro.
São caminhos para experimentos curtos, não uso contínuo.
Crie uma coleção Apidog agnóstica de provedor
A vantagem dos caminhos gratuitos é testar o mesmo prompt em todos, sem retrabalho. Siga este fluxo:
- Baixe o Apidog.
- Crie uma coleção com quatro ambientes:
chat(placeholder),deepseek(https://api.deepseek.com/v1),openrouter(https://openrouter.ai/api/v1),self-hosted(http://localhost:8000/v1). - Salve uma requisição POST para
{{BASE_URL}}/chat/completions. - Guarde a chave de cada provedor como variável secreta; o corpo da requisição fica idêntico em todos os ambientes.
- Alterne entre ambientes para testar o mesmo prompt em cada backend.
Esse padrão é o mesmo da coleção gratuita do GPT-5.5: uma ferramenta, vários provedores, sem duplicação de trabalho.
Qual caminho gratuito escolher?
Siga estas heurísticas para decidir:
- Quero formar uma opinião em cinco minutos: use chat.deepseek.com.
- Quero prototipar um produto: use o nível gratuito do OpenRouter até atingir o limite, então recarregue no DeepSeek.
- Tenho GPUs e histórico de conformidade: auto-hospede o V4-Flash no vLLM.
- Preciso de uso gratuito a longo prazo: não existe. Combine chat.deepseek.com para uso interativo com recarga paga para automação.
Quando sair do nível gratuito
Troque para o pago quando:
- Limite de taxa diário recorrente: sua carga já justifica orçamento.
- Precisa de SLA: só disponível na API oficial.
- Exige logging, auditoria ou compliance: só a API paga garante registros claros.
Quando chegar nesses pontos, migre para a API oficial. Mínimo de recarga: US$ 2, preço por token mais baixo da categoria.
FAQ
O chat.deepseek.com é realmente gratuito?
Sim. Sem cartão, sem tempo de teste. O serviço é suavizado, mas sem paywall.Preciso de conta Hugging Face para baixar pesos?
Tecnicamente não, mas na prática sim — logado, você tem limites de taxa melhores.Qual caminho gratuito roda o V4-Pro real?
chat.deepseek.com executa o V4-Pro completo. OpenRouter costuma liberar V4-Flash. Precisa do V4-Pro sem pagar? Use o chat web.Posso colocar um nível gratuito por trás de um produto?
Não de forma responsável. Limites de taxa mudam e podem sumir. Para entregar V4 a clientes, use API paga ou auto-hospede.Auto-hospedagem é realmente gratuita?
Licença sim, hardware não. Se já possui GPU, custo marginal é eletricidade. Alugando, normalmente sai mais caro que API.Haverá nível gratuito Apidog para testes?
O Apidog é gratuito para design e teste de API; só cobra créditos ao acessar APIs pagas. Então, sim: você pode ter workspace Apidog gratuito combinando com chat.deepseek.com ou OpenRouter para fluxo 100% gratuito.



Top comments (0)