Lucas

Posted on Apr 24 • Originally published at apidog.com

Como Usar DeepSeek V4 Grátis: Guia Completo

DeepSeek V4 foi lançado em 23 de abril de 2026 e, ao contrário da maioria dos lançamentos de ponta, os caminhos gratuitos são reais. O chat web oficial executa o V4-Pro sem necessidade de cartão de crédito. Os pesos são licenciados pelo MIT e estão disponíveis para download hoje. Agregadores como OpenRouter e Chutes geralmente expõem camadas gratuitas poucos dias após um lançamento do DeepSeek. Somando tudo, você pode executar cargas de trabalho sérias do V4 a custo zero antes mesmo de decidir se deseja recarregar uma conta.

Experimente o Apidog hoje

Este guia detalha todos os caminhos sem custo que podemos verificar, qual se adapta a cada caso de uso e como configurar uma coleção pronta para produção no Apidog para que a transição para a cobrança paga seja suave quando o uso aumentar.

Para uma visão geral do produto, consulte o que é DeepSeek V4. Para o guia completo da API, confira como usar a API do DeepSeek V4.

TL;DR

chat.deepseek.com — chat web gratuito no V4-Pro com alternadores Think High e Think Max. Sem cartão. Funciona hoje.
Pesos do Hugging Face + sua própria GPU — Licença MIT, V4-Flash roda em 2 a 4 H100s, V4-Pro precisa de um cluster.
Camadas gratuitas do OpenRouter e Chutes — gateways de terceiros que geralmente abrem cota gratuita em modelos DeepSeek dentro de uma semana após o lançamento.
Provedores de Inferência Hugging Face — um endpoint compartilhado e com limite de taxa que expõe o V4 para experimentação inicial.
Créditos de teste do Kaggle, Colab e RunPod — computação gratuita para execuções únicas quando você quiser testar a auto-hospedagem.
Todo caminho gratuito limita o uso. Para cargas de trabalho de produção, passe para a cobrança paga antes que o limite seja atingido.

Caminho 1: chat.deepseek.com (o caminho gratuito padrão)

O caminho gratuito mais rápido e confiável é a interface de chat oficial. O V4-Pro é o modelo padrão; o botão na parte superior do compositor alterna entre os modos de raciocínio Non-Think, Think High e Think Max.

Configuração

Abra chat.deepseek.com.
Faça login com e-mail, Google ou WeChat.
Confirme que o modelo ativo é V4-Pro.
Comece a digitar.

O que você obtém

Janela de contexto completa de 1M tokens.
Upload de arquivos para PDFs, imagens e pacotes de código.
Pesquisa web sob demanda.
Todos os três modos de raciocínio, incluindo Think Max.
Histórico de conversas e pastas.

Como são os limites

O DeepSeek não publica um limite rígido de mensagens por dia; o nível gratuito é suavizado sob carga. O uso intenso pode atrasar respostas ou enfileirar solicitações, mas raramente bloqueia totalmente. Caso veja limites de taxa persistentes, diminua a cadência ou mude para a API.

Bons usos: comparar V4 com Claude em prompts difíceis, revisão arquitetônica colando um tarball, rodar Think Max em um contrato complexo.

Maus usos: automação, tarefas que precisam ser reproduzidas.

Caminho 2: Auto-hospede o V4-Flash na sua própria GPU

O V4-Flash é a variante licenciada pelo MIT que você pode auto-hospedar. Com 284B no total e 13B ativos, uma multi-H100 roda em FP8; quantização INT4 permite executar em uma única placa de 80GB.

O custo aqui é hardware, não licença. Se já possui GPU, é o caminho gratuito mais durável.

Baixe os pesos

pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash

Aproximadamente 500GB em FP8 – reserve espaço em disco.

Sirva com vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto \
  --port 8000

Com o serviço ativo, aponte qualquer cliente compatível com OpenAI para http://localhost:8000/v1. O endpoint aceita o mesmo formato da API paga do DeepSeek; o Apidog trata como outra URL base, e todas suas coleções salvas funcionam sem alterações.

Verificação da realidade do hardware

Variante	Placas mínimas (FP8)	Placas mínimas (INT4)	Taxa de transferência realista
V4-Flash	2 × H100 80GB	1 × H100 80GB	50 a 150 tok/s
V4-Pro	16 × H100 80GB	8 × H100 80GB	dependente do cluster

Se não tem placas ociosas, geralmente vale mais a pena usar a API do que alugar GPUs. Auto-hospedagem serve melhor equipes com hardware próprio ou requisitos regulatórios.

Caminho 3: Nível gratuito do OpenRouter

OpenRouter é um gateway que agrega modelos abertos e fechados via uma única API. Normalmente libera nível gratuito em lançamentos DeepSeek; padrão válido desde V3.

Configuração

Cadastre-se em openrouter.ai.
Gere uma chave de API.
No catálogo de modelos, busque deepseek/deepseek-v4-pro ou deepseek/deepseek-v4-flash. Variantes gratuitas costumam vir com :free.
Consuma via SDK compatível com OpenAI.

from openai import OpenAI

client = OpenAI(
    api_key=OPENROUTER_KEY,
    base_url="https://openrouter.ai/api/v1",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash:free",
    messages=[{"role": "user", "content": "Escreva uma CLI Python para aumento de versão semver."}],
)

print(response.choices[0].message.content)

Limites

Em geral, algumas centenas de solicitações por dia por chave, com prioridade reduzida sob carga. Ótimo para prototipar, não para produção.

Caminho 4: Provedores de Inferência Hugging Face

Hugging Face oferece inferência hospedada dos checkpoints V4 logo após o lançamento. Limites de taxa são rigorosos e latência pode variar, mas é gratuito.

from huggingface_hub import InferenceClient

client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")

response = client.chat_completion(
    messages=[{"role": "user", "content": "Resuma o relatório técnico do V4 em 5 pontos."}],
    max_tokens=512,
)

print(response.choices[0].message.content)

O token HF é gratuito. Para cargas mais intensas, contas Pro oferecem limites mais flexíveis, ainda muito abaixo do custo da API oficial.

Caminho 5: Créditos de teste no Colab, Kaggle, RunPod e Lambda

Provedores de GPU oferecem créditos de teste que permitem experimentos pontuais com V4-Flash sem custo real.

Google Colab. Nível gratuito T4 é pequeno para V4. Colab Pro+ oferece 500 unidades/mês, suficiente para alguns testes com V4-Flash em A100.
Kaggle. Oferece horas semanais gratuitas em T4 e P100; suficiente apenas para experimentos pequenos.
RunPod. US$ 10 de crédito cobre algumas horas em H100 – suficiente para rodar benchmarks e desligar.
Lambda. Ofertas promocionais de horas grátis em H100/H200 – confira sempre a página de cadastro.

São caminhos para experimentos curtos, não uso contínuo.

Crie uma coleção Apidog agnóstica de provedor

A vantagem dos caminhos gratuitos é testar o mesmo prompt em todos, sem retrabalho. Siga este fluxo:

Baixe o Apidog.
Crie uma coleção com quatro ambientes: chat (placeholder), deepseek (https://api.deepseek.com/v1), openrouter (https://openrouter.ai/api/v1), self-hosted (http://localhost:8000/v1).
Salve uma requisição POST para {{BASE_URL}}/chat/completions.
Guarde a chave de cada provedor como variável secreta; o corpo da requisição fica idêntico em todos os ambientes.
Alterne entre ambientes para testar o mesmo prompt em cada backend.

Esse padrão é o mesmo da coleção gratuita do GPT-5.5: uma ferramenta, vários provedores, sem duplicação de trabalho.

Qual caminho gratuito escolher?

Siga estas heurísticas para decidir:

Quero formar uma opinião em cinco minutos: use chat.deepseek.com.
Quero prototipar um produto: use o nível gratuito do OpenRouter até atingir o limite, então recarregue no DeepSeek.
Tenho GPUs e histórico de conformidade: auto-hospede o V4-Flash no vLLM.
Preciso de uso gratuito a longo prazo: não existe. Combine chat.deepseek.com para uso interativo com recarga paga para automação.

Quando sair do nível gratuito

Troque para o pago quando:

Limite de taxa diário recorrente: sua carga já justifica orçamento.
Precisa de SLA: só disponível na API oficial.
Exige logging, auditoria ou compliance: só a API paga garante registros claros.

Quando chegar nesses pontos, migre para a API oficial. Mínimo de recarga: US$ 2, preço por token mais baixo da categoria.

FAQ

O chat.deepseek.com é realmente gratuito?

Sim. Sem cartão, sem tempo de teste. O serviço é suavizado, mas sem paywall.
Preciso de conta Hugging Face para baixar pesos?

Tecnicamente não, mas na prática sim — logado, você tem limites de taxa melhores.
Qual caminho gratuito roda o V4-Pro real?

chat.deepseek.com executa o V4-Pro completo. OpenRouter costuma liberar V4-Flash. Precisa do V4-Pro sem pagar? Use o chat web.
Posso colocar um nível gratuito por trás de um produto?

Não de forma responsável. Limites de taxa mudam e podem sumir. Para entregar V4 a clientes, use API paga ou auto-hospede.
Auto-hospedagem é realmente gratuita?

Licença sim, hardware não. Se já possui GPU, custo marginal é eletricidade. Alugando, normalmente sai mais caro que API.
Haverá nível gratuito Apidog para testes?

O Apidog é gratuito para design e teste de API; só cobra créditos ao acessar APIs pagas. Então, sim: você pode ter workspace Apidog gratuito combinando com chat.deepseek.com ou OpenRouter para fluxo 100% gratuito.

DEV Community

Como Usar DeepSeek V4 Grátis: Guia Completo

TL;DR

Caminho 1: chat.deepseek.com (o caminho gratuito padrão)

Configuração

O que você obtém

Como são os limites

Caminho 2: Auto-hospede o V4-Flash na sua própria GPU

Baixe os pesos

Sirva com vLLM

Verificação da realidade do hardware

Caminho 3: Nível gratuito do OpenRouter

Configuração

Limites

Caminho 4: Provedores de Inferência Hugging Face

Caminho 5: Créditos de teste no Colab, Kaggle, RunPod e Lambda

Crie uma coleção Apidog agnóstica de provedor

Qual caminho gratuito escolher?

Quando sair do nível gratuito

FAQ

Top comments (0)