Lucas

Posted on Apr 24 • Originally published at apidog.com

Como Usar a API DeepSeek V4 Gratuitamente?

O DeepSeek V4 foi lançado em 23 de abril de 2026, trazendo uma API com preço tão baixo que muitas equipes ignoram camadas gratuitas. Porém, existe um caminho realmente gratuito para desenvolvedores que querem integrar o V4 programaticamente antes de adicionar um cartão. Gateways agregadores oferecem variantes :free, o Hugging Face tem endpoint aberto, e a API oficial concede crédito de teste para novas contas. Neste artigo, você verá como combinar os três em uma cadeia de fallback no Apidog para prototipar produtos baseados em V4 sem gastar nada.

Experimente o Apidog hoje

Este guia mostra o caminho gratuito para a API. Para um tutorial mais amplo cobrindo chat web e auto-hospedagem, acesse como usar o DeepSeek V4 gratuitamente. Se quiser um passo a passo pago, veja como usar a API DeepSeek V4. Para visão geral do produto, confira o que é DeepSeek V4.

EM RESUMO

Camada gratuita do OpenRouter — deepseek/deepseek-v4-flash:free e, às vezes, deepseek-v4-pro:free. Compatível com OpenAI, centenas de requisições/dia por chave.
Provedores de Inferência Hugging Face — endpoint gratuito em https://router.huggingface.co/hf-inference; limitado por taxa, útil para protótipos.
Camada gratuita do Chutes — rede de GPU comunitária que geralmente libera endpoints DeepSeek gratuitos logo após o lançamento.
Crédito de teste do DeepSeek — novas contas em platform.deepseek.com podem receber saldo inicial.
O V4-Flash auto-hospedado em GPU própria é gratuito na licença; veja como rodar o DeepSeek V4 localmente.
Monte uma cadeia de fallback no Apidog para manter o formato da requisição idêntico em todos os provedores.

Por que o caminho gratuito da API existe

Mesmo com as taxas pagas do DeepSeek sendo baixíssimas, há motivos práticos para buscar opções gratuitas:

Prototipagem antes de cadastrar cartão: Teste integrações reais sem precisar de pagamento.
Projetos acadêmicos, pesquisa e open source: Permite acesso a tecnologia de ponta mesmo sem orçamento.
Comparação de provedores: Execute o mesmo prompt em três endpoints gratuitos, avaliando latência, qualidade e confiabilidade.

Se você está nesse perfil, siga o passo a passo abaixo. Caso precise de uso contínuo e SLAs, considere a API paga — a recarga mínima de US$2 na API oficial é mais prática do que lutar contra limites gratuitos.

Caminho 1: Camada gratuita do OpenRouter

O OpenRouter agrega modelos de ponta com API compatível OpenAI. Em todos os lançamentos DeepSeek, libera variantes gratuitas.

Configuração

Cadastre-se em openrouter.ai.
Crie sua chave API em Configurações → Chaves.
Cheque o catálogo de modelos por entradas com :free (ex: deepseek/deepseek-v4-flash:free).
Chame o endpoint com qualquer SDK compatível com OpenAI.

from openai import OpenAI

client = OpenAI(
    api_key=OPENROUTER_API_KEY,
    base_url="https://openrouter.ai/api/v1",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash:free",
    messages=[{"role": "user", "content": "Refactor this Go function to use channels."}],
)

print(response.choices[0].message.content)

Como são os limites

Requisições gratuitas entram na fila atrás do tráfego pago. Limite típico: 50–200 requisições/dia/chave, concorrência baixa. A variante pode ser removida a qualquer momento — use só para prototipagem.

Versão Node

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.OPENROUTER_API_KEY,
  baseURL: "https://openrouter.ai/api/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash:free",
  messages: [{ role: "user", content: "Explain MoE routing like I'm 12." }],
});

console.log(response.choices[0].message.content);

Caminho 2: Provedores de Inferência Hugging Face

O Hugging Face disponibiliza endpoint de inferência compartilhado com checkpoints V4 após o lançamento. É só usar o token HF logado — os limites são rigorosos para uso gratuito.

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    model="deepseek-ai/DeepSeek-V4-Flash",
    token=os.environ["HF_TOKEN"],
)

response = client.chat_completion(
    messages=[
        {"role": "user", "content": "Write a Python decorator that retries with jitter."}
    ],
    max_tokens=512,
)

print(response.choices[0].message.content)

Token gratuito em huggingface.co/settings/tokens. Latência varia conforme carga, e o limite é diário por conta. Para limites maiores, só com HF Pro.

Caminho 3: Chutes e gateways da comunidade

Chutes é uma rede descentralizada de GPU que frequentemente libera modelos DeepSeek gratuitos. O endpoint compatível OpenAI é https://llm.chutes.ai/v1:

client = OpenAI(
    api_key=CHUTES_API_KEY,
    base_url="https://llm.chutes.ai/v1",
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V4-Flash",
    messages=[{"role": "user", "content": "Compare CSA and HCA attention in two sentences."}],
)

Disponibilidade muda rápido — sempre confira ID do modelo e custo no painel do provedor antes de depender dele.

Caminho 4: Crédito de teste do DeepSeek

Novas contas DeepSeek frequentemente recebem pequeno crédito inicial (ex: US$1), válido após verificação de e-mail. Cheque seu painel em platform.deepseek.com após o cadastro.

US$1 cobre cerca de 7 milhões de tokens no V4-Flash ou 570 mil no V4-Pro — suficiente para centenas de chamadas de protótipo.

Construa uma cadeia gratuita agnóstica de provedores no Apidog

Ao integrar múltiplos caminhos gratuitos, seu protótipo se torna resiliente. Siga:

Baixe o Apidog e crie um projeto.
Crie quatro ambientes: openrouter, huggingface, chutes, deepseek-trial.
Em cada ambiente, armazene a chave de API como variável secreta e defina BASE_URL.
Salve uma requisição POST para {{BASE_URL}}/chat/completions com campo model parametrizado.
Alterne o ambiente para rodar o mesmo prompt em todos os provedores sem mexer no código.

Essa abordagem também serve para caminhos gratuitos do GPT-5.5: só troque os provedores.

Monte uma cadeia de fallback no código

Implemente fallback automático para garantir resposta mesmo com limites atingidos:

import os
from openai import OpenAI, RateLimitError, APIError

PROVIDERS = [
    {
        "base_url": "https://openrouter.ai/api/v1",
        "api_key": os.environ["OPENROUTER_API_KEY"],
        "model": "deepseek/deepseek-v4-flash:free",
    },
    {
        "base_url": "https://llm.chutes.ai/v1",
        "api_key": os.environ["CHUTES_API_KEY"],
        "model": "deepseek-ai/DeepSeek-V4-Flash",
    },
    {
        "base_url": "https://api.deepseek.com/v1",
        "api_key": os.environ["DEEPSEEK_API_KEY"],
        "model": "deepseek-v4-flash",
    },
]

def call_v4(messages):
    for provider in PROVIDERS:
        try:
            client = OpenAI(
                api_key=provider["api_key"],
                base_url=provider["base_url"],
            )
            return client.chat.completions.create(
                model=provider["model"],
                messages=messages,
            )
        except (RateLimitError, APIError) as e:
            print(f"{provider['base_url']} failed: {e}")
            continue
    raise RuntimeError("all providers exhausted")

Para que cada caminho gratuito realmente serve

Caminho	Melhor para	Pior para
OpenRouter gratuito	Prototipagem, desenvolvimento diário	Qualquer coisa com SLAs rigorosos
Inferência HF	Chamadas exploratórias, notebooks	Cargas de trabalho de baixa latência
Chutes	Trabalho experimental da comunidade	Dependências de longo prazo
Teste DeepSeek	Testes de fidelidade total	Produção contínua
V4-Flash auto-hospedado	Trabalho vinculado à conformidade	Equipes sem capacidade de GPU

Matemática de cota que importa

Antes de decidir, avalie quanto cada caminho gratuito entrega:

OpenRouter gratuito: ~100 requisições/dia/chave, ~50K tokens cada. Útil para 30–50 chamadas reais/dia.
Inferência HF gratuita: ~1.000 requisições/dia por conta. Latência pode ser alta.
Chutes: variável; trate como "best effort".
Teste DeepSeek (US$1): ~700 chamadas de 10K tokens cada no V4-Flash.
V4-Flash auto-hospedado: limitado ao seu hardware. Uma máquina 4 × H100 faz 50–150 tok/s.

Se precisar de mais, a economia muda. Com V4-Flash a US$ 0,14/M, 10.000 chamadas com 2K contexto + 500 tokens de saída custam só US$2,80. Após o protótipo, a API paga geralmente é melhor.

Quando mudar para a API paga

Pare de usar apenas camadas gratuitas quando:

Você atinge limites de taxa mais de uma vez por dia;
Precisa encadear vários provedores só para atender uma carga básica;
Exige latência previsível ou SLA.

A recarga mínima em platform.deepseek.com é US$2. Um dia inteiro em camadas gratuitas pode custar mais tempo de dev do que a API paga. Veja guia de preços DeepSeek V4 para detalhes.

PERGUNTAS FREQUENTES

Algum desses caminhos é permanentemente gratuito? Não. As camadas gratuitas mudam sem aviso. Use só para prototipagem.

O OpenRouter :free executa o V4 real? Sim, mas em infraestrutura compartilhada e com taxa limitada.

Posso usar saída de caminho gratuito em produto lançado? Veja os termos de cada provedor. OpenRouter permite uso comercial dentro do limite. HF permite, mas limita. O crédito de teste do próprio DeepSeek segue os termos principais.

Qual caminho gratuito tem melhor latência? O crédito de teste DeepSeek (infraestrutura de produção). OpenRouter é o segundo. HF e Chutes variam.

Posso auto-hospedar o V4 gratuitamente? Sim, a licença é MIT. Só o hardware é custo. Veja como rodar o DeepSeek V4 localmente.

Como rastrear consumo dos caminhos gratuitos? Use Apidog e fixe usage no visualizador de respostas. A maioria dos gateways tem painel de uso no console.

DEV Community