Lucas

Posted on Apr 24 • Originally published at apidog.com

Como Usar DeepSeek V4: Chat Web, API e Implementação Self-Hosted

DeepSeek V4 foi lançado em 23 de abril de 2026 com quatro checkpoints, uma API ao vivo e pesos licenciados pelo MIT no Hugging Face. Isso permite diferentes formas de uso: acesso instantâneo, chamadas de API para produção ou implantação on-premise. Este guia mostra como implementar cada opção, destacando prós, contras, pegadinhas e fornecendo um fluxo de prompt pronto para produção.

Experimente o Apidog hoje

Se você busca apenas a visão geral do produto, leia o que é DeepSeek V4. Para um passo a passo da API, acesse o guia da API DeepSeek V4. Para opções gratuitas, veja como usar o DeepSeek V4 gratuitamente. Pronto para testar requisições reais? Baixe o Apidog e carregue a coleção pré-pronta.

TL;DR

Caminho mais rápido: chat.deepseek.com. Chat web gratuito, V4-Pro padrão, três modos de raciocínio.
Produção: https://api.deepseek.com/v1/chat/completions com deepseek-v4-pro ou deepseek-v4-flash.
Auto-hospedado: puxe os pesos do Hugging Face, execute os scripts /inference.
Use Não-Pensar para roteamento/classificação, Pensar Alto para código/análise, Pensar Máximo apenas quando precisão for crítica.
Configuração recomendada: temperature=1.0, top_p=1.0.
Use o Apidog como cliente de API; formato OpenAI compatível permite reaproveitar requisições entre DeepSeek, OpenAI e Anthropic.

Escolha o caminho certo para sua carga de trabalho

Quatro opções práticas. Cada uma é melhor para um cenário:

Caminho	Custo	Tempo de Configuração	Melhor para
chat.deepseek.com	Grátis	30 segundos	Testes rápidos, uso ad-hoc
API DeepSeek	Cobrança por token	5 minutos	Produção, agentes, jobs em lote
V4-Flash auto-hospedado	Só hardware	Algumas horas	Conformidade on-premise, inferência offline
V4-Pro auto-hospedado	Cluster	Um dia	Pesquisa, fine-tunes
OpenRouter / agregador	Cobrança por token	2 minutos	Fallback multi-provedor

Caminho 1: Usar V4 no chat web

Acesse chat.deepseek.com.
Faça login com e-mail, Google ou WeChat.
O modelo V4-Pro é padrão; alterne o modo (Não-Pensar, Pensar Alto, Pensar Máximo) pelo botão do topo.
Digite seu prompt.

O chat web aceita upload de arquivos, busca na web e suporta contexto de até 1 milhão de tokens. Limites de uso são por conta; uso intenso pode causar lentidão, raramente bloqueio.

Bons usos: diagnóstico rápido (colando stacktrace), resumo de PDFs grandes, comparar respostas com GPT-5.5/Claude. Maus usos: automação ou execuções reproduzíveis.

Caminho 2: Usar a API DeepSeek

Ideal para equipes. A API é compatível com o formato OpenAI, e os IDs são estáveis.

Obter uma chave

Cadastre-se em platform.deepseek.com.
Adicione método de pagamento (crédito inicial: $2).
Crie uma chave em API Keys e salve a chave.

Exporte a chave para uso em clientes:

export DEEPSEEK_API_KEY="sk-..."

Requisição mínima viável

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refatore esta função Python para assíncrona. Responda apenas com o código."}
    ],
    "thinking_mode": "thinking"
  }'

Troque deepseek-v4-pro por deepseek-v4-flash para menor custo. Troque thinking por non-thinking para respostas mais rápidas.

Cliente Python

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Você é um engenheiro sênior conciso."},
        {"role": "user", "content": "Explique a pilha de atenção híbrida CSA+HCA."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Cliente Node

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Escreva um fizzbuzz em Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Para detalhes de parâmetros e erros, consulte o guia da API DeepSeek V4.

Caminho 3: Iterar com Apidog

Evite poluir seu terminal e desperdiçar créditos. Use o Apidog para gerenciar e reproduzir requisições de API de forma eficiente.

Baixe o Apidog para Mac, Windows ou Linux.
Crie um projeto de API e adicione uma requisição POST para https://api.deepseek.com/v1/chat/completions.
Adicione Authorization: Bearer {{DEEPSEEK_API_KEY}} como cabeçalho; armazene a chave nas variáveis de ambiente.
Cole o JSON do corpo e salve. A cada ajuste, basta clicar para executar novamente.
Use o visualizador integrado para comparar respostas entre Non-Think e Think Max usando o mesmo prompt.

Na mesma coleção, adicione requisições para GPT-5.5 (OpenAI), Claude (Anthropic) e DeepSeek V4. Isso simplifica testes A/B e mantém o controle do uso em uma só interface. Para equipes já usando Apidog, basta trocar a base URL para migrar coleções existentes (saiba como).

Caminho 4: Auto-hospedar V4-Flash

Se compliance ou air-gap são requisitos, use a licença MIT e rode localmente.

Hardware

V4-Flash (13B ativos, 284B total): 2–4 placas H100/H200/MI300X em FP8. Quantizado INT4 cabe em GPU de 80GB.
V4-Pro (49B ativos, 1.6T total): cluster de 16–32 H100s para produção.

Obtenha os pesos

pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

O download de V4-Flash (~500GB FP8) pode demorar. V4-Pro são múltiplos TBs.

Executar inferência

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Com o vLLM rodando, aponte qualquer cliente OpenAI para http://localhost:8000/v1. A mesma coleção do Apidog funcionará com apenas troca da URL base.

Prompting V4 de forma eficaz

Recomendações para maximizar resultados:

Defina explicitamente o modo de raciocínio. Use thinking_mode adequado à tarefa (não dependa do modelo escolher).
Prompts de sistema para persona/apresentação. Direcione formato/tarefa para a mensagem do usuário, não para o system.
Inclua ambiente de teste para tarefas de código. Coloque o teste que falha junto ao prompt; o modelo tende a gerar código melhor.

Para contextos longos (100k+ tokens), coloque informações mais relevantes no início e no final.

Controle de custos

Três práticas para evitar surpresas na conta:

Use V4-Flash como padrão. Só use V4-Pro onde a diferença de qualidade justificar.
Prefira Non-Think. Suba para Think High se necessário; Think Max só para tarefas críticas.
Limite max_tokens. 1M é o teto, não a meta. Normalmente 2.000 tokens de saída bastam.

No Apidog, defina variáveis de ambiente para DEEPSEEK_API_KEY e mantenha ambientes separados para testes vs produção. O Apidog mostra a contagem de tokens de cada resposta, facilitando identificar prompts longos demais.

Migrando do DeepSeek V3 ou outros modelos

De deepseek-chat / deepseek-reasoner: Troque o modelo para deepseek-v4-pro ou deepseek-v4-flash. IDs antigos expiram em 24/07/2026.
De OpenAI GPT-5.x: Troque a base URL para https://api.deepseek.com/v1 e o ID do modelo. Resto igual. Veja o guia da API GPT-5.5 para o formato paralelo.
De Anthropic Claude: Aponte para https://api.deepseek.com/anthropic (formato Anthropic) ou converta para OpenAI e use o endpoint principal.

FAQ

Preciso de conta paga para usar V4? Chat web é grátis. API exige recarga mínima de $2. Veja como usar o DeepSeek V4 gratuitamente para alternativas sem custo.

Qual variante usar por padrão? Comece com V4-Flash em Non-Think. Meça a qualidade e avance só se necessário.

Posso rodar V4 no meu MacBook? V4-Flash roda em M3/M4 Max com 128GB RAM (quantizado, devagar). V4-Pro não roda em laptop; use API ou chat web.

V4 suporta ferramentas/chamada de funções? Sim. O endpoint OpenAI aceita tools; as respostas trazem tool_calls. O endpoint Anthropic usa o esquema nativo da Anthropic.

Como faço streaming de respostas? Use stream: true na requisição. O retorno é SSE padrão OpenAI; qualquer lib de streaming OpenAI funciona.

Existe limite de taxa? API hospedada publica limites em api-docs.deepseek.com. No auto-hospedado, o limite é seu hardware.

DEV Community