DEV Community

Cover image for Cómo usar DeepSeek V4: Chat web, API y opciones autoalojadas
Roobia
Roobia

Posted on • Originally published at apidog.com

Cómo usar DeepSeek V4: Chat web, API y opciones autoalojadas

DeepSeek V4 se lanzó el 23 de abril de 2026 con cuatro checkpoints, una API en vivo y pesos con licencia MIT en Hugging Face. No existe una única forma correcta de usarlo; el enfoque depende de si buscas acceso inmediato, llamadas a API de producción o implementación local. Esta guía muestra cómo implementar cada opción, sus ventajas, desventajas y un flujo de prompts listo para producción que puedes reutilizar.

Prueba Apidog hoy

Si solo buscas la descripción general del producto, ve primero a qué es DeepSeek V4. Para un tutorial de la API, revisa la guía de la API de DeepSeek V4. Si prefieres la ruta gratuita, sigue cómo usar DeepSeek V4 gratis. Cuando estés listo para probar solicitudes reales, descarga Apidog y prepara tu colección preconstruida.

TL;DR

  • Ruta más rápida: chat.deepseek.com. Chat web gratuito, V4-Pro por defecto, tres modos de razonamiento.
  • Ruta de producción: https://api.deepseek.com/v1/chat/completions con IDs de modelo deepseek-v4-pro o deepseek-v4-flash.
  • Ruta autoalojada: Descarga los pesos desde Hugging Face, ejecuta los scripts /inference del repositorio.
  • Elige Non-Think para enrutamiento y clasificación, Think High para código y análisis, Think Max solo cuando la precisión sea más importante que el costo.
  • Recomendación de DeepSeek para muestreo: temperature=1.0, top_p=1.0. No lo cuestiones.
  • Utiliza Apidog como cliente de API; el formato compatible con OpenAI permite replicar solicitudes en DeepSeek, OpenAI y Anthropic.

Elija el camino correcto para su carga de trabajo

Cuatro rutas realistas. Cada una destaca en algo diferente:

Ruta Costo Tiempo de configuración Ideal para
chat.deepseek.com Gratis 30 segundos Pruebas rápidas, trabajo ad-hoc
API de DeepSeek Facturación por token 5 minutos Producción, agentes, trabajos por lotes
V4-Flash autoalojado Solo costo de hardware Unas pocas horas Cumplimiento local, inferencia sin conexión
V4-Pro autoalojado Solo costo de clúster Un día Investigación, ajustes finos personalizados
OpenRouter / agregador Facturación por token 2 minutos Respaldo multi-proveedor

Ruta 1: Usar V4 en el chat web

Para una evaluación rápida del modelo:

  1. Accede a chat.deepseek.com.
  2. Inicia sesión con email, Google o WeChat.
  3. Por defecto usarás V4-Pro. Cambia entre Non-Think, Think High y Think Max con el interruptor del compositor.
  4. Envía tus prompts y revisa los resultados.

El chat web soporta carga de archivos, búsqueda web y hasta 1M de tokens de contexto. Los límites de tasa aplican por cuenta; el uso intensivo puede ralentizar la respuesta pero rara vez bloquea por completo.

Usos ideales: diagnóstico rápido pegando errores, subir PDFs extensos para resumen, comparar prompts entre GPT-5.5 y Claude. No es ideal para automatización o reproducibilidad.

Ruta 2: Usar la API de DeepSeek

Para integración en producción y automatización:

Obtener una clave

  1. Regístrate en platform.deepseek.com.
  2. Agrega un método de pago (recarga mínima $2).
  3. Crea una API key en API Keys y guárdala (solo se muestra una vez).

Expórtala para uso en terminal:

export DEEPSEEK_API_KEY="sk-..."

La solicitud mínima viable

Utiliza el endpoint compatible con OpenAI:

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

Puedes usar deepseek-v4-flash para menor costo, y cambiar thinking por non-thinking según la tarea.

Cliente Python

El SDK oficial de openai funciona con este endpoint cambiando solo la URL base:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Cliente Node

En Node.js:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Para detalles avanzados del endpoint, parámetros y manejo de errores, revisa la guía de la API de DeepSeek V4.

Ruta 3: Iterar con Apidog

Usar curl es útil solo para pruebas iniciales. Para iterar y comparar respuestas es más eficiente con Apidog.

  1. Descarga Apidog para Mac, Windows o Linux.
  2. Crea un proyecto de API y añade una solicitud POST a https://api.deepseek.com/v1/chat/completions.
  3. Agrega el header Authorization: Bearer {{DEEPSEEK_API_KEY}} y almacena la clave en variables de entorno.
  4. Pega tu primer body JSON y guarda. Cada ajuste es reproducible con un clic.
  5. Usa el visor para comparar respuestas entre Non-Think y Think Max usando el mismo prompt.

Una sola colección puede tener solicitudes para OpenAI GPT-5.5, Claude y DeepSeek V4, lo que simplifica pruebas A/B entre proveedores y gestión de costos. Si ya usas Apidog, solo cambia la URL base para migrar tu colección GPT-5.5 a V4.

Ruta 4: Autoalojar V4-Flash

Para cumplimiento, redes aisladas o control total, aprovecha la licencia MIT para desplegar localmente.

Hardware

  • V4-Flash (13B activo, 284B total): 2 a 4 GPUs H100/H200/MI300X en FP8. Cuantizado a INT4 cabe en una sola GPU de 80GB con lotes pequeños.
  • V4-Pro (49B activo, 1.6T total): Requiere clúster real: 16-32 H100 para inferencia en producción.

Obtener los pesos

# Instala la CLI
pip install -U "huggingface_hub[cli]"

# Inicia sesión si el repo está restringido (opcional para V4)
huggingface-cli login

# Descarga V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

La descarga de V4-Flash (~500 GB en FP8) puede tardar bastante; V4-Pro pesa varios terabytes.

Ejecutar inferencia

En el repositorio, la carpeta /inference contiene código de referencia. vLLM y SGLang ofrecen soporte para V4:

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Una vez funcionando vLLM, apunta tu cliente (por ejemplo, Apidog u OpenAI SDK) a http://localhost:8000/v1. Solo cambia la URL base.

Cómo crear prompts efectivos para V4

Tres patrones prácticos:

  1. Configura thinking_mode explícitamente según la tarea. No lo dejes a la elección del modelo.
  2. Usa el prompt de sistema solo para definir la personalidad, no la tarea. La tarea debe ir en el mensaje de usuario.
  3. En prompts de código, incluye test cases. Pega casos de prueba o errores fallidos para mayor efectividad.

Para entradas largas, pon lo más relevante al principio y final de la ventana de contexto. Aunque la atención de V4 es híbrida, sigue habiendo sesgo de recencia y primacía.

Control de costos

Recomendaciones para no exceder el presupuesto:

  • Usa V4-Flash y Non-Think por defecto. Cambia a V4-Pro o modos más avanzados solo si la tarea lo requiere.
  • Limita max_tokens. 1M es el máximo, pero la mayoría de respuestas requieren solo 2,000 tokens.
  • En Apidog, usa variables de entorno para separar cuentas de prueba y producción. Apidog muestra el conteo de tokens en cada respuesta para controlar el gasto.

Migración desde DeepSeek V3 u otros modelos

  • De deepseek-chat / deepseek-reasoner: Cambia el ID del modelo a deepseek-v4-pro o deepseek-v4-flash. Los IDs antiguos se desaprobarán el 24 de julio de 2026.
  • De OpenAI GPT-5.x: Cambia la URL base a https://api.deepseek.com/v1, ajusta el ID del modelo y mantén el resto igual. Revisa la guía GPT-5.5 para solicitudes paralelas.
  • De Anthropic Claude: Usa https://api.deepseek.com/anthropic para mantener el formato Anthropic o adapta al formato OpenAI usando el endpoint principal.

Preguntas frecuentes

¿Necesito una cuenta de pago para usar V4? El chat web es gratuito. La API requiere recarga mínima de $2. Consulta cómo usar DeepSeek V4 gratis para rutas sin costo.

¿Qué variante usar por defecto? V4-Flash en modo Non-Think. Mide la calidad antes de escalar.

¿Puedo ejecutar V4 en mi MacBook? V4-Flash es posible con M3 Max/M4 Max y 128GB RAM (cuantizado y lento). V4-Pro no es viable en portátil. Para experimentar, usa la API o el chat web.

¿V4 soporta tools/function calling? Sí. El endpoint OpenAI acepta el array tools estándar y responde con tool_calls. El endpoint Anthropic utiliza el esquema nativo de herramientas de Anthropic.

¿Se pueden transmitir respuestas? Usa stream: true en el body. La respuesta es SSE estándar OpenAI; cualquier cliente compatible funciona.

¿Hay límite de tasa? Los límites por nivel están en api-docs.deepseek.com. V4 autoalojado solo limita por tu hardware.

Top comments (0)