Roobia

Posted on Apr 24 • Originally published at apidog.com

Cómo Ejecutar DeepSeek V4 Localmente

DeepSeek V4 se lanzó el 23 de abril de 2026 con pesos bajo licencia MIT en Hugging Face. Esa única elección de licencia cambia las reglas del juego para cualquier equipo que desee IA de vanguardia en su propio hardware. V4-Flash (284B total, 13B activo) cabe en un par de H100 a FP8. V4-Pro (1.6T total, 49B activo) necesita un clúster pero funciona competitivamente con GPT-5.5 y Claude Opus 4.6 en código y razonamiento.

Prueba Apidog hoy

Esta guía es un tutorial de implementación local. Cubre los requisitos de hardware, las opciones de cuantificación, las configuraciones de vLLM y SGLang, la configuración de uso de herramientas y un flujo de trabajo de prueba en Apidog que valida el servidor local antes de dirigir el tráfico de producción hacia él.

Para una descripción general del producto, consulte qué es DeepSeek V4. Para la ruta de la API alojada, consulte cómo usar la API de DeepSeek V4. Para la comparación de costos, consulte precios de la API de DeepSeek V4.

En resumen

V4-Flash se ejecuta en 2 × H100 de 80GB a FP8, o 1 × H100 a INT4. Los pesos son de ~500GB a FP8.
V4-Pro necesita más de 16 H100 a FP8 para el rendimiento de producción; no es un modelo para portátiles.
vLLM es el camino más rápido a un servidor compatible con OpenAI. vllm>=0.9.0 añade soporte para V4.
SGLang es la alternativa para equipos que desean mejores características de uso de herramientas y salida estructurada.
La cuantificación a AWQ INT4 o GPTQ INT4 permite que V4-Flash quepa en una única tarjeta de 80GB con una pérdida de calidad de ~5%.
Use Apidog para apuntar a http://localhost:8000/v1 y reutilizar la colección exacta que usa con la API alojada.

Quién debería autoalojarse

El autoalojamiento de V4 es la decisión correcta para tres tipos de equipos:

Con requisitos de cumplimiento. Sectores como salud, finanzas, legal o defensa donde los datos no pueden salir de la red. La licencia MIT de pesos abiertos elimina acuerdos de uso y flujos de datos transfronterizos.
Cargas de trabajo grandes y estables. A tasas de caché fallida, la API V4-Pro cuesta $1.74/M de entrada y $3.48/M de salida. Para cargas de trabajo de más de 200 mil millones de tokens/mes, el hardware dedicado comienza a ser más rentable.
Ajuste fino e investigación. Los checkpoints Base existen para preentrenamiento continuo y adaptación de dominio. La licencia MIT permite redistribución comercial del modelo resultante.

Quién NO debería autoalojarse: prototipadores, equipos sin experiencia en operaciones de GPU y quienes consumen menos de $200/mes en la API alojada. Los gastos operativos superan el ahorro a pequeña escala.

Requisitos de hardware

DeepSeek V4 usa precisión mixta FP4 + FP8 de forma nativa, lo que mejora el uso de memoria respecto al conteo de parámetros.

Variante	Parámetros totales	Parámetros activos	VRAM FP8	VRAM INT4	Tarjetas mínimas
V4-Flash	284B	13B	~500GB	~140GB	2 × H100 80GB (FP8) o 1 × H100 (INT4)
V4-Pro	1.6T	49B	~2.4TB	~700GB	16 × H100 80GB (FP8) o 8 × H100 (INT4)

Aclaraciones importantes:

La memoria de MoE es total, no activa. Necesita suficiente VRAM para todos los expertos.
H200 y MI300X son alternativas válidas. 141GB o 192GB por tarjeta permiten menos GPUs para el mismo modelo.
GPU de consumo no sirven. Ni V4-Flash en INT4 corre en una RTX 5090 de 24GB.
Apple Silicon: M3/M4 Max con 128GB pueden ejecutar V4-Flash (cuantificado, lento). Solo como entorno de desarrollo.

Paso 1: Descargar los pesos

Repositorios oficiales:

deepseek-ai/DeepSeek-V4-Flash
deepseek-ai/DeepSeek-V4-Pro
deepseek-ai/DeepSeek-V4-Flash-Base y DeepSeek-V4-Pro-Base para ajuste fino.

Descargue usando la CLI de Hugging Face:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Reserve ~500GB de disco para V4-Flash y varios TB para V4-Pro. ModelScope es más rápido para usuarios en China.

Paso 2: Elegir un motor de servicio

Opciones principales:

vLLM: Mejor rendimiento, interfaz OpenAI limpia, comunidad grande. Opción por defecto.
SGLang: Mejor uso de herramientas, salida estructurada, mejoras en contexto largo. Útil si depende de llamada a funciones.

Ambos soportan V4 desde versiones recientes.

Paso 3: Servir V4-Flash con vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Parámetros clave:

--tensor-parallel-size 2: Divide entre 2 H100. Aumente según tarjetas disponibles.
--max-model-len 1048576: Ventana de contexto completa (1M tokens). Reduzca para liberar VRAM.
--enable-prefix-caching: Acelera prompts repetidos.
--dtype auto: Usa precisión mixta FP8 de V4.

Con el servidor funcionando, cualquier cliente OpenAI apunta a http://localhost:8000/v1.

Paso 4: Servir V4-Pro con vLLM

V4-Pro requiere clúster. Solo cambia el paralelismo:

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

Contexto de 512K para ajustarse a 16 H100; aumente si tiene más VRAM. Combine pipeline y tensor parallel para multinodo.

Paso 5: Servir con SGLang (alternativa para uso de herramientas)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang expone la API OpenAI en http://localhost:30000/v1. Su DSL lang facilita la llamada a funciones y salida JSON.

Paso 6: Cuantificar para una sola GPU

Cuantificación INT4 permite correr V4-Flash en una sola H100 de 80GB con pérdida de calidad mínima.

AWQ (recomendado)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Siga la receta de cuantificación GPTQ; similar a AWQ.

Para servir, pase --quantization awq o --quantization gptq a vLLM.

Paso 7: Probar con Apidog

No envíe tráfico de producción sin validar el servidor local.

Descargue Apidog.
Cree una colección apuntando a http://localhost:8000/v1/chat/completions.
Pegue el mismo prompt de prueba que usa en la API alojada. Compare respuestas.
Pruebe con un contexto de 500K tokens para validar la caché KV.
Ejecute un flujo de llamada a herramientas de extremo a extremo antes de conectar un agente.

La colección de la API alojada de DeepSeek V4 funciona igual con servidor local cambiando solo la base URL.

Observabilidad y monitorización

Cuatro métricas críticas:

Tokens por segundo: Prompt y generación. vLLM expone /metrics (Prometheus).
Utilización de GPU: nvidia-smi o DCGM. Uso <70% suele indicar batch size incorrecto.
Tasa de acierto de caché KV: vLLM informa con --enable-prefix-caching.
Latencia de solicitud p50/p95/p99: Use tracing estándar; p99 alto con p50 estable implica bloqueo en la cola.

Envíe todo a Grafana o su stack de observabilidad.

Ajuste fino de los puntos de control Base de V4

Los checkpoints Base sirven para preentrenamiento continuo y SFT.

pip install "torch>=2.6" transformers accelerate peft trl

# SFT estándar con LoRA en V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

Ajuste fino completo en V4-Pro es un reto de investigación. Para la mayoría, LoRA sobre V4-Flash-Base ofrece gran mejora con bajo coste computacional.

Errores comunes

OOM al iniciar: --max-model-len demasiado alto o --tensor-parallel-size bajo. Reduzca contexto o aumente paralelismo.
Primera solicitud lenta: vLLM compila kernels de forma perezosa. Haga un warmup con una solicitud dummy.
Errores de análisis en uso de herramientas: El esquema de DeepSeek difiere de OpenAI. Use SDKs compatibles con V4.
Errores FP8 en tarjetas antiguas: A100 no soporta FP8. Use BF16 y espere el doble de VRAM.

Cuándo vale la pena el autoalojamiento

Cálculo de punto de equilibrio (basado en precios de la API alojada):

V4-Flash con 200B tokens de entrada/mes + 20B salida: ~$33.6K en API alojada vs ~$20K/mes alquilando 8 × H100. Autoalojamiento ahorra ~40%.
V4-Pro con 500B entrada + 50B salida/mes: ~$1.04M en API alojada vs ~$35K/mes en 16 × H100. Autoalojamiento ahorra más del 95%.

El punto de equilibrio de V4-Flash es ~100B tokens/mes. Por debajo, la API alojada es más barata.

Preguntas frecuentes

¿Puedo ejecutar V4-Flash en una sola A100?

Con cuantificación fuerte y contexto más corto, sí, pero lento. INT4 en A100 80GB: 5–15 tok/s. H100 es la arquitectura ideal.
¿Soporta V4 el ajuste fino con LoRA?

Sí. Use los checkpoints Base y pipelines estándar de TRL o Axolotl. MoE no modifica la matemática de LoRA.
¿El servidor local es compatible con OpenAI?

Sí. vLLM y SGLang exponen /v1/chat/completions y /v1/completions con formato OpenAI. La guía de la API alojada funciona sin cambios en localhost.
¿Cómo habilito el modo de pensamiento localmente?

Pase thinking_mode: "thinking" o "thinking_max" en la solicitud. vLLM y SGLang reenvían el flag.
¿Puedo hacer streaming desde un servidor V4 local?

Sí. Configure stream: true igual que en OpenAI o la API alojada.
¿Forma más barata de experimentar antes de comprar hardware?

Alquile una H100 en RunPod o Lambda, ejecute V4-Flash a INT4 y mida el rendimiento real. Una prueba de $10–$30 responde más rápido que una semana de planeación.

DEV Community