DEV Community

Cover image for ¿Qué es DeepSeek V4?
Roobia
Roobia

Posted on • Originally published at apidog.com

¿Qué es DeepSeek V4?

DeepSeek lanzó V4 el 23 de abril de 2026, un avance significativo en modelos de lenguaje. El laboratorio de Hangzhou presentó cuatro checkpoints simultáneamente, liderados por DeepSeek-V4-Pro (1.6 billones de parámetros, licencia MIT y ventana de contexto de 1 millón de tokens). DeepSeek-V4-Flash, la versión eficiente, ofrece 284 mil millones de parámetros con los mismos beneficios de contexto y pesos abiertos. Los benchmarks posicionan a la variante Pro por encima de Claude Opus 4.6 en LiveCodeBench y Codeforces, y a la altura de GPT-5.4 xHigh en MMLU-Pro.

Prueba Apidog hoy

Si estás valorando migrar de Claude, GPT-5.5 o Qwen a DeepSeek V4, esta guía cubre: qué es el modelo, principales diferencias respecto a V3.2, elecciones arquitectónicas clave, y cómo ponerlo en marcha hoy mismo.

Para implementaciones técnicas, revisa la guía de la API de DeepSeek V4, la guía de acceso gratuito, y la guía completa de uso de DeepSeek V4. El formato de solicitud es compatible con OpenAI, permitiéndote construir tu colección en Apidog antes de recibir tu clave.

En resumen

  • DeepSeek V4 es una familia Mixture-of-Experts lanzada el 23 de abril de 2026 bajo licencia MIT.
  • Cuatro checkpoints: V4-Pro, V4-Pro-Base, V4-Flash, V4-Flash-Base.
  • V4-Pro: 1.6T parámetros totales (49B activos). V4-Flash: 284B totales (13B activos).
  • Ambas variantes: 1 millón de tokens de contexto y tres modos de razonamiento (Sin-Pensar, Pensar Alto, Pensar Máximo).
  • Benchmarks: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (variante Pro).
  • API disponible en api.deepseek.com con modelos deepseek-v4-pro y deepseek-v4-flash. Pesos en Hugging Face y ModelScope.

Qué es DeepSeek V4 en realidad

DeepSeek V4 es el sucesor directo de las líneas V3 y V3.2. Mantiene la arquitectura Mixture-of-Experts, pero con un diseño optimizado: V4-Pro utiliza solo 49B de sus 1.6T de parámetros por token, por lo que el coste de cómputo por token es similar a un modelo denso de 50B. Consulta el informe técnico oficial para detalles.

Checkpoints disponibles

  • DeepSeek-V4-Pro: 1.6T total, 49B activo, 1M contexto. Recomendado para uso vía API.
  • DeepSeek-V4-Pro-Base: preentrenado, sin post-entrenamiento. Ideal para fine-tuning.
  • DeepSeek-V4-Flash: 284B total, 13B activo, 1M contexto. Eficiente para despliegues locales y baja latencia.
  • DeepSeek-V4-Flash-Base: base de Flash para ajustes personalizados.

Todos bajo licencia MIT: descarga, replica, ajusta y despliega sin costo de licencia.

Qué cambió de V3.2

V4 rediseña la pila de atención y el pipeline de entrenamiento para maximizar contexto largo y eficiencia.

Capacidad V3.2 V4-Pro
Parámetros totales 685B 1.6T
Parámetros activos 37B 49B
Ventana de contexto 128K 1M
FLOPs de inferencia (contexto de 1M) base 27% de V3.2
Caché KV (contexto de 1M) base 10% de V3.2
Precisión FP8 FP4 + FP8 mixto
Licencia Licencia DeepSeek MIT
Modos de razonamiento uno tres

Mejoras clave:

  1. Nueva atención híbrida: combina Atención Dispersa Comprimida y Atención Fuertemente Comprimida para reducir caché KV al 10%.
  2. Hiperconexiones Restringidas por Manifold: estabiliza gradientes en arquitecturas profundas.
  3. Optimizador Muon: converge más rápido que AdamW.

El corpus de entrenamiento supera 32T tokens, y el post-entrenamiento incluye dos pasos: especialización de expertos y consolidación por destilación.

Benchmarks que importan

Resultados reportados:

  • V4-Pro: destaca en código y recuperación de hechos. Menor en recuperación de contexto largo frente a Claude.
  • V4-Flash: MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052, SWE Verified 79.0. Ideal para despliegues propios. Más info en la ficha de DeepSeek V4-Flash.

Si necesitas codificación agéntica o análisis con razonamiento extendido, V4-Pro es competitivo. Para búsqueda en 1M tokens, Claude sigue liderando.

Tres modos de razonamiento

Cada checkpoint expone tres modos, seleccionables por el parámetro thinking_mode en la API o flag local:

  • Sin-Pensar: generación rápida, sin tokens de razonamiento extra. Útil para clasificación, enrutamiento o resúmenes cortos.
  • Pensar Alto: predeterminado para tareas complejas. El modelo razona antes de responder, ideal para análisis y planeación de herramientas.
  • Pensar Máximo: razonamiento profundo, requiere contexto mínimo de 384K tokens. Máximo rendimiento en benchmarks, mayor costo de tokens.

Recomendación de muestreo: temperature=1.0, top_p=1.0 en todos los modos.

Arquitectura en lenguaje sencillo

Puntos clave de eficiencia en V4:

  1. Atención híbrida: capas principales usan Atención Dispersa Comprimida (un grupo de tokens clave totalmente atendido; resto comprimido). Algunas capas aplican Atención Fuertemente Comprimida, acercando el coste al lineal en secuencias largas.
  2. Hiperconexiones Restringidas por Manifold: los residuales de cada capa mantienen las activaciones en un manifold estable, permitiendo apilar más capas sin degradar gradientes.
  3. Optimizador Muon: reemplaza AdamW para manejar eficientemente grandes normas de gradiente en MoE.

La clave: unir estas técnicas a escala de trillones de parámetros sin perder estabilidad de entrenamiento.

Disponibilidad hoy

DeepSeek habilitó los cuatro checkpoints y la API desde el lanzamiento. Estado actual:

Superficie Acceso
chat.deepseek.com Chat web gratuito, V4-Pro por defecto, requiere registro
API de DeepSeek Activa en api.deepseek.com; modelos deepseek-v4-pro, deepseek-v4-flash
Pesos de Hugging Face V4-Pro, V4-Flash, ambos MIT
ModelScope Pesos replicados para usuarios en China
OpenRouter y agregadores Disponible en próximos días; lanzamiento típico de DeepSeek
deepseek-chat / deepseek-reasoner Obsoleto el 24 de julio de 2026

Importante: Si usas deepseek-chat en producción, migra a deepseek-v4-pro o deepseek-v4-flash antes del 24 de julio de 2026.

Cómo se compara con GPT-5.5 y Claude

Resumen para decisiones técnicas:

  • Costo: V4-Pro y V4-Flash tienen pesos abiertos. Si puedes autoalojar, V4 es la opción más económica en escala.
  • Codificación: 93.5 en LiveCodeBench y 3206 en Codeforces superan a GPT-5.5 y Claude Opus.
  • Cobertura de conocimiento: Gemini 3.1 Pro lidera MMLU-Pro, pero V4-Pro empata a GPT-5.5. En SimpleQA-Verified, V4 supera a ambos.
  • Recuperación contexto largo: Claude Opus domina MRCR 1M.
  • Licencia: MIT permite distribución comercial directa, sin acuerdos adicionales (ventaja sobre OpenAI/Anthropic).

Qué construir con él

Cargas de trabajo ideales:

  1. Bucles de codificación agéntica: depuración multiarchivo, refactorización y corrección autónoma. Usa Apidog para inspeccionar solicitudes/respuestas y ajustar prompts.
  2. Razonamiento sobre documentos largos: hasta 1M tokens, adecuado para monorepos, contratos extensos o corpus de investigación. Usa Pensar Alto.
  3. Productos IA autoalojados: V4-Flash es competitivo en calidad para despliegues on-premise.
  4. Investigación y ajuste fino: checkpoints Base + tus datos + pipeline SFT estándar. MIT permite redistribución comercial.

No recomendado para: clasificación masiva, recuperación de embeddings, chat de prompts cortos (otros modelos DeepSeek más rentables).

Precios en una línea

Al cierre de este artículo, la tarifa final de la API de V4 no estaba publicada. V3.2 operaba a ~$0.28/M tokens entrada y ~$0.42/M tokens salida; espera precios similares en V4-Flash y un poco más en V4-Pro. Los competidores cerrados inician en $5/M tokens. Consulta tarifas en la página de precios de DeepSeek.

Cómo probar V4 hoy

Tres caminos, ordenados por rapidez:

  1. Chat web: Ingresa a chat.deepseek.com, inicia sesión, selecciona Pensar Alto si lo necesitas. Gratis y listo para usar.
  2. API: Solicita tu clave, apunta a https://api.deepseek.com, usa "model": "deepseek-v4-pro". Compatible con clientes OpenAI (solo cambia la URL base). Guía completa en la guía de la API de DeepSeek V4.

    {
      "model": "deepseek-v4-pro",
      "messages": [
        {"role": "user", "content": "¿Cuál es la arquitectura base de DeepSeek V4?"},
      ]
    }
    
  3. Pesos locales: Descarga desde Hugging Face o ModelScope. V4-Flash funciona en 2-4 H100s; V4-Pro requiere clúster avanzado. El código de inferencia está en /inference del repo.

Para guías completas, iteración de prompts y colección preconstruida, revisa cómo usar DeepSeek V4. Para uso sin costo, consulta cómo usar DeepSeek V4 gratis. Descarga Apidog y construye tu colección compatible con OpenAI.

Preguntas frecuentes

¿Es DeepSeek V4 realmente de código abierto?

Sí. Los cuatro checkpoints usan licencia MIT, permitiendo uso comercial, modificación y distribución sin acuerdos adicionales.

¿Necesito un clúster de GPU para ejecutar V4-Flash?

Sí, requiere 2-4 H100s/H200s a precisión completa (menos si cuantificas). V4-Pro necesita un clúster distribuido. Para pruebas sin hardware, utiliza la API o chat.deepseek.com.

¿Cuándo está activo V4 en la API de DeepSeek?

Desde el 23 de abril de 2026. Modelos: deepseek-v4-pro y deepseek-v4-flash. Los modelos antiguos (deepseek-chat y deepseek-reasoner) quedarán obsoletos el 24 de julio de 2026.

¿Cómo se compara V4 con Kimi y Qwen?

V4-Pro supera a Kimi K2 y Qwen 3 Max en LiveCodeBench y Codeforces según tablas de DeepSeek. Todos son MoE de pesos abiertos; elige según tu benchmark relevante.

¿Puedo ajustar V4 con mis propios datos?

Sí, los checkpoints Base están diseñados para fine-tuning con tus datos y pipelines SFT estándar. MIT cubre redistribución comercial.

¿V4 es compatible con mis herramientas OpenAI existentes?

Sí. La API acepta formatos OpenAI y Anthropic en https://api.deepseek.com y https://api.deepseek.com/anthropic. La mayoría de clientes OpenAI funcionan cambiando solo la URL base. Consulta la guía detallada de la API de GPT-5.5 para ver la integración paralela.

Top comments (0)