DeepSeek lanzó V4 el 23 de abril de 2026, un avance significativo en modelos de lenguaje. El laboratorio de Hangzhou presentó cuatro checkpoints simultáneamente, liderados por DeepSeek-V4-Pro (1.6 billones de parámetros, licencia MIT y ventana de contexto de 1 millón de tokens). DeepSeek-V4-Flash, la versión eficiente, ofrece 284 mil millones de parámetros con los mismos beneficios de contexto y pesos abiertos. Los benchmarks posicionan a la variante Pro por encima de Claude Opus 4.6 en LiveCodeBench y Codeforces, y a la altura de GPT-5.4 xHigh en MMLU-Pro.
Si estás valorando migrar de Claude, GPT-5.5 o Qwen a DeepSeek V4, esta guía cubre: qué es el modelo, principales diferencias respecto a V3.2, elecciones arquitectónicas clave, y cómo ponerlo en marcha hoy mismo.
Para implementaciones técnicas, revisa la guía de la API de DeepSeek V4, la guía de acceso gratuito, y la guía completa de uso de DeepSeek V4. El formato de solicitud es compatible con OpenAI, permitiéndote construir tu colección en Apidog antes de recibir tu clave.
En resumen
- DeepSeek V4 es una familia Mixture-of-Experts lanzada el 23 de abril de 2026 bajo licencia MIT.
- Cuatro checkpoints: V4-Pro, V4-Pro-Base, V4-Flash, V4-Flash-Base.
- V4-Pro: 1.6T parámetros totales (49B activos). V4-Flash: 284B totales (13B activos).
- Ambas variantes: 1 millón de tokens de contexto y tres modos de razonamiento (Sin-Pensar, Pensar Alto, Pensar Máximo).
- Benchmarks: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (variante Pro).
- API disponible en
api.deepseek.comcon modelosdeepseek-v4-proydeepseek-v4-flash. Pesos en Hugging Face y ModelScope.
Qué es DeepSeek V4 en realidad
DeepSeek V4 es el sucesor directo de las líneas V3 y V3.2. Mantiene la arquitectura Mixture-of-Experts, pero con un diseño optimizado: V4-Pro utiliza solo 49B de sus 1.6T de parámetros por token, por lo que el coste de cómputo por token es similar a un modelo denso de 50B. Consulta el informe técnico oficial para detalles.
Checkpoints disponibles
- DeepSeek-V4-Pro: 1.6T total, 49B activo, 1M contexto. Recomendado para uso vía API.
- DeepSeek-V4-Pro-Base: preentrenado, sin post-entrenamiento. Ideal para fine-tuning.
- DeepSeek-V4-Flash: 284B total, 13B activo, 1M contexto. Eficiente para despliegues locales y baja latencia.
- DeepSeek-V4-Flash-Base: base de Flash para ajustes personalizados.
Todos bajo licencia MIT: descarga, replica, ajusta y despliega sin costo de licencia.
Qué cambió de V3.2
V4 rediseña la pila de atención y el pipeline de entrenamiento para maximizar contexto largo y eficiencia.
| Capacidad | V3.2 | V4-Pro |
|---|---|---|
| Parámetros totales | 685B | 1.6T |
| Parámetros activos | 37B | 49B |
| Ventana de contexto | 128K | 1M |
| FLOPs de inferencia (contexto de 1M) | base | 27% de V3.2 |
| Caché KV (contexto de 1M) | base | 10% de V3.2 |
| Precisión | FP8 | FP4 + FP8 mixto |
| Licencia | Licencia DeepSeek | MIT |
| Modos de razonamiento | uno | tres |
Mejoras clave:
- Nueva atención híbrida: combina Atención Dispersa Comprimida y Atención Fuertemente Comprimida para reducir caché KV al 10%.
- Hiperconexiones Restringidas por Manifold: estabiliza gradientes en arquitecturas profundas.
- Optimizador Muon: converge más rápido que AdamW.
El corpus de entrenamiento supera 32T tokens, y el post-entrenamiento incluye dos pasos: especialización de expertos y consolidación por destilación.
Benchmarks que importan
Resultados reportados:
- V4-Pro: destaca en código y recuperación de hechos. Menor en recuperación de contexto largo frente a Claude.
- V4-Flash: MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052, SWE Verified 79.0. Ideal para despliegues propios. Más info en la ficha de DeepSeek V4-Flash.
Si necesitas codificación agéntica o análisis con razonamiento extendido, V4-Pro es competitivo. Para búsqueda en 1M tokens, Claude sigue liderando.
Tres modos de razonamiento
Cada checkpoint expone tres modos, seleccionables por el parámetro thinking_mode en la API o flag local:
- Sin-Pensar: generación rápida, sin tokens de razonamiento extra. Útil para clasificación, enrutamiento o resúmenes cortos.
- Pensar Alto: predeterminado para tareas complejas. El modelo razona antes de responder, ideal para análisis y planeación de herramientas.
- Pensar Máximo: razonamiento profundo, requiere contexto mínimo de 384K tokens. Máximo rendimiento en benchmarks, mayor costo de tokens.
Recomendación de muestreo: temperature=1.0, top_p=1.0 en todos los modos.
Arquitectura en lenguaje sencillo
Puntos clave de eficiencia en V4:
- Atención híbrida: capas principales usan Atención Dispersa Comprimida (un grupo de tokens clave totalmente atendido; resto comprimido). Algunas capas aplican Atención Fuertemente Comprimida, acercando el coste al lineal en secuencias largas.
- Hiperconexiones Restringidas por Manifold: los residuales de cada capa mantienen las activaciones en un manifold estable, permitiendo apilar más capas sin degradar gradientes.
- Optimizador Muon: reemplaza AdamW para manejar eficientemente grandes normas de gradiente en MoE.
La clave: unir estas técnicas a escala de trillones de parámetros sin perder estabilidad de entrenamiento.
Disponibilidad hoy
DeepSeek habilitó los cuatro checkpoints y la API desde el lanzamiento. Estado actual:
| Superficie | Acceso |
|---|---|
| chat.deepseek.com | Chat web gratuito, V4-Pro por defecto, requiere registro |
| API de DeepSeek | Activa en api.deepseek.com; modelos deepseek-v4-pro, deepseek-v4-flash
|
| Pesos de Hugging Face | V4-Pro, V4-Flash, ambos MIT |
| ModelScope | Pesos replicados para usuarios en China |
| OpenRouter y agregadores | Disponible en próximos días; lanzamiento típico de DeepSeek |
deepseek-chat / deepseek-reasoner
|
Obsoleto el 24 de julio de 2026 |
Importante: Si usas deepseek-chat en producción, migra a deepseek-v4-pro o deepseek-v4-flash antes del 24 de julio de 2026.
Cómo se compara con GPT-5.5 y Claude
Resumen para decisiones técnicas:
- Costo: V4-Pro y V4-Flash tienen pesos abiertos. Si puedes autoalojar, V4 es la opción más económica en escala.
- Codificación: 93.5 en LiveCodeBench y 3206 en Codeforces superan a GPT-5.5 y Claude Opus.
- Cobertura de conocimiento: Gemini 3.1 Pro lidera MMLU-Pro, pero V4-Pro empata a GPT-5.5. En SimpleQA-Verified, V4 supera a ambos.
- Recuperación contexto largo: Claude Opus domina MRCR 1M.
- Licencia: MIT permite distribución comercial directa, sin acuerdos adicionales (ventaja sobre OpenAI/Anthropic).
Qué construir con él
Cargas de trabajo ideales:
- Bucles de codificación agéntica: depuración multiarchivo, refactorización y corrección autónoma. Usa Apidog para inspeccionar solicitudes/respuestas y ajustar prompts.
- Razonamiento sobre documentos largos: hasta 1M tokens, adecuado para monorepos, contratos extensos o corpus de investigación. Usa Pensar Alto.
- Productos IA autoalojados: V4-Flash es competitivo en calidad para despliegues on-premise.
- Investigación y ajuste fino: checkpoints Base + tus datos + pipeline SFT estándar. MIT permite redistribución comercial.
No recomendado para: clasificación masiva, recuperación de embeddings, chat de prompts cortos (otros modelos DeepSeek más rentables).
Precios en una línea
Al cierre de este artículo, la tarifa final de la API de V4 no estaba publicada. V3.2 operaba a ~$0.28/M tokens entrada y ~$0.42/M tokens salida; espera precios similares en V4-Flash y un poco más en V4-Pro. Los competidores cerrados inician en $5/M tokens. Consulta tarifas en la página de precios de DeepSeek.
Cómo probar V4 hoy
Tres caminos, ordenados por rapidez:
- Chat web: Ingresa a chat.deepseek.com, inicia sesión, selecciona Pensar Alto si lo necesitas. Gratis y listo para usar.
-
API: Solicita tu clave, apunta a
https://api.deepseek.com, usa"model": "deepseek-v4-pro". Compatible con clientes OpenAI (solo cambia la URL base). Guía completa en la guía de la API de DeepSeek V4.
{ "model": "deepseek-v4-pro", "messages": [ {"role": "user", "content": "¿Cuál es la arquitectura base de DeepSeek V4?"}, ] } Pesos locales: Descarga desde Hugging Face o ModelScope. V4-Flash funciona en 2-4 H100s; V4-Pro requiere clúster avanzado. El código de inferencia está en
/inferencedel repo.
Para guías completas, iteración de prompts y colección preconstruida, revisa cómo usar DeepSeek V4. Para uso sin costo, consulta cómo usar DeepSeek V4 gratis. Descarga Apidog y construye tu colección compatible con OpenAI.
Preguntas frecuentes
¿Es DeepSeek V4 realmente de código abierto?
Sí. Los cuatro checkpoints usan licencia MIT, permitiendo uso comercial, modificación y distribución sin acuerdos adicionales.
¿Necesito un clúster de GPU para ejecutar V4-Flash?
Sí, requiere 2-4 H100s/H200s a precisión completa (menos si cuantificas). V4-Pro necesita un clúster distribuido. Para pruebas sin hardware, utiliza la API o chat.deepseek.com.
¿Cuándo está activo V4 en la API de DeepSeek?
Desde el 23 de abril de 2026. Modelos: deepseek-v4-pro y deepseek-v4-flash. Los modelos antiguos (deepseek-chat y deepseek-reasoner) quedarán obsoletos el 24 de julio de 2026.
¿Cómo se compara V4 con Kimi y Qwen?
V4-Pro supera a Kimi K2 y Qwen 3 Max en LiveCodeBench y Codeforces según tablas de DeepSeek. Todos son MoE de pesos abiertos; elige según tu benchmark relevante.
¿Puedo ajustar V4 con mis propios datos?
Sí, los checkpoints Base están diseñados para fine-tuning con tus datos y pipelines SFT estándar. MIT cubre redistribución comercial.
¿V4 es compatible con mis herramientas OpenAI existentes?
Sí. La API acepta formatos OpenAI y Anthropic en https://api.deepseek.com y https://api.deepseek.com/anthropic. La mayoría de clientes OpenAI funcionan cambiando solo la URL base. Consulta la guía detallada de la API de GPT-5.5 para ver la integración paralela.



Top comments (0)