DeepSeek publicó los precios de V4 el mismo día que lanzó los modelos, el 23 de abril de 2026, reajustando el punto de partida para la IA de frontera. V4-Flash opera a $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida. V4-Pro a $1.74 de entrada y $3.48 de salida. Ambos admiten ventana de contexto de 1 millón de tokens y hasta 384 mil de salida. Además, ofrecen un agresivo descuento por acierto de caché, reduciendo los costos de entrada entre 80% y 90% en solicitudes repetidas.
Esta guía explica la lista de precios completa, cómo el almacenamiento en caché de contexto modifica el costo real por llamada, una comparación técnica con GPT-5.5 y Claude Opus, y cuatro estrategias para controlar el gasto en Apidog.
Para información general del producto, revisa qué es DeepSeek V4. Para un tutorial de integración, consulta cómo usar la API de DeepSeek V4. Si buscas rutas sin costo, revisa cómo usar DeepSeek V4 gratis.
En resumen
- V4-Flash: $0.14 / M entrada (sin caché), $0.028 / M entrada (con caché), $0.28 / M salida.
- V4-Pro: $1.74 / M entrada (sin caché), $0.145 / M entrada (con caché), $3.48 / M salida.
- Ventana de contexto: 1 millón de tokens de entrada, 384 mil tokens de salida, ambas variantes.
- Descuento por acierto de caché: aprox. 80% en Flash, 92% en Pro en prefijos repetidos.
-
deepseek-chatydeepseek-reasonerse deprecian el 24 de julio de 2026; la facturación se asigna a V4-Flash. - Con tasas de caché fallido, V4-Pro es ~2.9 veces más barato que GPT-5.5 en entrada y ~8.6 veces más barato en salida.
La lista de precios completa
| Modelo | Entrada (sin caché) | Entrada (con caché) | Salida | Contexto |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.028 / M | $0.28 / M | 1M / 384K |
deepseek-v4-pro |
$1.74 / M | $0.145 / M | $3.48 / M | 1M / 384K |
deepseek-chat (obsoleto 24-07-2026) |
se asigna a V4-Flash sin razonamiento | — | — | — |
deepseek-reasoner (obsoleto 24-07-2026) |
se asigna a V4-Flash con razonamiento | — | — | — |
Puntos clave:
- El precio depende solamente del ID del modelo; el modo de razonamiento solo afecta la cantidad de tokens consumidos.
- El descuento por caché es automático: cualquier prefijo repetido de al menos 1,024 tokens (byte a byte) en la misma cuenta se factura al precio reducido.
- Los IDs antiguos (
deepseek-chat,deepseek-reasoner) ya son alias de V4-Flash; la fecha límite es el 24 de julio de 2026.
Almacenamiento en caché de contexto explicado
El almacenamiento en caché es la mayor herramienta de reducción de costos en DeepSeek V4. Todo lo que se repite entre llamadas, como prompts de sistema largos, esquemas de herramientas o contexto RAG, se factura a una fracción en las siguientes llamadas.
Ejemplo práctico:
Supón un agente con un prompt de sistema de 20,000 tokens (inalterable) y 100 preguntas de usuario de 200 tokens cada una.
Sin caché:
- Entrada: 100 × 20,200 tokens × $1.74 / M = $3.52
- Salida: 100 × 500 tokens × $3.48 / M = $0.17
- Total: $3.69
Con caché (1 fallo inicial, 99 aciertos):
- Entrada primera llamada: 20,200 × $1.74 / M = $0.035
- Siguientes 99 prefijos con caché: 99 × 20,000 × $0.145 / M = $0.287
- Siguientes 99 turnos de usuario sin caché: 99 × 200 × $1.74 / M = $0.034
- Salida: 100 × 500 × $3.48 / M = $0.174
- Total: $0.53
Resultado: ~7 veces más barato. El efecto es aún mayor en V4-Flash.
Comparativa con GPT-5.5 y Claude
La comparación relevante para equipos técnicos:
| Modelo | Entrada (estándar) | Entrada (en caché) | Salida | Contexto |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0.14 / M | $0.028 / M | $0.28 / M | 1M |
| DeepSeek V4-Pro | $1.74 / M | $0.145 / M | $3.48 / M | 1M |
| GPT-5.5 | $5 / M | $1.25 / M | $30 / M | 1M |
| GPT-5.5 Pro | $30 / M | — | $180 / M | 1M |
| Claude Opus 4.6 | $15 / M | $1.50 / M | $75 / M | 200K |
Conclusiones técnicas:
- En salida, V4-Pro es ~8.6 veces más barato que GPT-5.5 y 21 veces más barato que Claude Opus 4.6.
- En entrada con caché, V4-Pro es ~10 veces más barato que GPT-5.5 y Claude Opus en escenarios repetitivos.
- En rendimiento, V4-Pro iguala o supera a GPT-5.5 en benchmarks de codificación (LiveCodeBench, Codeforces), costando solo una fracción. Más detalles en qué es DeepSeek V4.
Advertencia: Claude supera a V4-Pro en recuperación de contexto largo, y Gemini 3.1 Pro lidera MMLU-Pro. Si tu caso depende de recuperar información precisa en grandes contextos, evalúa la calidad antes del costo.
Modelado de costos para cargas de trabajo comunes
Cuatro patrones cubren la mayoría de los casos en producción. Así se calculan en V4-Pro (sin caché; los ahorros por caché se suman):
1. Bucle de codificación agéntico (50K de contexto, 2K de salida, 20 llamadas por tarea)
- Entrada: 50,000 × 20 × $1.74 / M = $1.74
- Salida: 2,000 × 20 × $3.48 / M = $0.14
- Costo por tarea: ~$1.88
GPT-5.5: ~$6.20 por tarea.
2. Q&A de documentos largos (500K de contexto, 1K de salida)
- Entrada: 500,000 × $1.74 / M = $0.87
- Salida: 1,000 × $3.48 / M = $0.003
- Costo por llamada: ~$0.87
GPT-5.5: ~$2.53 por llamada.
3. Clasificación de alto volumen (2K contexto, 200 salida, 10,000 llamadas)
Usa V4-Flash para esto.
- Entrada: 2,000 × 10,000 × $0.14 / M = $2.80
- Salida: 200 × 10,000 × $0.28 / M = $0.56
- Costo total: ~$3.36
GPT-5.5: ~$110 ejecutando lo mismo.
4. Chatbot con indicaciones repetidas (10K prompt sistema, 500 tokens usuario, 1K salida, 1,000 sesiones)
- Entrada primera llamada: 10,500 × $1.74 / M = $0.018
- Entrada con caché: 999 × 10,000 × $0.145 / M = $1.45
- Turnos usuario sin caché: 999 × 500 × $1.74 / M = $0.87
- Salida: 1,000 × 1,000 × $3.48 / M = $3.48
- Costo total: ~$5.82
GPT-5.5 con caché: ~$26.35 para la misma carga.
Costos ocultos a vigilar
El precio listado no lo es todo. Ten en cuenta:
-
Inflación de tokens en modo razonamiento:
thinking_maxpuede consumir 3-10x más tokens de salida. Limita este modo con indicadores. - Crecimiento del contexto: Los agentes suelen realimentar la conversación entera en cada turno. Trunca o resume agresivamente para evitar explosión de costos.
- Tormentas de reintentos: Un bug que reintenta en cada error 500 puede duplicar la factura. Implementa retroceso exponencial y límite de reintentos.
- Iteraciones de desarrollo: Probar prompts con curl vuelve a ejecutar todo el contexto. Usar Apidog y variables parametrizadas reduce costos de iteración casi a cero.
Seguimiento de costos en Apidog
Flujo recomendado para controlar costos:
-
Descarga Apidog y almacena
DEEPSEEK_API_KEYcomo variable secreta. - Crea una solicitud POST a
https://api.deepseek.com/v1/chat/completions. - En el panel de respuesta, ancla
usage.prompt_tokens,usage.completion_tokensyusage.reasoning_tokenspara ver los costos en cada llamada. - Parametriza
modelythinking_modepara testear entre V4-Flash y V4-Pro, y entre Non-Think y Think Max. - Replica la colección para GPT-5.5 (la guía de API de GPT-5.5 explica la configuración).
Este workflow detecta ~80% de sorpresas de costo antes de que lleguen a la factura.
Cuatro reglas para mantener el gasto predecible
- Por defecto, usa V4-Flash. Solo escala a V4-Pro si la mejora de calidad lo justifica.
- Por defecto, usa Non-Think. Escala a Think High para tareas difíciles y Think Max solo para tareas críticas.
-
Limita
max_tokens. El máximo de 384K es una protección, no un objetivo. La mayoría de respuestas caben en 2K. -
Envía telemetría de uso. Registra
prompt_tokens,completion_tokensyreasoning_tokens. Haz alertas sobre picos de tokens de razonamiento.
Preguntas frecuentes
¿Existe un nivel gratuito?
No hay API gratuita, pero a veces se otorga crédito de prueba. Para rutas sin costo, revisa cómo usar DeepSeek V4 gratis.
¿Cómo funciona la tarificación por acierto de caché?
Prefijos de 1,024+ tokens repetidos en la misma cuenta se facturan al precio reducido. La primera llamada paga tarifa completa; posteriores con el mismo prefijo, tarifa con descuento. Es automático.
¿Los modos de razonamiento cuestan más?
El precio por token es igual, pero los modos de razonamiento consumen más tokens. Monitorea reasoning_tokens en el objeto usage.
¿Los precios son estables?
DeepSeek puede cambiar precios. V3.2 fue estable en 2025; V4 no tiene fecha de fin publicada. Consulta la página de precios en vivo antes de presupuestar.
¿V4-Pro y V4-Flash tienen la misma tarifa de salida?
No. V4-Pro salida: $3.48 / M; V4-Flash salida: $0.28 / M. Es la razón más fuerte para usar Flash por defecto.
¿El endpoint Anthropic cambia la tarifa?
No. https://api.deepseek.com/anthropic usa las mismas tarifas que el endpoint OpenAI. El formato no afecta la facturación.
Top comments (0)