DeepSeek V4 se lanzó el 23 de abril de 2026 y, a diferencia de la mayoría de los modelos de vanguardia, las rutas gratuitas están disponibles desde el primer día. El chat web oficial ejecuta V4-Pro sin necesidad de tarjeta de crédito. Los pesos tienen licencia MIT y puedes descargarlos hoy mismo. Agregadores como OpenRouter y Chutes suelen ofrecer niveles gratuitos a los pocos días de cada lanzamiento de DeepSeek. En conjunto, puedes ejecutar cargas de trabajo serias en V4 sin costo antes de decidir si recargar una cuenta.
Esta guía detalla cada ruta sin costo verificada, cómo elegir la adecuada para tu caso de uso y cómo configurar una colección lista para producción en Apidog para que la transición al pago sea fluida cuando escales.
Para una descripción general a nivel de producto, revisa qué es DeepSeek V4. Para un recorrido completo por la API, consulta cómo usar la API de DeepSeek V4.
En resumen
- chat.deepseek.com — chat web gratuito en V4-Pro con modos Think High y Think Max. Sin tarjeta. Funciona hoy.
- Pesos de Hugging Face + tu propia GPU — licencia MIT, V4-Flash funciona en 2 a 4 H100, V4-Pro necesita un clúster.
- Niveles gratuitos de OpenRouter y Chutes — pasarelas de terceros que suelen abrir cuotas gratuitas en modelos DeepSeek dentro de una semana de su lanzamiento.
- Proveedores de inferencia de Hugging Face — endpoint compartido y con límite de tasa para experimentación temprana con V4.
- Créditos de prueba de Kaggle, Colab y RunPod — cómputo gratuito para pruebas puntuales si quieres experimentar con autoalojamiento.
- Todas las rutas gratuitas limitan el uso. Para producción, pasa a la facturación de pago antes de alcanzar los topes.
Ruta 1: chat.deepseek.com (la ruta gratuita predeterminada)
La forma más rápida y estable de probar DeepSeek V4 es el chat web oficial. V4-Pro es el modelo principal; puedes alternar entre los modos Sin Pensar, Pensar Alto y Pensar Máximo desde el cuadro de redacción.
Configuración
- Abre chat.deepseek.com.
- Inicia sesión con correo electrónico, Google o WeChat.
- Verifica que el modelo activo sea V4-Pro.
- Empieza a escribir y prueba prompts.
Lo que obtienes
- Contexto completo de 1M de tokens.
- Carga de archivos: PDF, imágenes y paquetes de código.
- Búsqueda web bajo demanda.
- Tres modos de razonamiento, incluido Think Max.
- Historial de conversaciones y carpetas.
Límites
DeepSeek no publica un límite estricto por día; el nivel gratuito tiene un límite suave bajo carga. Un uso intensivo puede ralentizar respuestas o poner solicitudes en cola, pero rara vez bloquea el acceso. Si ves límites de tasa persistentes, reduce el ritmo o considera la API.
Casos adecuados: comparar prompts difíciles, revisión arquitectónica de repositorios, uso de Think Max para analizar contratos complejos.
No adecuado para: automatización o flujos reproducibles.
Ruta 2: Autoalojar V4-Flash en tu propia GPU
V4-Flash es la variante con licencia MIT para autoalojamiento realista. Con 284B y 13B activos, una máquina multi-H100 lo ejecuta en FP8 con buen rendimiento; en INT4 cabe en una sola tarjeta de 80GB.
El costo es solo el hardware. Si ya tienes GPUs, es la ruta gratuita más duradera y no está sujeta a límites de tasa ni retiros.
Descargar los pesos
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash
Aproximadamente 500GB en FP8. Asegúrate de tener espacio.
Servir con vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto \
--port 8000
Cuando esté listo, apunta cualquier cliente OpenAI a http://localhost:8000/v1. El endpoint acepta el mismo formato de solicitud que la API de DeepSeek; Apidog lo detecta como otra base URL y tus colecciones funcionan igual.
Requisitos de hardware
| Variante | Tarjetas mínimas (FP8) | Tarjetas mínimas (INT4) | Rendimiento realista |
|---|---|---|---|
| V4-Flash | 2 × H100 80GB | 1 × H100 80GB | 50 a 150 tok/s |
| V4-Pro | 16 × H100 80GB | 8 × H100 80GB | dependiente del clúster |
Si no tienes GPUs disponibles, suele ser más barato la API que alquilar hardware. Esta ruta es ideal para equipos con GPUs o necesidades de cumplimiento.
Ruta 3: Nivel gratuito de OpenRouter
OpenRouter agrega modelos de pesos abiertos y privados a través de una única API. Ofrece niveles gratuitos en nuevos lanzamientos de DeepSeek, patrón visto en V3, V3.1 y V3.2.
Configuración
- Regístrate en openrouter.ai.
- Crea una clave API.
- Busca en el catálogo
deepseek/deepseek-v4-proodeepseek/deepseek-v4-flash. Las variantes gratuitas suelen tener el sufijo:free. - Llama con el SDK OpenAI compatible.
from openai import OpenAI
client = OpenAI(
api_key=OPENROUTER_KEY,
base_url="https://openrouter.ai/api/v1",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash:free",
messages=[{"role": "user", "content": "Write a Python CLI for semver bumping."}],
)
print(response.choices[0].message.content)
Límites
Niveles gratuitos limitados a cientos de solicitudes diarias por clave y menor prioridad bajo carga. Perfecto para prototipos, no fiable para producción.
Ruta 4: Proveedores de inferencia de Hugging Face
Hugging Face ofrece inferencia alojada con puntos de control V4 poco después del lanzamiento. Límites de tasa estrictos y latencia variable, pero gratuito.
from huggingface_hub import InferenceClient
client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")
response = client.chat_completion(
messages=[{"role": "user", "content": "Summarize the V4 technical report in 5 bullets."}],
max_tokens=512,
)
print(response.choices[0].message.content)
El token de HF es gratuito. Para uso intensivo, actualiza a cuenta Pro para mejores límites; aún así, el costo es mucho menor que la API oficial en cargas equivalentes.
Ruta 5: Créditos de prueba en Colab, Kaggle, RunPod y Lambda
Los principales proveedores de GPUs ofrecen créditos de prueba. Bien gestionados, permiten experimentar con V4-Flash sin costo real.
- Google Colab: El nivel gratuito T4 no sirve para V4, pero Colab Pro+ ofrece 500 unidades/mes, suficiente para algunos experimentos en A100.
- Kaggle: Horas de GPU semanales gratis en T4/P100. Limitado para V4-Pro, suficiente para V4-Flash cuantificado.
- RunPod: $10 de crédito de prueba cubren horas en H100. Ideal para pruebas rápidas con vLLM.
- Lambda: Promociones ocasionales de horas gratuitas en H100 y H200; revisa su página de registro.
No son rutas gratuitas a largo plazo, solo útiles para pruebas puntuales.
Construye una colección Apidog agnóstica al proveedor
El beneficio de tantas rutas gratuitas es poder probar el mismo prompt en todas sin duplicar trabajo. Flujo recomendado:
- Descarga Apidog.
- Crea una colección con cuatro entornos:
chat(placeholder),deepseek(https://api.deepseek.com/v1),openrouter(https://openrouter.ai/api/v1),self-hosted(http://localhost:8000/v1). - Guarda una única solicitud POST en
{{BASE_URL}}/chat/completions. - Almacena la clave de cada proveedor como variable secreta para que el cuerpo de la solicitud sea idéntico en todos los entornos.
- Cambia de entorno para pruebas A/B en cada backend.
Este es el mismo patrón que la colección del nivel gratuito de GPT-5.5: una herramienta, todos los proveedores, sin duplicar trabajo.
¿Qué ruta gratuita deberías elegir?
Cuatro heurísticas para decidir:
- Quiero probar rápido: Usa chat.deepseek.com.
- Quiero prototipar un producto: Usa el nivel gratuito de OpenRouter y luego recarga en DeepSeek si es necesario.
- Tengo GPUs y necesito cumplimiento: Autoalojar V4-Flash con vLLM.
- Busco uso gratuito a largo plazo: No existe. Todos los niveles gratuitos tienen límites. Combina chat.deepseek.com para trabajo interactivo y recarga de pago para automatización.
Cuándo dejar el uso gratuito
Tres señales claras:
- Te aplican límites de tasa más de una vez al día. Es momento de presupuestar.
- Necesitas SLAs. Solo la API oficial los ofrece.
- Necesitas logs, auditoría o cumplimiento. La API de pago entrega registros claros, los niveles gratuitos no.
Cuando ocurra cualquiera de estos casos, pasa a la API oficial. La recarga mínima es de $2 y el precio por token es el menor en el segmento.
Preguntas Frecuentes
¿Es chat.deepseek.com realmente gratuito?
Sí. Sin tarjeta, sin límite de tiempo. Límite suave bajo carga, pero no hay muro de pago.
¿Necesito cuenta de Hugging Face para descargar los pesos?
Técnicamente no; el repo es público. Prácticamente sí: una cuenta inicia mejores límites de tasa.
¿Qué ruta gratuita ejecuta el verdadero V4-Pro?
chat.deepseek.com usa V4-Pro. Los niveles gratuitos de OpenRouter suelen ser V4-Flash. Si quieres V4-Pro sin pagar, el chat web es la opción.
¿Puedo usar un nivel gratuito para un producto?
No de manera responsable. Los gratuitos tienen límites de tasa, cambian términos y pueden desaparecer. Para productos, usa la API o autoalójalo.
¿El autoalojamiento es realmente gratuito?
La licencia sí. El hardware no. Si tienes GPUs, el costo es electricidad. Si alquilas, suele ser más caro que la API.
¿Habrá un nivel gratuito de Apidog para probar?
Apidog es gratuito para diseño y pruebas de API; solo cobra créditos al usar APIs de pago. Puedes combinar un workspace gratuito de Apidog con chat.deepseek.com u OpenRouter para un flujo 100% gratuito.



Top comments (0)