GLM-5.2 es uno de los modelos de pesos abiertos más capaces que puedes ejecutar hoy. Su licencia MIT permite usarlo sin pagar licencias, pero eso no significa que ejecutarlo sea trivial: hablamos de un modelo MoE de ~753B parámetros. En esta guía verás las rutas prácticas para usarlo: autoalojamiento, créditos de prueba, planes baratos y API de pago por uso.
Si quieres la versión corta:
- Si tienes hardware suficiente, autoaloja los pesos abiertos.
- Si no tienes GPU, prueba con créditos gratuitos de z.ai.
- Si lo usarás para codificación diaria, evalúa el Plan de Codificación GLM.
- No existe una vía gratuita de OpenRouter para
glm-5.2.
El árbol de decisión rápido
| Tu situación | Mejor ruta | Costo real |
|---|---|---|
| Tienes una máquina con GPU potente o puedes alquilar una | Autoalojar pesos abiertos con Ollama o vLLM | $0 por los pesos; pagas electricidad o GPU |
| Quieres cero configuración y cero tarjeta | Créditos de prueba de z.ai / nivel limitado | Gratis hasta agotar créditos, verifica la oferta actual |
| Quieres la ruta de pago fiable más barata | Plan de Codificación GLM Lite o API con entrada en caché | Tarifa mensual baja o centavos por llamada |
| Quieres pago por uso sin compromiso | API de OpenRouter | $1.40 / 1M tokens de entrada, $4.40 / 1M tokens de salida |
Regla práctica: gratis de verdad significa autoalojar. Casi gratis significa créditos de prueba, plan Lite o entrada en caché.
Ruta 1: autoalojar los pesos abiertos MIT
GLM-5.2 está publicado bajo licencia MIT y los pesos están disponibles en Hugging Face: zai-org/GLM-5.2.
La parte importante: es un modelo MoE de ~753B parámetros en BF16. Aunque solo una parte se activa por token, el conjunto completo de pesos debe estar disponible en memoria. En BF16, eso supera el terabyte de pesos brutos.
En la práctica tienes dos opciones:
- Usar una versión cuantificada de 4 bits o similar para reducir memoria.
- Alquilar una instancia multi-GPU por horas y apagarla al terminar.
Así que “gratis” significa sin costo de licencia. Todavía necesitas hardware, electricidad o alquiler de GPU.
Ejecutar GLM-5.2 con Ollama
Ollama es la ruta local más simple. GLM-5.2 está disponible en la biblioteca de Ollama.
# Descargar el modelo
ollama pull glm-5.2:cloud
Después puedes llamarlo mediante el endpoint local compatible con OpenAI:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Write a Python function to parse an RFC 3339 timestamp."
}
]
}'
Revisa RAM y VRAM durante la ejecución. Si el modelo empieza a usar disco, la generación se vuelve muy lenta. Para que sea utilizable necesitas una cuantización adecuada, memoria suficiente o una división multi-GPU.
Si quieres una guía local más detallada, los pasos son similares a la generación anterior. Consulta ejecutar GLM-5 localmente gratis y GLM-5 gratis con Ollama. Cambia la etiqueta del modelo a glm-5.2.
Ejecutar GLM-5.2 con vLLM
Para servir varias solicitudes o exponer un endpoint más cercano a producción, usa vLLM. Permite paralelismo de tensores entre GPU, que es lo que necesitas para un modelo MoE de este tamaño.
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model zai-org/GLM-5.2 \
--tensor-parallel-size 8 \
--max-model-len 131072
Notas prácticas:
-
--tensor-parallel-size 8asume ocho GPU. - El número real depende de tus tarjetas y de si usas pesos cuantificados.
- vLLM expone una API compatible con OpenAI.
- GLM-5.2 soporta contexto de hasta 1M tokens, pero la caché KV consume mucha memoria.
- Define
--max-model-lensegún tu caso real, no por defecto al máximo.
Ejemplo de llamada al servidor vLLM:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "zai-org/GLM-5.2",
"messages": [
{
"role": "user",
"content": "Resume este archivo de configuración y detecta riesgos."
}
]
}'
Ruta 2: créditos de prueba gratuitos de z.ai
Si no puedes autoalojar, la opción más rápida es usar la plataforma de z.ai. Las cuentas nuevas suelen recibir créditos de prueba gratuitos y puede existir un nivel gratuito con límites de tarifa para experimentos ligeros. Verifica siempre la oferta actual en z.ai, porque los términos cambian.
El flujo básico es:
- Crear una cuenta.
- Generar una API key.
- Llamar al endpoint compatible con OpenAI.
curl https://api.z.ai/api/paas/v4/chat/completions \
-H "Authorization: Bearer $ZAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Explain IndexShare sparse attention in two sentences."
}
],
"thinking": {
"type": "enabled"
},
"reasoning_effort": "max"
}'
Parámetros útiles:
-
thinkingactiva o desactiva el razonamiento. - Para codificación, z.ai recomienda
reasoning_effort: "max". - Hay dos niveles de esfuerzo: Alto y Máximo.
- La salida puede llegar hasta 128K tokens según documentación de z.ai, pero conviene verificarlo en vivo.
Los créditos se agotan. Cuando eso ocurra, tendrás que pasar a pago por uso, plan mensual o autoalojamiento.
Documentación: guía de GLM-5.2 de z.ai.
Ruta 3: opciones de pago casi gratuitas
Cuando terminen los créditos, hay dos formas de mantener el costo bajo.
Plan de Codificación GLM Lite
Si tu uso principal es programar, el Plan de Codificación GLM puede ser más predecible que pagar tokens. El nivel Lite se reporta como una opción de bajo costo mensual, aunque las cifras publicadas pueden variar entre fuentes. Verifica el precio actual directamente en z.ai.
Este plan permite usar un endpoint compatible con Anthropic para herramientas como:
- Claude Code
- Cline
- Cursor
Ejemplo de configuración para Claude Code:
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
Detalles:
-
glm-5.2[1m]selecciona la variante de contexto de 1M. -
API_TIMEOUT_MSdebe ser alto para evitar cortes en llamadas largas. - Algunas fuentes muestran
open.z.ai/api/paas/v4; verifica la URL base activa antes de configurar tu entorno.
Para una guía completa con herramientas de agente, consulta GLM-5.2 con Claude Code, Cline y Cursor y GLM-5.1 con Claude Code.
API con entrada en caché
Para usar GLM-5.2 sin suscripción, la API estándar cuesta:
- $1.40 por 1M tokens de entrada
- $4.40 por 1M tokens de salida
Ese precio aparece confirmado en OpenRouter.
La optimización clave es la entrada en caché. Si tu aplicación reutiliza el mismo prefijo, por ejemplo:
- prompt de sistema largo,
- documentación fija,
- base de código repetida,
- instrucciones de agente,
puedes pagar el contexto completo una vez y luego una fracción en llamadas posteriores. VentureBeat reportó entrada en caché alrededor de $0.26 por 1M tokens.
Importante: OpenRouter no tiene un nivel gratuito para glm-5.2. Es barato, pero no gratuito.
Comparación honesta
| Ruta | Costo inicial | Costo continuo | Configuración | Mejor para |
|---|---|---|---|---|
| Autoalojar con Ollama/vLLM | Hardware o alquiler | Electricidad / horas de GPU | Alto | Privacidad, control total, sin facturación por token |
| Créditos de prueba de z.ai | Ninguno | Gratis hasta agotar créditos | Bajo | Pruebas rápidas |
| Plan de Codificación GLM Lite | Tarifa mensual baja | Tarifa plana | Bajo | Codificación diaria en Claude Code, Cline o Cursor |
| API + entrada en caché | Ninguno | $1.40/$4.40 por 1M; caché más barata | Bajo | Apps con contexto repetido |
Un flujo práctico:
- Valida tu caso con créditos de prueba.
- Si lo usarás todos los días para codificación, prueba el plan Lite.
- Si necesitas privacidad o control total, autoaloja.
- Si construyes una app con contexto reutilizable, usa API con caché.
Prueba tu endpoint GLM-5.2 con Apidog
Antes de conectar GLM-5.2 a tu aplicación, prueba el endpoint. Esto aplica tanto si usas:
- Ollama local,
- vLLM,
- API de z.ai,
- OpenRouter.
Apidog te permite enviar solicitudes HTTP, inspeccionar respuestas en streaming, guardar casos reutilizables y simular respuestas para que el frontend pueda avanzar aunque el modelo todavía no esté listo.
Ejemplo de configuración para Ollama:
POST http://localhost:11434/v1/chat/completions
Content-Type: application/json
Body:
{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Genera una función TypeScript para validar emails."
}
]
}
Para z.ai, cambia la URL base y agrega autorización:
POST https://api.z.ai/api/paas/v4/chat/completions
Authorization: Bearer YOUR_ZAI_API_KEY
Content-Type: application/json
Puedes descargar Apidog y usarlo como banco de pruebas mientras decides entre autoalojamiento, créditos o API de pago.
Preguntas frecuentes
¿GLM-5.2 es realmente gratuito?
Los pesos son gratuitos bajo licencia MIT. Puedes autoalojarlo sin pagar licencias, pero necesitas hardware, electricidad o alquiler de GPU. La API alojada es de pago, aunque z.ai suele ofrecer créditos de prueba o niveles limitados.
¿Puedo ejecutar GLM-5.2 gratis con Ollama en una laptop normal?
Realistamente, no. Es un modelo MoE de ~753B parámetros. Incluso cuantificado requiere mucha memoria. Necesitas una estación de trabajo con mucha VRAM, una Mac con gran memoria unificada o una GPU alquilada. Consulta el análisis local profundo.
¿Existe un nivel gratuito de OpenRouter para GLM-5.2?
No. OpenRouter ofrece GLM-5.2 como pago por uso a $1.40 por 1M tokens de entrada y $4.40 por 1M tokens de salida. Es barato, no gratuito.
¿Cuál es la forma de pago más barata para usar GLM-5.2 en codificación?
El Plan de Codificación GLM Lite puede ser la opción más predecible si programas a diario. Verifica el precio actual en z.ai, porque los niveles pueden cambiar.
¿Cómo se compara GLM-5.2 con GPT-5.5 en costo?
Según VentureBeat, GLM-5.2 supera a GPT-5.5 en varios benchmarks de codificación a largo plazo con aproximadamente una sexta parte del costo. Para más contexto, revisa el desglose de benchmarks de GLM-5.2 y la comparación directa.
A dónde ir después
La ruta correcta depende de tu hardware y frecuencia de uso:
- Autoalojamiento: mejor para privacidad y control.
- Créditos de prueba: mejor para validar rápido.
- Plan Lite: mejor para codificación diaria.
- API con caché: mejor para productos con contexto repetido.
Si todavía estás evaluando el modelo, empieza por qué es GLM-5.2 y cómo se compara con GLM-5.1. Cuando estés listo para construir, sigue con la guía de la API de GLM-5.2 y el desglose de precios.



Top comments (0)