Roobia

Posted on Jun 17 • Originally published at apidog.com

Cómo usar GLM-5.2 gratis

GLM-5.2 es uno de los modelos de pesos abiertos más capaces que puedes ejecutar hoy. Su licencia MIT permite usarlo sin pagar licencias, pero eso no significa que ejecutarlo sea trivial: hablamos de un modelo MoE de ~753B parámetros. En esta guía verás las rutas prácticas para usarlo: autoalojamiento, créditos de prueba, planes baratos y API de pago por uso.

Prueba Apidog hoy

Si quieres la versión corta:

Si tienes hardware suficiente, autoaloja los pesos abiertos.
Si no tienes GPU, prueba con créditos gratuitos de z.ai.
Si lo usarás para codificación diaria, evalúa el Plan de Codificación GLM.
No existe una vía gratuita de OpenRouter para glm-5.2.

El árbol de decisión rápido

Tu situación	Mejor ruta	Costo real
Tienes una máquina con GPU potente o puedes alquilar una	Autoalojar pesos abiertos con Ollama o vLLM	$0 por los pesos; pagas electricidad o GPU
Quieres cero configuración y cero tarjeta	Créditos de prueba de z.ai / nivel limitado	Gratis hasta agotar créditos, verifica la oferta actual
Quieres la ruta de pago fiable más barata	Plan de Codificación GLM Lite o API con entrada en caché	Tarifa mensual baja o centavos por llamada
Quieres pago por uso sin compromiso	API de OpenRouter	$1.40 / 1M tokens de entrada, $4.40 / 1M tokens de salida

Regla práctica: gratis de verdad significa autoalojar. Casi gratis significa créditos de prueba, plan Lite o entrada en caché.

Ruta 1: autoalojar los pesos abiertos MIT

GLM-5.2 está publicado bajo licencia MIT y los pesos están disponibles en Hugging Face: zai-org/GLM-5.2.

La parte importante: es un modelo MoE de ~753B parámetros en BF16. Aunque solo una parte se activa por token, el conjunto completo de pesos debe estar disponible en memoria. En BF16, eso supera el terabyte de pesos brutos.

En la práctica tienes dos opciones:

Usar una versión cuantificada de 4 bits o similar para reducir memoria.
Alquilar una instancia multi-GPU por horas y apagarla al terminar.

Así que “gratis” significa sin costo de licencia. Todavía necesitas hardware, electricidad o alquiler de GPU.

Ejecutar GLM-5.2 con Ollama

Ollama es la ruta local más simple. GLM-5.2 está disponible en la biblioteca de Ollama.

# Descargar el modelo
ollama pull glm-5.2:cloud

Después puedes llamarlo mediante el endpoint local compatible con OpenAI:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Write a Python function to parse an RFC 3339 timestamp."
      }
    ]
  }'

Revisa RAM y VRAM durante la ejecución. Si el modelo empieza a usar disco, la generación se vuelve muy lenta. Para que sea utilizable necesitas una cuantización adecuada, memoria suficiente o una división multi-GPU.

Si quieres una guía local más detallada, los pasos son similares a la generación anterior. Consulta ejecutar GLM-5 localmente gratis y GLM-5 gratis con Ollama. Cambia la etiqueta del modelo a glm-5.2.

Ejecutar GLM-5.2 con vLLM

Para servir varias solicitudes o exponer un endpoint más cercano a producción, usa vLLM. Permite paralelismo de tensores entre GPU, que es lo que necesitas para un modelo MoE de este tamaño.

pip install vllm

python -m vllm.entrypoints.openai.api_server \
  --model zai-org/GLM-5.2 \
  --tensor-parallel-size 8 \
  --max-model-len 131072

Notas prácticas:

--tensor-parallel-size 8 asume ocho GPU.
El número real depende de tus tarjetas y de si usas pesos cuantificados.
vLLM expone una API compatible con OpenAI.
GLM-5.2 soporta contexto de hasta 1M tokens, pero la caché KV consume mucha memoria.
Define --max-model-len según tu caso real, no por defecto al máximo.

Ejemplo de llamada al servidor vLLM:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "zai-org/GLM-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Resume este archivo de configuración y detecta riesgos."
      }
    ]
  }'

Ruta 2: créditos de prueba gratuitos de z.ai

Si no puedes autoalojar, la opción más rápida es usar la plataforma de z.ai. Las cuentas nuevas suelen recibir créditos de prueba gratuitos y puede existir un nivel gratuito con límites de tarifa para experimentos ligeros. Verifica siempre la oferta actual en z.ai, porque los términos cambian.

El flujo básico es:

Crear una cuenta.
Generar una API key.
Llamar al endpoint compatible con OpenAI.

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Explain IndexShare sparse attention in two sentences."
      }
    ],
    "thinking": {
      "type": "enabled"
    },
    "reasoning_effort": "max"
  }'

Parámetros útiles:

thinking activa o desactiva el razonamiento.
Para codificación, z.ai recomienda reasoning_effort: "max".
Hay dos niveles de esfuerzo: Alto y Máximo.
La salida puede llegar hasta 128K tokens según documentación de z.ai, pero conviene verificarlo en vivo.

Los créditos se agotan. Cuando eso ocurra, tendrás que pasar a pago por uso, plan mensual o autoalojamiento.

Documentación: guía de GLM-5.2 de z.ai.

Ruta 3: opciones de pago casi gratuitas

Cuando terminen los créditos, hay dos formas de mantener el costo bajo.

Plan de Codificación GLM Lite

Si tu uso principal es programar, el Plan de Codificación GLM puede ser más predecible que pagar tokens. El nivel Lite se reporta como una opción de bajo costo mensual, aunque las cifras publicadas pueden variar entre fuentes. Verifica el precio actual directamente en z.ai.

Este plan permite usar un endpoint compatible con Anthropic para herramientas como:

Claude Code
Cline
Cursor

Ejemplo de configuración para Claude Code:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Detalles:

glm-5.2[1m] selecciona la variante de contexto de 1M.
API_TIMEOUT_MS debe ser alto para evitar cortes en llamadas largas.
Algunas fuentes muestran open.z.ai/api/paas/v4; verifica la URL base activa antes de configurar tu entorno.

Para una guía completa con herramientas de agente, consulta GLM-5.2 con Claude Code, Cline y Cursor y GLM-5.1 con Claude Code.

API con entrada en caché

Para usar GLM-5.2 sin suscripción, la API estándar cuesta:

$1.40 por 1M tokens de entrada
$4.40 por 1M tokens de salida

Ese precio aparece confirmado en OpenRouter.

La optimización clave es la entrada en caché. Si tu aplicación reutiliza el mismo prefijo, por ejemplo:

prompt de sistema largo,
documentación fija,
base de código repetida,
instrucciones de agente,

puedes pagar el contexto completo una vez y luego una fracción en llamadas posteriores. VentureBeat reportó entrada en caché alrededor de $0.26 por 1M tokens.

Importante: OpenRouter no tiene un nivel gratuito para glm-5.2. Es barato, pero no gratuito.

Comparación honesta

Ruta	Costo inicial	Costo continuo	Configuración	Mejor para
Autoalojar con Ollama/vLLM	Hardware o alquiler	Electricidad / horas de GPU	Alto	Privacidad, control total, sin facturación por token
Créditos de prueba de z.ai	Ninguno	Gratis hasta agotar créditos	Bajo	Pruebas rápidas
Plan de Codificación GLM Lite	Tarifa mensual baja	Tarifa plana	Bajo	Codificación diaria en Claude Code, Cline o Cursor
API + entrada en caché	Ninguno	$1.40/$4.40 por 1M; caché más barata	Bajo	Apps con contexto repetido

Un flujo práctico:

Valida tu caso con créditos de prueba.
Si lo usarás todos los días para codificación, prueba el plan Lite.
Si necesitas privacidad o control total, autoaloja.
Si construyes una app con contexto reutilizable, usa API con caché.

Prueba tu endpoint GLM-5.2 con Apidog

Antes de conectar GLM-5.2 a tu aplicación, prueba el endpoint. Esto aplica tanto si usas:

Ollama local,
vLLM,
API de z.ai,
OpenRouter.

Apidog te permite enviar solicitudes HTTP, inspeccionar respuestas en streaming, guardar casos reutilizables y simular respuestas para que el frontend pueda avanzar aunque el modelo todavía no esté listo.

Ejemplo de configuración para Ollama:

POST http://localhost:11434/v1/chat/completions
Content-Type: application/json

Body:

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Genera una función TypeScript para validar emails."
    }
  ]
}

Para z.ai, cambia la URL base y agrega autorización:

POST https://api.z.ai/api/paas/v4/chat/completions
Authorization: Bearer YOUR_ZAI_API_KEY
Content-Type: application/json

Puedes descargar Apidog y usarlo como banco de pruebas mientras decides entre autoalojamiento, créditos o API de pago.

Preguntas frecuentes

¿GLM-5.2 es realmente gratuito?

Los pesos son gratuitos bajo licencia MIT. Puedes autoalojarlo sin pagar licencias, pero necesitas hardware, electricidad o alquiler de GPU. La API alojada es de pago, aunque z.ai suele ofrecer créditos de prueba o niveles limitados.

¿Puedo ejecutar GLM-5.2 gratis con Ollama en una laptop normal?

Realistamente, no. Es un modelo MoE de ~753B parámetros. Incluso cuantificado requiere mucha memoria. Necesitas una estación de trabajo con mucha VRAM, una Mac con gran memoria unificada o una GPU alquilada. Consulta el análisis local profundo.

¿Existe un nivel gratuito de OpenRouter para GLM-5.2?

No. OpenRouter ofrece GLM-5.2 como pago por uso a $1.40 por 1M tokens de entrada y $4.40 por 1M tokens de salida. Es barato, no gratuito.

¿Cuál es la forma de pago más barata para usar GLM-5.2 en codificación?

El Plan de Codificación GLM Lite puede ser la opción más predecible si programas a diario. Verifica el precio actual en z.ai, porque los niveles pueden cambiar.

¿Cómo se compara GLM-5.2 con GPT-5.5 en costo?

Según VentureBeat, GLM-5.2 supera a GPT-5.5 en varios benchmarks de codificación a largo plazo con aproximadamente una sexta parte del costo. Para más contexto, revisa el desglose de benchmarks de GLM-5.2 y la comparación directa.

A dónde ir después

La ruta correcta depende de tu hardware y frecuencia de uso:

Autoalojamiento: mejor para privacidad y control.
Créditos de prueba: mejor para validar rápido.
Plan Lite: mejor para codificación diaria.
API con caché: mejor para productos con contexto repetido.

Si todavía estás evaluando el modelo, empieza por qué es GLM-5.2 y cómo se compara con GLM-5.1. Cuando estés listo para construir, sigue con la guía de la API de GLM-5.2 y el desglose de precios.

DEV Community