Lucas

Posted on Jun 17 • Originally published at apidog.com

Como Usar GLM-5.2 Grátis

GLM-5.2 é um dos modelos de código aberto mais capazes que você pode executar hoje. A licença MIT torna o uso dos pesos gratuito, mas isso não significa que a execução seja simples: trata-se de um modelo mixture-of-experts (MoE) de ~753B. Neste guia, você verá os caminhos práticos para usar o GLM-5.2: auto-hospedagem, créditos de teste, planos baratos e API pay-as-you-go.

Experimente o Apidog hoje

Resumo rápido: se você tem hardware suficiente ou pode alugar GPUs por hora, auto-hospede os pesos abertos. Se não tem, comece com os créditos de teste do z.ai ou com o plano de codificação mais barato. Não existe uma camada gratuita do OpenRouter para glm-5.2.

A árvore de decisão rápida

Use esta tabela para escolher o caminho e ir direto para a seção correspondente.

Sua situação	Melhor caminho	Custo real
Você tem uma GPU potente ou pode alugar uma instância	Auto-hospedar com Ollama ou vLLM	$0 pelos pesos; eletricidade ou aluguel de GPU
Você quer testar sem configuração e sem cartão	Créditos gratuitos do z.ai / camada com limite de taxa	Grátis até os créditos acabarem
Você quer codificar com custo mensal previsível	Plano de Codificação GLM Lite	Valor mensal baixo; verifique o preço atual
Você quer pagar apenas pelo uso	API via z.ai ou OpenRouter	$1.40 / 1M entrada, $4.40 / 1M saída

Regra prática:

Gratuito de verdade: auto-hospedagem dos pesos.
Quase gratuito: créditos de teste, camada limitada ou plano Lite.
Barato e simples para apps: API com cache de entrada.

Caminho 1: auto-hospede os pesos MIT do GLM-5.2

O GLM-5.2 está disponível sob licença MIT e os pesos podem ser baixados no Hugging Face:

zai-org/GLM-5.2

Isso remove o custo de licenciamento, mas não remove o custo operacional. O modelo tem ~753 bilhões de parâmetros em BF16. Mesmo sendo MoE e ativando apenas parte dos parâmetros por token, o conjunto completo de pesos ainda precisa caber em memória.

Na prática, você tem duas opções:

Usar uma versão quantizada para reduzir consumo de RAM/VRAM.
Alugar uma instância multi-GPU por hora e desligá-la após o uso.

Opção A: rodar GLM-5.2 com Ollama

Ollama é o caminho local mais simples. O modelo está disponível na biblioteca do Ollama:

https://ollama.com/library/glm-5.2

Instale o Ollama e baixe o modelo:

ollama pull glm-5.2:cloud

Depois, teste o endpoint local compatível com OpenAI:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Write a Python function to parse an RFC 3339 timestamp."
      }
    ]
  }'

Pontos de atenção:

Monitore RAM e VRAM durante a execução.
Se o modelo transbordar para disco, a geração ficará muito lenta.
Prefira builds quantizados se estiver usando hardware local.
Para contexto maior, você precisará de muito mais memória.

Para um passo a passo local mais detalhado, veja:

O fluxo é praticamente o mesmo: troque a tag do modelo para glm-5.2.

Opção B: servir GLM-5.2 com vLLM

Para throughput, múltiplas requisições e uso mais próximo de produção, use vLLM. Ele permite paralelismo de tensores entre GPUs, o que é essencial para um MoE desse tamanho.

Instale:

pip install vllm

Suba um servidor compatível com OpenAI:

python -m vllm.entrypoints.openai.api_server \
  --model zai-org/GLM-5.2 \
  --tensor-parallel-size 8 \
  --max-model-len 131072

Esse exemplo assume oito GPUs. Ajuste conforme:

quantidade de GPUs disponíveis;
VRAM de cada placa;
checkpoint usado;
quantização;
tamanho de contexto necessário.

O GLM-5.2 suporta contexto de até 1 milhão de tokens, mas manter cache KV para esse tamanho exige muita memória. Na prática, defina --max-model-len apenas para o tamanho que sua aplicação realmente precisa.

Depois de iniciado, chame o servidor como uma API OpenAI-compatible.

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "zai-org/GLM-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Explique em uma frase quando usar vLLM em vez de Ollama."
      }
    ]
  }'

Caminho 2: use créditos gratuitos do z.ai

Se você não tem hardware para auto-hospedagem, o caminho mais simples é usar a plataforma do z.ai.

Novas contas geralmente recebem créditos gratuitos de teste e pode existir uma camada com limite de taxa para experimentação leve. Como essas ofertas mudam, confirme os termos atuais em:

https://z.ai/blog/glm-5.2

Fluxo básico:

Crie uma conta no z.ai.
Gere uma chave de API.
Configure a variável de ambiente.
Faça uma chamada para o endpoint compatível com OpenAI.

export ZAI_API_KEY="sua-chave"

Teste:

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Explain IndexShare sparse attention in two sentences."
      }
    ],
    "thinking": {
      "type": "enabled"
    },
    "reasoning_effort": "max"
  }'

Parâmetros úteis:

thinking: ativa ou desativa o modo de raciocínio.
reasoning_effort: controla o esforço de raciocínio. Para codificação, o z.ai recomenda "max".
Saída longa: a documentação do z.ai menciona até 128K tokens de saída, mas valide esse limite na documentação atual antes de depender dele em produção.

Documentação:

Guia GLM-5.2 do z.ai

Caminho 3: use as opções pagas mais baratas

Quando os créditos acabam, há dois caminhos de baixo custo:

Plano de Codificação GLM Lite.
API pay-as-you-go com cache de entrada.

Plano de Codificação GLM Lite

Se seu uso principal é programação, o Plano de Codificação GLM é o caminho mais previsível. O preço publicado pode variar por fonte e período; verifique o valor atual diretamente no z.ai.

Esse plano é útil porque permite integrar o GLM-5.2 a ferramentas de codificação que usam endpoints compatíveis com Anthropic, como:

Claude Code;
Cline;
Cursor.

Exemplo de configuração para Claude Code:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="sua-chave-do-plano-de-codificacao-glm"

export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"

export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Notas práticas:

O sufixo [1m] seleciona a variante com contexto de 1M.
Aumente API_TIMEOUT_MS para evitar timeout em chamadas longas.
Confirme a URL base atual na documentação do z.ai, pois algumas fontes mencionam variações.

Guias relacionados:

API pay-as-you-go com entrada em cache

Para usar a API sem assinatura, o preço geral informado pelo OpenRouter é:

$1.40 por 1M tokens de entrada
$4.40 por 1M tokens de saída

Referência:

OpenRouter: z-ai/glm-5.2

Esse caminho é bom para:

aplicações web;
agentes internos;
ferramentas de análise de código;
workloads com prompts repetidos;
protótipos que não justificam assinatura mensal.

O ponto mais importante é a entrada em cache. Segundo VentureBeat, o custo de entrada em cache foi reportado em torno de $0.26 por 1M tokens. Isso reduz bastante o custo quando você reutiliza o mesmo prefixo, como:

prompt de sistema longo;
documentação fixa;
base de código;
instruções de agente;
contexto de projeto.

Exemplo de padrão eficiente:

[Prompt de sistema longo e estável]
[Documentação do projeto]
[Arquivos principais]
[Pedido específico do usuário]

Se as primeiras partes se repetem entre chamadas, o cache pode reduzir o custo das próximas requisições.

Importante: não há camada gratuita do OpenRouter para glm-5.2. OpenRouter é barato, mas não gratuito.

Gratuito vs. quase gratuito

Caminho	Custo inicial	Custo contínuo	Esforço de configuração	Melhor para
Auto-hospedagem com Ollama/vLLM	Hardware ou aluguel de GPU	Eletricidade / horas de GPU	Alto	Privacidade, controle total, sem cobrança por token
Créditos de teste do z.ai	Nenhum	Grátis até acabar o crédito	Baixo	Primeiros testes
Plano de Codificação GLM Lite	Mensalidade baixa; verifique o preço atual	Mensal fixo	Baixo	Codificação diária em Claude Code, Cline ou Cursor
API + entrada em cache	Nenhum	$1.40/$4.40 por 1M; cache pode reduzir entrada	Baixo	Apps e workloads com contexto repetido

Um fluxo recomendado:

Teste com créditos gratuitos.
Meça tamanho de prompt, saída e latência.
Se for uso diário de codificação, avalie o plano Lite.
Se precisar de privacidade ou evitar cobrança por token, avalie auto-hospedagem.
Se estiver criando um produto, use API com cache de entrada.

Teste seu endpoint GLM-5.2 com Apidog

Independentemente do caminho escolhido, você deve validar o endpoint antes de conectá-lo ao app.

Você pode estar usando:

Ollama local;
vLLM em uma máquina com GPUs;
API do z.ai;
OpenRouter.

Em todos os casos, vale testar:

headers;
payload;
autenticação;
streaming;
erros;
latência;
formato da resposta.

Apidog ajuda a testar e documentar APIs em um único lugar. Para GLM-5.2, você pode criar uma requisição, enviar para o endpoint, inspecionar eventos em streaming, salvar o caso de teste e reutilizá-lo depois.

Exemplo: testar Ollama no Apidog

Use:

POST http://localhost:11434/v1/chat/completions

Headers:

Content-Type: application/json

Body:

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Crie uma função JavaScript para validar um e-mail."
    }
  ]
}

Exemplo: testar z.ai no Apidog

Use:

POST https://api.z.ai/api/paas/v4/chat/completions

Headers:

Authorization: Bearer SUA_CHAVE
Content-Type: application/json

Body:

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Explique como implementar cache de respostas em uma API Node.js."
    }
  ],
  "thinking": {
    "type": "enabled"
  },
  "reasoning_effort": "max"
}

Baixe o Apidog aqui:

Baixe o Apidog

Perguntas frequentes

GLM-5.2 é realmente gratuito?

Os pesos são gratuitos sob licença MIT. Se você auto-hospedar, não paga licença nem chamada de API. Ainda assim, você paga pelo hardware, energia ou aluguel de GPU.

A API hospedada é paga, embora o z.ai geralmente ofereça créditos de teste e uma camada limitada para começar.

Posso rodar GLM-5.2 em um laptop comum com Ollama?

Na prática, não. O GLM-5.2 é um MoE de ~753B e mesmo versões quantizadas exigem muita memória.

Você precisará de algo como:

estação de trabalho com alta VRAM;
Mac com bastante memória unificada;
servidor multi-GPU;
instância GPU alugada.

Veja também:

Análise aprofundada local

Existe camada gratuita do OpenRouter para GLM-5.2?

Não. O OpenRouter oferece GLM-5.2 como pay-as-you-go. O preço informado é $1.40 por 1M tokens de entrada e $4.40 por 1M tokens de saída.

É barato, mas não gratuito.

Qual é a forma paga mais barata para codificação?

Para uso focado em codificação, o Plano de Codificação GLM Lite tende a ser o caminho mais previsível. Verifique o preço atual no z.ai, pois os valores publicados podem variar.

Ele também permite integração com ferramentas como Claude Code, Cline e Cursor via endpoint compatível com Anthropic.

Como o GLM-5.2 se compara ao GPT-5.5 em custo?

Segundo VentureBeat, o GLM-5.2 supera o GPT-5.5 em vários benchmarks de codificação de longo prazo por cerca de um sexto do custo.

Para mais detalhes:

Onde ir a seguir

O melhor caminho depende do seu caso:

Quer custo zero de licença e controle total? Auto-hospede.
Quer testar rápido? Use créditos do z.ai.
Quer codificar diariamente? Avalie o Plano de Codificação GLM Lite.
Quer construir um app com contexto repetido? Use API com cache de entrada.

Se você ainda está avaliando o modelo, comece por estes guias:

DEV Community