GLM-5.2 é um dos modelos de código aberto mais capazes que você pode executar hoje. A licença MIT torna o uso dos pesos gratuito, mas isso não significa que a execução seja simples: trata-se de um modelo mixture-of-experts (MoE) de ~753B. Neste guia, você verá os caminhos práticos para usar o GLM-5.2: auto-hospedagem, créditos de teste, planos baratos e API pay-as-you-go.
Resumo rápido: se você tem hardware suficiente ou pode alugar GPUs por hora, auto-hospede os pesos abertos. Se não tem, comece com os créditos de teste do z.ai ou com o plano de codificação mais barato. Não existe uma camada gratuita do OpenRouter para glm-5.2.
A árvore de decisão rápida
Use esta tabela para escolher o caminho e ir direto para a seção correspondente.
| Sua situação | Melhor caminho | Custo real |
|---|---|---|
| Você tem uma GPU potente ou pode alugar uma instância | Auto-hospedar com Ollama ou vLLM | $0 pelos pesos; eletricidade ou aluguel de GPU |
| Você quer testar sem configuração e sem cartão | Créditos gratuitos do z.ai / camada com limite de taxa | Grátis até os créditos acabarem |
| Você quer codificar com custo mensal previsível | Plano de Codificação GLM Lite | Valor mensal baixo; verifique o preço atual |
| Você quer pagar apenas pelo uso | API via z.ai ou OpenRouter | $1.40 / 1M entrada, $4.40 / 1M saída |
Regra prática:
- Gratuito de verdade: auto-hospedagem dos pesos.
- Quase gratuito: créditos de teste, camada limitada ou plano Lite.
- Barato e simples para apps: API com cache de entrada.
Caminho 1: auto-hospede os pesos MIT do GLM-5.2
O GLM-5.2 está disponível sob licença MIT e os pesos podem ser baixados no Hugging Face:
Isso remove o custo de licenciamento, mas não remove o custo operacional. O modelo tem ~753 bilhões de parâmetros em BF16. Mesmo sendo MoE e ativando apenas parte dos parâmetros por token, o conjunto completo de pesos ainda precisa caber em memória.
Na prática, você tem duas opções:
- Usar uma versão quantizada para reduzir consumo de RAM/VRAM.
- Alugar uma instância multi-GPU por hora e desligá-la após o uso.
Opção A: rodar GLM-5.2 com Ollama
Ollama é o caminho local mais simples. O modelo está disponível na biblioteca do Ollama:
https://ollama.com/library/glm-5.2
Instale o Ollama e baixe o modelo:
ollama pull glm-5.2:cloud
Depois, teste o endpoint local compatível com OpenAI:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Write a Python function to parse an RFC 3339 timestamp."
}
]
}'
Pontos de atenção:
- Monitore RAM e VRAM durante a execução.
- Se o modelo transbordar para disco, a geração ficará muito lenta.
- Prefira builds quantizados se estiver usando hardware local.
- Para contexto maior, você precisará de muito mais memória.
Para um passo a passo local mais detalhado, veja:
O fluxo é praticamente o mesmo: troque a tag do modelo para glm-5.2.
Opção B: servir GLM-5.2 com vLLM
Para throughput, múltiplas requisições e uso mais próximo de produção, use vLLM. Ele permite paralelismo de tensores entre GPUs, o que é essencial para um MoE desse tamanho.
Instale:
pip install vllm
Suba um servidor compatível com OpenAI:
python -m vllm.entrypoints.openai.api_server \
--model zai-org/GLM-5.2 \
--tensor-parallel-size 8 \
--max-model-len 131072
Esse exemplo assume oito GPUs. Ajuste conforme:
- quantidade de GPUs disponíveis;
- VRAM de cada placa;
- checkpoint usado;
- quantização;
- tamanho de contexto necessário.
O GLM-5.2 suporta contexto de até 1 milhão de tokens, mas manter cache KV para esse tamanho exige muita memória. Na prática, defina --max-model-len apenas para o tamanho que sua aplicação realmente precisa.
Depois de iniciado, chame o servidor como uma API OpenAI-compatible.
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "zai-org/GLM-5.2",
"messages": [
{
"role": "user",
"content": "Explique em uma frase quando usar vLLM em vez de Ollama."
}
]
}'
Caminho 2: use créditos gratuitos do z.ai
Se você não tem hardware para auto-hospedagem, o caminho mais simples é usar a plataforma do z.ai.
Novas contas geralmente recebem créditos gratuitos de teste e pode existir uma camada com limite de taxa para experimentação leve. Como essas ofertas mudam, confirme os termos atuais em:
Fluxo básico:
- Crie uma conta no z.ai.
- Gere uma chave de API.
- Configure a variável de ambiente.
- Faça uma chamada para o endpoint compatível com OpenAI.
export ZAI_API_KEY="sua-chave"
Teste:
curl https://api.z.ai/api/paas/v4/chat/completions \
-H "Authorization: Bearer $ZAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Explain IndexShare sparse attention in two sentences."
}
],
"thinking": {
"type": "enabled"
},
"reasoning_effort": "max"
}'
Parâmetros úteis:
-
thinking: ativa ou desativa o modo de raciocínio. -
reasoning_effort: controla o esforço de raciocínio. Para codificação, o z.ai recomenda"max". - Saída longa: a documentação do z.ai menciona até 128K tokens de saída, mas valide esse limite na documentação atual antes de depender dele em produção.
Documentação:
Caminho 3: use as opções pagas mais baratas
Quando os créditos acabam, há dois caminhos de baixo custo:
- Plano de Codificação GLM Lite.
- API pay-as-you-go com cache de entrada.
Plano de Codificação GLM Lite
Se seu uso principal é programação, o Plano de Codificação GLM é o caminho mais previsível. O preço publicado pode variar por fonte e período; verifique o valor atual diretamente no z.ai.
Esse plano é útil porque permite integrar o GLM-5.2 a ferramentas de codificação que usam endpoints compatíveis com Anthropic, como:
- Claude Code;
- Cline;
- Cursor.
Exemplo de configuração para Claude Code:
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="sua-chave-do-plano-de-codificacao-glm"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
Notas práticas:
- O sufixo
[1m]seleciona a variante com contexto de 1M. - Aumente
API_TIMEOUT_MSpara evitar timeout em chamadas longas. - Confirme a URL base atual na documentação do z.ai, pois algumas fontes mencionam variações.
Guias relacionados:
API pay-as-you-go com entrada em cache
Para usar a API sem assinatura, o preço geral informado pelo OpenRouter é:
- $1.40 por 1M tokens de entrada
- $4.40 por 1M tokens de saída
Referência:
Esse caminho é bom para:
- aplicações web;
- agentes internos;
- ferramentas de análise de código;
- workloads com prompts repetidos;
- protótipos que não justificam assinatura mensal.
O ponto mais importante é a entrada em cache. Segundo VentureBeat, o custo de entrada em cache foi reportado em torno de $0.26 por 1M tokens. Isso reduz bastante o custo quando você reutiliza o mesmo prefixo, como:
- prompt de sistema longo;
- documentação fixa;
- base de código;
- instruções de agente;
- contexto de projeto.
Exemplo de padrão eficiente:
[Prompt de sistema longo e estável]
[Documentação do projeto]
[Arquivos principais]
[Pedido específico do usuário]
Se as primeiras partes se repetem entre chamadas, o cache pode reduzir o custo das próximas requisições.
Importante: não há camada gratuita do OpenRouter para glm-5.2. OpenRouter é barato, mas não gratuito.
Gratuito vs. quase gratuito
| Caminho | Custo inicial | Custo contínuo | Esforço de configuração | Melhor para |
|---|---|---|---|---|
| Auto-hospedagem com Ollama/vLLM | Hardware ou aluguel de GPU | Eletricidade / horas de GPU | Alto | Privacidade, controle total, sem cobrança por token |
| Créditos de teste do z.ai | Nenhum | Grátis até acabar o crédito | Baixo | Primeiros testes |
| Plano de Codificação GLM Lite | Mensalidade baixa; verifique o preço atual | Mensal fixo | Baixo | Codificação diária em Claude Code, Cline ou Cursor |
| API + entrada em cache | Nenhum | $1.40/$4.40 por 1M; cache pode reduzir entrada | Baixo | Apps e workloads com contexto repetido |
Um fluxo recomendado:
- Teste com créditos gratuitos.
- Meça tamanho de prompt, saída e latência.
- Se for uso diário de codificação, avalie o plano Lite.
- Se precisar de privacidade ou evitar cobrança por token, avalie auto-hospedagem.
- Se estiver criando um produto, use API com cache de entrada.
Teste seu endpoint GLM-5.2 com Apidog
Independentemente do caminho escolhido, você deve validar o endpoint antes de conectá-lo ao app.
Você pode estar usando:
- Ollama local;
- vLLM em uma máquina com GPUs;
- API do z.ai;
- OpenRouter.
Em todos os casos, vale testar:
- headers;
- payload;
- autenticação;
- streaming;
- erros;
- latência;
- formato da resposta.
Apidog ajuda a testar e documentar APIs em um único lugar. Para GLM-5.2, você pode criar uma requisição, enviar para o endpoint, inspecionar eventos em streaming, salvar o caso de teste e reutilizá-lo depois.
Exemplo: testar Ollama no Apidog
Use:
POST http://localhost:11434/v1/chat/completions
Headers:
Content-Type: application/json
Body:
{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Crie uma função JavaScript para validar um e-mail."
}
]
}
Exemplo: testar z.ai no Apidog
Use:
POST https://api.z.ai/api/paas/v4/chat/completions
Headers:
Authorization: Bearer SUA_CHAVE
Content-Type: application/json
Body:
{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Explique como implementar cache de respostas em uma API Node.js."
}
],
"thinking": {
"type": "enabled"
},
"reasoning_effort": "max"
}
Baixe o Apidog aqui:
Perguntas frequentes
GLM-5.2 é realmente gratuito?
Os pesos são gratuitos sob licença MIT. Se você auto-hospedar, não paga licença nem chamada de API. Ainda assim, você paga pelo hardware, energia ou aluguel de GPU.
A API hospedada é paga, embora o z.ai geralmente ofereça créditos de teste e uma camada limitada para começar.
Posso rodar GLM-5.2 em um laptop comum com Ollama?
Na prática, não. O GLM-5.2 é um MoE de ~753B e mesmo versões quantizadas exigem muita memória.
Você precisará de algo como:
- estação de trabalho com alta VRAM;
- Mac com bastante memória unificada;
- servidor multi-GPU;
- instância GPU alugada.
Veja também:
Existe camada gratuita do OpenRouter para GLM-5.2?
Não. O OpenRouter oferece GLM-5.2 como pay-as-you-go. O preço informado é $1.40 por 1M tokens de entrada e $4.40 por 1M tokens de saída.
É barato, mas não gratuito.
Qual é a forma paga mais barata para codificação?
Para uso focado em codificação, o Plano de Codificação GLM Lite tende a ser o caminho mais previsível. Verifique o preço atual no z.ai, pois os valores publicados podem variar.
Ele também permite integração com ferramentas como Claude Code, Cline e Cursor via endpoint compatível com Anthropic.
Como o GLM-5.2 se compara ao GPT-5.5 em custo?
Segundo VentureBeat, o GLM-5.2 supera o GPT-5.5 em vários benchmarks de codificação de longo prazo por cerca de um sexto do custo.
Para mais detalhes:
Onde ir a seguir
O melhor caminho depende do seu caso:
- Quer custo zero de licença e controle total? Auto-hospede.
- Quer testar rápido? Use créditos do z.ai.
- Quer codificar diariamente? Avalie o Plano de Codificação GLM Lite.
- Quer construir um app com contexto repetido? Use API com cache de entrada.
Se você ainda está avaliando o modelo, comece por estes guias:



Top comments (0)