DEV Community

Cover image for Como Usar GLM-5.2 Grátis
Lucas
Lucas

Posted on • Originally published at apidog.com

Como Usar GLM-5.2 Grátis

GLM-5.2 é um dos modelos de código aberto mais capazes que você pode executar hoje. A licença MIT torna o uso dos pesos gratuito, mas isso não significa que a execução seja simples: trata-se de um modelo mixture-of-experts (MoE) de ~753B. Neste guia, você verá os caminhos práticos para usar o GLM-5.2: auto-hospedagem, créditos de teste, planos baratos e API pay-as-you-go.

Experimente o Apidog hoje

Resumo rápido: se você tem hardware suficiente ou pode alugar GPUs por hora, auto-hospede os pesos abertos. Se não tem, comece com os créditos de teste do z.ai ou com o plano de codificação mais barato. Não existe uma camada gratuita do OpenRouter para glm-5.2.

A árvore de decisão rápida

Use esta tabela para escolher o caminho e ir direto para a seção correspondente.

Sua situação Melhor caminho Custo real
Você tem uma GPU potente ou pode alugar uma instância Auto-hospedar com Ollama ou vLLM $0 pelos pesos; eletricidade ou aluguel de GPU
Você quer testar sem configuração e sem cartão Créditos gratuitos do z.ai / camada com limite de taxa Grátis até os créditos acabarem
Você quer codificar com custo mensal previsível Plano de Codificação GLM Lite Valor mensal baixo; verifique o preço atual
Você quer pagar apenas pelo uso API via z.ai ou OpenRouter $1.40 / 1M entrada, $4.40 / 1M saída

Regra prática:

  • Gratuito de verdade: auto-hospedagem dos pesos.
  • Quase gratuito: créditos de teste, camada limitada ou plano Lite.
  • Barato e simples para apps: API com cache de entrada.

Caminho 1: auto-hospede os pesos MIT do GLM-5.2

O GLM-5.2 está disponível sob licença MIT e os pesos podem ser baixados no Hugging Face:

zai-org/GLM-5.2

Isso remove o custo de licenciamento, mas não remove o custo operacional. O modelo tem ~753 bilhões de parâmetros em BF16. Mesmo sendo MoE e ativando apenas parte dos parâmetros por token, o conjunto completo de pesos ainda precisa caber em memória.

Na prática, você tem duas opções:

  • Usar uma versão quantizada para reduzir consumo de RAM/VRAM.
  • Alugar uma instância multi-GPU por hora e desligá-la após o uso.

Opção A: rodar GLM-5.2 com Ollama

Ollama é o caminho local mais simples. O modelo está disponível na biblioteca do Ollama:

https://ollama.com/library/glm-5.2

Instale o Ollama e baixe o modelo:

ollama pull glm-5.2:cloud
Enter fullscreen mode Exit fullscreen mode

Depois, teste o endpoint local compatível com OpenAI:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Write a Python function to parse an RFC 3339 timestamp."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Pontos de atenção:

  • Monitore RAM e VRAM durante a execução.
  • Se o modelo transbordar para disco, a geração ficará muito lenta.
  • Prefira builds quantizados se estiver usando hardware local.
  • Para contexto maior, você precisará de muito mais memória.

Para um passo a passo local mais detalhado, veja:

O fluxo é praticamente o mesmo: troque a tag do modelo para glm-5.2.

Opção B: servir GLM-5.2 com vLLM

Para throughput, múltiplas requisições e uso mais próximo de produção, use vLLM. Ele permite paralelismo de tensores entre GPUs, o que é essencial para um MoE desse tamanho.

Instale:

pip install vllm
Enter fullscreen mode Exit fullscreen mode

Suba um servidor compatível com OpenAI:

python -m vllm.entrypoints.openai.api_server \
  --model zai-org/GLM-5.2 \
  --tensor-parallel-size 8 \
  --max-model-len 131072
Enter fullscreen mode Exit fullscreen mode

Esse exemplo assume oito GPUs. Ajuste conforme:

  • quantidade de GPUs disponíveis;
  • VRAM de cada placa;
  • checkpoint usado;
  • quantização;
  • tamanho de contexto necessário.

O GLM-5.2 suporta contexto de até 1 milhão de tokens, mas manter cache KV para esse tamanho exige muita memória. Na prática, defina --max-model-len apenas para o tamanho que sua aplicação realmente precisa.

Depois de iniciado, chame o servidor como uma API OpenAI-compatible.

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "zai-org/GLM-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Explique em uma frase quando usar vLLM em vez de Ollama."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Caminho 2: use créditos gratuitos do z.ai

Se você não tem hardware para auto-hospedagem, o caminho mais simples é usar a plataforma do z.ai.

Novas contas geralmente recebem créditos gratuitos de teste e pode existir uma camada com limite de taxa para experimentação leve. Como essas ofertas mudam, confirme os termos atuais em:

https://z.ai/blog/glm-5.2

Fluxo básico:

  1. Crie uma conta no z.ai.
  2. Gere uma chave de API.
  3. Configure a variável de ambiente.
  4. Faça uma chamada para o endpoint compatível com OpenAI.
export ZAI_API_KEY="sua-chave"
Enter fullscreen mode Exit fullscreen mode

Teste:

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Explain IndexShare sparse attention in two sentences."
      }
    ],
    "thinking": {
      "type": "enabled"
    },
    "reasoning_effort": "max"
  }'
Enter fullscreen mode Exit fullscreen mode

Parâmetros úteis:

  • thinking: ativa ou desativa o modo de raciocínio.
  • reasoning_effort: controla o esforço de raciocínio. Para codificação, o z.ai recomenda "max".
  • Saída longa: a documentação do z.ai menciona até 128K tokens de saída, mas valide esse limite na documentação atual antes de depender dele em produção.

Documentação:

Guia GLM-5.2 do z.ai

Caminho 3: use as opções pagas mais baratas

Quando os créditos acabam, há dois caminhos de baixo custo:

  1. Plano de Codificação GLM Lite.
  2. API pay-as-you-go com cache de entrada.

Plano de Codificação GLM Lite

Se seu uso principal é programação, o Plano de Codificação GLM é o caminho mais previsível. O preço publicado pode variar por fonte e período; verifique o valor atual diretamente no z.ai.

Esse plano é útil porque permite integrar o GLM-5.2 a ferramentas de codificação que usam endpoints compatíveis com Anthropic, como:

  • Claude Code;
  • Cline;
  • Cursor.

Exemplo de configuração para Claude Code:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="sua-chave-do-plano-de-codificacao-glm"

export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"

export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
Enter fullscreen mode Exit fullscreen mode

Notas práticas:

  • O sufixo [1m] seleciona a variante com contexto de 1M.
  • Aumente API_TIMEOUT_MS para evitar timeout em chamadas longas.
  • Confirme a URL base atual na documentação do z.ai, pois algumas fontes mencionam variações.

Guias relacionados:

API pay-as-you-go com entrada em cache

Para usar a API sem assinatura, o preço geral informado pelo OpenRouter é:

  • $1.40 por 1M tokens de entrada
  • $4.40 por 1M tokens de saída

Referência:

OpenRouter: z-ai/glm-5.2

Esse caminho é bom para:

  • aplicações web;
  • agentes internos;
  • ferramentas de análise de código;
  • workloads com prompts repetidos;
  • protótipos que não justificam assinatura mensal.

O ponto mais importante é a entrada em cache. Segundo VentureBeat, o custo de entrada em cache foi reportado em torno de $0.26 por 1M tokens. Isso reduz bastante o custo quando você reutiliza o mesmo prefixo, como:

  • prompt de sistema longo;
  • documentação fixa;
  • base de código;
  • instruções de agente;
  • contexto de projeto.

Exemplo de padrão eficiente:

[Prompt de sistema longo e estável]
[Documentação do projeto]
[Arquivos principais]
[Pedido específico do usuário]
Enter fullscreen mode Exit fullscreen mode

Se as primeiras partes se repetem entre chamadas, o cache pode reduzir o custo das próximas requisições.

Importante: não há camada gratuita do OpenRouter para glm-5.2. OpenRouter é barato, mas não gratuito.

Gratuito vs. quase gratuito

Caminho Custo inicial Custo contínuo Esforço de configuração Melhor para
Auto-hospedagem com Ollama/vLLM Hardware ou aluguel de GPU Eletricidade / horas de GPU Alto Privacidade, controle total, sem cobrança por token
Créditos de teste do z.ai Nenhum Grátis até acabar o crédito Baixo Primeiros testes
Plano de Codificação GLM Lite Mensalidade baixa; verifique o preço atual Mensal fixo Baixo Codificação diária em Claude Code, Cline ou Cursor
API + entrada em cache Nenhum $1.40/$4.40 por 1M; cache pode reduzir entrada Baixo Apps e workloads com contexto repetido

Um fluxo recomendado:

  1. Teste com créditos gratuitos.
  2. Meça tamanho de prompt, saída e latência.
  3. Se for uso diário de codificação, avalie o plano Lite.
  4. Se precisar de privacidade ou evitar cobrança por token, avalie auto-hospedagem.
  5. Se estiver criando um produto, use API com cache de entrada.

Teste seu endpoint GLM-5.2 com Apidog

Independentemente do caminho escolhido, você deve validar o endpoint antes de conectá-lo ao app.

Você pode estar usando:

  • Ollama local;
  • vLLM em uma máquina com GPUs;
  • API do z.ai;
  • OpenRouter.

Em todos os casos, vale testar:

  • headers;
  • payload;
  • autenticação;
  • streaming;
  • erros;
  • latência;
  • formato da resposta.

Apidog ajuda a testar e documentar APIs em um único lugar. Para GLM-5.2, você pode criar uma requisição, enviar para o endpoint, inspecionar eventos em streaming, salvar o caso de teste e reutilizá-lo depois.

Exemplo: testar Ollama no Apidog

Use:

POST http://localhost:11434/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode

Headers:

Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

Body:

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Crie uma função JavaScript para validar um e-mail."
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode

Exemplo: testar z.ai no Apidog

Use:

POST https://api.z.ai/api/paas/v4/chat/completions
Enter fullscreen mode Exit fullscreen mode

Headers:

Authorization: Bearer SUA_CHAVE
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

Body:

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Explique como implementar cache de respostas em uma API Node.js."
    }
  ],
  "thinking": {
    "type": "enabled"
  },
  "reasoning_effort": "max"
}
Enter fullscreen mode Exit fullscreen mode

Baixe o Apidog aqui:

Baixe o Apidog

Perguntas frequentes

GLM-5.2 é realmente gratuito?

Os pesos são gratuitos sob licença MIT. Se você auto-hospedar, não paga licença nem chamada de API. Ainda assim, você paga pelo hardware, energia ou aluguel de GPU.

A API hospedada é paga, embora o z.ai geralmente ofereça créditos de teste e uma camada limitada para começar.

Posso rodar GLM-5.2 em um laptop comum com Ollama?

Na prática, não. O GLM-5.2 é um MoE de ~753B e mesmo versões quantizadas exigem muita memória.

Você precisará de algo como:

  • estação de trabalho com alta VRAM;
  • Mac com bastante memória unificada;
  • servidor multi-GPU;
  • instância GPU alugada.

Veja também:

Análise aprofundada local

Existe camada gratuita do OpenRouter para GLM-5.2?

Não. O OpenRouter oferece GLM-5.2 como pay-as-you-go. O preço informado é $1.40 por 1M tokens de entrada e $4.40 por 1M tokens de saída.

É barato, mas não gratuito.

Qual é a forma paga mais barata para codificação?

Para uso focado em codificação, o Plano de Codificação GLM Lite tende a ser o caminho mais previsível. Verifique o preço atual no z.ai, pois os valores publicados podem variar.

Ele também permite integração com ferramentas como Claude Code, Cline e Cursor via endpoint compatível com Anthropic.

Como o GLM-5.2 se compara ao GPT-5.5 em custo?

Segundo VentureBeat, o GLM-5.2 supera o GPT-5.5 em vários benchmarks de codificação de longo prazo por cerca de um sexto do custo.

Para mais detalhes:

Onde ir a seguir

O melhor caminho depende do seu caso:

  • Quer custo zero de licença e controle total? Auto-hospede.
  • Quer testar rápido? Use créditos do z.ai.
  • Quer codificar diariamente? Avalie o Plano de Codificação GLM Lite.
  • Quer construir um app com contexto repetido? Use API com cache de entrada.

Se você ainda está avaliando o modelo, comece por estes guias:

Top comments (0)