GLM-5.2 é o mais novo modelo carro-chefe da Z.ai (o laboratório de IA da Zhipu). Ele chega com uma proposta direta para desenvolvedores: pesos abertos, foco em codificação e capacidade competitiva com modelos de fronteira fechados. Neste guia, você verá o que é o GLM-5.2, como acessá-lo, como chamá-lo via API e quais limites verificar antes de colocá-lo em produção.
TL;DR
- O que é: GLM-5.2 é um modelo de linguagem grande de pesos abertos da Z.ai, criado para codificação, raciocínio e uso de ferramentas agentivas.
- Tamanho: aproximadamente 753B parâmetros em uma arquitetura Mixture of Experts (MoE), BF16.
- Atenção: usa o método de atenção esparsa IndexShare para reduzir custo em contextos longos.
- Contexto: 1M tokens, ou 1.048.576 tokens.
- Saída máxima: até 128K tokens segundo a documentação da z.ai, mas confirme no host usado.
- Licença: MIT, com pesos abertos.
- Acesso: API da Z.ai, Claude Code via Plano de Codificação GLM, OpenRouter e Ollama.
- Ressalva: entrada e saída apenas em texto. Não há variante de visão confirmada.
Quem fabrica o GLM-5.2
GLM-5.2 vem da Z.ai, também conhecida como Zhipu AI. Ele faz parte da família GLM, de “General Language Model”, e sucede o GLM-5.1.
O diferencial prático é a distribuição com pesos abertos. Em vez de depender apenas de uma API fechada, você pode baixar os pesos, hospedar o modelo, fazer fine-tuning e usá-lo comercialmente sob licença MIT.
Se você leu a visão geral do GLM-5.1, pense no GLM-5.2 como a mesma linha evolutiva, mas com foco maior em codificação, raciocínio e uso agentivo de ferramentas.
Como encontrar o GLM-5.2 em cada plataforma
O mesmo modelo aparece com nomes diferentes dependendo do provedor:
| Plataforma | Identificador |
|---|---|
| Hugging Face | zai-org/GLM-5.2 |
| API da Z.ai | glm-5.2 |
| Ollama | glm-5.2 |
| OpenRouter | z-ai/glm-5.2 |
Os pesos estão disponíveis no Hugging Face em zai-org/GLM-5.2.
Arquitetura: 753B MoE + IndexShare
GLM-5.2 é um modelo Mixture of Experts, com aproximadamente 753B parâmetros totais, servido em BF16.
Em uma arquitetura MoE, o modelo é dividido em vários “especialistas”. Para cada token, apenas parte desses especialistas é ativada. Na prática, isso permite manter a capacidade de um modelo muito grande sem executar todos os parâmetros a cada inferência.
A novidade técnica é o IndexShare, método de atenção esparsa usado pela Z.ai. Em vez de recalcular um novo indexador em cada camada de atenção esparsa, o GLM-5.2 reutiliza um único indexador a cada grupo de 4 camadas.
Para implementação, a consequência importante é esta:
o modelo foi projetado para lidar melhor com bases de código grandes, documentos longos e prompts com contexto extenso.
Isso não elimina custo ou latência, mas ajuda a tornar a janela de 1M tokens mais viável.
Janela de contexto de 1M tokens
GLM-5.2 suporta 1.048.576 tokens de contexto.
Isso permite fluxos como:
- enviar uma base de código inteira ou grande parte dela;
- pedir análise entre múltiplos arquivos;
- incluir documentação, issues e logs no mesmo prompt;
- executar tarefas agentivas com histórico longo;
- revisar especificações extensas sem quebrá-las em muitos chunks.
A saída máxima exige atenção. A documentação da z.ai lista até 128K tokens de saída, mas nem todo host publica ou garante o mesmo limite. Antes de depender disso em produção, valide o limite no provedor escolhido.
Para ver a evolução entre versões, consulte a comparação GLM-5.2 vs GLM-5.1.
Como controlar o esforço de raciocínio
O GLM-5.2 permite controlar o comportamento de “pensamento” do modelo.
Você pode usar:
- Alto: bom raciocínio com custo menor.
- Máximo: raciocínio mais profundo, recomendado pela Z.ai para tarefas de codificação.
- Desativado: útil para transformações simples, formatação, extração e respostas rápidas.
Na API, isso aparece nos parâmetros:
{
"thinking": { "type": "enabled" },
"reasoning_effort": "max"
}
Para tarefas simples:
{
"thinking": { "type": "disabled" }
}
Regra prática:
| Tipo de tarefa | Configuração sugerida |
|---|---|
| Refatoração complexa |
thinking.enabled + reasoning_effort: "max"
|
| Debug de múltiplos arquivos |
thinking.enabled + reasoning_effort: "max"
|
| Formatação de texto | thinking.disabled |
| Extração simples de dados | thinking.disabled |
| Geração curta de boilerplate |
thinking.enabled ou disabled, conforme latência/custo |
Veja a forma completa da requisição no guia da API do GLM-5.2.
O que a licença MIT permite
“Pesos abertos” pode significar coisas diferentes. No caso do GLM-5.2, a licença MIT permite:
- Auto-hospedagem: execute em seu próprio ambiente ou em infraestrutura alugada.
- Fine-tuning: adapte o modelo ao seu domínio, estilo de código ou tarefa.
- Uso comercial: construa produtos com o modelo sem uma licença restritiva.
- Distribuição: redistribua conforme os termos permissivos da MIT.
- Sem bloqueio regional informado: os pesos não são protegidos por verificação regional.
Isso é relevante para equipes que precisam manter código, prompts e dados sensíveis fora de APIs externas.
Para execução local, veja também:
Benchmarks publicados
A Z.ai posiciona o GLM-5.2 como um modelo voltado para trabalho real de engenharia de software. Os números abaixo são resultados publicados pela própria Z.ai, portanto devem ser lidos como medições do fornecedor.
| Benchmark | GLM-5.2 | Comparação notável |
|---|---|---|
| Terminal-Bench 2.1 | 81.0 | GLM-5.1 marcou 62.0 |
| SWE-bench Pro | 62.1 | GPT-5.5 58.6, GLM-5.1 58.4 |
| MCP-Atlas | 77.0 | GPT-5.5 75.3, Claude Opus 4.8 77.8 |
| Último Exame da Humanidade, com ferramentas | 54.7 | GPT-5.5 52.2 |
| AIME 2026 | 99.2 | n/d |
| GPQA-Diamond | 91.2 | n/d |
O salto mais visível está no Terminal-Bench 2.1, de 62.0 no GLM-5.1 para 81.0 no GLM-5.2. Esse benchmark mede a capacidade do modelo de operar em um terminal para concluir tarefas.
O SWE-bench Pro em 62.1 também é relevante porque aponta para resolução de problemas em nível de repositório, não apenas geração de pequenos snippets.
A Z.ai também relata o GLM-5.2 como o modelo de código aberto mais alto em FrontierSWE, PostTrainBench e SWE-Marathon. A VentureBeat descreveu o modelo como capaz de “superar o GPT-5.5 em codificação de longo prazo a ~1/6 do custo” em sua cobertura do GLM-5.2. Essa é a leitura da VentureBeat, não uma medição da Apidog.
Para mais contexto, veja:
Como acessar o GLM-5.2
Você tem quatro caminhos principais:
| Caminho | Melhor para | Nota |
|---|---|---|
| API da Z.ai | Chamadas hospedadas diretas | Compatível com OpenAI |
| Claude Code via Plano de Codificação GLM | Codificação agentiva no terminal | Endpoint compatível com Anthropic |
| OpenRouter | Usar uma chave para vários modelos | Modelo z-ai/glm-5.2
|
| Ollama | Uso local/offline | Modelo glm-5.2
|
Usando a API da Z.ai
A API geral é compatível com o formato da OpenAI.
Endpoint:
https://api.z.ai/api/paas/v4/chat/completions
Exemplo com curl:
curl https://api.z.ai/api/paas/v4/chat/completions \
-H "Authorization: Bearer $ZAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Refatore esta função para melhorar legibilidade e reduzir duplicação."
}
],
"thinking": { "type": "enabled" },
"reasoning_effort": "max",
"stream": true
}'
Para uma chamada simples, desative o pensamento:
curl https://api.z.ai/api/paas/v4/chat/completions \
-H "Authorization: Bearer $ZAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Converta esta lista em JSON válido: nome, email, telefone."
}
],
"thinking": { "type": "disabled" },
"stream": false
}'
Também há suporte a chamadas de funções e ferramentas.
Usando com Claude Code
A Z.ai expõe um endpoint de codificação compatível com Anthropic. Isso permite apontar o Claude Code para o GLM-5.2.
URL base de codificação:
https://api.z.ai/api/coding/paas/v4
Algumas fontes mostram open.z.ai/api/paas/v4, então confirme a URL atual na documentação antes de configurar.
Exemplo de variáveis de ambiente:
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
O sufixo [1m] seleciona a variante com contexto de 1M tokens.
O API_TIMEOUT_MS é importante para tarefas longas. Sem aumentar o timeout, uma chamada com muito contexto pode ser encerrada antes da resposta terminar.
Para configurar em outras ferramentas, veja o guia GLM-5.2 no Claude Code, Cline e Cursor. Se você já usava a geração anterior, o fluxo é parecido com o descrito em GLM-5.1 com Claude Code.
Usando via OpenRouter
No OpenRouter, o modelo está listado como:
z-ai/glm-5.2
Página do modelo:
Não há faixa gratuita do OpenRouter para esse modelo, então planeje custo desde o início.
Usando localmente com Ollama
Para uso local ou offline, use a biblioteca do Ollama:
O caminho local é útil quando você precisa de:
- controle de dados;
- execução offline;
- menor dependência de APIs externas;
- ambiente reprodutível.
A desvantagem é o requisito de hardware. Um MoE de 753B exige memória GPU significativa para ser servido confortavelmente.
Para opções gratuitas, veja como usar o GLM-5.2 gratuitamente.
Preços
Na API hospedada, o OpenRouter confirma:
- US$ 1,40 por 1M tokens de entrada
- US$ 4,40 por 1M tokens de saída
A VentureBeat cita entrada em cache em torno de US$ 0,26 por 1M tokens.
O Plano de Codificação GLM possui níveis como Lite, Pro, Max e Team, mas os valores mensais exatos variam entre fontes secundárias. Confirme o preço atual em z.ai antes de fechar uso em produção.
Acompanhe também a análise de preços do GLM-5.2.
Onde a Apidog entra no fluxo
Se você está integrando o GLM-5.2 a um produto, provavelmente também precisa testar seus próprios endpoints, ferramentas e contratos de API.
Com a Apidog, você pode:
- desenhar endpoints usados pelo agente;
- simular APIs antes da implementação real;
- testar payloads de requisição e resposta;
- depurar chamadas com streaming;
- documentar contratos de API;
- manter design, testes, mocks e documentação no mesmo lugar.
Isso é útil quando o GLM-5.2 precisa chamar ferramentas internas, APIs de negócio ou serviços externos.
Quando estiver pronto para testar a integração, baixe a Apidog e conecte-a ao seu fluxo com GLM-5.2.
Comparações úteis
Se você está avaliando o GLM-5.2 contra versões anteriores ou modelos fechados, comece por estes materiais:
- GLM-5.1 vs Claude, GPT, Gemini e DeepSeek
- GLM-5 vs DeepSeek vs GPT-5 em velocidade e custo
- Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.5
- Post oficial da Z.ai sobre GLM-5.2
- Documentação oficial
FAQ
O que é GLM-5.2?
GLM-5.2 é o LLM carro-chefe de pesos abertos da Z.ai. Ele usa arquitetura MoE com aproximadamente 753B parâmetros, janela de contexto de 1M tokens e licença MIT.
O GLM-5.2 é gratuito?
Os pesos são gratuitos para baixar e auto-hospedar sob licença MIT. A API hospedada da Z.ai, o Plano de Codificação GLM e o uso via OpenRouter são pagos.
O GLM-5.2 aceita imagens?
Não. Segundo a documentação da API, ele é texto de entrada e texto de saída. Não há variante de visão confirmada.
Qual é a diferença entre GLM-5.2 e GLM-5.1?
A maior diferença visível está em codificação agentiva. O Terminal-Bench 2.1 subiu de 62.0 no GLM-5.1 para 81.0 no GLM-5.2, segundo resultados da Z.ai. O GLM-5.2 também introduz a atenção esparsa IndexShare.
Veja a comparação GLM-5.2 vs GLM-5.1.
Qual contexto e saída ele suporta?
O contexto é de 1M tokens. A saída é documentada em até 128K tokens segundo a z.ai, mas esse limite deve ser confirmado no provedor usado.
Conclusão
GLM-5.2 é um modelo sério para quem quer construir ferramentas de codificação, agentes e integrações com LLM sem ficar preso apenas a APIs fechadas. Ele oferece pesos abertos, licença MIT, arquitetura MoE de 753B parâmetros, contexto de 1M tokens e controle de esforço de raciocínio.
As ressalvas continuam importantes: é apenas texto, limites de saída variam por host e os benchmarks citados são, em grande parte, publicados pela própria Z.ai. Ainda assim, para times que querem experimentar um modelo de codificação com pesos abertos, o GLM-5.2 é uma opção prática para avaliar.
Para começar a implementar, use o guia da API do GLM-5.2.


Top comments (0)