DEV Community

Cover image for Como Usar GLM-5.2 Com Claude Code, Cline e Cursor
Lucas
Lucas

Posted on • Originally published at apidog.com

Como Usar GLM-5.2 Com Claude Code, Cline e Cursor

O GLM-5.2 é o modelo de codificação de pesos abertos da Z.ai. Ele pode ser usado em três ferramentas comuns no fluxo de desenvolvimento: Claude Code, Cline e Cursor. A diferença principal está no formato do endpoint: o Claude Code usa uma API compatível com Anthropic, enquanto Cline e Cursor usam um endpoint compatível com OpenAI. Este guia mostra como configurar os três usando o Plano de Codificação GLM.

Experimente o Apidog hoje

Se você quiser revisar os detalhes do modelo antes da configuração, veja a visão geral do GLM-5.2 e a referência da API do GLM-5.2. Aqui o foco é conectar o modelo às ferramentas de codificação.

O que você precisa antes de começar

O GLM-5.2 é um modelo Mixture-of-Experts com cerca de 753 bilhões de parâmetros e janela de contexto de 1 milhão de tokens, exatamente 1.048.576 tokens. Ele é voltado para codificação, raciocínio e uso de ferramentas agenticas. Segundo os resultados publicados pela Z.ai, o modelo alcança 81,0 no Terminal-Bench 2.1, acima dos 62,0 do GLM-5.1. A VentureBeat também descreveu o modelo como superando o GPT-5.5 em benchmarks de codificação de longo prazo por aproximadamente um sexto do custo.

GLM-5.2

Antes de configurar, tenha em mãos:

  • Uma conta na Z.ai e uma chave de API.
  • Para Claude Code e ferramentas agenticas, uma chave do Plano de Codificação GLM, não apenas uma chave de pagamento conforme o uso.
  • Uma das ferramentas instaladas:
    • Claude Code
    • Cline, extensão do VS Code
    • Cursor
  • O ID do modelo:
    • glm-5.2 para Cline e Cursor
    • glm-5.2[1m] no Claude Code, para usar a variante de contexto de 1M

Sobre custos: a API padrão custa US$ 1,40 por 1M de tokens de entrada e US$ 4,40 por 1M de tokens de saída, conforme listado no OpenRouter. A entrada em cache fica em torno de US$ 0,26 por 1M, valor atribuído à VentureBeat. O Plano de Codificação GLM é uma assinatura separada com níveis Lite, Pro, Max e Team. Como os preços públicos podem mudar, confirme os valores atuais em z.ai antes de adotar em produção.

Configurar o GLM-5.2 no Claude Code

O Claude Code se conecta a um endpoint compatível com Anthropic. A Z.ai expõe um endpoint específico para ferramentas de codificação, e você o configura via variáveis de ambiente.

Claude Code com GLM-5.2

Adicione o bloco abaixo ao seu shell, por exemplo em ~/.zshrc ou ~/.bashrc, ou exporte as variáveis antes de iniciar o Claude Code:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="sua-chave-glm-coding-plan"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
Enter fullscreen mode Exit fullscreen mode

Depois, inicie o Claude Code normalmente:

claude
Enter fullscreen mode Exit fullscreen mode

O que cada variável faz

ANTHROPIC_BASE_URL

Use:

https://api.z.ai/api/coding/paas/v4
Enter fullscreen mode Exit fullscreen mode

Esse é o endpoint de codificação compatível com Anthropic. Alguns materiais antigos usam:

https://open.z.ai/api/paas/v4
Enter fullscreen mode Exit fullscreen mode

Se você receber erro 404 ou falha de autenticação, teste o outro host e confira a documentação GLM-5.2 da Z.ai.

glm-5.2[1m]

No Claude Code, o sufixo [1m] seleciona a variante com janela de contexto de 1 milhão de tokens. Definir Sonnet e Opus para o mesmo modelo garante que qualquer nível usado pelo Claude Code aponte para o GLM-5.2.

CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000

O Claude Code compacta o histórico quando se aproxima do limite de contexto. Se você deixar o valor padrão, a ferramenta pode resumir cedo demais e desperdiçar a janela longa do GLM-5.2. Use 1000000 para aproveitar o contexto completo antes da compactação.

API_TIMEOUT_MS=3000000

Esse valor equivale a 3.000 segundos, ou 50 minutos. Para tarefas agenticas longas com contexto grande, o modelo pode demorar antes de retornar o primeiro token. Sem esse timeout maior, o Claude Code pode abortar a chamada e exibir um erro de conexão.

Raciocínio

O GLM-5.2 oferece níveis de raciocínio Alto e Máximo. A Z.ai recomenda Máximo para codificação. Se a ferramenta permitir enviar reasoning_effort, use:

{
  "reasoning_effort": "max"
}
Enter fullscreen mode Exit fullscreen mode

Para tarefas simples e rápidas, você pode desativar o raciocínio quando quiser reduzir latência e custo.

Se você já configurou versões anteriores, o fluxo é semelhante ao usado no GLM-5.1 no Claude Code e no GLM-4.5 com Claude Code: troque o ID do modelo e a URL base.

Configurar o GLM-5.2 no Cline

O Cline é uma extensão do VS Code que executa um agente de codificação dentro do editor. Diferente do Claude Code, ele usa um endpoint compatível com OpenAI.

Cline com GLM-5.2

Siga estes passos:

  1. Instale a extensão Cline no marketplace do VS Code.
  2. Abra as configurações do Cline pelo ícone de engrenagem.
  3. Em Provedor de API, selecione Compatível com OpenAI.
  4. Em URL Base, use:
   https://api.z.ai/api/paas/v4/
Enter fullscreen mode Exit fullscreen mode
  1. Cole sua chave de API da Z.ai.
  2. Em ID do Modelo, informe:
   glm-5.2
Enter fullscreen mode Exit fullscreen mode
  1. Na configuração de janela de contexto, defina:
   1000000
Enter fullscreen mode Exit fullscreen mode

No Cline, não use o sufixo [1m]. Esse sufixo é específico do Claude Code.

Essa configuração permite que o Cline planeje, edite arquivos e execute comandos usando o GLM-5.2. Como o Cline pode disparar várias chamadas de ferramenta por tarefa, definir a janela de contexto para 1 milhão ajuda a manter plano, diffs, logs e resultados de teste no histórico.

Configurar o GLM-5.2 no Cursor

O Cursor é um editor independente com recursos de IA integrados. Ele também usa um endpoint compatível com OpenAI, então a configuração é parecida com a do Cline.

Cursor com GLM-5.2

Passo a passo:

  1. Abra as configurações do Cursor.
  2. Vá para Modelos.
  3. Role até a seção da chave de API OpenAI.
  4. Ative a opção de URL base personalizada ou Substituir URL base da OpenAI.
  5. Defina a URL base como:
   https://api.z.ai/api/paas/v4/
Enter fullscreen mode Exit fullscreen mode
  1. Insira sua chave de API da Z.ai.
  2. Adicione um modelo personalizado com o ID:
   glm-5.2
Enter fullscreen mode Exit fullscreen mode
  1. Marque esse modelo como ativo.
  2. Use o teste de chave de API do Cursor para validar a conexão.
  3. Envie um prompt simples para confirmar o funcionamento.

Depois disso, o GLM-5.2 alimenta o chat e as edições inline do Cursor.

Se você já usou o Cursor com outras versões do GLM, as diferenças descritas em Claude Code vs Cursor com GLM-4.7 continuam relevantes: Cursor é mais fluido para edições inline, enquanto Claude Code e Cline tendem a funcionar melhor em execuções agenticas autônomas e de várias etapas.

Configuração lado a lado

Use esta tabela para copiar os valores corretos para cada ferramenta:

Configuração Claude Code Cline Cursor
Formato da API Compatível com Anthropic Compatível com OpenAI Compatível com OpenAI
URL Base https://api.z.ai/api/coding/paas/v4 https://api.z.ai/api/paas/v4/ https://api.z.ai/api/paas/v4/
ID do Modelo glm-5.2[1m] glm-5.2 glm-5.2
Tipo de chave Chave do Plano de Codificação GLM Chave de API Chave de API
Janela de contexto CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000 1000000 Padrão do modelo
Timeout API_TIMEOUT_MS=3000000 n/a n/a
Esforço de raciocínio Máximo, recomendado para codificação Padrão do provedor Padrão do provedor

Os dois erros mais comuns são:

  1. Usar a URL base errada para o tipo de ferramenta.
  2. Esquecer glm-5.2[1m] e API_TIMEOUT_MS=3000000 no Claude Code.

Teste sua configuração com uma chamada de API real

Antes de depender da ferramenta, valide a chave e o modelo com uma chamada direta. Isso separa problemas de credenciais de problemas da configuração do editor.

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Escreva uma função em Python que inverta uma lista encadeada."
      }
    ],
    "thinking": {
      "type": "enabled"
    },
    "reasoning_effort": "max",
    "stream": false
  }'
Enter fullscreen mode Exit fullscreen mode

Se a chamada retornar uma conclusão, sua chave e o ID do modelo estão corretos. Qualquer erro restante provavelmente está na configuração do Claude Code, Cline ou Cursor.

Você também pode salvar essa requisição em um cliente de API. Se estiver testando o GLM-5.2 junto com seus próprios endpoints de backend, o Apidog permite importar o curl, gerenciar Authorization ou ANTHROPIC_API_KEY como variável de ambiente e reproduzir chamadas sem reescrever o comando. Você pode baixar o Apidog e importar o curl acima diretamente.

Qual ferramenta você deve usar?

Depende do fluxo de trabalho.

  • Claude Code: melhor para execuções longas no terminal, refatorações grandes e mudanças em todo o repositório. É o único dos três que usa explicitamente glm-5.2[1m].
  • Cline: bom equilíbrio para quem trabalha no VS Code e quer um agente visível dentro do editor, com rastreamento de chamadas de ferramenta.
  • Cursor: melhor para edições rápidas, chat no editor e fluxo de autocomplete/edição inline.

Para comparar planos e recursos, veja Claude Code vs Codex vs Cursor vs MiniMax vs GLM Plan. Para avaliar o modelo contra alternativas de fronteira, consulte GLM-5.2 vs GPT-5.5, Claude Opus e Gemini e a análise de benchmarks. Se você está migrando de versão, GLM-5.2 vs GLM-5.1 detalha as mudanças.

FAQ

Por que uso glm-5.2[1m] no Claude Code, mas glm-5.2 no Cline e no Cursor?

Porque [1m] é uma convenção usada no Claude Code para selecionar a variante de contexto de 1 milhão de tokens pelo endpoint de codificação. Cline e Cursor usam o ID simples glm-5.2 no endpoint compatível com OpenAI.

O que fazer se o Claude Code exceder o tempo limite em tarefas longas?

Defina:

export API_TIMEOUT_MS=3000000
Enter fullscreen mode Exit fullscreen mode

Isso dá tempo suficiente para respostas com contexto grande e raciocínio máximo. Sem esse ajuste, o Claude Code pode abortar antes de o modelo concluir.

Preciso do Plano de Codificação GLM ou posso usar pagamento conforme o uso?

Ambos podem funcionar dependendo do endpoint e da ferramenta, mas o endpoint de codificação usado pelo Claude Code espera uma chave do Plano de Codificação GLM. Para uso intenso diário, os níveis mensais Lite, Pro, Max e Team podem fazer mais sentido do que cobrança por token. Confirme os preços atuais em z.ai.

Qual URL base devo usar no Claude Code?

Use:

https://api.z.ai/api/coding/paas/v4
Enter fullscreen mode Exit fullscreen mode

Algumas fontes listam:

https://open.z.ai/api/paas/v4
Enter fullscreen mode Exit fullscreen mode

Se houver erro 404 ou autenticação falhar, teste o outro host e confira a documentação da Z.ai. A URL https://api.z.ai/api/paas/v4/ é para Cline e Cursor, não para Claude Code.

O GLM-5.2 processa imagens?

Não há variante de visão confirmada para o GLM-5.2. Ele é um modelo de codificação e raciocínio texto-para-texto. Não assuma suporte a imagens até que a Z.ai lance uma variante específica.

Conclusão

Para usar o GLM-5.2 em ferramentas de codificação, ajuste três pontos: URL base, ID do modelo e janela de contexto. No Claude Code, use o endpoint compatível com Anthropic, glm-5.2[1m], CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000 e API_TIMEOUT_MS=3000000. No Cline e no Cursor, use o endpoint compatível com OpenAI e o modelo glm-5.2.

Se você quiser rodar o modelo fora dessas ferramentas, veja como usar o GLM-5.2 gratuitamente e a análise de preços do GLM-5.2. Também é possível obter os pesos no Hugging Face ou puxar o modelo com Ollama para uso local.

Top comments (0)