DEV Community

Cover image for Preços GLM-5.2: Custo da API, Entrada em Cache e Níveis dos Planos de Codificação GLM (2026)
Lucas
Lucas

Posted on • Originally published at apidog.com

Preços GLM-5.2: Custo da API, Entrada em Cache e Níveis dos Planos de Codificação GLM (2026)

GLM-5.2 é uma opção econômica para executar um modelo de codificação de classe fronteira. A Z.ai (Zhipu AI) oferece pesos abertos sob licença MIT, janela de contexto de 1M de tokens e preços de API abaixo de muitos laboratórios fechados. Neste guia, você verá o custo por token, como usar entrada em cache, exemplos reais em dólar, níveis do Plano de Codificação GLM e quando o GLM-5.2 tende a ser mais barato que o GPT-5.5 no fluxo de trabalho de desenvolvimento.

Experimente o Apidog hoje

Antes dos números: preços de IA mudam rápido, e alguns níveis do Plano de Codificação GLM aparecem de forma inconsistente em fontes secundárias. Quando um valor não estiver confirmado, ele será sinalizado. Confirme o preço atual em z.ai antes de fechar orçamento.

Custo da API GLM-5.2 em resumo

A tarifa pay-as-you-go é o ponto de partida mais simples, porque está confirmada na listagem pública do OpenRouter.

Item Preço Fonte
Tokens de entrada $1.40 / 1M Confirmado, OpenRouter
Tokens de saída $4.40 / 1M Confirmado, OpenRouter
Entrada em cache ~$0.26 / 1M VentureBeat, atribuir

Na prática:

entrada  = tokens_de_entrada * 1.40 / 1_000_000
saída    = tokens_de_saida   * 4.40 / 1_000_000
total    = entrada + saída
Enter fullscreen mode Exit fullscreen mode

Ou seja:

  • Entrada: $0.0000014 por token
  • Saída: $0.0000044 por token
  • Saída custa cerca de 3.1x mais que entrada

Isso é comum em modelos de raciocínio: os tokens gerados, incluindo raciocínio interno quando habilitado, custam mais que os tokens enviados.

GLM-5.2 pricing

A taxa de entrada em cache, cerca de $0.26 / 1M, é a principal alavanca de custo para agentes, chats longos e fluxos com contexto repetido. Esse valor vem da reportagem do VentureBeat, não de um cartão oficial de tarifas, então trate como estimativa atribuída.

Não há uma rota gratuita no OpenRouter para glm-5.2. Se você vir essa afirmação em outro lugar, provavelmente está incorreta. A alternativa “gratuita” é executar os pesos abertos no seu próprio hardware, pagando apenas pelo custo de infraestrutura. Para isso, veja como usar o GLM-5.2 gratuitamente e como executar o GLM-5 localmente gratuitamente.

Como funciona o desconto de entrada em cache

Cache de prompt é o controle de custo mais importante no GLM-5.2.

O mecanismo é simples: quando você envia repetidamente um prefixo longo e estável, o provedor pode reutilizar esse prefixo já processado. Na próxima chamada, a parte em cache é cobrada pela taxa reduzida, cerca de $0.26 / 1M, em vez de $1.40 / 1M.

Isso equivale a aproximadamente 81% de desconto na parte repetida do prompt.

Funciona melhor quando você tem:

  • Agentes de codificação: Claude Code, Cline e Cursor reenviam instruções, esquemas de ferramentas e contexto do repositório em vários turnos. Cachear esse preâmbulo reduz o custo de entrada por chamada. Veja o guia GLM-5.2 com Claude Code, Cline e Cursor.
  • RAG e Q&A de documentos: se várias perguntas usam o mesmo documento longo, mantenha o documento como prefixo estável.
  • Conversas longas: o histórico do chat vira um prefixo crescente. O cache reduz o custo de “lembrar” o contexto.

Regras práticas:

  1. Coloque conteúdo reutilizável no início do prompt.
  2. Coloque conteúdo variável no final.
  3. Agrupe chamadas próximas no tempo, porque caches expiram.

Exemplo de estrutura de prompt:

[Prompt de sistema estável]
[Definições de ferramentas estáveis]
[Arquivos ou documentação reutilizados]
[Mensagem variável do usuário]
[Instrução específica da chamada]
Enter fullscreen mode Exit fullscreen mode

Desativando o raciocínio como controle de custo

GLM-5.2 é um modelo de raciocínio com dois níveis de esforço: Alto e Máximo. A Z.ai recomenda Máximo para codificação. Porém, tokens de raciocínio contam como tokens de saída, e saída custa $4.40 / 1M.

Para tarefas simples, desative o raciocínio:

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Reformat this JSON and return it."
    }
  ],
  "thinking": {
    "type": "disabled"
  }
}
Enter fullscreen mode Exit fullscreen mode

Use cada modo assim:

  • Raciocínio desativado: formatação, extração, classificação, reescritas simples, normalização de dados.
  • Esforço alto: análise e codificação diária, quando você precisa de raciocínio, mas não quer gastar o máximo.
  • Esforço máximo: debugging difícil, refatorações grandes, matemática e tarefas longas onde precisão compensa custo.

A referência dos parâmetros, incluindo reasoning_effort e streaming, está no guia da API GLM-5.2. Se você estiver migrando de clientes compatíveis com OpenAI, veja também o passo a passo da API GLM-5.

Exemplos de custos calculados

Exemplo 1: sessão única de codificação com 100K tokens

Cenário:

  • 100K tokens de entrada
  • 20K tokens de saída

Cálculo:

Entrada: 100.000 * 1.40 / 1.000.000 = $0.140
Saída:    20.000 * 4.40 / 1.000.000 = $0.088
Total: ~$0.23
Enter fullscreen mode Exit fullscreen mode

Exemplo 2: mesma sessão com cache

Agora suponha:

  • 80K tokens de entrada em cache
  • 20K tokens de entrada nova
  • 20K tokens de saída

Cálculo:

Entrada em cache: 80.000 * 0.26 / 1.000.000 = $0.021
Entrada nova:     20.000 * 1.40 / 1.000.000 = $0.028
Saída:            20.000 * 4.40 / 1.000.000 = $0.088
Total: ~$0.14
Enter fullscreen mode Exit fullscreen mode

O cache reduz a sessão em cerca de 40%. Em agentes com vários turnos no mesmo contexto, a economia tende a aumentar.

Exemplo 3: bot de suporte com raciocínio desativado

Cenário diário:

  • 500 mensagens por dia
  • 2K tokens de entrada por chamada
  • 300 tokens de saída por chamada
  • raciocínio desativado

Cálculo:

Entrada: 500 * 2.000 * 1.40 / 1.000.000 = $1.40
Saída:   500 *   300 * 4.40 / 1.000.000 = $0.66
Total: ~$2.06 / dia
Enter fullscreen mode Exit fullscreen mode

Estimativa mensal:

$2.06 * 30 = ~$62 / mês
Enter fullscreen mode Exit fullscreen mode

Esses valores usam preço de tabela. A fatura real depende de quanto raciocínio você habilita e quanto da entrada acerta o cache.

Níveis do Plano de Codificação GLM

Se você usa agente de codificação o dia todo, uma assinatura pode sair mais barata que API pay-as-you-go. A Z.ai vende um Plano de Codificação GLM com níveis como Lite, Pro, Max e Equipe, exposto ao Claude Code e ferramentas semelhantes via endpoint compatível com Anthropic.

GLM Coding Plan

A chave desse plano é diferente da chave de API padrão. Para usar o GLM-5.2 no Claude Code, configure o endpoint de codificação e selecione a variante com contexto de 1M usando o sufixo [1m]:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
Enter fullscreen mode Exit fullscreen mode

O API_TIMEOUT_MS é importante. Sem um timeout longo, o Claude Code pode encerrar chamadas de grande contexto antes do GLM-5.2 terminar.

Algumas fontes mostram a URL base como:

open.z.ai/api/paas/v4
Enter fullscreen mode Exit fullscreen mode

em vez de:

https://api.z.ai/api/coding/paas/v4
Enter fullscreen mode Exit fullscreen mode

Confirme o host ativo antes de configurar em produção.

Para configuração completa com Claude Code, Cline e Cursor, veja o guia de agentes de codificação GLM-5.2. O artigo sobre GLM-5.1 com Claude Code mostra o mesmo padrão para a geração anterior.

GLM-5.2 é mais barato que GPT-5.5?

Na API com medição por uso, sim, por uma ampla margem.

O VentureBeat relatou que o GLM-5.2 “supera o GPT-5.5 em codificação de longo prazo com cerca de 1/6 do custo”. Essa afirmação é do VentureBeat, não uma medição da Apidog, e combina benchmark com preço. Use como indicação direcional de valor, não como proporção exata por token.

Comparação de tarifa:

GLM-5.2
Entrada: $1.40 / 1M
Saída:   $4.40 / 1M
Enter fullscreen mode Exit fullscreen mode

Modelos fronteira fechados de OpenAI, Anthropic e Google geralmente ficam acima disso em níveis superiores de raciocínio, por isso a ideia de “fração do custo” aparece com frequência.

Para comparações numéricas de custo e velocidade, veja:

A comparação de assinaturas é mais sutil. Um nível pesado do Plano de Codificação GLM, estimado em cerca de $80/mês, fica na mesma faixa de preço de assinaturas de codificação para usuário único de outros fornecedores. Nesse caso, a decisão depende de:

  • qualidade do modelo nas suas tarefas;
  • limites de uso do plano;
  • suporte ao seu editor/agente;
  • custo por chamada equivalente no seu volume real.

A comparação plano contra plano está em Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Plan.

Sobre benchmarks: os resultados de lançamento que sustentam a proposta de valor, como SWE-bench Pro 62.1, Terminal-Bench 2.1 com 81.0 e MCP-Atlas 77.0, são resultados publicados pela Z.ai. Veja o mergulho profundo nos benchmarks GLM-5.2 e a comparação GLM-5.2 vs GPT-5.5, Claude Opus e Gemini.

Qual caminho de precificação escolher?

Use esta regra prática:

Caso de uso Melhor opção
Uso esporádico ou baixo volume API pay-as-you-go
Codificação diária em agente Plano de Codificação GLM
Privacidade, offline ou custo marginal zero Hospedar pesos abertos
Chat/RAG com contexto repetido API com cache de prompt
Tarefas simples e mecânicas API com raciocínio desativado

Para hospedagem própria, comece por:

Independentemente do caminho, as duas principais alavancas de custo são:

  1. cachear prefixos estáveis;
  2. reduzir o esforço de raciocínio quando a tarefa não precisa dele.

Testando os custos do GLM-5.2 antes de se comprometer

Antes de escolher um plano, meça seus próprios prompts. O objetivo é observar:

  • tokens de entrada;
  • tokens de saída;
  • latência;
  • impacto do raciocínio;
  • aproveitamento do cache.

Você pode apontar qualquer cliente compatível com OpenAI para o endpoint GLM-5.2 e registrar o uso por chamada.

O Apidog ajuda nesse fluxo porque permite projetar, depurar, testar e documentar APIs. Você pode enviar requisições para:

https://api.z.ai/api/paas/v4/chat/completions
Enter fullscreen mode Exit fullscreen mode

Depois, inspecione a resposta, compare contagem de tokens e salve chamadas como uma coleção reutilizável para testar diferentes níveis de raciocínio e comportamento de cache.

Se quiser comparar o cartão de tarifas com seu tráfego real, baixe o Apidog.

Testando GLM-5.2 no Apidog

Resumo: use $1.40 / 1M para entrada e $4.40 / 1M para saída como base confirmada. Para reduzir custo, cacheie prefixos, controle o esforço de raciocínio e confirme o preço atual do Plano de Codificação GLM antes de contratar.

Top comments (0)