Lucas

Posted on Jun 17 • Originally published at apidog.com

Preços GLM-5.2: Custo da API, Entrada em Cache e Níveis dos Planos de Codificação GLM (2026)

GLM-5.2 é uma opção econômica para executar um modelo de codificação de classe fronteira. A Z.ai (Zhipu AI) oferece pesos abertos sob licença MIT, janela de contexto de 1M de tokens e preços de API abaixo de muitos laboratórios fechados. Neste guia, você verá o custo por token, como usar entrada em cache, exemplos reais em dólar, níveis do Plano de Codificação GLM e quando o GLM-5.2 tende a ser mais barato que o GPT-5.5 no fluxo de trabalho de desenvolvimento.

Experimente o Apidog hoje

Antes dos números: preços de IA mudam rápido, e alguns níveis do Plano de Codificação GLM aparecem de forma inconsistente em fontes secundárias. Quando um valor não estiver confirmado, ele será sinalizado. Confirme o preço atual em z.ai antes de fechar orçamento.

Custo da API GLM-5.2 em resumo

A tarifa pay-as-you-go é o ponto de partida mais simples, porque está confirmada na listagem pública do OpenRouter.

Item	Preço	Fonte
Tokens de entrada	$1.40 / 1M	Confirmado, OpenRouter
Tokens de saída	$4.40 / 1M	Confirmado, OpenRouter
Entrada em cache	~$0.26 / 1M	VentureBeat, atribuir

Na prática:

entrada  = tokens_de_entrada * 1.40 / 1_000_000
saída    = tokens_de_saida   * 4.40 / 1_000_000
total    = entrada + saída

Ou seja:

Entrada: $0.0000014 por token
Saída: $0.0000044 por token
Saída custa cerca de 3.1x mais que entrada

Isso é comum em modelos de raciocínio: os tokens gerados, incluindo raciocínio interno quando habilitado, custam mais que os tokens enviados.

A taxa de entrada em cache, cerca de $0.26 / 1M, é a principal alavanca de custo para agentes, chats longos e fluxos com contexto repetido. Esse valor vem da reportagem do VentureBeat, não de um cartão oficial de tarifas, então trate como estimativa atribuída.

Não há uma rota gratuita no OpenRouter para glm-5.2. Se você vir essa afirmação em outro lugar, provavelmente está incorreta. A alternativa “gratuita” é executar os pesos abertos no seu próprio hardware, pagando apenas pelo custo de infraestrutura. Para isso, veja como usar o GLM-5.2 gratuitamente e como executar o GLM-5 localmente gratuitamente.

Como funciona o desconto de entrada em cache

Cache de prompt é o controle de custo mais importante no GLM-5.2.

O mecanismo é simples: quando você envia repetidamente um prefixo longo e estável, o provedor pode reutilizar esse prefixo já processado. Na próxima chamada, a parte em cache é cobrada pela taxa reduzida, cerca de $0.26 / 1M, em vez de $1.40 / 1M.

Isso equivale a aproximadamente 81% de desconto na parte repetida do prompt.

Funciona melhor quando você tem:

Agentes de codificação: Claude Code, Cline e Cursor reenviam instruções, esquemas de ferramentas e contexto do repositório em vários turnos. Cachear esse preâmbulo reduz o custo de entrada por chamada. Veja o guia GLM-5.2 com Claude Code, Cline e Cursor.
RAG e Q&A de documentos: se várias perguntas usam o mesmo documento longo, mantenha o documento como prefixo estável.
Conversas longas: o histórico do chat vira um prefixo crescente. O cache reduz o custo de “lembrar” o contexto.

Regras práticas:

Coloque conteúdo reutilizável no início do prompt.
Coloque conteúdo variável no final.
Agrupe chamadas próximas no tempo, porque caches expiram.

Exemplo de estrutura de prompt:

[Prompt de sistema estável]
[Definições de ferramentas estáveis]
[Arquivos ou documentação reutilizados]
[Mensagem variável do usuário]
[Instrução específica da chamada]

Desativando o raciocínio como controle de custo

GLM-5.2 é um modelo de raciocínio com dois níveis de esforço: Alto e Máximo. A Z.ai recomenda Máximo para codificação. Porém, tokens de raciocínio contam como tokens de saída, e saída custa $4.40 / 1M.

Para tarefas simples, desative o raciocínio:

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Reformat this JSON and return it."
    }
  ],
  "thinking": {
    "type": "disabled"
  }
}

Use cada modo assim:

Raciocínio desativado: formatação, extração, classificação, reescritas simples, normalização de dados.
Esforço alto: análise e codificação diária, quando você precisa de raciocínio, mas não quer gastar o máximo.
Esforço máximo: debugging difícil, refatorações grandes, matemática e tarefas longas onde precisão compensa custo.

A referência dos parâmetros, incluindo reasoning_effort e streaming, está no guia da API GLM-5.2. Se você estiver migrando de clientes compatíveis com OpenAI, veja também o passo a passo da API GLM-5.

Exemplos de custos calculados

Exemplo 1: sessão única de codificação com 100K tokens

Cenário:

100K tokens de entrada
20K tokens de saída

Cálculo:

Entrada: 100.000 * 1.40 / 1.000.000 = $0.140
Saída:    20.000 * 4.40 / 1.000.000 = $0.088
Total: ~$0.23

Exemplo 2: mesma sessão com cache

Agora suponha:

80K tokens de entrada em cache
20K tokens de entrada nova
20K tokens de saída

Cálculo:

Entrada em cache: 80.000 * 0.26 / 1.000.000 = $0.021
Entrada nova:     20.000 * 1.40 / 1.000.000 = $0.028
Saída:            20.000 * 4.40 / 1.000.000 = $0.088
Total: ~$0.14

O cache reduz a sessão em cerca de 40%. Em agentes com vários turnos no mesmo contexto, a economia tende a aumentar.

Exemplo 3: bot de suporte com raciocínio desativado

Cenário diário:

500 mensagens por dia
2K tokens de entrada por chamada
300 tokens de saída por chamada
raciocínio desativado

Cálculo:

Entrada: 500 * 2.000 * 1.40 / 1.000.000 = $1.40
Saída:   500 *   300 * 4.40 / 1.000.000 = $0.66
Total: ~$2.06 / dia

Estimativa mensal:

$2.06 * 30 = ~$62 / mês

Esses valores usam preço de tabela. A fatura real depende de quanto raciocínio você habilita e quanto da entrada acerta o cache.

Níveis do Plano de Codificação GLM

Se você usa agente de codificação o dia todo, uma assinatura pode sair mais barata que API pay-as-you-go. A Z.ai vende um Plano de Codificação GLM com níveis como Lite, Pro, Max e Equipe, exposto ao Claude Code e ferramentas semelhantes via endpoint compatível com Anthropic.

A chave desse plano é diferente da chave de API padrão. Para usar o GLM-5.2 no Claude Code, configure o endpoint de codificação e selecione a variante com contexto de 1M usando o sufixo [1m]:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

O API_TIMEOUT_MS é importante. Sem um timeout longo, o Claude Code pode encerrar chamadas de grande contexto antes do GLM-5.2 terminar.

Algumas fontes mostram a URL base como:

open.z.ai/api/paas/v4

em vez de:

https://api.z.ai/api/coding/paas/v4

Confirme o host ativo antes de configurar em produção.

Para configuração completa com Claude Code, Cline e Cursor, veja o guia de agentes de codificação GLM-5.2. O artigo sobre GLM-5.1 com Claude Code mostra o mesmo padrão para a geração anterior.

GLM-5.2 é mais barato que GPT-5.5?

Na API com medição por uso, sim, por uma ampla margem.

O VentureBeat relatou que o GLM-5.2 “supera o GPT-5.5 em codificação de longo prazo com cerca de 1/6 do custo”. Essa afirmação é do VentureBeat, não uma medição da Apidog, e combina benchmark com preço. Use como indicação direcional de valor, não como proporção exata por token.

Comparação de tarifa:

GLM-5.2
Entrada: $1.40 / 1M
Saída:   $4.40 / 1M

Modelos fronteira fechados de OpenAI, Anthropic e Google geralmente ficam acima disso em níveis superiores de raciocínio, por isso a ideia de “fração do custo” aparece com frequência.

Para comparações numéricas de custo e velocidade, veja:

A comparação de assinaturas é mais sutil. Um nível pesado do Plano de Codificação GLM, estimado em cerca de $80/mês, fica na mesma faixa de preço de assinaturas de codificação para usuário único de outros fornecedores. Nesse caso, a decisão depende de:

qualidade do modelo nas suas tarefas;
limites de uso do plano;
suporte ao seu editor/agente;
custo por chamada equivalente no seu volume real.

A comparação plano contra plano está em Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Plan.

Sobre benchmarks: os resultados de lançamento que sustentam a proposta de valor, como SWE-bench Pro 62.1, Terminal-Bench 2.1 com 81.0 e MCP-Atlas 77.0, são resultados publicados pela Z.ai. Veja o mergulho profundo nos benchmarks GLM-5.2 e a comparação GLM-5.2 vs GPT-5.5, Claude Opus e Gemini.

Qual caminho de precificação escolher?

Use esta regra prática:

Caso de uso	Melhor opção
Uso esporádico ou baixo volume	API pay-as-you-go
Codificação diária em agente	Plano de Codificação GLM
Privacidade, offline ou custo marginal zero	Hospedar pesos abertos
Chat/RAG com contexto repetido	API com cache de prompt
Tarefas simples e mecânicas	API com raciocínio desativado

Para hospedagem própria, comece por:

Independentemente do caminho, as duas principais alavancas de custo são:

cachear prefixos estáveis;
reduzir o esforço de raciocínio quando a tarefa não precisa dele.

Testando os custos do GLM-5.2 antes de se comprometer

Antes de escolher um plano, meça seus próprios prompts. O objetivo é observar:

tokens de entrada;
tokens de saída;
latência;
impacto do raciocínio;
aproveitamento do cache.

Você pode apontar qualquer cliente compatível com OpenAI para o endpoint GLM-5.2 e registrar o uso por chamada.

O Apidog ajuda nesse fluxo porque permite projetar, depurar, testar e documentar APIs. Você pode enviar requisições para:

https://api.z.ai/api/paas/v4/chat/completions

Depois, inspecione a resposta, compare contagem de tokens e salve chamadas como uma coleção reutilizável para testar diferentes níveis de raciocínio e comportamento de cache.

Se quiser comparar o cartão de tarifas com seu tráfego real, baixe o Apidog.

Resumo: use $1.40 / 1M para entrada e $4.40 / 1M para saída como base confirmada. Para reduzir custo, cacheie prefixos, controle o esforço de raciocínio e confirme o preço atual do Plano de Codificação GLM antes de contratar.