GLM-5.2 é uma opção econômica para executar um modelo de codificação de classe fronteira. A Z.ai (Zhipu AI) oferece pesos abertos sob licença MIT, janela de contexto de 1M de tokens e preços de API abaixo de muitos laboratórios fechados. Neste guia, você verá o custo por token, como usar entrada em cache, exemplos reais em dólar, níveis do Plano de Codificação GLM e quando o GLM-5.2 tende a ser mais barato que o GPT-5.5 no fluxo de trabalho de desenvolvimento.
Antes dos números: preços de IA mudam rápido, e alguns níveis do Plano de Codificação GLM aparecem de forma inconsistente em fontes secundárias. Quando um valor não estiver confirmado, ele será sinalizado. Confirme o preço atual em z.ai antes de fechar orçamento.
Custo da API GLM-5.2 em resumo
A tarifa pay-as-you-go é o ponto de partida mais simples, porque está confirmada na listagem pública do OpenRouter.
| Item | Preço | Fonte |
|---|---|---|
| Tokens de entrada | $1.40 / 1M | Confirmado, OpenRouter |
| Tokens de saída | $4.40 / 1M | Confirmado, OpenRouter |
| Entrada em cache | ~$0.26 / 1M | VentureBeat, atribuir |
Na prática:
entrada = tokens_de_entrada * 1.40 / 1_000_000
saída = tokens_de_saida * 4.40 / 1_000_000
total = entrada + saída
Ou seja:
- Entrada:
$0.0000014por token - Saída:
$0.0000044por token - Saída custa cerca de
3.1xmais que entrada
Isso é comum em modelos de raciocínio: os tokens gerados, incluindo raciocínio interno quando habilitado, custam mais que os tokens enviados.
A taxa de entrada em cache, cerca de $0.26 / 1M, é a principal alavanca de custo para agentes, chats longos e fluxos com contexto repetido. Esse valor vem da reportagem do VentureBeat, não de um cartão oficial de tarifas, então trate como estimativa atribuída.
Não há uma rota gratuita no OpenRouter para glm-5.2. Se você vir essa afirmação em outro lugar, provavelmente está incorreta. A alternativa “gratuita” é executar os pesos abertos no seu próprio hardware, pagando apenas pelo custo de infraestrutura. Para isso, veja como usar o GLM-5.2 gratuitamente e como executar o GLM-5 localmente gratuitamente.
Como funciona o desconto de entrada em cache
Cache de prompt é o controle de custo mais importante no GLM-5.2.
O mecanismo é simples: quando você envia repetidamente um prefixo longo e estável, o provedor pode reutilizar esse prefixo já processado. Na próxima chamada, a parte em cache é cobrada pela taxa reduzida, cerca de $0.26 / 1M, em vez de $1.40 / 1M.
Isso equivale a aproximadamente 81% de desconto na parte repetida do prompt.
Funciona melhor quando você tem:
- Agentes de codificação: Claude Code, Cline e Cursor reenviam instruções, esquemas de ferramentas e contexto do repositório em vários turnos. Cachear esse preâmbulo reduz o custo de entrada por chamada. Veja o guia GLM-5.2 com Claude Code, Cline e Cursor.
- RAG e Q&A de documentos: se várias perguntas usam o mesmo documento longo, mantenha o documento como prefixo estável.
- Conversas longas: o histórico do chat vira um prefixo crescente. O cache reduz o custo de “lembrar” o contexto.
Regras práticas:
- Coloque conteúdo reutilizável no início do prompt.
- Coloque conteúdo variável no final.
- Agrupe chamadas próximas no tempo, porque caches expiram.
Exemplo de estrutura de prompt:
[Prompt de sistema estável]
[Definições de ferramentas estáveis]
[Arquivos ou documentação reutilizados]
[Mensagem variável do usuário]
[Instrução específica da chamada]
Desativando o raciocínio como controle de custo
GLM-5.2 é um modelo de raciocínio com dois níveis de esforço: Alto e Máximo. A Z.ai recomenda Máximo para codificação. Porém, tokens de raciocínio contam como tokens de saída, e saída custa $4.40 / 1M.
Para tarefas simples, desative o raciocínio:
{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Reformat this JSON and return it."
}
],
"thinking": {
"type": "disabled"
}
}
Use cada modo assim:
- Raciocínio desativado: formatação, extração, classificação, reescritas simples, normalização de dados.
- Esforço alto: análise e codificação diária, quando você precisa de raciocínio, mas não quer gastar o máximo.
- Esforço máximo: debugging difícil, refatorações grandes, matemática e tarefas longas onde precisão compensa custo.
A referência dos parâmetros, incluindo reasoning_effort e streaming, está no guia da API GLM-5.2. Se você estiver migrando de clientes compatíveis com OpenAI, veja também o passo a passo da API GLM-5.
Exemplos de custos calculados
Exemplo 1: sessão única de codificação com 100K tokens
Cenário:
- 100K tokens de entrada
- 20K tokens de saída
Cálculo:
Entrada: 100.000 * 1.40 / 1.000.000 = $0.140
Saída: 20.000 * 4.40 / 1.000.000 = $0.088
Total: ~$0.23
Exemplo 2: mesma sessão com cache
Agora suponha:
- 80K tokens de entrada em cache
- 20K tokens de entrada nova
- 20K tokens de saída
Cálculo:
Entrada em cache: 80.000 * 0.26 / 1.000.000 = $0.021
Entrada nova: 20.000 * 1.40 / 1.000.000 = $0.028
Saída: 20.000 * 4.40 / 1.000.000 = $0.088
Total: ~$0.14
O cache reduz a sessão em cerca de 40%. Em agentes com vários turnos no mesmo contexto, a economia tende a aumentar.
Exemplo 3: bot de suporte com raciocínio desativado
Cenário diário:
- 500 mensagens por dia
- 2K tokens de entrada por chamada
- 300 tokens de saída por chamada
- raciocínio desativado
Cálculo:
Entrada: 500 * 2.000 * 1.40 / 1.000.000 = $1.40
Saída: 500 * 300 * 4.40 / 1.000.000 = $0.66
Total: ~$2.06 / dia
Estimativa mensal:
$2.06 * 30 = ~$62 / mês
Esses valores usam preço de tabela. A fatura real depende de quanto raciocínio você habilita e quanto da entrada acerta o cache.
Níveis do Plano de Codificação GLM
Se você usa agente de codificação o dia todo, uma assinatura pode sair mais barata que API pay-as-you-go. A Z.ai vende um Plano de Codificação GLM com níveis como Lite, Pro, Max e Equipe, exposto ao Claude Code e ferramentas semelhantes via endpoint compatível com Anthropic.
A chave desse plano é diferente da chave de API padrão. Para usar o GLM-5.2 no Claude Code, configure o endpoint de codificação e selecione a variante com contexto de 1M usando o sufixo [1m]:
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
O API_TIMEOUT_MS é importante. Sem um timeout longo, o Claude Code pode encerrar chamadas de grande contexto antes do GLM-5.2 terminar.
Algumas fontes mostram a URL base como:
open.z.ai/api/paas/v4
em vez de:
https://api.z.ai/api/coding/paas/v4
Confirme o host ativo antes de configurar em produção.
Para configuração completa com Claude Code, Cline e Cursor, veja o guia de agentes de codificação GLM-5.2. O artigo sobre GLM-5.1 com Claude Code mostra o mesmo padrão para a geração anterior.
GLM-5.2 é mais barato que GPT-5.5?
Na API com medição por uso, sim, por uma ampla margem.
O VentureBeat relatou que o GLM-5.2 “supera o GPT-5.5 em codificação de longo prazo com cerca de 1/6 do custo”. Essa afirmação é do VentureBeat, não uma medição da Apidog, e combina benchmark com preço. Use como indicação direcional de valor, não como proporção exata por token.
Comparação de tarifa:
GLM-5.2
Entrada: $1.40 / 1M
Saída: $4.40 / 1M
Modelos fronteira fechados de OpenAI, Anthropic e Google geralmente ficam acima disso em níveis superiores de raciocínio, por isso a ideia de “fração do custo” aparece com frequência.
Para comparações numéricas de custo e velocidade, veja:
A comparação de assinaturas é mais sutil. Um nível pesado do Plano de Codificação GLM, estimado em cerca de $80/mês, fica na mesma faixa de preço de assinaturas de codificação para usuário único de outros fornecedores. Nesse caso, a decisão depende de:
- qualidade do modelo nas suas tarefas;
- limites de uso do plano;
- suporte ao seu editor/agente;
- custo por chamada equivalente no seu volume real.
A comparação plano contra plano está em Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Plan.
Sobre benchmarks: os resultados de lançamento que sustentam a proposta de valor, como SWE-bench Pro 62.1, Terminal-Bench 2.1 com 81.0 e MCP-Atlas 77.0, são resultados publicados pela Z.ai. Veja o mergulho profundo nos benchmarks GLM-5.2 e a comparação GLM-5.2 vs GPT-5.5, Claude Opus e Gemini.
Qual caminho de precificação escolher?
Use esta regra prática:
| Caso de uso | Melhor opção |
|---|---|
| Uso esporádico ou baixo volume | API pay-as-you-go |
| Codificação diária em agente | Plano de Codificação GLM |
| Privacidade, offline ou custo marginal zero | Hospedar pesos abertos |
| Chat/RAG com contexto repetido | API com cache de prompt |
| Tarefas simples e mecânicas | API com raciocínio desativado |
Para hospedagem própria, comece por:
Independentemente do caminho, as duas principais alavancas de custo são:
- cachear prefixos estáveis;
- reduzir o esforço de raciocínio quando a tarefa não precisa dele.
Testando os custos do GLM-5.2 antes de se comprometer
Antes de escolher um plano, meça seus próprios prompts. O objetivo é observar:
- tokens de entrada;
- tokens de saída;
- latência;
- impacto do raciocínio;
- aproveitamento do cache.
Você pode apontar qualquer cliente compatível com OpenAI para o endpoint GLM-5.2 e registrar o uso por chamada.
O Apidog ajuda nesse fluxo porque permite projetar, depurar, testar e documentar APIs. Você pode enviar requisições para:
https://api.z.ai/api/paas/v4/chat/completions
Depois, inspecione a resposta, compare contagem de tokens e salve chamadas como uma coleção reutilizável para testar diferentes níveis de raciocínio e comportamento de cache.
Se quiser comparar o cartão de tarifas com seu tráfego real, baixe o Apidog.
Resumo: use $1.40 / 1M para entrada e $4.40 / 1M para saída como base confirmada. Para reduzir custo, cacheie prefixos, controle o esforço de raciocínio e confirme o preço atual do Plano de Codificação GLM antes de contratar.



Top comments (0)