DEV Community

Cover image for GLM-5.2 料金体系:APIコスト、キャッシュ入力、GLMコーディングプランのティア(2026年)
Akira
Akira

Posted on • Originally published at apidog.com

GLM-5.2 料金体系:APIコスト、キャッシュ入力、GLMコーディングプランのティア(2026年)

GLM-5.2は、低コストでコーディング向け推論モデルを使うための選択肢です。Z.ai (Zhipu AI) は、オープンウェイト、MITライセンス、1Mトークンのコンテキストウィンドウ、そして主要なクローズドモデルより低いAPI料金を提示しています。この記事では、API料金、キャッシュ入力割引、実際のコーディングセッションでのコスト計算、GLMコーディングプラン、そしてGPT-5.5とのコスト比較を実装目線で整理します。

今すぐApidogを試す

AIモデルの価格は頻繁に変わります。特にGLMコーディングプランの一部ティアは、公開情報間で差異がある場合があります。この記事で「推定」として扱う数値は、予算確定前に必ずz.aiの最新価格で確認してください。

GLM-5.2 APIコスト概要

まずは従量課金APIの単価を把握します。OpenRouterの公開リストで確認されているGLM-5.2の主要価格は以下です。

項目 価格 情報源
入力トークン $1.40 / 1M 確認済み (OpenRouter)
出力トークン $4.40 / 1M 確認済み (OpenRouter)
キャッシュ入力 約$0.26 / 1M VentureBeatによる引用

トークン単位に直すと、以下の計算になります。

入力: $1.40 / 1,000,000 = $0.0000014 / token
出力: $4.40 / 1,000,000 = $0.0000044 / token
Enter fullscreen mode Exit fullscreen mode

出力トークンは入力トークンの約3.1倍です。つまり、長い推論や大量のコード生成をさせるほどコストが増えます。コスト最適化では「入力をどう減らすか」だけでなく、「不要な出力と思考トークンをどう抑えるか」も重要です。

キャッシュ入力の約$0.26 / 1Mという価格は、エージェント型コーディングや長いチャットで大きな差を生みます。ただし、この数値はベンダー公式の料金表ではなくVentureBeatの報告に基づくものです。実運用前に最新の請求仕様を確認してください。

なお、glm-5.2には無料のOpenRouterレーンはありません。無料で使う方法としては、オープンウェイトを自分のハードウェア上で実行する形になります。詳細は、GLM-5.2を無料で利用する方法と、GLM-5をローカルで無料で実行する方法を参照してください。

キャッシュ入力割引を使う

GLM-5.2のコストを下げるうえで、最も実用的なのがプロンプトキャッシュです。

プロンプトキャッシュは、繰り返し送る長いプレフィックスを再利用する仕組みです。たとえば以下のような内容は、毎回ほぼ同じ形で送信されがちです。

  • システムプロンプト
  • コーディングエージェントのツール定義
  • リポジトリ全体のコンテキスト
  • 変更されていない大きなファイル
  • RAGで参照する長いドキュメント

通常の入力料金は1Mトークンあたり$1.40ですが、キャッシュにヒットした入力は約$0.26 / 1Mとして扱われる場合があります。これは、繰り返し部分に対して約81%の割引です。

キャッシュが効きやすい構成

プロンプトを組み立てるときは、安定した内容を先頭に置き、毎回変わる内容を末尾に置きます。

[固定] システムプロンプト
[固定] ツール定義
[固定] リポジトリ概要
[固定] 参照ファイル
[可変] 今回のユーザー指示
[可変] 最新の差分
Enter fullscreen mode Exit fullscreen mode

キャッシュはプレフィックスをキーにするため、先頭部分が安定しているほどヒットしやすくなります。

効果が出やすいワークロード

  • コーディングエージェント

    Claude Code、Cline、Cursorなどは、指示、ツールスキーマ、リポジトリコンテキストをターンごとに送ります。固定部分をキャッシュできれば、ターンごとの入力料金を下げられます。セットアップはClaude Code、Cline、CursorとのGLM-5.2ガイドで解説されています。

  • RAG / ドキュメントQ&A

    同じ長文ドキュメントに対して複数回質問する場合、ドキュメント部分を安定プレフィックスとして扱うと有利です。

  • 長い会話

    会話履歴が長くなるほど入力コストが増えます。履歴の安定部分をキャッシュできると、継続会話のコストを抑えやすくなります。

注意点として、キャッシュは永続ではありません。時間が空いたリクエストでは割引が効かない場合があります。短時間に連続するエージェント実行や反復的なデバッグで特に効果が出ます。

思考を無効にして出力コストを制御する

GLM-5.2は推論モデルで、HighとMaxの思考努力レベルがあります。Z.aiはコーディング用途にMaxを推奨していますが、思考トークンは出力トークンとして課金されます。

出力は1Mトークンあたり$4.40なので、思考を増やすほど請求額も増えます。

単純なタスクでは、思考を無効にします。

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "このJSONを整形して返してください。"
    }
  ],
  "thinking": {
    "type": "disabled"
  }
}
Enter fullscreen mode Exit fullscreen mode

使い分けの目安は以下です。

モード 向いているタスク
思考無効 整形、抽出、分類、単純な書き換え
High 通常のコード修正、軽〜中程度の分析
Max 複雑な設計、長いデバッグ、数学的推論、難しいリファクタリング

たとえば、ログからフィールドを抽出するだけの処理にMax推論を使うと、必要以上に出力トークンが増えます。逆に、複雑なバグ修正ではMaxにした方が手戻りを減らせる場合があります。

reasoning_effortやストリーミングなどのパラメーターは、GLM-5.2 APIガイドを参照してください。移行時のOpenAI互換形式は、GLM-5 APIウォークスルーでも確認できます。

コスト計算例

API単価だけでは判断しづらいため、実際のワークロードに近い形で計算します。

例1: 10万入力 + 2万出力のコーディングセッション

リポジトリ情報、指示、ファイル内容として10万トークンを読み込み、コードと推論を2万トークン生成するケースです。

入力: 100,000 × $1.40 / 1,000,000 = $0.140
出力: 20,000 × $4.40 / 1,000,000 = $0.088
合計: 約$0.23
Enter fullscreen mode Exit fullscreen mode

例2: 同じセッションでキャッシュを使う

10万入力トークンのうち、8万トークンがキャッシュ済みの固定プレフィックス、2万トークンが新規入力だとします。

キャッシュ入力: 80,000 × $0.26 / 1,000,000 = $0.021
新規入力:       20,000 × $1.40 / 1,000,000 = $0.028
出力:           20,000 × $4.40 / 1,000,000 = $0.088
合計: 約$0.14
Enter fullscreen mode Exit fullscreen mode

この例では、キャッシュによりセッションコストが約40%下がります。同じリポジトリに対して複数ターン実行するほど、キャッシュの効果は大きくなります。

例3: 思考を無効にしたチャット抽出

サポートボットが1日500件のメッセージを処理し、各呼び出しで2,000入力トークン、300出力トークンを使うケースです。

入力: 500 × 2,000 × $1.40 / 1,000,000 = $1.40
出力: 500 × 300 × $4.40 / 1,000,000 = $0.66
合計: 1日あたり約$2.06
月額目安: 約$62
Enter fullscreen mode Exit fullscreen mode

実際の請求額は、思考トークン量、キャッシュヒット率、出力の長さで変わります。導入前に、自分のプロンプトでトークン使用量を計測してください。

GLMコーディングプランのティア

毎日エージェントでコーディングする場合、従量課金APIよりサブスクリプション型のGLMコーディングプランが安くなる可能性があります。

Z.aiは、Lite、Pro、Max、Teamなどの名前付きティアを提供しており、Claude CodeなどからAnthropic互換エンドポイント経由で利用できます。

注意点として、GLMコーディングプランのキーは通常のAPIキーとは異なる資格情報です。Claude Codeに接続する場合は、コーディング用エンドポイントを指定し、[1m]モデルサフィックスで1Mコンテキスト版を選択します。

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
Enter fullscreen mode Exit fullscreen mode

API_TIMEOUT_MSは重要です。大きなコンテキストを使うコールでは、タイムアウトが短いとGLM-5.2の応答前にClaude Code側が処理を打ち切る可能性があります。

一部の情報源では、コーディング用ベースURLが open.z.ai/api/paas/v4 と示される場合もあります。実装時は、必ず最新の公式ドキュメントでホストを確認してください。

ClineやCursorを含む詳しいセットアップは、GLM-5.2コーディングエージェントガイドを参照してください。前世代の構成は、GLM-5.1とClaude Codeの記事でも確認できます。

GLM-5.2はGPT-5.5より安いのか

従量課金APIの単価だけを見ると、GLM-5.2はかなり安い部類です。

VentureBeatは、GLM-5.2について「長期間のコーディングにおいてGPT-5.5を約1/6のコストで上回る」と報じています。ただし、これはVentureBeatの表現であり、Apidog独自の測定値ではありません。また、ベンチマーク性能と価格をまとめた価値評価であり、単純なトークン単価比ではありません。

料金表レベルでは、GLM-5.2は以下です。

入力: $1.40 / 1M tokens
出力: $4.40 / 1M tokens
Enter fullscreen mode Exit fullscreen mode

OpenAI、Anthropic、Googleの上位推論モデルは、最高性能ティアでは一般的にこれより高額です。そのため、コーディングや長文コンテキスト処理で「コストを下げたい」場合、GLM-5.2は比較対象に入ります。

モデル間の速度とコスト比較は、GLM-5とDeepSeekとGPT-5の速度とコスト、およびGLM-5.1とClaude、GPT、Gemini、DeepSeekの比較を参照してください。

一方、サブスクリプション比較は単純ではありません。推定月額約80ドルの重いGLMコーディングプランティアは、他社の高額なシングルシートコーディングプランと近い価格帯になる可能性があります。この場合は、以下で判断します。

  • 自分のタスクでのモデル品質
  • 月間使用量
  • プランの制限
  • レート制限
  • エージェント連携のしやすさ
  • 長いコンテキストの安定性

プラン比較は、Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Planで詳しく説明されています。

ベンチマークについても注意が必要です。SWE-bench Pro 62.1、Terminal-Bench 2.1 (81.0)、MCP-Atlas 77.0といったローンチ時の結果は、Z.aiの公開結果です。詳細はGLM-5.2ベンチマークの詳細分析と、GLM-5.2 vs GPT-5.5、Claude Opus、Geminiを参照してください。

どの価格パスを選ぶべきか

実装前に、利用パターンごとに選択肢を分けると判断しやすくなります。

1. 断続的または低ボリューム利用

従量課金APIが向いています。

  • 週に数回だけ使う
  • 小さなスクリプトで使う
  • プロトタイプ段階
  • 使用量が読めない

まずAPIで使い、トークン使用量をログに出してから判断します。

2. 毎日エージェントでコーディングする

GLMコーディングプランのティアを検討します。

  • Claude Code / Cline / Cursorで終日使う
  • 1日に多数のターンを実行する
  • 大きなリポジトリを読み込む
  • 月額費用を予測したい

ただし、プラン価格と制限は変わる可能性があるため、契約前に最新情報を確認してください。

3. プライバシー、オフライン、または限界費用ゼロを重視する

オープンウェイトの自己ホストを検討します。

  • トークン課金を避けたい
  • 社内環境で完結させたい
  • オフラインで動かしたい
  • 推論インフラを自分で管理できる

始め方は、GLM-5をローカルで無料で実行するまたはOllamaでGLM-5を無料で使うを参照してください。

どの方式でも、コスト最適化の基本は同じです。

1. 固定プレフィックスを先頭に置く
2. キャッシュを効かせる
3. 不要なタスクでは思考を無効化する
4. 出力を短く指定する
5. 実際のトークン使用量を測定する
Enter fullscreen mode Exit fullscreen mode

コミット前にGLM-5.2のコストをテストする

プランを決める前に、自分の実プロンプトでコストとレイテンシを測るのが安全です。OpenAI互換クライアントをGLM-5.2エンドポイントに接続し、呼び出しごとのトークン使用量を記録します。

Apidogは、APIの設計、デバッグ、テスト、ドキュメント作成をまとめて行えるAPIプラットフォームです。GLM-5.2の検証では、たとえば以下のように使えます。

  • https://api.z.ai/api/paas/v4/chat/completions にリクエストを送る
  • レスポンスとトークン使用量を確認する
  • 思考レベルを切り替えて比較する
  • キャッシュが効くプロンプト構造を試す
  • 実験用リクエストをコレクションとして保存する

Apidogをダウンロードして、自分のトラフィックで料金表をベンチマークすると、公開例より現実的な判断ができます。

まとめ

GLM-5.2の確認済みAPI料金は、入力$1.40 / 1M、出力$4.40 / 1Mです。コストを下げるには、固定プレフィックスをキャッシュし、単純作業では思考を無効化し、実際のトークン使用量を測定してください。

毎日コーディングエージェントで使う場合は、従量課金APIだけでなくGLMコーディングプランも比較対象になります。契約前には、z.aiの最新価格、プラン制限、自分のワークロードでの実測値を確認するのが安全です。

Top comments (0)