GLM-5.2は、低コストでコーディング向け推論モデルを使うための選択肢です。Z.ai (Zhipu AI) は、オープンウェイト、MITライセンス、1Mトークンのコンテキストウィンドウ、そして主要なクローズドモデルより低いAPI料金を提示しています。この記事では、API料金、キャッシュ入力割引、実際のコーディングセッションでのコスト計算、GLMコーディングプラン、そしてGPT-5.5とのコスト比較を実装目線で整理します。
AIモデルの価格は頻繁に変わります。特にGLMコーディングプランの一部ティアは、公開情報間で差異がある場合があります。この記事で「推定」として扱う数値は、予算確定前に必ずz.aiの最新価格で確認してください。
GLM-5.2 APIコスト概要
まずは従量課金APIの単価を把握します。OpenRouterの公開リストで確認されているGLM-5.2の主要価格は以下です。
| 項目 | 価格 | 情報源 |
|---|---|---|
| 入力トークン | $1.40 / 1M | 確認済み (OpenRouter) |
| 出力トークン | $4.40 / 1M | 確認済み (OpenRouter) |
| キャッシュ入力 | 約$0.26 / 1M | VentureBeatによる引用 |
トークン単位に直すと、以下の計算になります。
入力: $1.40 / 1,000,000 = $0.0000014 / token
出力: $4.40 / 1,000,000 = $0.0000044 / token
出力トークンは入力トークンの約3.1倍です。つまり、長い推論や大量のコード生成をさせるほどコストが増えます。コスト最適化では「入力をどう減らすか」だけでなく、「不要な出力と思考トークンをどう抑えるか」も重要です。
キャッシュ入力の約$0.26 / 1Mという価格は、エージェント型コーディングや長いチャットで大きな差を生みます。ただし、この数値はベンダー公式の料金表ではなくVentureBeatの報告に基づくものです。実運用前に最新の請求仕様を確認してください。
なお、glm-5.2には無料のOpenRouterレーンはありません。無料で使う方法としては、オープンウェイトを自分のハードウェア上で実行する形になります。詳細は、GLM-5.2を無料で利用する方法と、GLM-5をローカルで無料で実行する方法を参照してください。
キャッシュ入力割引を使う
GLM-5.2のコストを下げるうえで、最も実用的なのがプロンプトキャッシュです。
プロンプトキャッシュは、繰り返し送る長いプレフィックスを再利用する仕組みです。たとえば以下のような内容は、毎回ほぼ同じ形で送信されがちです。
- システムプロンプト
- コーディングエージェントのツール定義
- リポジトリ全体のコンテキスト
- 変更されていない大きなファイル
- RAGで参照する長いドキュメント
通常の入力料金は1Mトークンあたり$1.40ですが、キャッシュにヒットした入力は約$0.26 / 1Mとして扱われる場合があります。これは、繰り返し部分に対して約81%の割引です。
キャッシュが効きやすい構成
プロンプトを組み立てるときは、安定した内容を先頭に置き、毎回変わる内容を末尾に置きます。
[固定] システムプロンプト
[固定] ツール定義
[固定] リポジトリ概要
[固定] 参照ファイル
[可変] 今回のユーザー指示
[可変] 最新の差分
キャッシュはプレフィックスをキーにするため、先頭部分が安定しているほどヒットしやすくなります。
効果が出やすいワークロード
コーディングエージェント
Claude Code、Cline、Cursorなどは、指示、ツールスキーマ、リポジトリコンテキストをターンごとに送ります。固定部分をキャッシュできれば、ターンごとの入力料金を下げられます。セットアップはClaude Code、Cline、CursorとのGLM-5.2ガイドで解説されています。RAG / ドキュメントQ&A
同じ長文ドキュメントに対して複数回質問する場合、ドキュメント部分を安定プレフィックスとして扱うと有利です。長い会話
会話履歴が長くなるほど入力コストが増えます。履歴の安定部分をキャッシュできると、継続会話のコストを抑えやすくなります。
注意点として、キャッシュは永続ではありません。時間が空いたリクエストでは割引が効かない場合があります。短時間に連続するエージェント実行や反復的なデバッグで特に効果が出ます。
思考を無効にして出力コストを制御する
GLM-5.2は推論モデルで、HighとMaxの思考努力レベルがあります。Z.aiはコーディング用途にMaxを推奨していますが、思考トークンは出力トークンとして課金されます。
出力は1Mトークンあたり$4.40なので、思考を増やすほど請求額も増えます。
単純なタスクでは、思考を無効にします。
{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "このJSONを整形して返してください。"
}
],
"thinking": {
"type": "disabled"
}
}
使い分けの目安は以下です。
| モード | 向いているタスク |
|---|---|
| 思考無効 | 整形、抽出、分類、単純な書き換え |
| High | 通常のコード修正、軽〜中程度の分析 |
| Max | 複雑な設計、長いデバッグ、数学的推論、難しいリファクタリング |
たとえば、ログからフィールドを抽出するだけの処理にMax推論を使うと、必要以上に出力トークンが増えます。逆に、複雑なバグ修正ではMaxにした方が手戻りを減らせる場合があります。
reasoning_effortやストリーミングなどのパラメーターは、GLM-5.2 APIガイドを参照してください。移行時のOpenAI互換形式は、GLM-5 APIウォークスルーでも確認できます。
コスト計算例
API単価だけでは判断しづらいため、実際のワークロードに近い形で計算します。
例1: 10万入力 + 2万出力のコーディングセッション
リポジトリ情報、指示、ファイル内容として10万トークンを読み込み、コードと推論を2万トークン生成するケースです。
入力: 100,000 × $1.40 / 1,000,000 = $0.140
出力: 20,000 × $4.40 / 1,000,000 = $0.088
合計: 約$0.23
例2: 同じセッションでキャッシュを使う
10万入力トークンのうち、8万トークンがキャッシュ済みの固定プレフィックス、2万トークンが新規入力だとします。
キャッシュ入力: 80,000 × $0.26 / 1,000,000 = $0.021
新規入力: 20,000 × $1.40 / 1,000,000 = $0.028
出力: 20,000 × $4.40 / 1,000,000 = $0.088
合計: 約$0.14
この例では、キャッシュによりセッションコストが約40%下がります。同じリポジトリに対して複数ターン実行するほど、キャッシュの効果は大きくなります。
例3: 思考を無効にしたチャット抽出
サポートボットが1日500件のメッセージを処理し、各呼び出しで2,000入力トークン、300出力トークンを使うケースです。
入力: 500 × 2,000 × $1.40 / 1,000,000 = $1.40
出力: 500 × 300 × $4.40 / 1,000,000 = $0.66
合計: 1日あたり約$2.06
月額目安: 約$62
実際の請求額は、思考トークン量、キャッシュヒット率、出力の長さで変わります。導入前に、自分のプロンプトでトークン使用量を計測してください。
GLMコーディングプランのティア
毎日エージェントでコーディングする場合、従量課金APIよりサブスクリプション型のGLMコーディングプランが安くなる可能性があります。
Z.aiは、Lite、Pro、Max、Teamなどの名前付きティアを提供しており、Claude CodeなどからAnthropic互換エンドポイント経由で利用できます。
注意点として、GLMコーディングプランのキーは通常のAPIキーとは異なる資格情報です。Claude Codeに接続する場合は、コーディング用エンドポイントを指定し、[1m]モデルサフィックスで1Mコンテキスト版を選択します。
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
API_TIMEOUT_MSは重要です。大きなコンテキストを使うコールでは、タイムアウトが短いとGLM-5.2の応答前にClaude Code側が処理を打ち切る可能性があります。
一部の情報源では、コーディング用ベースURLが open.z.ai/api/paas/v4 と示される場合もあります。実装時は、必ず最新の公式ドキュメントでホストを確認してください。
ClineやCursorを含む詳しいセットアップは、GLM-5.2コーディングエージェントガイドを参照してください。前世代の構成は、GLM-5.1とClaude Codeの記事でも確認できます。
GLM-5.2はGPT-5.5より安いのか
従量課金APIの単価だけを見ると、GLM-5.2はかなり安い部類です。
VentureBeatは、GLM-5.2について「長期間のコーディングにおいてGPT-5.5を約1/6のコストで上回る」と報じています。ただし、これはVentureBeatの表現であり、Apidog独自の測定値ではありません。また、ベンチマーク性能と価格をまとめた価値評価であり、単純なトークン単価比ではありません。
料金表レベルでは、GLM-5.2は以下です。
入力: $1.40 / 1M tokens
出力: $4.40 / 1M tokens
OpenAI、Anthropic、Googleの上位推論モデルは、最高性能ティアでは一般的にこれより高額です。そのため、コーディングや長文コンテキスト処理で「コストを下げたい」場合、GLM-5.2は比較対象に入ります。
モデル間の速度とコスト比較は、GLM-5とDeepSeekとGPT-5の速度とコスト、およびGLM-5.1とClaude、GPT、Gemini、DeepSeekの比較を参照してください。
一方、サブスクリプション比較は単純ではありません。推定月額約80ドルの重いGLMコーディングプランティアは、他社の高額なシングルシートコーディングプランと近い価格帯になる可能性があります。この場合は、以下で判断します。
- 自分のタスクでのモデル品質
- 月間使用量
- プランの制限
- レート制限
- エージェント連携のしやすさ
- 長いコンテキストの安定性
プラン比較は、Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Planで詳しく説明されています。
ベンチマークについても注意が必要です。SWE-bench Pro 62.1、Terminal-Bench 2.1 (81.0)、MCP-Atlas 77.0といったローンチ時の結果は、Z.aiの公開結果です。詳細はGLM-5.2ベンチマークの詳細分析と、GLM-5.2 vs GPT-5.5、Claude Opus、Geminiを参照してください。
どの価格パスを選ぶべきか
実装前に、利用パターンごとに選択肢を分けると判断しやすくなります。
1. 断続的または低ボリューム利用
従量課金APIが向いています。
- 週に数回だけ使う
- 小さなスクリプトで使う
- プロトタイプ段階
- 使用量が読めない
まずAPIで使い、トークン使用量をログに出してから判断します。
2. 毎日エージェントでコーディングする
GLMコーディングプランのティアを検討します。
- Claude Code / Cline / Cursorで終日使う
- 1日に多数のターンを実行する
- 大きなリポジトリを読み込む
- 月額費用を予測したい
ただし、プラン価格と制限は変わる可能性があるため、契約前に最新情報を確認してください。
3. プライバシー、オフライン、または限界費用ゼロを重視する
オープンウェイトの自己ホストを検討します。
- トークン課金を避けたい
- 社内環境で完結させたい
- オフラインで動かしたい
- 推論インフラを自分で管理できる
始め方は、GLM-5をローカルで無料で実行するまたはOllamaでGLM-5を無料で使うを参照してください。
どの方式でも、コスト最適化の基本は同じです。
1. 固定プレフィックスを先頭に置く
2. キャッシュを効かせる
3. 不要なタスクでは思考を無効化する
4. 出力を短く指定する
5. 実際のトークン使用量を測定する
コミット前にGLM-5.2のコストをテストする
プランを決める前に、自分の実プロンプトでコストとレイテンシを測るのが安全です。OpenAI互換クライアントをGLM-5.2エンドポイントに接続し、呼び出しごとのトークン使用量を記録します。
Apidogは、APIの設計、デバッグ、テスト、ドキュメント作成をまとめて行えるAPIプラットフォームです。GLM-5.2の検証では、たとえば以下のように使えます。
-
https://api.z.ai/api/paas/v4/chat/completionsにリクエストを送る - レスポンスとトークン使用量を確認する
- 思考レベルを切り替えて比較する
- キャッシュが効くプロンプト構造を試す
- 実験用リクエストをコレクションとして保存する
Apidogをダウンロードして、自分のトラフィックで料金表をベンチマークすると、公開例より現実的な判断ができます。
まとめ
GLM-5.2の確認済みAPI料金は、入力$1.40 / 1M、出力$4.40 / 1Mです。コストを下げるには、固定プレフィックスをキャッシュし、単純作業では思考を無効化し、実際のトークン使用量を測定してください。
毎日コーディングエージェントで使う場合は、従量課金APIだけでなくGLMコーディングプランも比較対象になります。契約前には、z.aiの最新価格、プラン制限、自分のワークロードでの実測値を確認するのが安全です。



Top comments (0)