GLM-5.2はZ.ai(Zhipu AIラボ)の最新フラッグシップモデルです。オープンウェイト、コーディング重視、最大級のクローズドな最先端モデルとの競争を前提に設計されています。この記事では、GLM-5.2の概要、アーキテクチャ、アクセス方法、API利用時の設定、注意点を実装目線で整理します。
要点
- 概要: GLM-5.2はZ.aiが提供するオープンウェイトの大規模言語モデルです。コーディング、推論、エージェントによるツール利用を主な用途にしています。
- サイズ: 約753BパラメータのMoE(Mixture of Experts)設計。BF16で提供され、長文コンテキストのコストを抑える「IndexShare」スパースアテンションを採用しています。
- コンテキスト: 1Mトークン(1,048,576)。最大出力はz.aiのドキュメントでは最大128Kとされていますが、ホストごとに上限が異なるため実利用前に確認が必要です。
- ライセンス: MIT、オープンウェイト。ダウンロード、セルフホスト、ファインチューニング、商用利用が可能です。
- 主要ベンチマーク: Z.aiの公開結果では、Terminal-Bench 2.1がGLM-5.1の62.0から81.0に向上。SWE-bench Proは62.1です。
- アクセス: Z.ai API、GLM Coding Plan経由のClaude Code、OpenRouter、Ollama。
- 注意点: 入力はテキスト、出力もテキストです。画像入力対応のバリアントは確認されていません。
GLM-5.2の製作者と概要
GLM-5.2は、Zhipu AIとしても知られるZ.aiが提供しています。GLM(General Language Model)ファミリーの最新モデルで、GLM-5.1の後継にあたります。
位置づけは明確です。APIだけで提供されるクローズドモデルではなく、ウェイトを公開するコーディング向けフラッグシップモデルです。
GLM-5.2の重要な特徴は、オープンウェイトである点です。GPT-5.5やClaude Opus 4.8のような最先端モデルの多くはクローズドですが、GLM-5.2はダウンロード可能なモデルとして提供されます。
以前の世代を知りたい場合は、GLM-5.1の概要も参考になります。GLM-5.2は、GLM-5.1の流れを引き継ぎつつ、コーディングとエージェント作業により重点を置いたモデルです。
GLM-5.2は汎用LLMですが、特に以下の用途に向いています。
- コード生成・リファクタリング
- リポジトリレベルの問題解決
- 長い仕様書やコードベースの読解
- ツール呼び出しを伴うエージェント処理
- 多段階の推論タスク
プラットフォーム別のモデルID
同じGLM-5.2でも、利用するプラットフォームによってモデルIDが異なります。実装時は以下を使い分けてください。
| プラットフォーム | 識別子 |
|---|---|
| Hugging Face | zai-org/GLM-5.2 |
| Z.ai API | glm-5.2 |
| Ollama | glm-5.2 |
| OpenRouter | z-ai/glm-5.2 |
ウェイトはMITライセンスで、地域制限なしにダウンロードできます。モデルカードとファイルはHugging FaceのGLM-5.2ページで確認できます。
アーキテクチャ: 753B MoE + IndexShare
GLM-5.2は、約753Bの全パラメータを持つMoE(Mixture of Experts)モデルです。BF16で提供されます。
MoEでは、モデル内部に複数の「エキスパート」サブネットワークがあり、各トークンに対して一部のエキスパートだけが有効化されます。これにより、753B規模の知識容量を持ちながら、毎回すべてのパラメータをフルに計算する必要がありません。
GLM-5.2では、Z.aiがIndexShareと呼ぶスパースアテンション手法も導入されています。
通常のAttentionでは、コンテキストが長くなるほど、各トークンが他のすべてのトークンを参照するため計算コストが急増します。IndexShareでは、4つのスパースアテンション層のグループごとに単一の「インデクサー」を再利用し、層ごとに新しく計算しません。
実装者にとっての要点は次の通りです。
- 長いコードベースを投入しやすい
- 大量の仕様書やログを1つのプロンプトに含めやすい
- 1Mトークン級のコンテキストでコストとレイテンシーを抑える設計になっている
1Mトークンのコンテキストウィンドウ
GLM-5.2は1Mトークン、正確には1,048,576トークンのコンテキストウィンドウをサポートしています。
これは、次のような入力に使えます。
- 中規模リポジトリ全体
- 長い技術仕様書
- 複数の関連ドキュメント
- 変更履歴やログ
- 大きなAPI仕様
ただし、最大出力長には注意してください。z.aiのドキュメントでは最大128Kトークンの出力が記載されていますが、すべてのホストで同じ上限が保証されるわけではありません。OpenRouterなどでは別の制限がある可能性があります。
長い生成を前提にする場合は、実装前に使用するプロバイダーの制限を確認してください。
GLM-5.1からの変更点は、GLM-5.2 vs GLM-5.1の比較で詳しく解説されています。
思考の努力: High、Max、無効化
GLM-5.2は、制御可能な「思考」動作を備えた推論対応モデルです。思考の努力レベルには主に以下があります。
- High: 強い推論を比較的軽い計算コストで実行します。
- Max: より深い推論を行います。Z.aiは、特にコーディングタスクでMaxを推奨しています。
一方で、すべての処理に深い推論が必要なわけではありません。以下のようなタスクでは、思考を無効化したほうが実用的です。
- 単純なフォーマット変換
- 短い要約
- 検索補助
- JSON整形
- 軽い分類処理
APIでは、thinkingとreasoning_effortを使って制御します。
{
"thinking": { "type": "enabled" },
"reasoning_effort": "max"
}
無効化する場合は次のようにします。
{
"thinking": { "type": "disabled" }
}
リクエスト形式の詳細は、GLM-5.2 APIガイドで確認できます。
実装上の目安はシンプルです。
- 難しい設計・デバッグ・リファクタリング:
enabled+max - 軽い変換・整形・抽出:
disabled
MITライセンスとオープンウェイトでできること
GLM-5.2はMITライセンスのオープンウェイトモデルです。実務上は、次のことが可能です。
- セルフホスティング: 自社GPUやクラウドGPU上で実行できます。
- ファインチューニング: 自社ドメイン、コード規約、特定タスクに合わせて調整できます。
- 商用利用: MITライセンスのため、製品への組み込みがしやすいです。
- 地域制限なし: ウェイトは地域チェックでゲートされていません。
データレジデンシーやコンプライアンス要件があるチームにとって、セルフホスト可能であることは重要です。プロンプト、ソースコード、社内ドキュメントを外部APIに送らずに済む構成を取れます。
ローカル実行のパターンは、以下の記事も参考になります。
これらの基本的な考え方はGLM-5.2にも適用できます。
コーディングとエージェント性能: ベンチマーク
Z.aiは、GLM-5.2を単なるチャットモデルではなく、実際のソフトウェア作業を行うモデルとして位置づけています。
以下はZ.aiが公開した結果です。独立した第三者評価ではなく、ラボ自身の測定値として読んでください。
| ベンチマーク | GLM-5.2 | 注目すべき比較対象 |
|---|---|---|
| Terminal-Bench 2.1 | 81.0 | GLM-5.1は62.0 |
| SWE-bench Pro | 62.1 | GPT-5.5は58.6、GLM-5.1は58.4 |
| MCP-Atlas | 77.0 | GPT-5.5は75.3、Claude Opus 4.8は77.8 |
| Humanity’s Last Exam(ツールあり) | 54.7 | GPT-5.5は52.2 |
| AIME 2026 | 99.2 | 該当なし |
| GPQA-Diamond | 91.2 | 該当なし |
特に重要なのはTerminal-Bench 2.1です。これはモデルが実際にターミナルを操作してタスクを完了できるかを見るベンチマークで、GLM-5.1の62.0からGLM-5.2の81.0へ大きく向上しています。
SWE-bench Proの62.1も注目点です。小さなコードスニペットではなく、実際のリポジトリレベルの問題解決能力を示します。
Z.aiはまた、GLM-5.2がFrontierSWE、PostTrainBench、SWE-Marathonで最高のオープンソースモデルだと述べています。VentureBeatはコスト面について、GLM-5.2が「長期的コーディングにおいてGPT-5.5を約1/6のコストで凌駕する」と報じています。これはVentureBeatのGLM-5.2に関する記事での見解であり、Apidogの測定値ではありません。
詳細な比較は以下を参照してください。
GLM-5.2へのアクセス方法
GLM-5.2を使う主な方法は4つあります。
| アクセスパス | 最適な用途 | メモ |
|---|---|---|
| Z.ai API | 直接的なホスト型API呼び出し | OpenAI互換。エンドポイントはhttps://api.z.ai/api/paas/v4/
|
| Claude Code(GLM Coding Plan) | ターミナルでのエージェント型コーディング | Anthropic互換のベースURL。[1m]バリアントを選択 |
| OpenRouter | 1つのキーで複数モデルを切り替え | モデルIDはz-ai/glm-5.2
|
| Ollama | ローカル・オフライン利用 | ライブラリからglm-5.2をプル |
Z.ai APIで使う
Z.ai APIはOpenAI互換です。chat/completionsエンドポイントにBearerキーでアクセスします。
curl https://api.z.ai/api/paas/v4/chat/completions \
-H "Authorization: Bearer $ZAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "Refactor this function for readability."
}
],
"thinking": { "type": "enabled" },
"reasoning_effort": "max",
"stream": true
}'
コーディングや複雑なデバッグでは、thinkingを有効化し、reasoning_effortをmaxにするのが実用的です。
軽い整形処理では、以下のように思考を無効化します。
curl https://api.z.ai/api/paas/v4/chat/completions \
-H "Authorization: Bearer $ZAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [
{
"role": "user",
"content": "次のJSONを整形してください: {\"name\":\"api\",\"ok\":true}"
}
],
"thinking": { "type": "disabled" },
"stream": false
}'
Claude CodeでGLM-5.2を使う
Z.aiはAnthropic互換のコーディングエンドポイントを提供しています。そのため、Claude CodeをGLM-5.2に向けて使うことができます。
コーディング用ベースURLは次の通りです。
https://api.z.ai/api/coding/paas/v4
一部のソースではopen.z.ai/api/paas/v4と記載されている場合があるため、実装時は現在の公式ドキュメントで確認してください。
Claude Code環境では、次のように設定します。
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
[1m]サフィックスは、1Mコンテキストバリアントを選択するために使います。
API_TIMEOUT_MSも重要です。長いコンテキストを使うコーディングタスクでは、Claude Code側のデフォルトタイムアウトを超える可能性があります。大規模なリポジトリ分析や長時間のツール呼び出しを想定するなら、タイムアウトは長めに設定してください。
ClineやCursorでの利用も含めた設定は、GLM-5.2をClaude Code、Cline、Cursorで使うガイドで解説されています。以前の世代の流れは、Claude CodeでのGLM-5.1も参考になります。
OpenRouterで使う
OpenRouterをすでに使っている場合、GLM-5.2は次のモデルIDで利用できます。
z-ai/glm-5.2
ライブのモデル情報はopenrouter.ai/z-ai/glm-5.2で確認してください。
注意点として、GLM-5.2にはOpenRouter上の無料レーンはありません。無料利用を前提に設計しないでください。
Ollamaでローカル利用する
ローカルで使う場合は、Ollamaライブラリからglm-5.2をプルします。
ollama pull glm-5.2
ローカル実行は、以下の用途に向いています。
- オフライン作業
- 機密コードを外部APIに送れない環境
- 社内ネットワーク内での推論
- APIコストを避けたい検証
ただし、753B MoEモデルを快適に動かすには相応のGPUメモリが必要です。ローカル利用では、ハードウェア要件を事前に確認してください。
無料で利用できる選択肢は、GLM-5.2を無料で利用する方法でも整理されています。
料金について
ホスト型APIでは、OpenRouterによると以下の料金が示されています。
- 入力: 1Mトークンあたり1.40ドル
- 出力: 1Mトークンあたり4.40ドル
VentureBeatは、キャッシュされた入力について1Mトークンあたり約0.26ドルと引用しています。
GLM Coding PlanにはLite、Pro、Max、Teamなどの段階的なサブスクリプションがあります。ただし、正確な月額料金は二次情報源によって異なる可能性があるため、契約前にz.aiで現在の料金を確認してください。
料金の更新状況は、GLM-5.2料金内訳でも追跡されています。
Apidogを使ったAPI開発での活用
GLM-5.2 APIを使ってアプリケーションを構築する場合、モデル呼び出しだけでは不十分です。実際には、次のような作業が必要になります。
- LLMを呼び出す自社APIの設計
- リクエスト・レスポンス形式の確認
- ストリーミングレスポンスのデバッグ
- ツールコール用ペイロードの検証
- モックAPIによるフロントエンド開発
- API仕様書の同期
- 回帰テスト
そこでApidogを使えます。Apidogは、API設計、デバッグ、テスト、モック、ドキュメント作成を1か所で扱えるAPIプラットフォームです。
たとえば、GLM-5.2を組み込む前に、LLM応答を返すモックエンドポイントを作成できます。ストリーミングやツール呼び出しを含むレスポンス形式も検証しやすくなります。
試す場合は、Apidogをダウンロードして、GLM-5.2連携のAPI設計とテストに使ってください。
他モデルとの比較に使える資料
GLM-5.2は、現在のGLMラインにおけるコーディングおよびエージェント機能の中心モデルです。比較検討する場合は、以下の資料が役立ちます。
- 前世代との比較: GLM-5.1 vs Claude, GPT, Gemini, DeepSeek
- 速度とコストの比較: GLM-5 vs DeepSeek vs GPT-5(速度とコスト)
- クローズドモデルとの比較: Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.5
- 公式情報: Z.ai GLM-5.2ブログ投稿およびドキュメント
よくある質問
GLM-5.2を一言で言うと?
Z.aiのオープンウェイトのフラッグシップLLMです。約753BパラメータのMoEモデルで、コーディング、推論、エージェントによるツール利用に重点を置いています。1MトークンのコンテキストウィンドウとMITライセンスを備えています。
GLM-5.2は無料ですか?
ウェイトはMITライセンスの下で無料でダウンロードしてセルフホストできます。
一方で、Z.aiのホスト型API、GLM Coding Plan、OpenRouter経由の利用は有料です。ここでの「無料」は、主にオープンウェイトとして入手できることを意味します。
GLM-5.2は画像を認識できますか?
いいえ。APIドキュメント上では、入力はテキスト、出力もテキストです。画像対応のバリアントは確認されていません。
画像入力が必要な場合は、別の画像認識モデルを組み合わせてください。
GLM-5.2はGLM-5.1と何が違いますか?
最も大きい違いは、エージェント型コーディング能力の向上です。Z.aiの結果では、Terminal-Bench 2.1が62.0から81.0に向上し、SWE-bench Proも改善しています。また、IndexShareスパースアテンションも新しく導入されました。
詳細はGLM-5.2 vs GLM-5.1の比較を参照してください。
コンテキスト長と出力長はどのくらいですか?
コンテキスト長は1Mトークンです。
出力長はz.aiのドキュメントでは最大128Kとされています。ただし、すべてのホストが同じ上限を提供しているわけではないため、利用するプロバイダーで確認してください。
まとめ
GLM-5.2は、オープンウェイトモデルがクローズドな最先端コーディングモデルと競争するために設計されたLLMです。
特徴は次の通りです。
- 約753BパラメータのMoEモデル
- 1Mトークンのコンテキストウィンドウ
- IndexShareによる長文処理向け設計
- 制御可能な推論設定
- MITライセンス
- セルフホストと商用利用が可能
- コーディングとエージェント用途に重点
注意点もあります。画像入力には対応しておらず、出力長はホストごとに確認が必要です。また、ベンチマークはZ.ai自身の公開値を含むため、実務投入前には自社タスクで検証してください。
GLM-5.2で構築を始めるなら、まずはGLM-5.2 APIガイドから確認すると実装に入りやすいです。


Top comments (0)