Akira

Posted on Jun 17 • Originally published at apidog.com

GLM-5.2とは

GLM-5.2はZ.ai（Zhipu AIラボ）の最新フラッグシップモデルです。オープンウェイト、コーディング重視、最大級のクローズドな最先端モデルとの競争を前提に設計されています。この記事では、GLM-5.2の概要、アーキテクチャ、アクセス方法、API利用時の設定、注意点を実装目線で整理します。

今すぐApidogを試す

要点

概要: GLM-5.2はZ.aiが提供するオープンウェイトの大規模言語モデルです。コーディング、推論、エージェントによるツール利用を主な用途にしています。
サイズ: 約753BパラメータのMoE（Mixture of Experts）設計。BF16で提供され、長文コンテキストのコストを抑える「IndexShare」スパースアテンションを採用しています。
コンテキスト: 1Mトークン（1,048,576）。最大出力はz.aiのドキュメントでは最大128Kとされていますが、ホストごとに上限が異なるため実利用前に確認が必要です。
ライセンス: MIT、オープンウェイト。ダウンロード、セルフホスト、ファインチューニング、商用利用が可能です。
主要ベンチマーク: Z.aiの公開結果では、Terminal-Bench 2.1がGLM-5.1の62.0から81.0に向上。SWE-bench Proは62.1です。
アクセス: Z.ai API、GLM Coding Plan経由のClaude Code、OpenRouter、Ollama。
注意点: 入力はテキスト、出力もテキストです。画像入力対応のバリアントは確認されていません。

GLM-5.2の製作者と概要

GLM-5.2は、Zhipu AIとしても知られるZ.aiが提供しています。GLM（General Language Model）ファミリーの最新モデルで、GLM-5.1の後継にあたります。

位置づけは明確です。APIだけで提供されるクローズドモデルではなく、ウェイトを公開するコーディング向けフラッグシップモデルです。

GLM-5.2の重要な特徴は、オープンウェイトである点です。GPT-5.5やClaude Opus 4.8のような最先端モデルの多くはクローズドですが、GLM-5.2はダウンロード可能なモデルとして提供されます。

以前の世代を知りたい場合は、GLM-5.1の概要も参考になります。GLM-5.2は、GLM-5.1の流れを引き継ぎつつ、コーディングとエージェント作業により重点を置いたモデルです。

GLM-5.2は汎用LLMですが、特に以下の用途に向いています。

コード生成・リファクタリング
リポジトリレベルの問題解決
長い仕様書やコードベースの読解
ツール呼び出しを伴うエージェント処理
多段階の推論タスク

プラットフォーム別のモデルID

同じGLM-5.2でも、利用するプラットフォームによってモデルIDが異なります。実装時は以下を使い分けてください。

プラットフォーム	識別子
Hugging Face	`zai-org/GLM-5.2`
Z.ai API	`glm-5.2`
Ollama	`glm-5.2`
OpenRouter	`z-ai/glm-5.2`

ウェイトはMITライセンスで、地域制限なしにダウンロードできます。モデルカードとファイルはHugging FaceのGLM-5.2ページで確認できます。

アーキテクチャ: 753B MoE + IndexShare

GLM-5.2は、約753Bの全パラメータを持つMoE（Mixture of Experts）モデルです。BF16で提供されます。

MoEでは、モデル内部に複数の「エキスパート」サブネットワークがあり、各トークンに対して一部のエキスパートだけが有効化されます。これにより、753B規模の知識容量を持ちながら、毎回すべてのパラメータをフルに計算する必要がありません。

GLM-5.2では、Z.aiがIndexShareと呼ぶスパースアテンション手法も導入されています。

通常のAttentionでは、コンテキストが長くなるほど、各トークンが他のすべてのトークンを参照するため計算コストが急増します。IndexShareでは、4つのスパースアテンション層のグループごとに単一の「インデクサー」を再利用し、層ごとに新しく計算しません。

実装者にとっての要点は次の通りです。

長いコードベースを投入しやすい
大量の仕様書やログを1つのプロンプトに含めやすい
1Mトークン級のコンテキストでコストとレイテンシーを抑える設計になっている

1Mトークンのコンテキストウィンドウ

GLM-5.2は1Mトークン、正確には1,048,576トークンのコンテキストウィンドウをサポートしています。

これは、次のような入力に使えます。

中規模リポジトリ全体
長い技術仕様書
複数の関連ドキュメント
変更履歴やログ
大きなAPI仕様

ただし、最大出力長には注意してください。z.aiのドキュメントでは最大128Kトークンの出力が記載されていますが、すべてのホストで同じ上限が保証されるわけではありません。OpenRouterなどでは別の制限がある可能性があります。

長い生成を前提にする場合は、実装前に使用するプロバイダーの制限を確認してください。

GLM-5.1からの変更点は、GLM-5.2 vs GLM-5.1の比較で詳しく解説されています。

思考の努力: High、Max、無効化

GLM-5.2は、制御可能な「思考」動作を備えた推論対応モデルです。思考の努力レベルには主に以下があります。

High: 強い推論を比較的軽い計算コストで実行します。
Max: より深い推論を行います。Z.aiは、特にコーディングタスクでMaxを推奨しています。

一方で、すべての処理に深い推論が必要なわけではありません。以下のようなタスクでは、思考を無効化したほうが実用的です。

単純なフォーマット変換
短い要約
検索補助
JSON整形
軽い分類処理

APIでは、thinkingとreasoning_effortを使って制御します。

{
  "thinking": { "type": "enabled" },
  "reasoning_effort": "max"
}

無効化する場合は次のようにします。

{
  "thinking": { "type": "disabled" }
}

リクエスト形式の詳細は、GLM-5.2 APIガイドで確認できます。

実装上の目安はシンプルです。

難しい設計・デバッグ・リファクタリング: enabled + max
軽い変換・整形・抽出: disabled

MITライセンスとオープンウェイトでできること

GLM-5.2はMITライセンスのオープンウェイトモデルです。実務上は、次のことが可能です。

セルフホスティング: 自社GPUやクラウドGPU上で実行できます。
ファインチューニング: 自社ドメイン、コード規約、特定タスクに合わせて調整できます。
商用利用: MITライセンスのため、製品への組み込みがしやすいです。
地域制限なし: ウェイトは地域チェックでゲートされていません。

データレジデンシーやコンプライアンス要件があるチームにとって、セルフホスト可能であることは重要です。プロンプト、ソースコード、社内ドキュメントを外部APIに送らずに済む構成を取れます。

ローカル実行のパターンは、以下の記事も参考になります。

これらの基本的な考え方はGLM-5.2にも適用できます。

コーディングとエージェント性能: ベンチマーク

Z.aiは、GLM-5.2を単なるチャットモデルではなく、実際のソフトウェア作業を行うモデルとして位置づけています。

以下はZ.aiが公開した結果です。独立した第三者評価ではなく、ラボ自身の測定値として読んでください。

ベンチマーク	GLM-5.2	注目すべき比較対象
Terminal-Bench 2.1	81.0	GLM-5.1は62.0
SWE-bench Pro	62.1	GPT-5.5は58.6、GLM-5.1は58.4
MCP-Atlas	77.0	GPT-5.5は75.3、Claude Opus 4.8は77.8
Humanity’s Last Exam（ツールあり）	54.7	GPT-5.5は52.2
AIME 2026	99.2	該当なし
GPQA-Diamond	91.2	該当なし

特に重要なのはTerminal-Bench 2.1です。これはモデルが実際にターミナルを操作してタスクを完了できるかを見るベンチマークで、GLM-5.1の62.0からGLM-5.2の81.0へ大きく向上しています。

SWE-bench Proの62.1も注目点です。小さなコードスニペットではなく、実際のリポジトリレベルの問題解決能力を示します。

Z.aiはまた、GLM-5.2がFrontierSWE、PostTrainBench、SWE-Marathonで最高のオープンソースモデルだと述べています。VentureBeatはコスト面について、GLM-5.2が「長期的コーディングにおいてGPT-5.5を約1/6のコストで凌駕する」と報じています。これはVentureBeatのGLM-5.2に関する記事での見解であり、Apidogの測定値ではありません。

詳細な比較は以下を参照してください。

GLM-5.2へのアクセス方法

GLM-5.2を使う主な方法は4つあります。

アクセスパス	最適な用途	メモ
Z.ai API	直接的なホスト型API呼び出し	OpenAI互換。エンドポイントは`https://api.z.ai/api/paas/v4/`
Claude Code（GLM Coding Plan）	ターミナルでのエージェント型コーディング	Anthropic互換のベースURL。`[1m]`バリアントを選択
OpenRouter	1つのキーで複数モデルを切り替え	モデルIDは`z-ai/glm-5.2`
Ollama	ローカル・オフライン利用	ライブラリから`glm-5.2`をプル

Z.ai APIで使う

Z.ai APIはOpenAI互換です。chat/completionsエンドポイントにBearerキーでアクセスします。

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function for readability."
      }
    ],
    "thinking": { "type": "enabled" },
    "reasoning_effort": "max",
    "stream": true
  }'

コーディングや複雑なデバッグでは、thinkingを有効化し、reasoning_effortをmaxにするのが実用的です。

軽い整形処理では、以下のように思考を無効化します。

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "次のJSONを整形してください: {\"name\":\"api\",\"ok\":true}"
      }
    ],
    "thinking": { "type": "disabled" },
    "stream": false
  }'

Claude CodeでGLM-5.2を使う

Z.aiはAnthropic互換のコーディングエンドポイントを提供しています。そのため、Claude CodeをGLM-5.2に向けて使うことができます。

コーディング用ベースURLは次の通りです。

https://api.z.ai/api/coding/paas/v4

一部のソースではopen.z.ai/api/paas/v4と記載されている場合があるため、実装時は現在の公式ドキュメントで確認してください。

Claude Code環境では、次のように設定します。

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

[1m]サフィックスは、1Mコンテキストバリアントを選択するために使います。

API_TIMEOUT_MSも重要です。長いコンテキストを使うコーディングタスクでは、Claude Code側のデフォルトタイムアウトを超える可能性があります。大規模なリポジトリ分析や長時間のツール呼び出しを想定するなら、タイムアウトは長めに設定してください。

ClineやCursorでの利用も含めた設定は、GLM-5.2をClaude Code、Cline、Cursorで使うガイドで解説されています。以前の世代の流れは、Claude CodeでのGLM-5.1も参考になります。

OpenRouterで使う

OpenRouterをすでに使っている場合、GLM-5.2は次のモデルIDで利用できます。

z-ai/glm-5.2

ライブのモデル情報はopenrouter.ai/z-ai/glm-5.2で確認してください。

注意点として、GLM-5.2にはOpenRouter上の無料レーンはありません。無料利用を前提に設計しないでください。

Ollamaでローカル利用する

ローカルで使う場合は、Ollamaライブラリからglm-5.2をプルします。

ollama pull glm-5.2

ローカル実行は、以下の用途に向いています。

オフライン作業
機密コードを外部APIに送れない環境
社内ネットワーク内での推論
APIコストを避けたい検証

ただし、753B MoEモデルを快適に動かすには相応のGPUメモリが必要です。ローカル利用では、ハードウェア要件を事前に確認してください。

無料で利用できる選択肢は、GLM-5.2を無料で利用する方法でも整理されています。

料金について

ホスト型APIでは、OpenRouterによると以下の料金が示されています。

入力: 1Mトークンあたり1.40ドル
出力: 1Mトークンあたり4.40ドル

VentureBeatは、キャッシュされた入力について1Mトークンあたり約0.26ドルと引用しています。

GLM Coding PlanにはLite、Pro、Max、Teamなどの段階的なサブスクリプションがあります。ただし、正確な月額料金は二次情報源によって異なる可能性があるため、契約前にz.aiで現在の料金を確認してください。

料金の更新状況は、GLM-5.2料金内訳でも追跡されています。

Apidogを使ったAPI開発での活用

GLM-5.2 APIを使ってアプリケーションを構築する場合、モデル呼び出しだけでは不十分です。実際には、次のような作業が必要になります。

LLMを呼び出す自社APIの設計
リクエスト・レスポンス形式の確認
ストリーミングレスポンスのデバッグ
ツールコール用ペイロードの検証
モックAPIによるフロントエンド開発
API仕様書の同期
回帰テスト

そこでApidogを使えます。Apidogは、API設計、デバッグ、テスト、モック、ドキュメント作成を1か所で扱えるAPIプラットフォームです。

たとえば、GLM-5.2を組み込む前に、LLM応答を返すモックエンドポイントを作成できます。ストリーミングやツール呼び出しを含むレスポンス形式も検証しやすくなります。

試す場合は、Apidogをダウンロードして、GLM-5.2連携のAPI設計とテストに使ってください。

他モデルとの比較に使える資料

GLM-5.2は、現在のGLMラインにおけるコーディングおよびエージェント機能の中心モデルです。比較検討する場合は、以下の資料が役立ちます。

前世代との比較: GLM-5.1 vs Claude, GPT, Gemini, DeepSeek
速度とコストの比較: GLM-5 vs DeepSeek vs GPT-5（速度とコスト）
クローズドモデルとの比較: Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.5
公式情報: Z.ai GLM-5.2ブログ投稿およびドキュメント

よくある質問

GLM-5.2を一言で言うと？

Z.aiのオープンウェイトのフラッグシップLLMです。約753BパラメータのMoEモデルで、コーディング、推論、エージェントによるツール利用に重点を置いています。1MトークンのコンテキストウィンドウとMITライセンスを備えています。

GLM-5.2は無料ですか？

ウェイトはMITライセンスの下で無料でダウンロードしてセルフホストできます。

一方で、Z.aiのホスト型API、GLM Coding Plan、OpenRouter経由の利用は有料です。ここでの「無料」は、主にオープンウェイトとして入手できることを意味します。

GLM-5.2は画像を認識できますか？

いいえ。APIドキュメント上では、入力はテキスト、出力もテキストです。画像対応のバリアントは確認されていません。

画像入力が必要な場合は、別の画像認識モデルを組み合わせてください。

GLM-5.2はGLM-5.1と何が違いますか？

最も大きい違いは、エージェント型コーディング能力の向上です。Z.aiの結果では、Terminal-Bench 2.1が62.0から81.0に向上し、SWE-bench Proも改善しています。また、IndexShareスパースアテンションも新しく導入されました。

詳細はGLM-5.2 vs GLM-5.1の比較を参照してください。

コンテキスト長と出力長はどのくらいですか？

コンテキスト長は1Mトークンです。

出力長はz.aiのドキュメントでは最大128Kとされています。ただし、すべてのホストが同じ上限を提供しているわけではないため、利用するプロバイダーで確認してください。

まとめ

GLM-5.2は、オープンウェイトモデルがクローズドな最先端コーディングモデルと競争するために設計されたLLMです。

特徴は次の通りです。

約753BパラメータのMoEモデル
1Mトークンのコンテキストウィンドウ
IndexShareによる長文処理向け設計
制御可能な推論設定
MITライセンス
セルフホストと商用利用が可能
コーディングとエージェント用途に重点

注意点もあります。画像入力には対応しておらず、出力長はホストごとに確認が必要です。また、ベンチマークはZ.ai自身の公開値を含むため、実務投入前には自社タスクで検証してください。

GLM-5.2で構築を始めるなら、まずはGLM-5.2 APIガイドから確認すると実装に入りやすいです。

DEV Community