DEV Community

Cover image for GLM-5.2とは
Akira
Akira

Posted on • Originally published at apidog.com

GLM-5.2とは

GLM-5.2はZ.ai(Zhipu AIラボ)の最新フラッグシップモデルです。オープンウェイト、コーディング重視、最大級のクローズドな最先端モデルとの競争を前提に設計されています。この記事では、GLM-5.2の概要、アーキテクチャ、アクセス方法、API利用時の設定、注意点を実装目線で整理します。

今すぐApidogを試す

要点

  • 概要: GLM-5.2はZ.aiが提供するオープンウェイトの大規模言語モデルです。コーディング、推論、エージェントによるツール利用を主な用途にしています。
  • サイズ: 約753BパラメータのMoE(Mixture of Experts)設計。BF16で提供され、長文コンテキストのコストを抑える「IndexShare」スパースアテンションを採用しています。
  • コンテキスト: 1Mトークン(1,048,576)。最大出力はz.aiのドキュメントでは最大128Kとされていますが、ホストごとに上限が異なるため実利用前に確認が必要です。
  • ライセンス: MIT、オープンウェイト。ダウンロード、セルフホスト、ファインチューニング、商用利用が可能です。
  • 主要ベンチマーク: Z.aiの公開結果では、Terminal-Bench 2.1がGLM-5.1の62.0から81.0に向上。SWE-bench Proは62.1です。
  • アクセス: Z.ai API、GLM Coding Plan経由のClaude Code、OpenRouter、Ollama。
  • 注意点: 入力はテキスト、出力もテキストです。画像入力対応のバリアントは確認されていません。

GLM-5.2の製作者と概要

GLM-5.2は、Zhipu AIとしても知られるZ.aiが提供しています。GLM(General Language Model)ファミリーの最新モデルで、GLM-5.1の後継にあたります。

位置づけは明確です。APIだけで提供されるクローズドモデルではなく、ウェイトを公開するコーディング向けフラッグシップモデルです。

GLM-5.2の重要な特徴は、オープンウェイトである点です。GPT-5.5やClaude Opus 4.8のような最先端モデルの多くはクローズドですが、GLM-5.2はダウンロード可能なモデルとして提供されます。

以前の世代を知りたい場合は、GLM-5.1の概要も参考になります。GLM-5.2は、GLM-5.1の流れを引き継ぎつつ、コーディングとエージェント作業により重点を置いたモデルです。

GLM-5.2は汎用LLMですが、特に以下の用途に向いています。

  • コード生成・リファクタリング
  • リポジトリレベルの問題解決
  • 長い仕様書やコードベースの読解
  • ツール呼び出しを伴うエージェント処理
  • 多段階の推論タスク

プラットフォーム別のモデルID

同じGLM-5.2でも、利用するプラットフォームによってモデルIDが異なります。実装時は以下を使い分けてください。

プラットフォーム 識別子
Hugging Face zai-org/GLM-5.2
Z.ai API glm-5.2
Ollama glm-5.2
OpenRouter z-ai/glm-5.2

ウェイトはMITライセンスで、地域制限なしにダウンロードできます。モデルカードとファイルはHugging FaceのGLM-5.2ページで確認できます。

アーキテクチャ: 753B MoE + IndexShare

GLM-5.2は、約753Bの全パラメータを持つMoE(Mixture of Experts)モデルです。BF16で提供されます。

MoEでは、モデル内部に複数の「エキスパート」サブネットワークがあり、各トークンに対して一部のエキスパートだけが有効化されます。これにより、753B規模の知識容量を持ちながら、毎回すべてのパラメータをフルに計算する必要がありません。

GLM-5.2では、Z.aiIndexShareと呼ぶスパースアテンション手法も導入されています。

通常のAttentionでは、コンテキストが長くなるほど、各トークンが他のすべてのトークンを参照するため計算コストが急増します。IndexShareでは、4つのスパースアテンション層のグループごとに単一の「インデクサー」を再利用し、層ごとに新しく計算しません。

実装者にとっての要点は次の通りです。

  • 長いコードベースを投入しやすい
  • 大量の仕様書やログを1つのプロンプトに含めやすい
  • 1Mトークン級のコンテキストでコストとレイテンシーを抑える設計になっている

1Mトークンのコンテキストウィンドウ

GLM-5.2は1Mトークン、正確には1,048,576トークンのコンテキストウィンドウをサポートしています。

これは、次のような入力に使えます。

  • 中規模リポジトリ全体
  • 長い技術仕様書
  • 複数の関連ドキュメント
  • 変更履歴やログ
  • 大きなAPI仕様

ただし、最大出力長には注意してください。z.aiのドキュメントでは最大128Kトークンの出力が記載されていますが、すべてのホストで同じ上限が保証されるわけではありません。OpenRouterなどでは別の制限がある可能性があります。

長い生成を前提にする場合は、実装前に使用するプロバイダーの制限を確認してください。

GLM-5.1からの変更点は、GLM-5.2 vs GLM-5.1の比較で詳しく解説されています。

思考の努力: High、Max、無効化

GLM-5.2は、制御可能な「思考」動作を備えた推論対応モデルです。思考の努力レベルには主に以下があります。

  • High: 強い推論を比較的軽い計算コストで実行します。
  • Max: より深い推論を行います。Z.aiは、特にコーディングタスクでMaxを推奨しています。

一方で、すべての処理に深い推論が必要なわけではありません。以下のようなタスクでは、思考を無効化したほうが実用的です。

  • 単純なフォーマット変換
  • 短い要約
  • 検索補助
  • JSON整形
  • 軽い分類処理

APIでは、thinkingreasoning_effortを使って制御します。

{
  "thinking": { "type": "enabled" },
  "reasoning_effort": "max"
}
Enter fullscreen mode Exit fullscreen mode

無効化する場合は次のようにします。

{
  "thinking": { "type": "disabled" }
}
Enter fullscreen mode Exit fullscreen mode

リクエスト形式の詳細は、GLM-5.2 APIガイドで確認できます。

実装上の目安はシンプルです。

  • 難しい設計・デバッグ・リファクタリング: enabled + max
  • 軽い変換・整形・抽出: disabled

MITライセンスとオープンウェイトでできること

GLM-5.2はMITライセンスのオープンウェイトモデルです。実務上は、次のことが可能です。

  • セルフホスティング: 自社GPUやクラウドGPU上で実行できます。
  • ファインチューニング: 自社ドメイン、コード規約、特定タスクに合わせて調整できます。
  • 商用利用: MITライセンスのため、製品への組み込みがしやすいです。
  • 地域制限なし: ウェイトは地域チェックでゲートされていません。

データレジデンシーやコンプライアンス要件があるチームにとって、セルフホスト可能であることは重要です。プロンプト、ソースコード、社内ドキュメントを外部APIに送らずに済む構成を取れます。

ローカル実行のパターンは、以下の記事も参考になります。

これらの基本的な考え方はGLM-5.2にも適用できます。

コーディングとエージェント性能: ベンチマーク

Z.aiは、GLM-5.2を単なるチャットモデルではなく、実際のソフトウェア作業を行うモデルとして位置づけています。

以下はZ.aiが公開した結果です。独立した第三者評価ではなく、ラボ自身の測定値として読んでください。

ベンチマーク GLM-5.2 注目すべき比較対象
Terminal-Bench 2.1 81.0 GLM-5.1は62.0
SWE-bench Pro 62.1 GPT-5.5は58.6、GLM-5.1は58.4
MCP-Atlas 77.0 GPT-5.5は75.3、Claude Opus 4.8は77.8
Humanity’s Last Exam(ツールあり) 54.7 GPT-5.5は52.2
AIME 2026 99.2 該当なし
GPQA-Diamond 91.2 該当なし

特に重要なのはTerminal-Bench 2.1です。これはモデルが実際にターミナルを操作してタスクを完了できるかを見るベンチマークで、GLM-5.1の62.0からGLM-5.2の81.0へ大きく向上しています。

SWE-bench Proの62.1も注目点です。小さなコードスニペットではなく、実際のリポジトリレベルの問題解決能力を示します。

Z.aiはまた、GLM-5.2がFrontierSWE、PostTrainBench、SWE-Marathonで最高のオープンソースモデルだと述べています。VentureBeatはコスト面について、GLM-5.2が「長期的コーディングにおいてGPT-5.5を約1/6のコストで凌駕する」と報じています。これはVentureBeatのGLM-5.2に関する記事での見解であり、Apidogの測定値ではありません。

詳細な比較は以下を参照してください。

GLM-5.2へのアクセス方法

GLM-5.2を使う主な方法は4つあります。

アクセスパス 最適な用途 メモ
Z.ai API 直接的なホスト型API呼び出し OpenAI互換。エンドポイントはhttps://api.z.ai/api/paas/v4/
Claude Code(GLM Coding Plan) ターミナルでのエージェント型コーディング Anthropic互換のベースURL。[1m]バリアントを選択
OpenRouter 1つのキーで複数モデルを切り替え モデルIDはz-ai/glm-5.2
Ollama ローカル・オフライン利用 ライブラリからglm-5.2をプル

Z.ai APIで使う

Z.ai APIはOpenAI互換です。chat/completionsエンドポイントにBearerキーでアクセスします。

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function for readability."
      }
    ],
    "thinking": { "type": "enabled" },
    "reasoning_effort": "max",
    "stream": true
  }'
Enter fullscreen mode Exit fullscreen mode

コーディングや複雑なデバッグでは、thinkingを有効化し、reasoning_effortmaxにするのが実用的です。

軽い整形処理では、以下のように思考を無効化します。

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "次のJSONを整形してください: {\"name\":\"api\",\"ok\":true}"
      }
    ],
    "thinking": { "type": "disabled" },
    "stream": false
  }'
Enter fullscreen mode Exit fullscreen mode

Claude CodeでGLM-5.2を使う

Z.aiはAnthropic互換のコーディングエンドポイントを提供しています。そのため、Claude CodeをGLM-5.2に向けて使うことができます。

コーディング用ベースURLは次の通りです。

https://api.z.ai/api/coding/paas/v4
Enter fullscreen mode Exit fullscreen mode

一部のソースではopen.z.ai/api/paas/v4と記載されている場合があるため、実装時は現在の公式ドキュメントで確認してください。

Claude Code環境では、次のように設定します。

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
Enter fullscreen mode Exit fullscreen mode

[1m]サフィックスは、1Mコンテキストバリアントを選択するために使います。

API_TIMEOUT_MSも重要です。長いコンテキストを使うコーディングタスクでは、Claude Code側のデフォルトタイムアウトを超える可能性があります。大規模なリポジトリ分析や長時間のツール呼び出しを想定するなら、タイムアウトは長めに設定してください。

ClineやCursorでの利用も含めた設定は、GLM-5.2をClaude Code、Cline、Cursorで使うガイドで解説されています。以前の世代の流れは、Claude CodeでのGLM-5.1も参考になります。

OpenRouterで使う

OpenRouterをすでに使っている場合、GLM-5.2は次のモデルIDで利用できます。

z-ai/glm-5.2
Enter fullscreen mode Exit fullscreen mode

ライブのモデル情報はopenrouter.ai/z-ai/glm-5.2で確認してください。

注意点として、GLM-5.2にはOpenRouter上の無料レーンはありません。無料利用を前提に設計しないでください。

Ollamaでローカル利用する

ローカルで使う場合は、Ollamaライブラリからglm-5.2をプルします。

ollama pull glm-5.2
Enter fullscreen mode Exit fullscreen mode

ローカル実行は、以下の用途に向いています。

  • オフライン作業
  • 機密コードを外部APIに送れない環境
  • 社内ネットワーク内での推論
  • APIコストを避けたい検証

ただし、753B MoEモデルを快適に動かすには相応のGPUメモリが必要です。ローカル利用では、ハードウェア要件を事前に確認してください。

無料で利用できる選択肢は、GLM-5.2を無料で利用する方法でも整理されています。

料金について

ホスト型APIでは、OpenRouterによると以下の料金が示されています。

  • 入力: 1Mトークンあたり1.40ドル
  • 出力: 1Mトークンあたり4.40ドル

VentureBeatは、キャッシュされた入力について1Mトークンあたり約0.26ドルと引用しています。

GLM Coding PlanにはLite、Pro、Max、Teamなどの段階的なサブスクリプションがあります。ただし、正確な月額料金は二次情報源によって異なる可能性があるため、契約前にz.aiで現在の料金を確認してください。

料金の更新状況は、GLM-5.2料金内訳でも追跡されています。

Apidogを使ったAPI開発での活用

GLM-5.2 APIを使ってアプリケーションを構築する場合、モデル呼び出しだけでは不十分です。実際には、次のような作業が必要になります。

  • LLMを呼び出す自社APIの設計
  • リクエスト・レスポンス形式の確認
  • ストリーミングレスポンスのデバッグ
  • ツールコール用ペイロードの検証
  • モックAPIによるフロントエンド開発
  • API仕様書の同期
  • 回帰テスト

そこでApidogを使えます。Apidogは、API設計、デバッグ、テスト、モック、ドキュメント作成を1か所で扱えるAPIプラットフォームです。

たとえば、GLM-5.2を組み込む前に、LLM応答を返すモックエンドポイントを作成できます。ストリーミングやツール呼び出しを含むレスポンス形式も検証しやすくなります。

試す場合は、Apidogをダウンロードして、GLM-5.2連携のAPI設計とテストに使ってください。

他モデルとの比較に使える資料

GLM-5.2は、現在のGLMラインにおけるコーディングおよびエージェント機能の中心モデルです。比較検討する場合は、以下の資料が役立ちます。

よくある質問

GLM-5.2を一言で言うと?

Z.aiのオープンウェイトのフラッグシップLLMです。約753BパラメータのMoEモデルで、コーディング、推論、エージェントによるツール利用に重点を置いています。1MトークンのコンテキストウィンドウとMITライセンスを備えています。

GLM-5.2は無料ですか?

ウェイトはMITライセンスの下で無料でダウンロードしてセルフホストできます。

一方で、Z.aiのホスト型API、GLM Coding Plan、OpenRouter経由の利用は有料です。ここでの「無料」は、主にオープンウェイトとして入手できることを意味します。

GLM-5.2は画像を認識できますか?

いいえ。APIドキュメント上では、入力はテキスト、出力もテキストです。画像対応のバリアントは確認されていません。

画像入力が必要な場合は、別の画像認識モデルを組み合わせてください。

GLM-5.2はGLM-5.1と何が違いますか?

最も大きい違いは、エージェント型コーディング能力の向上です。Z.aiの結果では、Terminal-Bench 2.1が62.0から81.0に向上し、SWE-bench Proも改善しています。また、IndexShareスパースアテンションも新しく導入されました。

詳細はGLM-5.2 vs GLM-5.1の比較を参照してください。

コンテキスト長と出力長はどのくらいですか?

コンテキスト長は1Mトークンです。

出力長はz.aiのドキュメントでは最大128Kとされています。ただし、すべてのホストが同じ上限を提供しているわけではないため、利用するプロバイダーで確認してください。

まとめ

GLM-5.2は、オープンウェイトモデルがクローズドな最先端コーディングモデルと競争するために設計されたLLMです。

特徴は次の通りです。

  • 約753BパラメータのMoEモデル
  • 1Mトークンのコンテキストウィンドウ
  • IndexShareによる長文処理向け設計
  • 制御可能な推論設定
  • MITライセンス
  • セルフホストと商用利用が可能
  • コーディングとエージェント用途に重点

注意点もあります。画像入力には対応しておらず、出力長はホストごとに確認が必要です。また、ベンチマークはZ.ai自身の公開値を含むため、実務投入前には自社タスクで検証してください。

GLM-5.2で構築を始めるなら、まずはGLM-5.2 APIガイドから確認すると実装に入りやすいです。

Top comments (0)