要約
GLM-5.1 (744B MoE、アクティブパラメータ40~44B、MITライセンス) は、SWE-benchで77.8%を達成し、Claude Opus 4.6の80.8%に近い性能を持ちます。コストは100万トークンあたり入力$1.00/出力$3.20で、Claude Opus 4.6(入力$15.00/出力$75.00)と比較して圧倒的に安価です。2026年時点で最もコスト効率の高い高性能オープンウェイトモデルであり、Nvidia GPUを使わず、Huaweiハードウェアのみでトレーニングされています。コーディング性能とコストを重視するチームにとって、GLM-5.1は現実的かつ強力な選択肢です。
はじめに
Zhipu AIのGLM-5.1(2026年3月27日リリース)は、MITライセンスでオープンウェイト、さらにNvidiaハードウェアを使わず、100,000基のHuawei Ascend 910Bチップでトレーニングされた点が特徴です。
サプライチェーン依存やモデルカスタマイズ要件がある組織にとって、こうした柔軟性や自律性は、単なるベンチマークスコアと同等に重要です。
仕様
| 項目 | GLM-5.1 |
|---|---|
| パラメータ数 | 合計744B (MoE) |
| トークンあたりのアクティブ数 | 40~44B |
| エキスパートアーキテクチャ | 256のエキスパート、8アクティブ/トークン |
| コンテキストウィンドウ | 200Kトークン |
| 最大出力 | 131,072トークン |
| 学習データ | 28.5兆トークン |
| 学習ハードウェア | 100,000基のHuawei Ascend 910B |
| ライセンス | MIT (オープンウェイト) |
MoE(Mixture of Experts)アーキテクチャにより、総容量744Bながらトークンごとに40-44Bのみアクティブとなり、高効率な推論が可能です。
ベンチマーク比較
推論と知識
| ベンチマーク | GLM-5 (5.1ベースライン) | Claude Opus 4.6 | 備考 |
|---|---|---|---|
| AIME 2025 | 92.7% | 約88% | GLM-5が上回る |
| GPQA Diamond | 86.0% | 91.3% | Claudeが優勢 |
| MMLU | 88-92% | 約90%以上 | ほぼ同等 |
コーディング
| ベンチマーク | GLM-5.1 | Claude Opus 4.6 |
|---|---|---|
| SWE-bench | 77.8% | 80.8% |
| LiveCodeBench | 52.0% | より高い |
GLM-5.1はSWE-benchで77.8%を記録し、GPT-5やGemini、DeepSeekを上回る実績。5.1への性能向上は、アーキテクチャ変更ではなくトレーニング後の最適化によるものです。
人間による評価 (LMArena)
GLM-5はLMArenaのText/Code部門でオープンウェイトモデル中トップ。クローズドモデルにも競合します。
料金比較
| モデル | 入力 (100万トークン) | 出力 (100万トークン) |
|---|---|---|
| GLM-5.1 | $1.00 | $3.20 |
| DeepSeek V3.2 | $0.27 | $1.10 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| GPT-5.2 | $3.00 | $12.00 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
GLM-5.1は、Claude Opus 4.6の約94.6%のコーディング性能を、1/15のコストで提供します(独立検証は未了)。
大規模なプロダクションで運用する場合、このコスト差は非常に大きなインパクトとなります。
オープンウェイトの利点
GLM-5.1はMITライセンスでHugging Faceから入手可能。以下のことが実現できます。
- ダウンロードしてセルフホスト(フルBF16で約1.49TB必要)
- ドメイン固有データでファインチューニング
- インフラ・データ処理を完全制御したデプロイ
- モデルのアーキテクチャ変更や追加学習
1.49TBのストレージや高性能GPUが必要なため、完全セルフホストは大規模なインフラを要求します。多くの場合、APIアクセスが現実的な選択肢です。
制限事項
- テキストのみ: GLM-5.1はテキスト入力のみ。画像・音声・動画理解は不可。マルチモーダル用途には不向きです。
- ベンチマーク独立性: コーディング性能はClaude Codeベースの評価。独立評価は未完了。
- GLM-5.1ウェイト未公開: API経由で利用可能ですが、執筆時点で5.1のウェイトはまだリリースされていません。
- ストレージ要件: セルフホストには1.49TB必要で、インフラコストが高め。
ApidogでGLM-5.1をテストする
WaveSpeedAI経由(API推奨):
POST https://api.wavespeed.ai/api/v1/chat/completions
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"model": "glm-5",
"messages": [
{
"role": "user",
"content": "{{coding_task}}"
}
],
"temperature": 0.2,
"max_tokens": 4096
}
Claude Opus 4.6と比較:
POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
Content-Type: application/json
{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"messages": [{"role": "user", "content": "{{coding_task}}"}]
}
両方とも{{coding_task}}を同一内容で実行し、以下4点を比較しましょう。
- コードの正確性(動作するかどうか)
- コード品質(可読性・構造)
- 応答の長さ(より簡潔かどうか)
- トークン使用量(レスポンスメタデータで確認)
コスト面では、GLM-5.1(入力$1.00/出力$3.20)とClaude Opus 4.6(入力$15.00/出力$75.00)で、同じタスクでもClaudeは約20〜25倍高くなります。
GLM-5.1は誰が使うべきか
最適なケース
- 低コストで最先端のコーディング性能を求めるチーム
- コンプライアンスやカスタマイズ重視でオープンウェイトを必要とする組織
- 中国市場や多言語展開を検討する開発者
- 最先端に近いオープンモデル研究を行うチーム
他の選択肢が適するケース
- マルチモーダル用途: GPT-5.2またはGemini 2.5 Pro
- 推論能力重視・コスト無視: Claude Opus 4.6
- 最安コスト重視: DeepSeek V3.2($0.27/$1.10)
よくある質問
GLM-5.1はOpenAI互換APIで利用できますか?
GLMモデルは汎用SDKと互換性のあるAPI形式です。エンドポイントや仕様はZhipu AIの最新ドキュメントを参照してください。
Huaweiハードウェアでのトレーニングが重要な理由は?
多くの最先端モデルはNvidia A100/H100でトレーニングされています。GLM-5.1がHuawei Ascendで高性能を実現したことは、Nvidia以外の選択肢が現実的であると証明しています。
MITライセンスは商用利用可能?
はい。MITライセンスは商用利用、改変、配布を許可しており、他の多くのモデルよりも制限が緩やかです。
GLM-5.1は他のオープンソースモデルと比較してどう?
GLM-5はLlama、Qwen、他のオープンモデルよりLMArenaで上位に位置しています。
200Kのコンテキストウィンドウの用途は?
200Kトークンは約150,000語相当。1冊の本や大規模コードベース、複数ドキュメントを同時に扱う用途に十分です。ドキュメント分析やコードベースレビューなど長文ユースケースに有効です。
Top comments (0)