Akira

Posted on Jun 17 • Originally published at apidog.com

GLM-5.2を無料で使う方法

GLM-5.2は、現在利用できる高性能なオープンウェイトモデルの1つです。MITライセンスで提供されるため、ウェイト自体は無料で利用できます。ただし、約753BパラメータのMoE（Mixture of Experts）モデルであるため、「無料」と「簡単」は別です。この記事では、セルフホスティング、z.aiのトライアルクレジット、安価な有料プラン、従量課金APIの使い分けを、実装手順と制約込みで整理します。

今すぐApidogを試す

結論から言うと、十分なGPU環境を持っている、または短時間だけ安価にレンタルできるなら、オープンウェイトをセルフホストするのが最も自由度の高い方法です。そうでない場合は、z.aiのトライアルクレジット、GLM Coding Plan、またはOpenRouterの従量課金APIを使うのが現実的です。なお、glm-5.2向けの無料OpenRouterルートはありません。

迅速な意思決定ツリー

まず、自分の状況に近い行を選んでください。

あなたの状況	最適な経路	実際の費用
強力なGPUボックスを所有している、またはレンタルできる	オープンウェイトをセルフホスト（Ollama / vLLM）	ウェイトは$0。電気代またはGPUレンタル料が必要
セットアップもカード登録も最小限にしたい	z.aiの無料トライアルクレジット / レート制限付きティア	クレジットがなくなるまで無料。現在の条件は要確認
コーディング用途で安価な有料パスが必要	GLM Coding Plan Lite	月額料金。公開情報に差があるため要確認
コミットメントなしで従量課金したい	OpenRouter API	入力100万トークンあたり$1.40、出力100万トークンあたり$4.40

経験則はシンプルです。

本当に無料に近づけたい場合：セルフホスト
すぐ試したい場合：z.aiのトライアル
日常的にコーディングで使う場合：GLM Coding Plan
アプリに組み込む場合：API + キャッシュ入力

ルート1：オープンなMITウェイトをセルフホストする

GLM-5.2のウェイトはHugging Faceのzai-org/GLM-5.2で公開されています。MITライセンスのため、ライセンス費用なしでダウンロードして自分の環境で実行できます。

ただし、注意点があります。GLM-5.2は約753BパラメータのMoEモデルです。MoEでは推論時に全パラメータが毎トークン活性化されるわけではありませんが、モデルウェイト自体はメモリ上に置く必要があります。BF16のまま扱う場合、必要メモリは非常に大きくなります。

現実的な選択肢は次のどちらかです。

4bitなどの量子化ビルドを使い、メモリ使用量を削減する
クラウド上のマルチGPUインスタンスを短時間だけレンタルする

つまり、ここでの「無料」はライセンス費用が無料という意味です。ハードウェア、電気代、GPUレンタル料は別途必要です。

OllamaでGLM-5.2を実行する

ローカルで最も手軽に試すならOllamaが便利です。GLM-5.2はOllamaライブラリで利用できます。

# モデルを取得する
# 非常に大きなダウンロードになる可能性があります
ollama pull glm-5.2:cloud

Ollamaを起動したら、OpenAI互換APIとして呼び出せます。

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Write a Python function to parse an RFC 3339 timestamp."
      }
    ]
  }'

実行時はRAMとVRAMに注意してください。モデルがディスクにスワップすると、生成速度は大きく低下します。量子化ビルド、大容量ユニファイドメモリ、またはマルチGPU分割が必要になるケースが多いです。

より詳しいローカル実行手順は、以下の既存ガイドが参考になります。基本的な流れはGLM-5系と同じなので、モデルタグをglm-5.2に置き換えてください。

vLLMでGLM-5.2を実行する

複数リクエストや高スループットを考えるなら、vLLMが実運用向けです。vLLMはOpenAI互換APIサーバーを提供し、GPU間のテンソル並列処理にも対応しています。

pip install vllm

python -m vllm.entrypoints.openai.api_server \
  --model zai-org/GLM-5.2 \
  --tensor-parallel-size 8 \
  --max-model-len 131072

ここでは--tensor-parallel-size 8を指定しています。これは8 GPU構成を前提にした例です。実際の値はGPU枚数、VRAM、量子化チェックポイントの有無によって調整してください。

--max-model-lenも重要です。GLM-5.2は1Mトークン級のコンテキストを特徴としますが、長いコンテキストを保持するにはKVキャッシュ用のメモリが大量に必要です。実装時は、実際に必要なコンテキスト長に合わせて小さめに設定するのが安全です。

vLLMサーバー起動後は、通常のOpenAI互換クライアントから呼び出せます。

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "zai-org/GLM-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Summarize this repository structure and suggest refactoring steps."
      }
    ]
  }'

ルート2：z.aiの無料トライアルクレジットを使う

セルフホスティングが難しい場合は、z.aiのクラウドAPIを使うのが最短です。新規アカウントでは通常、無料トライアルクレジットやレート制限付きティアが提供されます。ただし、提供条件は変わるため、現在の内容はz.aiで確認してください。

基本的な流れは次の通りです。

z.aiでアカウントを作成する
APIキーを発行する
OpenAI互換のエンドポイントを呼び出す

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Explain IndexShare sparse attention in two sentences."
      }
    ],
    "thinking": {
      "type": "enabled"
    },
    "reasoning_effort": "max"
  }'

GLM-5.2をAPIで使うときは、次のパラメータを確認してください。

thinking：推論モードの有効化 / 無効化
reasoning_effort：推論努力レベル。コーディング用途では"max"が推奨されるケースがあります
出力長：z.aiのドキュメントでは最大128Kとされていますが、実際の利用条件は要確認

詳細はz.aiのGLM-5.2ガイドを参照してください。

ルート3：安価な有料プランを使う

無料クレジットを使い切った後は、次の2つが現実的です。

GLM Coding Plan Lite
従量課金API + キャッシュ入力

GLM Coding Plan Lite

主な用途がコーディングなら、GLM Coding Planは検討に値します。Liteティアの料金は公開情報に差があるため、実際の価格はz.aiで確認してください。

このプランでは、Claude Code、Cline、Cursorなどの開発者向けツールをGLM-5.2に接続できます。Anthropic互換のパスを使う場合、Claude Codeの環境変数は次のように設定します。

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

glm-5.2[1m]の[1m]は1Mコンテキストのバリアントを示します。長いコンテキストを使う場合、API_TIMEOUT_MSを大きくしないと、応答完了前にクライアント側でタイムアウトする可能性があります。

詳しい設定例はこちらです。

従量課金APIとキャッシュ入力

サブスクリプションなしで使う場合は、APIの従量課金が選択肢になります。OpenRouterでは、GLM-5.2の料金は次のように示されています。

入力：100万トークンあたり$1.40
出力：100万トークンあたり$4.40

コストを下げるポイントはキャッシュ入力です。長いシステムプロンプト、固定のコードベース、繰り返し利用する仕様書など、同じプレフィックスを何度も送るワークロードでは、キャッシュによりコストを大きく抑えられます。

実装時は、次のような設計にするとキャッシュ効果を得やすくなります。

[固定部分]
- システムプロンプト
- プロジェクト規約
- API仕様
- 主要なコードコンテキスト

[可変部分]
- 今回の質問
- 変更したいファイル
- 直近のエラーログ

同じ固定部分を再利用できるようにプロンプトを構成すると、長期的なAPIコストを下げやすくなります。

重要な点として、glm-5.2向けの無料OpenRouterティアはありません。OpenRouterは安価な従量課金ルートですが、無料ではありません。

無料 vs ほぼ無料：比較表

経路	初期費用	継続費用	セットアップ労力	最適な用途
セルフホスト（Ollama / vLLM）	ハードウェアまたはレンタル	電気代 / GPU使用時間	高	プライバシー、計測なし、完全な制御
z.aiトライアルクレジット	なし	クレジット終了まで無料	低	最初の試用、迅速な検証
GLM Coding Plan Lite	月額料金。要確認	月額定額	低	Claude Code / Cline / Cursorでの日常的なコーディング
API + キャッシュ入力	なし	入力$1.40/100万トークン、出力$4.40/100万トークン。キャッシュ利用で低減可能	低	アプリケーション、繰り返しコンテキストのワークロード

おすすめの進め方は次の通りです。

z.aiのトライアルでモデル品質を確認する
コーディング用途ならGLM Coding Planを検討する
プライバシーや課金回避が重要ならセルフホストする
アプリに組み込むならAPI + キャッシュ入力でコストを最適化する

ApidogでGLM-5.2エンドポイントをテストする

GLM-5.2をOllama、vLLM、z.ai、OpenRouterのどれで動かす場合でも、アプリに組み込む前にエンドポイントの動作確認が必要です。特にチャット補完APIでは、ストリーミングレスポンス、ヘッダー、エラー形式、タイムアウトを確認しておくべきです。

Apidogを使うと、GLM-5.2エンドポイントに対するリクエストを保存し、再利用可能なAPIテストケースとして管理できます。

Ollamaをテストする場合は、ベースURLを次のようにします。

http://localhost:11434

z.aiをテストする場合は、Authorizationヘッダーを設定します。

Authorization: Bearer YOUR_ZAI_API_KEY
Content-Type: application/json

リクエスト例は次の通りです。

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Create a migration plan for this REST API."
    }
  ]
}

Apidogでは、次の作業をまとめて行えます。

GLM-5.2 APIへの手動リクエスト送信
Server-Sent Events形式のストリーミング確認
リクエストテンプレートの保存
レスポンス例の管理
モックAPIの作成
フロントエンド実装前のAPI契約確認

Apidogをダウンロードして、ローカルまたはクラウドのGLM-5.2エンドポイントをすぐに検証できます。

よくある質問

GLM-5.2は本当に無料で使えますか？

ウェイトはMITライセンスで提供されているため、セルフホストする場合のライセンス費用は無料です。ただし、ハードウェア、電気代、GPUレンタル料は必要です。ホスト型APIは基本的に有料ですが、z.aiではトライアルクレジットやレート制限付きティアが提供される場合があります。

普通のノートパソコンでOllamaを使ってGLM-5.2を実行できますか？

現実的には難しいです。GLM-5.2は約753BパラメータのMoEモデルであり、量子化ビルドでも大きなメモリを必要とします。高VRAMワークステーション、大容量ユニファイドメモリを搭載したMac、またはレンタルGPUを検討してください。詳細はローカル実行ガイドを参照してください。

GLM-5.2の無料OpenRouterティアはありますか？

ありません。OpenRouterではGLM-5.2を従量課金で提供しています。料金は入力100万トークンあたり$1.40、出力100万トークンあたり$4.40です。安価ですが無料ではありません。

GLM-5.2をコーディングに使う最も安価な有料方法は？

GLM Coding Plan Liteが候補になります。料金や条件は変更される可能性があるため、z.aiで最新情報を確認してください。Claude Code、Cline、Cursorなどのツールと接続できる点が実用的です。

GLM-5.2はコスト面でGPT-5.5と比較してどうですか？

VentureBeatによると、GLM-5.2はいくつかの長期間のコーディングベンチマークでGPT-5.5を約6分の1のコストで上回るとされています。詳細は以下を参照してください。

次にするべきこと

最適なルートは、ハードウェア、利用頻度、用途によって変わります。

GPU環境がある：OllamaまたはvLLMでセルフホスト
まず試したい：z.aiのトライアルクレジット
毎日コーディングで使う：GLM Coding Plan
アプリに組み込む：API + キャッシュ入力
APIテストを整備したい：Apidogでリクエスト、レスポンス、モックを管理

GLM-5.2を採用するか判断中なら、まず以下を確認してください。

DEV Community