Akira

Posted on Apr 10 • Originally published at apidog.com

GLM-5, DeepSeek V3, GPT-5 速度・コスト・開発者向け実践比較

要約

リアルタイムアプリでは、短いプロンプトに対してGLM-5とDeepSeekが最速です。ツールを多用するアシスタントでは、GPT-5がスキーマの安定性で優位に立っています。バッチ処理では、DeepSeekが最も費用対効果の高い（有用な出力あたりのコスト）を提供します。GLM-5は、一貫した出力、競争力のある速度、予測可能なエラーモードを持つ実用的な中間点です。適切な選択は、ベンチマークの順位ではなく、ワークロードの種類によって異なります。

Apidog を今すぐ試す

はじめに

ベンチマークスコアは、どのモデルが学術テストで最高のスコアを出すかを示します。しかし、大規模に実行するのに最も安価なモデル、リトライロジックが集中攻撃される深夜2時にツール呼び出しを確実に処理するモデル、あるいはリアルタイムチャットUIに十分な速度でストリーミングするモデルは教えてくれません。

この比較では、速度、コスト計算、障害モード、制御インターフェースなど、開発者が実際に判断・実装する際に重要な指標に絞って解説します。

推論速度

GLM-5:

短いプロンプトでは最初のトークンまでの時間（TTFT）が非常に短く、リアルタイムチャットに向いています。
30〜40Kトークン以上の長いコンテキストでは初期応答が多少遅延しますが、その後は安定したストリーミング出力が得られます。
ほとんどのリアルタイムアプリ用途で実用的です。

DeepSeek V3:

初期応答が速い一方で、長い出力ではストリーム中に一時的なマイクロポーズ（ごく短い一時停止）が発生することがあります。
バッチ処理や非同期ワークフローなど、ストリーミングの一時停止がUXに影響しない用途に適しています。

GPT-5:

一部エンドポイントで初期起動が遅い場合がありますが、全体としては安定したストリーミング性能と低いツール呼び出しオーバーヘッドが特徴です。
本番運用で重要な予測可能性が高いです。

実質的なコスト計算

APIコストはトークン単価だけでは決まりません。実装時に見落としがちな、次の3点に注意してください。

1. コンテキストの無駄

システムプロンプト（例：2,000トークン）はすべてのリクエストで繰り返され、コスト増加要因となります。
一部プロバイダーのプロンプトキャッシング機能を活用すると、これを大幅に削減可能です。

2. リトライのオーバーヘッド

レート制限でリトライが発生するとAPI呼び出しが増加し、2〜3倍のコストになる場合も。
リトライポリシーの設定やレートリミット検知・バックオフ処理を実装しましょう。

3. 出力長の規律

モデルによっては必要以上に冗長な出力となり、無駄なトークンコストが発生します。
厳密な max_tokens の設定・構造化された出力形式をモデルに指示しましょう。

ポイント: 有用な出力あたりのコストを意識し、単なるトークン単価ではなく実用的なコストを最適化しましょう。

料金

モデル	入力	出力
GLM-5	競争力あり	競争力あり
DeepSeek V3	積極的（低価格）	低価格
GPT-5	$3.00/1Mトークン	$12.00/1Mトークン

DeepSeek V3が最も安価で、GLM-5が中間、GPT-5が高価という構図です。ただし、単価だけではなく、実際のワークロード・出力品質も併せて選定しましょう。

タスクタイプ別の出力品質

単一タスクの精度

GPT-5は出力スキーマ遵守率が最も高く、JSONやリスト等の構造指定通りの出力を安定して返します。
DeepSeek V3は推論過程の説明が詳細ですが、冗長なトークンが混じりやすい点に注意。
GLM-5は無駄な装飾が少なく、安定した構造と堅実なコード編集が特徴です。

多段階エージェントの信頼性

GPT-5は2〜4回程度のツールコールを要するエージェントチェーンに強みがあり、ツールタイムアウト時も安定復旧が可能です。
DeepSeekは効率的なチェーン処理ができますが、ツール重複や意図の曖昧さで誤答リスクも。
GLM-5は慎重な出力傾向が強く、明確なスキーマで運用すれば誤答リスクが低減します。

ワークロード別最適モデル

リアルタイムアプリケーション

軽いチャット/下書き用途 ⇒ GLM-5 または DeepSeek（高速TTFT・一貫性）
ツールを多用するアシスタント ⇒ GPT-5（最強のスキーマ安定性とツール計画）

バッチ処理

コスト重視 ⇒ DeepSeek（単価重視で大量処理に最適）
一貫性重視 ⇒ GLM-5（外れ値が少ない）
複雑な推論タスク ⇒ GPT-5（コスト増を許容する価値あり）

マルチモーダルパイプライン

GPT-5: モダリティ跨ぎ・ツール連携のクリーンさ
DeepSeek: OCRやキャプション生成に高速・高精度
GLM-5: 構造化画像→テキスト変換（例：請求書解析）での信頼性

Apidog を使用したテスト

3つのモデルを実ワークロードで比較評価するには、Apidog でコレクションをセットアップしましょう。

GLM-5 (WaveSpeedAI経由) の例:

POST https://api.wavespeed.ai/api/v1/chat/completions
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "model": "glm-5",
  "messages": [{"role": "user", "content": "{{test_prompt}}"}],
  "temperature": 0.2,
  "max_tokens": 1000
}

DeepSeek V3 の例:

POST https://api.deepseek.com/v1/chat/completions
Authorization: Bearer {{DEEPSEEK_API_KEY}}
Content-Type: application/json

{
  "model": "deepseek-v3",
  "messages": [{"role": "user", "content": "{{test_prompt}}"}],
  "temperature": 0.2,
  "max_tokens": 1000
}

GPT-5 の例:

POST https://api.openai.com/v1/chat/completions
Authorization: Bearer {{OPENAI_API_KEY}}
Content-Type: application/json

{
  "model": "gpt-5",
  "messages": [{"role": "user", "content": "{{test_prompt}}"}],
  "temperature": 0.2,
  "max_tokens": 1000
}

Apidogで追跡すべきメトリクス:

応答時間（最初のバイトまでのTTFT）
合計応答長（消費トークン数）
スキーマ準拠（期待する出力構造へのアサーション）

同一プロンプトで3モデルを横並びでテストし、10〜20ケースを比較することで、自分のワークロードにベストな選択肢を見つけましょう。

WaveSpeed ルーティングの利点

WaveSpeedではトークン単価以外にも、下記の実質コスト削減機能を活用できます。

スティッキールーティング モデル・リージョンの組み合わせを固定し、安定したレイテンシーを実現。
コンテキストキャッシング 繰り返されるシステムプロンプトのトークン消費を約3分の1に削減。
スキーマ検証 モデル到達前にリクエストを早期検証し、インテリジェントなリトライを自動化。

実践ポイント:

単なるトークンコスト削減ではなく、「有用な出力1件あたりのトークン無駄削減」を意識しましょう。

よくある質問

Q. DeepSeek V3は関数呼び出しをサポートしていますか？

A. はい。DeepSeek V3はOpenAI形式の関数呼び出しに対応しています。スキーマ準拠性も高いですが、複雑な多段階ツール連携ではGPT-5がより信頼性あり。

Q. 顧客向けチャットボットにはどのモデルを使うべき？

A. 軽い会話ならGLM-5（高速・一貫性重視）、ツール多用や構造化出力が必須ならGPT-5がおすすめです。実際の会話フローでテストしましょう。

Q. 予算にリトライコストをどう計上すればいい？

A. アプリケーション内で全リトライ分も含めてAPI呼び出しを記録し、実際の支出とモデル上の支出を毎週比較してください。リクエスト前にレートリミット検知やバックオフ実装でコスト抑制できます。

Q. GLM-5はOpenAI互換APIで利用可能？

A. Zhipu AIのGLM-5はAPIを提供しています。エンドポイント形式は公式ドキュメントを随時確認してください。WaveSpeedAIなら統合APIでGLMモデルにアクセス可能です。

DEV Community