DEV Community

Cover image for 2026年中国LLM価格競争:最前線APIコストトップ5比較
Akira
Akira

Posted on • Originally published at apidog.com

2026年中国LLM価格競争:最前線APIコストトップ5比較

中国のラボは2026年前半にLLM API価格を6回引き下げ、そのうち3回は恒久的な値下げとされています。2026年5月時点で、DeepSeek V4-Proは出力トークン100万あたり0.87ドル、Xiaomi MiMo V2.5は長文コンテキストでも出力3ドルの固定料金、Alibaba Qwen3 Maxは3.90ドル、Moonshot Kimi K2.6はキャッシュヒット0.07ドル、Zhipu GLM-5は出力3.20ドルです。この記事では、中国トップ5のフロンティアAPIを、価格・コンテキスト・キャッシュ・実装時の選び方で比較します。

今すぐApidogを試す

要約

  • トークンあたり最安値(出力): DeepSeek V4-Pro、0.87ドル/MTok。GPT-5.5の約34分の1の価格。
  • 100万コンテキストで最安値: Xiaomi MiMo V2.5 Pro、出力3ドル/MTok。入力長に関わらず一律。
  • 一般的なプロダクションにおける価格と品質のバランス: Alibaba Qwen3 Max、出力3.90ドル/MTok、262Kコンテキスト。
  • 長いシステムプロンプトのキャッシュ最適化: Moonshot Kimi K2.6、キャッシュヒット0.07ドル/MTok。
  • 推論負荷の高いワークロード: Zhipu GLM-5、出力3.20ドル/MTok、200Kコンテキスト。
  • 5つのラボすべてが価格競争をしています。DeepSeek、MiMo、Kimiの3社は2026年の価格改定を恒久的なものとしています。

2026年中国LLM価格競争の展開

価格競争は2025年第4四半期に始まり、2026年第2四半期に加速しました。主な流れは次の通りです。

  • 2025年第4四半期: DeepSeek V3.2が入力0.28ドル/MTokでリリースされ、米国の最先端モデルを大きく下回る価格を提示。Kimi K2.6も続き、コンテキスト長に応じた段階的価格設定と、キャッシュヒット0.07ドル/MTokを導入。
  • 2026年3月: XiaomiがMiMo V2-ProをOpenRouterで発表。価格は競争力があるものの、段階的な料金体系。
  • 2026年4月: DeepSeek V4が75%のプロモーション割引付きでリリース。割引は5月31日までの予定。
  • 2026年5月22日: DeepSeekが75%割引の恒久化を発表。V4-Proは入力0.435ドル/出力0.87ドルで継続提供。詳細はこちら
  • 2026年5月27日: XiaomiがMiMo V2.5の価格を入力1ドル/出力3ドルで恒久化し、長文コンテキストの乗数を廃止。詳細はMiMoの値下げに関する記事

各ラボは同じ方向を向いているわけではありません。DeepSeekはトークン単価、MiMoは長文コンテキスト、QwenとGLMは機能と品質、Kimiはキャッシュ前提のエージェント/コーディングワークフローを狙っています。

一目でわかる:2026年5月の中国LLM APIトップ5

モデル 入力 ($/MTok) 出力 ($/MTok) キャッシュヒット コンテキスト 最適な用途
DeepSeek V4-Pro $0.435 $0.87 $0.003625 128K トークンあたり最安値、コーディング
Xiaomi MiMo V2.5 Pro $1.00 $3.00 $0.20 1M 長文RAG、リポジトリエージェント
Alibaba Qwen3 Max $0.78 $3.90 $0.156 262K プロダクションのバランス
Moonshot Kimi K2.6 $0.16–$2.00(段階的) ~$2.50 $0.07 128K 長いシステムプロンプト、コーディングエージェント
Zhipu GLM-5 $1.00 $3.20 プロバイダー定義 200K 構造化推論

実装時に見るべきポイントは3つです。

  1. 固定料金か段階料金か

    DeepSeekとMiMoは固定料金です。月次コストを予測しやすく、プロダクションの容量計画に向いています。段階料金は、長文コンテキストが増えた月に請求額が跳ねる可能性があります。

  2. キャッシュヒット率を別枠で評価する

    安定したシステムプロンプトを持つエージェントでは、通常の入力単価ではなくキャッシュヒット単価が効きます。仕組みはプロンプトキャッシングの解説を参照してください。

  3. コンテキスト上限で候補を切る

    30万トークンを超えるワークロードでは、MiMo V2.5が実質的な第一候補になります。DeepSeekの128Kではプロンプトが収まらないため、単価だけでは判断できません。

DeepSeek:トークンあたり最安値

モデル: V4-Pro(入力0.435ドル / 出力0.87ドル / キャッシュヒット0.003625ドル、128Kコンテキスト)、V4-Flash(0.14ドル / 0.28ドル)。

DeepSeek V4-Proは、中国の最先端モデルの中で最も低い価格帯にあります。5月22日の恒久的な値下げにより、出力は0.87ドル/MTokとなりました。これはGPT-5.5の約34分の1、Claude Opus 4.7の約17分の1です。キャッシュヒット時の0.003625ドル/MTokも主要ラボの第一者提供レートとして非常に低い水準です。価格はDeepSeek公式料金ページで確認できます。

向いているワークロード

  • コード生成
  • エージェントチェーン
  • コンテンツ生成
  • 出力トークン比率が高い処理
  • 5K〜10Kトークン程度の安定したシステムプロンプトを使う処理
  • GPT-5.5との差分が許容できるコスト重視のプロダクション

向いていないワークロード

  • 128Kを超える長文ドキュメント処理
  • 100万トークン級のRAG
  • 初回トークンまでの時間が重要なリアルタイムチャット

実装時の判断基準

DeepSeekを使う場合は、まず「128K以内に収まるか」「出力比率が高いか」を確認します。

if context_tokens <= 128_000 and output_heavy:
    use DeepSeek V4-Pro
elif context_tokens > 300_000:
    use MiMo V2.5 Pro
else:
    benchmark DeepSeek vs Qwen vs GLM
Enter fullscreen mode Exit fullscreen mode

詳細はこちら:

Xiaomi MiMo:100万コンテキストで最安の選択肢

モデル: MiMo V2.5 Pro(入力1.00ドル / 出力3.00ドル / キャッシュ0.20ドル、100万コンテキスト)、MiMo V2 Flash(約0.10ドル / 約0.40ドル、256Kコンテキスト)。

Xiaomiは5月27日にMiMo V2.5の価格を恒久的に引き下げ、コンテキストウィンドウ全体で一律料金にしました。以前は256K入力トークンを超えると高い乗数が適用されていましたが、現在は5Kトークンでも950Kトークンでも同じ入力1ドル/出力3ドルです。公式の価格更新通知では、この値下げは恒久的とされています。

向いているワークロード

  • 長文ドキュメントRAG
  • リポジトリ全体のコード分析
  • 複数ドキュメントの要約
  • 30万〜100万トークンのコンテキスト処理
  • コスト予測が重要な大量ドキュメント処理

向いていないワークロード

  • 短いプロンプトのチャット
  • DeepSeekの128K以内に収まる出力重視の処理
  • サブ秒応答が必要なリアルタイム処理

実装時の判断基準

MiMoは「長文が入るから使う」モデルです。短文処理に使うとDeepSeekより高くなりやすいため、ルーティングで分けるのが実用的です。

function routeModel({ inputTokens, needsLongContext }) {
  if (needsLongContext || inputTokens > 300_000) {
    return "mimo-v2.5-pro";
  }

  if (inputTokens <= 128_000) {
    return "deepseek-v4-pro";
  }

  return "qwen3-max";
}
Enter fullscreen mode Exit fullscreen mode

詳細はこちら:

Alibaba Qwen:プロダクションの主力

モデル: Qwen3 Max(入力0.78ドル / 出力3.90ドル / キャッシュ0.156ドル、262Kコンテキスト)。新しいQwen 3.7 Maxは入力2.50ドル/MTok、100万コンテキストで早期展開中です。価格はpricepertokenのQwen3 Maxシートで確認されています。

Qwen3 MaxはAlibabaのフラッグシップであり、国際的なプロダクションでも広く使われている中国製モデルです。DeepSeek V4-Proと比較すると、入力で約1.8倍、出力で約4.5倍です。ただし、Anthropicプロトコル互換、OpenAI互換、Alibaba Cloudエンタープライズホスティング、262Kコンテキストなど、プロダクション運用に必要な要素がそろっています。

向いているワークロード

  • 多言語プロダクション
  • 中国語・アジア言語を含むカスタマーサポート
  • 企業コンプライアンス要件がある処理
  • Alibaba Cloud上でのエンタープライズ展開
  • 20万〜26.2万トークン程度のドキュメント処理

向いていないワークロード

  • 出力トークンが多く、コスト最小化が最優先の処理
  • DeepSeekの品質で十分なコード生成やコンテンツ生成

実装時の判断基準

Qwenは「安さ」ではなく「安定したプロダクション品質」で選ぶモデルです。特に多言語処理では、DeepSeekやMiMoだけでなくQwenを評価セットに入れるべきです。

詳細はこちら:

Moonshot Kimi:コーディングのスペシャリスト

モデル: Kimi K2.6。入力価格は8K、32K、64K、128Kのバンドで0.16ドル〜2.00ドル/MTok。キャッシュヒット最低価格は0.07ドル/MTok。中間バンドでの出力レートは約2.50ドル/MTok。

Kimi K2.6はキャッシュヒットを前提にすると強力です。0.07ドル/MTokのキャッシュヒット価格と、ツール呼び出し・長時間実行エージェントのサポートを組み合わせることで、同じシステムプロンプトを何度も使うワークフローでコストを抑えられます。

向いているワークロード

  • コーディングエージェント
  • Claude Codeスタイルの開発支援
  • 安定したシステムプロンプトを持つチャットセッション
  • 同じfew-shot例を繰り返し使うワークフロー
  • ツール呼び出しを多用するエージェント

向いていないワークロード

  • リクエストごとにプレフィックスが変わる処理
  • コンテキスト長が日によって大きく変動する処理
  • 月次コストを厳密に固定したい処理

キャッシュ前提の実装パターン

Kimiを使う場合は、システムプロンプトとfew-shot例をできるだけ固定します。以下のように、可変部分を最後に寄せる構成にします。

[固定] system prompt
[固定] tool instructions
[固定] few-shot examples
[可変] user request
[可変] retrieved context
Enter fullscreen mode Exit fullscreen mode

キャッシュヒット率を上げるには、次のような変更を避けます。

  • 毎回タイムスタンプをsystem promptに入れる
  • ユーザーIDやセッションIDを固定プレフィックス内に入れる
  • few-shot例の順序をランダムに変える
  • ツール定義のJSON順序を毎回変える

詳細はこちら:

Zhipu GLM:推論の挑戦者

モデル: GLM-5(入力1.00ドル / 出力3.20ドル、200Kコンテキスト)、GLM-5.1(0.98ドル / 3.08ドル、200Kコンテキスト)。価格はZ.AIの公式料金概要で確認されています。

ZhipuのGLM-5は、GLM-4.7から30%の価格上昇でリリースされました。その後、GLM-5.1はわずかに割引された価格で登場しています。最安ではありませんが、構造化推論と思考連鎖タスクに強いモデルです。

向いているワークロード

  • 数学
  • 形式推論
  • 構造化された思考連鎖タスク
  • 財務分析
  • 法的要約
  • 科学的推論
  • 多段階エージェントワークフロー

向いていないワークロード

  • コスト最優先のアプリケーション
  • 単純なコンテンツ生成
  • 単純な要約
  • 強い推論性能が価値につながらない処理

実装時の判断基準

GLMは「間違った回答のコストが高い」処理で評価すべきです。単価だけを見ると高めですが、財務・法務・科学領域では、出力品質の差がコスト差を上回る場合があります。

詳細はこちら:

ワークロードごとの最安値:購入者マトリックス

ワークロード 勝者 理由
コード生成(出力重視) DeepSeek V4-Pro 出力0.87ドル/MTokが最安水準
長文RAG(30万以上のコンテキスト) Xiaomi MiMo V2.5 Pro 100万コンテキストで固定価格
安定したシステムプロンプトを持つコーディングエージェント Kimi K2.6 キャッシュヒット0.07ドル/MTok
多言語カスタマーサポート Alibaba Qwen3 Max 英語以外の言語で強い
数学、形式推論、構造化分析 Zhipu GLM-5 思考連鎖の品質が高い

実装で使えるルーティング方針

単一モデルに固定するより、ワークロードごとにルーティングした方がコストを抑えやすくなります。

function selectModel(task) {
  const {
    inputTokens,
    outputHeavy,
    needsLongContext,
    needsMultilingual,
    needsFormalReasoning,
    stableSystemPrompt,
    isCodingAgent,
  } = task;

  if (needsFormalReasoning) {
    return "glm-5";
  }

  if (needsLongContext || inputTokens > 300_000) {
    return "mimo-v2.5-pro";
  }

  if (needsMultilingual) {
    return "qwen3-max";
  }

  if (isCodingAgent && stableSystemPrompt) {
    return "kimi-k2.6";
  }

  if (outputHeavy && inputTokens <= 128_000) {
    return "deepseek-v4-pro";
  }

  return "qwen3-max";
}
Enter fullscreen mode Exit fullscreen mode

実運用では、次の3パターンが有効です。

1. 2モデルルーティング

多くのプロダクションチームは、トラフィックの70〜85%をDeepSeek V4-Proに流し、難しいリクエストだけを別モデルに回します。これにより、品質低下を抑えながら大きなコスト削減ができます。

2. 長文コンテキストの分離

短いコンテキストはDeepSeek、長いコンテキストはMiMoに回します。請求先は増えますが、コスト差は無視できません。

3. キャッシュプレフィックスの統合

どのモデルを使う場合でも、システムプロンプトの固定化は有効です。キャッシュヒット率を上げるだけで、モデル移行なしにコストを下げられます。

品質とベンチマークに関する注記

価格が安くても、モデルがワークロードを処理できなければ意味がありません。

Artificial Analysisによると、この比較に含まれる5モデルは、多くの公開ベンチマークで互いに5〜10パーセントポイントの範囲内に集まっています。差が出やすい領域は以下です。

  • DeepSeek V4-Pro: コーディング(SWE-bench Proで約55%)と推論(GPQAで約90%)に強い。長期的エージェントタスクではGPT-5.5にわずかな差。
  • MiMo V2.5 Pro: 長文コンテキスト検索に強く、80万トークンで95%以上の精度。コーディングは中程度。
  • Qwen3 Max: 英語以外の言語で高いパフォーマンス。一般的なプロダクション品質も強い。
  • Kimi K2.6: ツール呼び出しフォーマットへの準拠が強い。特に並列ツール呼び出しに向く。
  • GLM-5: このグループで思考連鎖推論品質が高い。

導入前には、公開ベンチマークだけでなく、自社トラフィックに近い100サンプル評価を実行してください。

評価セット例:
- 20件: 通常チャット
- 20件: コード生成
- 20件: RAG
- 20件: 長文要約
- 20件: 失敗すると困る高難度ケース
Enter fullscreen mode Exit fullscreen mode

各モデルに同じ入力を投げ、以下を記録します。

  • 正答率
  • 人手評価スコア
  • 入力トークン数
  • 出力トークン数
  • レイテンシ
  • 推定コスト
  • JSON/tool callの妥当性

Apidogですべての5モデルをテストする

マルチモデルのプロダクション展開には、マルチモデルのテストハーネスが必要です。Apidogを使うと、これら5つの中国製APIを1つのワークスペースから比較できます。5モデルはいずれも、細かな互換性の違いはあるものの、OpenAI Chat Completions形式のリクエストボディを受け入れます。

ApidogでLLM APIをテストする

手順は次の通りです。

  1. Apidogでプロバイダーごとに環境を作成します。

    • api.deepseek.com
    • platform.xiaomimimo.com
    • Alibaba Cloud Model Studio
    • api.moonshot.cn
    • open.bigmodel.cn
  2. OpenAI Chat Completionスキーマを一度インポートします。

  3. 環境ごとにベースURLを切り替えます。

  4. 同じテストシナリオを5モデルすべてで実行します。

  5. レスポンス、スコア、レイテンシ、コストを比較します。

  6. tool_callsの形状に対してJSON Schema検証を追加し、各プロバイダー固有のストリーミング形式の違いを検出します。

OpenAI互換の最小リクエスト例は次のようになります。

curl "$BASE_URL/v1/chat/completions" \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "'"$MODEL"'",
    "messages": [
      {
        "role": "system",
        "content": "あなたはAPIテストを支援するアシスタントです。"
      },
      {
        "role": "user",
        "content": "このAPIレスポンスを要約してください。"
      }
    ],
    "temperature": 0.2
  }'
Enter fullscreen mode Exit fullscreen mode

Apidogをダウンロードし、テストケースをインポートすれば、短時間で5モデル比較を始められます。関連する詳細記事はこちらです。

価格競争の今後の行方

価格の最低ラインは5月に2回動きました。第3四半期が終わるまでに、さらに動きがある可能性があります。

  • Qwenの対応: Alibabaは最初に値下げすることは少ないものの、数週間以内に追随する傾向があります。7月までにQwen3 Maxの改訂またはQwen 3.8の発表が予想されます。
  • GLMの対応: ZhipuがGLM-5で30%の価格上昇を行ったことは、価格競争の中では逆行的に見えます。構造的な値下げを伴うGLM-5.2が登場する可能性があります。
  • Kimiの料金体系簡素化: 段階的なコンテキスト価格設定は古くなりつつあります。MoonshotがK2.6をMiMoに近い固定構造へ寄せる可能性があります。

今やるべきことは3つです。

  1. 上記の購入者マトリックスに対して、上位3つのワークロードを照合する。
  2. 今週、1つのワークロードでモデル移行テストを実行する。
  3. キャッシュプレフィックスを固定し、システムプロンプトを再利用しやすくする。
  4. 5プロバイダーすべてを指すApidog回帰テストスイートを作る。

価格の最低ラインはまだ下がり続けています。次の値下げを待つのではなく、モデルを切り替えられる構成にしておくことが重要です。

Top comments (0)