Akira

Posted on May 27 • Originally published at apidog.com

2026年中国LLM価格競争：最前線APIコストトップ5比較

中国のラボは2026年前半にLLM API価格を6回引き下げ、そのうち3回は恒久的な値下げとされています。2026年5月時点で、DeepSeek V4-Proは出力トークン100万あたり0.87ドル、Xiaomi MiMo V2.5は長文コンテキストでも出力3ドルの固定料金、Alibaba Qwen3 Maxは3.90ドル、Moonshot Kimi K2.6はキャッシュヒット0.07ドル、Zhipu GLM-5は出力3.20ドルです。この記事では、中国トップ5のフロンティアAPIを、価格・コンテキスト・キャッシュ・実装時の選び方で比較します。

今すぐApidogを試す

要約

トークンあたり最安値（出力）: DeepSeek V4-Pro、0.87ドル/MTok。GPT-5.5の約34分の1の価格。
100万コンテキストで最安値: Xiaomi MiMo V2.5 Pro、出力3ドル/MTok。入力長に関わらず一律。
一般的なプロダクションにおける価格と品質のバランス: Alibaba Qwen3 Max、出力3.90ドル/MTok、262Kコンテキスト。
長いシステムプロンプトのキャッシュ最適化: Moonshot Kimi K2.6、キャッシュヒット0.07ドル/MTok。
推論負荷の高いワークロード: Zhipu GLM-5、出力3.20ドル/MTok、200Kコンテキスト。
5つのラボすべてが価格競争をしています。DeepSeek、MiMo、Kimiの3社は2026年の価格改定を恒久的なものとしています。

2026年中国LLM価格競争の展開

価格競争は2025年第4四半期に始まり、2026年第2四半期に加速しました。主な流れは次の通りです。

2025年第4四半期: DeepSeek V3.2が入力0.28ドル/MTokでリリースされ、米国の最先端モデルを大きく下回る価格を提示。Kimi K2.6も続き、コンテキスト長に応じた段階的価格設定と、キャッシュヒット0.07ドル/MTokを導入。
2026年3月: XiaomiがMiMo V2-ProをOpenRouterで発表。価格は競争力があるものの、段階的な料金体系。
2026年4月: DeepSeek V4が75%のプロモーション割引付きでリリース。割引は5月31日までの予定。
2026年5月22日: DeepSeekが75%割引の恒久化を発表。V4-Proは入力0.435ドル/出力0.87ドルで継続提供。詳細はこちら。
2026年5月27日: XiaomiがMiMo V2.5の価格を入力1ドル/出力3ドルで恒久化し、長文コンテキストの乗数を廃止。詳細はMiMoの値下げに関する記事。

各ラボは同じ方向を向いているわけではありません。DeepSeekはトークン単価、MiMoは長文コンテキスト、QwenとGLMは機能と品質、Kimiはキャッシュ前提のエージェント/コーディングワークフローを狙っています。

一目でわかる：2026年5月の中国LLM APIトップ5

モデル	入力 ($/MTok)	出力 ($/MTok)	キャッシュヒット	コンテキスト	最適な用途
DeepSeek V4-Pro	$0.435	$0.87	$0.003625	128K	トークンあたり最安値、コーディング
Xiaomi MiMo V2.5 Pro	$1.00	$3.00	$0.20	1M	長文RAG、リポジトリエージェント
Alibaba Qwen3 Max	$0.78	$3.90	$0.156	262K	プロダクションのバランス
Moonshot Kimi K2.6	$0.16–$2.00（段階的）	~$2.50	$0.07	128K	長いシステムプロンプト、コーディングエージェント
Zhipu GLM-5	$1.00	$3.20	プロバイダー定義	200K	構造化推論

実装時に見るべきポイントは3つです。

固定料金か段階料金か

DeepSeekとMiMoは固定料金です。月次コストを予測しやすく、プロダクションの容量計画に向いています。段階料金は、長文コンテキストが増えた月に請求額が跳ねる可能性があります。
キャッシュヒット率を別枠で評価する

安定したシステムプロンプトを持つエージェントでは、通常の入力単価ではなくキャッシュヒット単価が効きます。仕組みはプロンプトキャッシングの解説を参照してください。
コンテキスト上限で候補を切る

30万トークンを超えるワークロードでは、MiMo V2.5が実質的な第一候補になります。DeepSeekの128Kではプロンプトが収まらないため、単価だけでは判断できません。

DeepSeek：トークンあたり最安値

モデル: V4-Pro（入力0.435ドル / 出力0.87ドル / キャッシュヒット0.003625ドル、128Kコンテキスト）、V4-Flash（0.14ドル / 0.28ドル）。

DeepSeek V4-Proは、中国の最先端モデルの中で最も低い価格帯にあります。5月22日の恒久的な値下げにより、出力は0.87ドル/MTokとなりました。これはGPT-5.5の約34分の1、Claude Opus 4.7の約17分の1です。キャッシュヒット時の0.003625ドル/MTokも主要ラボの第一者提供レートとして非常に低い水準です。価格はDeepSeek公式料金ページで確認できます。

向いているワークロード

コード生成
エージェントチェーン
コンテンツ生成
出力トークン比率が高い処理
5K〜10Kトークン程度の安定したシステムプロンプトを使う処理
GPT-5.5との差分が許容できるコスト重視のプロダクション

向いていないワークロード

128Kを超える長文ドキュメント処理
100万トークン級のRAG
初回トークンまでの時間が重要なリアルタイムチャット

実装時の判断基準

DeepSeekを使う場合は、まず「128K以内に収まるか」「出力比率が高いか」を確認します。

if context_tokens <= 128_000 and output_heavy:
    use DeepSeek V4-Pro
elif context_tokens > 300_000:
    use MiMo V2.5 Pro
else:
    benchmark DeepSeek vs Qwen vs GLM

詳細はこちら：

Xiaomi MiMo：100万コンテキストで最安の選択肢

モデル: MiMo V2.5 Pro（入力1.00ドル / 出力3.00ドル / キャッシュ0.20ドル、100万コンテキスト）、MiMo V2 Flash（約0.10ドル / 約0.40ドル、256Kコンテキスト）。

Xiaomiは5月27日にMiMo V2.5の価格を恒久的に引き下げ、コンテキストウィンドウ全体で一律料金にしました。以前は256K入力トークンを超えると高い乗数が適用されていましたが、現在は5Kトークンでも950Kトークンでも同じ入力1ドル/出力3ドルです。公式の価格更新通知では、この値下げは恒久的とされています。

向いているワークロード

長文ドキュメントRAG
リポジトリ全体のコード分析
複数ドキュメントの要約
30万〜100万トークンのコンテキスト処理
コスト予測が重要な大量ドキュメント処理

向いていないワークロード

短いプロンプトのチャット
DeepSeekの128K以内に収まる出力重視の処理
サブ秒応答が必要なリアルタイム処理

実装時の判断基準

MiMoは「長文が入るから使う」モデルです。短文処理に使うとDeepSeekより高くなりやすいため、ルーティングで分けるのが実用的です。

function routeModel({ inputTokens, needsLongContext }) {
  if (needsLongContext || inputTokens > 300_000) {
    return "mimo-v2.5-pro";
  }

  if (inputTokens <= 128_000) {
    return "deepseek-v4-pro";
  }

  return "qwen3-max";
}

詳細はこちら：

Alibaba Qwen：プロダクションの主力

モデル: Qwen3 Max（入力0.78ドル / 出力3.90ドル / キャッシュ0.156ドル、262Kコンテキスト）。新しいQwen 3.7 Maxは入力2.50ドル/MTok、100万コンテキストで早期展開中です。価格はpricepertokenのQwen3 Maxシートで確認されています。

Qwen3 MaxはAlibabaのフラッグシップであり、国際的なプロダクションでも広く使われている中国製モデルです。DeepSeek V4-Proと比較すると、入力で約1.8倍、出力で約4.5倍です。ただし、Anthropicプロトコル互換、OpenAI互換、Alibaba Cloudエンタープライズホスティング、262Kコンテキストなど、プロダクション運用に必要な要素がそろっています。

向いているワークロード

多言語プロダクション
中国語・アジア言語を含むカスタマーサポート
企業コンプライアンス要件がある処理
Alibaba Cloud上でのエンタープライズ展開
20万〜26.2万トークン程度のドキュメント処理

向いていないワークロード

出力トークンが多く、コスト最小化が最優先の処理
DeepSeekの品質で十分なコード生成やコンテンツ生成

実装時の判断基準

Qwenは「安さ」ではなく「安定したプロダクション品質」で選ぶモデルです。特に多言語処理では、DeepSeekやMiMoだけでなくQwenを評価セットに入れるべきです。

詳細はこちら：

Qwen 3 vs OpenAI & DeepSeek：API開発者向けの詳細な技術比較

Moonshot Kimi：コーディングのスペシャリスト

モデル: Kimi K2.6。入力価格は8K、32K、64K、128Kのバンドで0.16ドル〜2.00ドル/MTok。キャッシュヒット最低価格は0.07ドル/MTok。中間バンドでの出力レートは約2.50ドル/MTok。

Kimi K2.6はキャッシュヒットを前提にすると強力です。0.07ドル/MTokのキャッシュヒット価格と、ツール呼び出し・長時間実行エージェントのサポートを組み合わせることで、同じシステムプロンプトを何度も使うワークフローでコストを抑えられます。

向いているワークロード

コーディングエージェント
Claude Codeスタイルの開発支援
安定したシステムプロンプトを持つチャットセッション
同じfew-shot例を繰り返し使うワークフロー
ツール呼び出しを多用するエージェント

向いていないワークロード

リクエストごとにプレフィックスが変わる処理
コンテキスト長が日によって大きく変動する処理
月次コストを厳密に固定したい処理

キャッシュ前提の実装パターン

Kimiを使う場合は、システムプロンプトとfew-shot例をできるだけ固定します。以下のように、可変部分を最後に寄せる構成にします。

[固定] system prompt
[固定] tool instructions
[固定] few-shot examples
[可変] user request
[可変] retrieved context

キャッシュヒット率を上げるには、次のような変更を避けます。

毎回タイムスタンプをsystem promptに入れる
ユーザーIDやセッションIDを固定プレフィックス内に入れる
few-shot例の順序をランダムに変える
ツール定義のJSON順序を毎回変える

詳細はこちら：

2026年、Kimi K2 APIの価格設定は開発者にとって本当に注目に値するのか？

Zhipu GLM：推論の挑戦者

モデル: GLM-5（入力1.00ドル / 出力3.20ドル、200Kコンテキスト）、GLM-5.1（0.98ドル / 3.08ドル、200Kコンテキスト）。価格はZ.AIの公式料金概要で確認されています。

ZhipuのGLM-5は、GLM-4.7から30%の価格上昇でリリースされました。その後、GLM-5.1はわずかに割引された価格で登場しています。最安ではありませんが、構造化推論と思考連鎖タスクに強いモデルです。

向いているワークロード

数学
形式推論
構造化された思考連鎖タスク
財務分析
法的要約
科学的推論
多段階エージェントワークフロー

向いていないワークロード

コスト最優先のアプリケーション
単純なコンテンツ生成
単純な要約
強い推論性能が価値につながらない処理

実装時の判断基準

GLMは「間違った回答のコストが高い」処理で評価すべきです。単価だけを見ると高めですが、財務・法務・科学領域では、出力品質の差がコスト差を上回る場合があります。

詳細はこちら：

ワークロードごとの最安値：購入者マトリックス

ワークロード	勝者	理由
コード生成（出力重視）	DeepSeek V4-Pro	出力0.87ドル/MTokが最安水準
長文RAG（30万以上のコンテキスト）	Xiaomi MiMo V2.5 Pro	100万コンテキストで固定価格
安定したシステムプロンプトを持つコーディングエージェント	Kimi K2.6	キャッシュヒット0.07ドル/MTok
多言語カスタマーサポート	Alibaba Qwen3 Max	英語以外の言語で強い
数学、形式推論、構造化分析	Zhipu GLM-5	思考連鎖の品質が高い

実装で使えるルーティング方針

単一モデルに固定するより、ワークロードごとにルーティングした方がコストを抑えやすくなります。

function selectModel(task) {
  const {
    inputTokens,
    outputHeavy,
    needsLongContext,
    needsMultilingual,
    needsFormalReasoning,
    stableSystemPrompt,
    isCodingAgent,
  } = task;

  if (needsFormalReasoning) {
    return "glm-5";
  }

  if (needsLongContext || inputTokens > 300_000) {
    return "mimo-v2.5-pro";
  }

  if (needsMultilingual) {
    return "qwen3-max";
  }

  if (isCodingAgent && stableSystemPrompt) {
    return "kimi-k2.6";
  }

  if (outputHeavy && inputTokens <= 128_000) {
    return "deepseek-v4-pro";
  }

  return "qwen3-max";
}

実運用では、次の3パターンが有効です。

1. 2モデルルーティング

多くのプロダクションチームは、トラフィックの70〜85%をDeepSeek V4-Proに流し、難しいリクエストだけを別モデルに回します。これにより、品質低下を抑えながら大きなコスト削減ができます。

2. 長文コンテキストの分離

短いコンテキストはDeepSeek、長いコンテキストはMiMoに回します。請求先は増えますが、コスト差は無視できません。

3. キャッシュプレフィックスの統合

どのモデルを使う場合でも、システムプロンプトの固定化は有効です。キャッシュヒット率を上げるだけで、モデル移行なしにコストを下げられます。

品質とベンチマークに関する注記

価格が安くても、モデルがワークロードを処理できなければ意味がありません。

Artificial Analysisによると、この比較に含まれる5モデルは、多くの公開ベンチマークで互いに5〜10パーセントポイントの範囲内に集まっています。差が出やすい領域は以下です。

DeepSeek V4-Pro: コーディング（SWE-bench Proで約55%）と推論（GPQAで約90%）に強い。長期的エージェントタスクではGPT-5.5にわずかな差。
MiMo V2.5 Pro: 長文コンテキスト検索に強く、80万トークンで95%以上の精度。コーディングは中程度。
Qwen3 Max: 英語以外の言語で高いパフォーマンス。一般的なプロダクション品質も強い。
Kimi K2.6: ツール呼び出しフォーマットへの準拠が強い。特に並列ツール呼び出しに向く。
GLM-5: このグループで思考連鎖推論品質が高い。

導入前には、公開ベンチマークだけでなく、自社トラフィックに近い100サンプル評価を実行してください。

評価セット例:
- 20件: 通常チャット
- 20件: コード生成
- 20件: RAG
- 20件: 長文要約
- 20件: 失敗すると困る高難度ケース

各モデルに同じ入力を投げ、以下を記録します。

正答率
人手評価スコア
入力トークン数
出力トークン数
レイテンシ
推定コスト
JSON/tool callの妥当性

Apidogですべての5モデルをテストする

マルチモデルのプロダクション展開には、マルチモデルのテストハーネスが必要です。Apidogを使うと、これら5つの中国製APIを1つのワークスペースから比較できます。5モデルはいずれも、細かな互換性の違いはあるものの、OpenAI Chat Completions形式のリクエストボディを受け入れます。

手順は次の通りです。

Apidogでプロバイダーごとに環境を作成します。
- api.deepseek.com
- platform.xiaomimimo.com
- Alibaba Cloud Model Studio
- api.moonshot.cn
- open.bigmodel.cn
OpenAI Chat Completionスキーマを一度インポートします。
環境ごとにベースURLを切り替えます。
同じテストシナリオを5モデルすべてで実行します。
レスポンス、スコア、レイテンシ、コストを比較します。
tool_callsの形状に対してJSON Schema検証を追加し、各プロバイダー固有のストリーミング形式の違いを検出します。

OpenAI互換の最小リクエスト例は次のようになります。

curl "$BASE_URL/v1/chat/completions" \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "'"$MODEL"'",
    "messages": [
      {
        "role": "system",
        "content": "あなたはAPIテストを支援するアシスタントです。"
      },
      {
        "role": "user",
        "content": "このAPIレスポンスを要約してください。"
      }
    ],
    "temperature": 0.2
  }'

Apidogをダウンロードし、テストケースをインポートすれば、短時間で5モデル比較を始められます。関連する詳細記事はこちらです。

価格競争の今後の行方

価格の最低ラインは5月に2回動きました。第3四半期が終わるまでに、さらに動きがある可能性があります。

Qwenの対応: Alibabaは最初に値下げすることは少ないものの、数週間以内に追随する傾向があります。7月までにQwen3 Maxの改訂またはQwen 3.8の発表が予想されます。
GLMの対応: ZhipuがGLM-5で30%の価格上昇を行ったことは、価格競争の中では逆行的に見えます。構造的な値下げを伴うGLM-5.2が登場する可能性があります。
Kimiの料金体系簡素化: 段階的なコンテキスト価格設定は古くなりつつあります。MoonshotがK2.6をMiMoに近い固定構造へ寄せる可能性があります。

今やるべきことは3つです。

上記の購入者マトリックスに対して、上位3つのワークロードを照合する。
今週、1つのワークロードでモデル移行テストを実行する。
キャッシュプレフィックスを固定し、システムプロンプトを再利用しやすくする。
5プロバイダーすべてを指すApidog回帰テストスイートを作る。

価格の最低ラインはまだ下がり続けています。次の値下げを待つのではなく、モデルを切り替えられる構成にしておくことが重要です。

DEV Community

2026年中国LLM価格競争：最前線APIコストトップ5比較

要約

2026年中国LLM価格競争の展開

一目でわかる：2026年5月の中国LLM APIトップ5

DeepSeek：トークンあたり最安値

向いているワークロード

向いていないワークロード

実装時の判断基準

Xiaomi MiMo：100万コンテキストで最安の選択肢

向いているワークロード

向いていないワークロード

実装時の判断基準

Alibaba Qwen：プロダクションの主力

向いているワークロード

向いていないワークロード

実装時の判断基準

Moonshot Kimi：コーディングのスペシャリスト

向いているワークロード

向いていないワークロード

キャッシュ前提の実装パターン

Zhipu GLM：推論の挑戦者

向いているワークロード

向いていないワークロード

実装時の判断基準

ワークロードごとの最安値：購入者マトリックス

実装で使えるルーティング方針

1. 2モデルルーティング

2. 長文コンテキストの分離

3. キャッシュプレフィックスの統合

品質とベンチマークに関する注記

Apidogですべての5モデルをテストする

価格競争の今後の行方

Top comments (0)