中国のラボは2026年前半にLLM API価格を6回引き下げ、そのうち3回は恒久的な値下げとされています。2026年5月時点で、DeepSeek V4-Proは出力トークン100万あたり0.87ドル、Xiaomi MiMo V2.5は長文コンテキストでも出力3ドルの固定料金、Alibaba Qwen3 Maxは3.90ドル、Moonshot Kimi K2.6はキャッシュヒット0.07ドル、Zhipu GLM-5は出力3.20ドルです。この記事では、中国トップ5のフロンティアAPIを、価格・コンテキスト・キャッシュ・実装時の選び方で比較します。
要約
- トークンあたり最安値(出力): DeepSeek V4-Pro、0.87ドル/MTok。GPT-5.5の約34分の1の価格。
- 100万コンテキストで最安値: Xiaomi MiMo V2.5 Pro、出力3ドル/MTok。入力長に関わらず一律。
- 一般的なプロダクションにおける価格と品質のバランス: Alibaba Qwen3 Max、出力3.90ドル/MTok、262Kコンテキスト。
- 長いシステムプロンプトのキャッシュ最適化: Moonshot Kimi K2.6、キャッシュヒット0.07ドル/MTok。
- 推論負荷の高いワークロード: Zhipu GLM-5、出力3.20ドル/MTok、200Kコンテキスト。
- 5つのラボすべてが価格競争をしています。DeepSeek、MiMo、Kimiの3社は2026年の価格改定を恒久的なものとしています。
2026年中国LLM価格競争の展開
価格競争は2025年第4四半期に始まり、2026年第2四半期に加速しました。主な流れは次の通りです。
- 2025年第4四半期: DeepSeek V3.2が入力0.28ドル/MTokでリリースされ、米国の最先端モデルを大きく下回る価格を提示。Kimi K2.6も続き、コンテキスト長に応じた段階的価格設定と、キャッシュヒット0.07ドル/MTokを導入。
- 2026年3月: XiaomiがMiMo V2-ProをOpenRouterで発表。価格は競争力があるものの、段階的な料金体系。
- 2026年4月: DeepSeek V4が75%のプロモーション割引付きでリリース。割引は5月31日までの予定。
- 2026年5月22日: DeepSeekが75%割引の恒久化を発表。V4-Proは入力0.435ドル/出力0.87ドルで継続提供。詳細はこちら。
- 2026年5月27日: XiaomiがMiMo V2.5の価格を入力1ドル/出力3ドルで恒久化し、長文コンテキストの乗数を廃止。詳細はMiMoの値下げに関する記事。
各ラボは同じ方向を向いているわけではありません。DeepSeekはトークン単価、MiMoは長文コンテキスト、QwenとGLMは機能と品質、Kimiはキャッシュ前提のエージェント/コーディングワークフローを狙っています。
一目でわかる:2026年5月の中国LLM APIトップ5
| モデル | 入力 ($/MTok) | 出力 ($/MTok) | キャッシュヒット | コンテキスト | 最適な用途 |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | トークンあたり最安値、コーディング |
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | 長文RAG、リポジトリエージェント |
| Alibaba Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | プロダクションのバランス |
| Moonshot Kimi K2.6 | $0.16–$2.00(段階的) | ~$2.50 | $0.07 | 128K | 長いシステムプロンプト、コーディングエージェント |
| Zhipu GLM-5 | $1.00 | $3.20 | プロバイダー定義 | 200K | 構造化推論 |
実装時に見るべきポイントは3つです。
固定料金か段階料金か
DeepSeekとMiMoは固定料金です。月次コストを予測しやすく、プロダクションの容量計画に向いています。段階料金は、長文コンテキストが増えた月に請求額が跳ねる可能性があります。キャッシュヒット率を別枠で評価する
安定したシステムプロンプトを持つエージェントでは、通常の入力単価ではなくキャッシュヒット単価が効きます。仕組みはプロンプトキャッシングの解説を参照してください。コンテキスト上限で候補を切る
30万トークンを超えるワークロードでは、MiMo V2.5が実質的な第一候補になります。DeepSeekの128Kではプロンプトが収まらないため、単価だけでは判断できません。
DeepSeek:トークンあたり最安値
モデル: V4-Pro(入力0.435ドル / 出力0.87ドル / キャッシュヒット0.003625ドル、128Kコンテキスト)、V4-Flash(0.14ドル / 0.28ドル)。
DeepSeek V4-Proは、中国の最先端モデルの中で最も低い価格帯にあります。5月22日の恒久的な値下げにより、出力は0.87ドル/MTokとなりました。これはGPT-5.5の約34分の1、Claude Opus 4.7の約17分の1です。キャッシュヒット時の0.003625ドル/MTokも主要ラボの第一者提供レートとして非常に低い水準です。価格はDeepSeek公式料金ページで確認できます。
向いているワークロード
- コード生成
- エージェントチェーン
- コンテンツ生成
- 出力トークン比率が高い処理
- 5K〜10Kトークン程度の安定したシステムプロンプトを使う処理
- GPT-5.5との差分が許容できるコスト重視のプロダクション
向いていないワークロード
- 128Kを超える長文ドキュメント処理
- 100万トークン級のRAG
- 初回トークンまでの時間が重要なリアルタイムチャット
実装時の判断基準
DeepSeekを使う場合は、まず「128K以内に収まるか」「出力比率が高いか」を確認します。
if context_tokens <= 128_000 and output_heavy:
use DeepSeek V4-Pro
elif context_tokens > 300_000:
use MiMo V2.5 Pro
else:
benchmark DeepSeek vs Qwen vs GLM
詳細はこちら:
Xiaomi MiMo:100万コンテキストで最安の選択肢
モデル: MiMo V2.5 Pro(入力1.00ドル / 出力3.00ドル / キャッシュ0.20ドル、100万コンテキスト)、MiMo V2 Flash(約0.10ドル / 約0.40ドル、256Kコンテキスト)。
Xiaomiは5月27日にMiMo V2.5の価格を恒久的に引き下げ、コンテキストウィンドウ全体で一律料金にしました。以前は256K入力トークンを超えると高い乗数が適用されていましたが、現在は5Kトークンでも950Kトークンでも同じ入力1ドル/出力3ドルです。公式の価格更新通知では、この値下げは恒久的とされています。
向いているワークロード
- 長文ドキュメントRAG
- リポジトリ全体のコード分析
- 複数ドキュメントの要約
- 30万〜100万トークンのコンテキスト処理
- コスト予測が重要な大量ドキュメント処理
向いていないワークロード
- 短いプロンプトのチャット
- DeepSeekの128K以内に収まる出力重視の処理
- サブ秒応答が必要なリアルタイム処理
実装時の判断基準
MiMoは「長文が入るから使う」モデルです。短文処理に使うとDeepSeekより高くなりやすいため、ルーティングで分けるのが実用的です。
function routeModel({ inputTokens, needsLongContext }) {
if (needsLongContext || inputTokens > 300_000) {
return "mimo-v2.5-pro";
}
if (inputTokens <= 128_000) {
return "deepseek-v4-pro";
}
return "qwen3-max";
}
詳細はこちら:
Alibaba Qwen:プロダクションの主力
モデル: Qwen3 Max(入力0.78ドル / 出力3.90ドル / キャッシュ0.156ドル、262Kコンテキスト)。新しいQwen 3.7 Maxは入力2.50ドル/MTok、100万コンテキストで早期展開中です。価格はpricepertokenのQwen3 Maxシートで確認されています。
Qwen3 MaxはAlibabaのフラッグシップであり、国際的なプロダクションでも広く使われている中国製モデルです。DeepSeek V4-Proと比較すると、入力で約1.8倍、出力で約4.5倍です。ただし、Anthropicプロトコル互換、OpenAI互換、Alibaba Cloudエンタープライズホスティング、262Kコンテキストなど、プロダクション運用に必要な要素がそろっています。
向いているワークロード
- 多言語プロダクション
- 中国語・アジア言語を含むカスタマーサポート
- 企業コンプライアンス要件がある処理
- Alibaba Cloud上でのエンタープライズ展開
- 20万〜26.2万トークン程度のドキュメント処理
向いていないワークロード
- 出力トークンが多く、コスト最小化が最優先の処理
- DeepSeekの品質で十分なコード生成やコンテンツ生成
実装時の判断基準
Qwenは「安さ」ではなく「安定したプロダクション品質」で選ぶモデルです。特に多言語処理では、DeepSeekやMiMoだけでなくQwenを評価セットに入れるべきです。
詳細はこちら:
Moonshot Kimi:コーディングのスペシャリスト
モデル: Kimi K2.6。入力価格は8K、32K、64K、128Kのバンドで0.16ドル〜2.00ドル/MTok。キャッシュヒット最低価格は0.07ドル/MTok。中間バンドでの出力レートは約2.50ドル/MTok。
Kimi K2.6はキャッシュヒットを前提にすると強力です。0.07ドル/MTokのキャッシュヒット価格と、ツール呼び出し・長時間実行エージェントのサポートを組み合わせることで、同じシステムプロンプトを何度も使うワークフローでコストを抑えられます。
向いているワークロード
- コーディングエージェント
- Claude Codeスタイルの開発支援
- 安定したシステムプロンプトを持つチャットセッション
- 同じfew-shot例を繰り返し使うワークフロー
- ツール呼び出しを多用するエージェント
向いていないワークロード
- リクエストごとにプレフィックスが変わる処理
- コンテキスト長が日によって大きく変動する処理
- 月次コストを厳密に固定したい処理
キャッシュ前提の実装パターン
Kimiを使う場合は、システムプロンプトとfew-shot例をできるだけ固定します。以下のように、可変部分を最後に寄せる構成にします。
[固定] system prompt
[固定] tool instructions
[固定] few-shot examples
[可変] user request
[可変] retrieved context
キャッシュヒット率を上げるには、次のような変更を避けます。
- 毎回タイムスタンプをsystem promptに入れる
- ユーザーIDやセッションIDを固定プレフィックス内に入れる
- few-shot例の順序をランダムに変える
- ツール定義のJSON順序を毎回変える
詳細はこちら:
Zhipu GLM:推論の挑戦者
モデル: GLM-5(入力1.00ドル / 出力3.20ドル、200Kコンテキスト)、GLM-5.1(0.98ドル / 3.08ドル、200Kコンテキスト)。価格はZ.AIの公式料金概要で確認されています。
ZhipuのGLM-5は、GLM-4.7から30%の価格上昇でリリースされました。その後、GLM-5.1はわずかに割引された価格で登場しています。最安ではありませんが、構造化推論と思考連鎖タスクに強いモデルです。
向いているワークロード
- 数学
- 形式推論
- 構造化された思考連鎖タスク
- 財務分析
- 法的要約
- 科学的推論
- 多段階エージェントワークフロー
向いていないワークロード
- コスト最優先のアプリケーション
- 単純なコンテンツ生成
- 単純な要約
- 強い推論性能が価値につながらない処理
実装時の判断基準
GLMは「間違った回答のコストが高い」処理で評価すべきです。単価だけを見ると高めですが、財務・法務・科学領域では、出力品質の差がコスト差を上回る場合があります。
詳細はこちら:
ワークロードごとの最安値:購入者マトリックス
| ワークロード | 勝者 | 理由 |
|---|---|---|
| コード生成(出力重視) | DeepSeek V4-Pro | 出力0.87ドル/MTokが最安水準 |
| 長文RAG(30万以上のコンテキスト) | Xiaomi MiMo V2.5 Pro | 100万コンテキストで固定価格 |
| 安定したシステムプロンプトを持つコーディングエージェント | Kimi K2.6 | キャッシュヒット0.07ドル/MTok |
| 多言語カスタマーサポート | Alibaba Qwen3 Max | 英語以外の言語で強い |
| 数学、形式推論、構造化分析 | Zhipu GLM-5 | 思考連鎖の品質が高い |
実装で使えるルーティング方針
単一モデルに固定するより、ワークロードごとにルーティングした方がコストを抑えやすくなります。
function selectModel(task) {
const {
inputTokens,
outputHeavy,
needsLongContext,
needsMultilingual,
needsFormalReasoning,
stableSystemPrompt,
isCodingAgent,
} = task;
if (needsFormalReasoning) {
return "glm-5";
}
if (needsLongContext || inputTokens > 300_000) {
return "mimo-v2.5-pro";
}
if (needsMultilingual) {
return "qwen3-max";
}
if (isCodingAgent && stableSystemPrompt) {
return "kimi-k2.6";
}
if (outputHeavy && inputTokens <= 128_000) {
return "deepseek-v4-pro";
}
return "qwen3-max";
}
実運用では、次の3パターンが有効です。
1. 2モデルルーティング
多くのプロダクションチームは、トラフィックの70〜85%をDeepSeek V4-Proに流し、難しいリクエストだけを別モデルに回します。これにより、品質低下を抑えながら大きなコスト削減ができます。
2. 長文コンテキストの分離
短いコンテキストはDeepSeek、長いコンテキストはMiMoに回します。請求先は増えますが、コスト差は無視できません。
3. キャッシュプレフィックスの統合
どのモデルを使う場合でも、システムプロンプトの固定化は有効です。キャッシュヒット率を上げるだけで、モデル移行なしにコストを下げられます。
品質とベンチマークに関する注記
価格が安くても、モデルがワークロードを処理できなければ意味がありません。
Artificial Analysisによると、この比較に含まれる5モデルは、多くの公開ベンチマークで互いに5〜10パーセントポイントの範囲内に集まっています。差が出やすい領域は以下です。
- DeepSeek V4-Pro: コーディング(SWE-bench Proで約55%)と推論(GPQAで約90%)に強い。長期的エージェントタスクではGPT-5.5にわずかな差。
- MiMo V2.5 Pro: 長文コンテキスト検索に強く、80万トークンで95%以上の精度。コーディングは中程度。
- Qwen3 Max: 英語以外の言語で高いパフォーマンス。一般的なプロダクション品質も強い。
- Kimi K2.6: ツール呼び出しフォーマットへの準拠が強い。特に並列ツール呼び出しに向く。
- GLM-5: このグループで思考連鎖推論品質が高い。
導入前には、公開ベンチマークだけでなく、自社トラフィックに近い100サンプル評価を実行してください。
評価セット例:
- 20件: 通常チャット
- 20件: コード生成
- 20件: RAG
- 20件: 長文要約
- 20件: 失敗すると困る高難度ケース
各モデルに同じ入力を投げ、以下を記録します。
- 正答率
- 人手評価スコア
- 入力トークン数
- 出力トークン数
- レイテンシ
- 推定コスト
- JSON/tool callの妥当性
Apidogですべての5モデルをテストする
マルチモデルのプロダクション展開には、マルチモデルのテストハーネスが必要です。Apidogを使うと、これら5つの中国製APIを1つのワークスペースから比較できます。5モデルはいずれも、細かな互換性の違いはあるものの、OpenAI Chat Completions形式のリクエストボディを受け入れます。
手順は次の通りです。
-
Apidogでプロバイダーごとに環境を作成します。
api.deepseek.complatform.xiaomimimo.com- Alibaba Cloud Model Studio
api.moonshot.cnopen.bigmodel.cn
OpenAI Chat Completionスキーマを一度インポートします。
環境ごとにベースURLを切り替えます。
同じテストシナリオを5モデルすべてで実行します。
レスポンス、スコア、レイテンシ、コストを比較します。
tool_callsの形状に対してJSON Schema検証を追加し、各プロバイダー固有のストリーミング形式の違いを検出します。
OpenAI互換の最小リクエスト例は次のようになります。
curl "$BASE_URL/v1/chat/completions" \
-H "Authorization: Bearer $API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "'"$MODEL"'",
"messages": [
{
"role": "system",
"content": "あなたはAPIテストを支援するアシスタントです。"
},
{
"role": "user",
"content": "このAPIレスポンスを要約してください。"
}
],
"temperature": 0.2
}'
Apidogをダウンロードし、テストケースをインポートすれば、短時間で5モデル比較を始められます。関連する詳細記事はこちらです。
価格競争の今後の行方
価格の最低ラインは5月に2回動きました。第3四半期が終わるまでに、さらに動きがある可能性があります。
- Qwenの対応: Alibabaは最初に値下げすることは少ないものの、数週間以内に追随する傾向があります。7月までにQwen3 Maxの改訂またはQwen 3.8の発表が予想されます。
- GLMの対応: ZhipuがGLM-5で30%の価格上昇を行ったことは、価格競争の中では逆行的に見えます。構造的な値下げを伴うGLM-5.2が登場する可能性があります。
- Kimiの料金体系簡素化: 段階的なコンテキスト価格設定は古くなりつつあります。MoonshotがK2.6をMiMoに近い固定構造へ寄せる可能性があります。
今やるべきことは3つです。
- 上記の購入者マトリックスに対して、上位3つのワークロードを照合する。
- 今週、1つのワークロードでモデル移行テストを実行する。
- キャッシュプレフィックスを固定し、システムプロンプトを再利用しやすくする。
- 5プロバイダーすべてを指すApidog回帰テストスイートを作る。
価格の最低ラインはまだ下がり続けています。次の値下げを待つのではなく、モデルを切り替えられる構成にしておくことが重要です。

Top comments (0)