DEV Community

Cover image for 2026年 Xiaomi MiMo V2.5 の利用料金はいくら?
Akira
Akira

Posted on • Originally published at apidog.com

2026年 Xiaomi MiMo V2.5 の利用料金はいくら?

Xiaomi MiMo V2.5 APIの料金は、2026年5月27日から恒久的に引き下げられました。新料金は入力100万トークンあたり1ドル、出力100万トークンあたり3ドルです。以前のように、256Kトークンを超える長文コンテキストで急激に料金倍率が上がる仕組みは廃止されました。コンテキスト長に関係なく、料金は一律です。実装者にとって重要なのは、MiMo V2.5が1Mコンテキストを扱える低価格モデルの有力候補になったことです。

今すぐApidogを試す

要約

  • Xiaomi MiMo V2.5の2026年5月27日からの恒久料金
    • 入力: 100万トークンあたり $1.00
    • 出力: 100万トークンあたり $3.00
    • キャッシュ: 100万トークンあたり $0.20
    • コンテキストウィンドウ: 1Mトークン
  • 「最大99%オフ」 は、主に旧長文コンテキスト料金との比較です。以前は256Kを超える入力で料金が急増していましたが、新料金ではその倍率がなくなりました。
  • トークンプラン利用者 は、有効期間内の使用済みクレジットがリセットされ、クォータが5倍から8倍に増加しました。
  • この値下げは恒久的 です。Xiaomiの公式通知では「モデル全体の料金体系を恒久的に刷新する」と説明されています。
  • 背景: Xiaomiは、今週フロンティア層モデルを恒久値下げした中国ラボとしては2例目です。DeepSeekは3日前にV4-Proを定価の4分の1で恒久化しました。

2026年5月27日に何が変わったか

Xiaomiの公式価格更新通知では、3つの変更が発表されています。すべて2026年5月27日 北京時間00:00、UTCでは5月26日16:00に発効しました。

Xiaomi MiMo V2.5 price update

1. コンテキストウィンドウ全体で一律料金になった

以前のMiMo V2.5は段階制でした。

  • 32K入力トークンまで: 基本料金
  • 32K〜256K: 倍率適用
  • 256K超: さらに高い倍率適用

新料金では、トークン種別ごとに1つの価格だけです。

つまり、長文コンテキストを使うRAG、コードベース解析、契約書レビュー、ログ解析などで、コンテキスト長による追加料金を考えなくてよくなります。

2. プロモーションではなく恒久料金

通知では「恒久的値下げ」という表現が複数回使われています。有効期限や終了条件は示されていません。

実装・予算設計では、短期キャンペーンではなく新しい定価として扱うのが妥当です。

3. トークンプランのクレジットがリセットされた

Xiaomiのプリペイドクォータであるトークンプランを利用している場合、以下の調整が行われました。

  • クレジット残高が5倍から8倍に増加
  • 有効期間内に消費済みのクレジットが返金
  • 有効期間そのものは延長されない

既存プランは予算面で有利になりましたが、利用期間が伸びたわけではありません。

Xiaomi MiMo V2.5 token plan update

「最大99%オフ」という主張は、特に旧長文コンテキスト帯との比較で意味があります。256K以上の入力トークンに対する旧料金は非常に高かったため、100万トークンあたり1ドルに一律化されることで、90%以上の削減になるケースがあります。

新しい恒久料金表

100万トークンあたりの料金は次のとおりです。

モデル 入力 出力 キャッシュ コンテキスト
MiMo V2.5 Pro $1.00 $3.00 $0.20 1Mトークン
MiMo V2 Flash ~$0.10 ~$0.40 $0.02 256Kトークン

実装時に見るべきポイントは3つあります。

  • キャッシュ料金は入力料金の5分の1

    V2.5 Proでは、キャッシュ済み入力が100万トークンあたり$0.20です。繰り返し使うシステムプロンプトや共通コンテキストでは有効ですが、DeepSeekの入力ミス対入力ヒットの120:1という比率ほど大きな割引ではありません。

  • 1Mコンテキストウィンドウが重要

    多くのフロンティアモデルは200K〜400K付近で上限があります。MiMo V2.5 Proは、より大きなドキュメントやコードベースをそのまま投入しやすいモデルです。

  • V2.5 OmniとTTSバリアントは別途確認が必要

    通知では言及されていますが、詳細は限定的です。利用前にプラットフォーム上の最新料金を確認してください。

以前のV2-Pro料金を確認したい場合は、常設のMiMo V2-Pro & Omni 料金ガイドも参考になります。

MiMo V2.5が低価格以外にもたらすもの

5月27日の発表は主に価格変更ですが、V2.5自体も4月にリリースされたV2-Proから更新されています。実装上見るべき点は以下です。

1. 長文コンテキストでの検索品質

V2.5 Proは1Mトークンの理論的ウィンドウを維持しています。Xiaomiは、長文コンテキストモデルで性能が落ちやすい200K〜800Kの範囲で検索品質を改善したとしています。Needle-in-haystackの精度は800Kトークンまで95%以上を維持します。

長文RAGを試す場合は、次のような評価セットを用意してください。

  • 50K、200K、500K、800Kの入力長
  • ドキュメント先頭・中央・末尾に正解を配置
  • 回答の正確性だけでなく、引用位置の再現性も検証

2. ツール呼び出し形式の改善

V2-Proでは、ストリーミング応答内で並列ツール呼び出しが不正なJSONを返す既知の問題がありました。V2.5では失敗が減少したとされていますが、ゼロではありません。

本番投入時は、必ずJSONスキーマ検証を挟んでください。

import Ajv from "ajv";

const ajv = new Ajv();

const toolCallSchema = {
  type: "object",
  required: ["name", "arguments"],
  properties: {
    name: { type: "string" },
    arguments: { type: "object" }
  },
  additionalProperties: false
};

const validate = ajv.compile(toolCallSchema);

function assertValidToolCall(toolCall: unknown) {
  if (!validate(toolCall)) {
    throw new Error(`Invalid tool call: ${ajv.errorsText(validate.errors)}`);
  }

  return toolCall;
}
Enter fullscreen mode Exit fullscreen mode

3. トレーニングコーパスの更新

V2.5は2026年第1四半期までのデータでトレーニングされています。引用情報や知識カットオフは、V2-Proより約3ヶ月新しくなっています。

ただし、知識の新しさに依存するワークロードでは、モデル知識だけに頼らず、検索や社内ナレッジベースを接続してください。

MiMo V2.5が他のモデルとどう比較されるか

比較すべき相手は、V2.5の旧料金だけではありません。2026年5月時点で利用できる他のフロンティア層APIと比べる必要があります。

モデル 入力 ($/MTok) 出力 ($/MTok) コンテキスト
Xiaomi MiMo V2.5 Pro $1.00 $3.00 1M
DeepSeek V4-Pro $0.435 $0.87 128K
GPT-5.5 $5.00 $30.00 200K
Claude Opus 4.7 $3.00 $15.00 200K
Gemini 3.5 Flash ~$1.50 ~$9.00 1M

実装判断では、次の3点を見てください。

  • トークン単価だけならDeepSeek V4-Proが安い

    入力で約2.3倍、出力で約3.5倍安価です。短いコンテキストでコストだけを見るならDeepSeekが有利です。

  • 1Mコンテキストが必要ならMiMo V2.5が有力

    表内で他に1Mコンテキストを持つのはGemini 3.5 Flashですが、入力で約1.5倍、出力で約3倍高価です。

  • GPT-5.5との価格差が大きい

    Artificial Analysisによると、MiMo V2.5は同様のベンチマーク性能を持ちながら、GPT-5.5と比較して入力で5倍、出力で10倍安価です。

DeepSeek側の動きについては、DeepSeek V4-Pro 75%値下げが恒久化を参照してください。

3つのワークロード、3つの新しい費用

新料金で、既存ワークロードの見積もりを再計算してみます。

1. 企業PDFに対する長文ドキュメントRAG

条件:

  • 1日あたり50,000クエリ
  • クエリあたり800K入力トークン
  • 回答あたり1K出力トークン

比較:

  • 旧MiMo V2.5長文コンテキスト層: 月額約$60,000
  • 新MiMo V2.5一律料金: 月額約$1,225

削減額: 月額約$58,775

このケースが、MiMo V2.5の価格改定で最も影響を受ける領域です。以前は要約やチャンキングが必須だった入力を、そのままモデルに渡せる可能性があります。

2. コードレビューエージェント

条件:

  • 1日あたり5,000プルリクエスト
  • PRあたり30Kトークンのリポジトリコンテキスト
  • 2Kトークンのコメント出力

比較:

  • GPT-5.5: 月額約$5,250
  • MiMo V2.5: 月額約$510

削減額: 月額約$4,740

リポジトリ全体の構造や複数ファイルの依存関係をプロンプトに含めたい場合、200K未満でもコスト削減効果があります。

3. カスタマーサポートチャットボット

条件:

  • 1日あたり200,000ターン
  • 4Kトークンのシステムプロンプト
  • 300トークンの応答

比較:

  • Claude Opus 4.7: 月額約$11,250
  • MiMo V2.5: 月額約$805

削減額: 月額約$10,445

システムプロンプトが固定されている場合は、キャッシュも追加で効きます。

コスト計算をコード化する

料金変更のたびにスプレッドシートを直すより、モデル別の単価をコードにしておくと検証が速くなります。

type Pricing = {
  inputPerMTok: number;
  outputPerMTok: number;
  cachedInputPerMTok?: number;
};

const mimoV25Pro: Pricing = {
  inputPerMTok: 1.0,
  outputPerMTok: 3.0,
  cachedInputPerMTok: 0.2
};

function estimateCost(params: {
  inputTokens: number;
  outputTokens: number;
  cachedInputTokens?: number;
  pricing: Pricing;
}) {
  const {
    inputTokens,
    outputTokens,
    cachedInputTokens = 0,
    pricing
  } = params;

  const uncachedInputTokens = Math.max(inputTokens - cachedInputTokens, 0);

  const inputCost =
    (uncachedInputTokens / 1_000_000) * pricing.inputPerMTok;

  const cachedInputCost =
    (cachedInputTokens / 1_000_000) *
    (pricing.cachedInputPerMTok ?? pricing.inputPerMTok);

  const outputCost =
    (outputTokens / 1_000_000) * pricing.outputPerMTok;

  return inputCost + cachedInputCost + outputCost;
}

const dailyCost = estimateCost({
  inputTokens: 800_000 * 50_000,
  outputTokens: 1_000 * 50_000,
  pricing: mimoV25Pro
});

console.log(`Daily cost: $${dailyCost.toFixed(2)}`);
Enter fullscreen mode Exit fullscreen mode

このようにしておくと、モデル切り替え時に単価だけを差し替えて比較できます。

キャッシュヒットに関する短い注意

MiMo V2.5 Proのキャッシュ済み入力料金は、100万トークンあたり$0.20です。通常入力の$1.00に対して5分の1です。

例として、次のチャットボットを考えます。

  • システムプロンプト: 6,000トークン
  • 1日あたり80,000ターン
  • 平均ユーザーメッセージ: 250入力トークン
  • 平均応答: 600出力トークン

キャッシュヒットなし

80,000ターン × 6,250入力トークン × $1.00 / 1,000,000
= 入力のみで1日あたり約$500
Enter fullscreen mode Exit fullscreen mode

システムプロンプトの60%がキャッシュヒット

80,000 × (250 × $1.00 + 6,000 × (0.6 × $0.20 + 0.4 × $1.00)) / 1,000,000
= 1日あたり約$271
Enter fullscreen mode Exit fullscreen mode

入力コストは約46%削減されます。

キャッシュヒット率を上げるには、次を徹底してください。

  • システムプロンプトを固定する
  • 取得したコンテキストの並び順を安定させる
  • タイムスタンプやランダムIDをプレフィックスに入れない
  • ユーザー固有情報を共通プレフィックスに混ぜない

プロンプトキャッシュの基本は、プロンプトキャッシュがLLMのパフォーマンスを向上させコストを削減する方法でも確認できます。

MiMo V2.5が適切な場合とそうでない場合

新料金では、MiMo V2.5はすべての用途で最適というより、特定のワークロードで強くなりました。

適切な場合

長文ドキュメントRAG

契約書、研究資料、企業PDF、監査ログなど、200Kトークンを超える入力を自然に扱うワークロードに向いています。

従来のように、次の処理を過度に複雑化しなくて済む可能性があります。

  • aggressiveなチャンキング
  • 多段要約
  • コンテキスト圧縮
  • 関連箇所の過剰なフィルタリング

コードベースエージェント

リポジトリ全体、複数サービス間の依存関係、広範囲のリファクタリングを扱う場合に向いています。

実装時は、次のようなプロンプト構成にすると評価しやすくなります。

[固定システムプロンプト]
- レビュー方針
- 出力フォーマット
- セキュリティ観点
- 変更提案ルール

[リポジトリ概要]
- ディレクトリ構造
- 主要モジュール
- 依存関係

[変更差分]
- PR diff
- 関連ファイル
- テスト結果

[出力要求]
- リスク一覧
- 修正案
- 追加テスト案
Enter fullscreen mode Exit fullscreen mode

大量ドキュメント処理

一律料金なので、バッチ処理の見積もりが簡単です。同じプレフィックスを繰り返す処理では、キャッシュ料金も効きます。

不適切な場合

レイテンシが重要なインタラクティブチャット

MiMo V2.5 Proは、最速のファーストトークンモデルではありません。タイプアヘッド、オートコンプリート、1秒未満の応答が必要なチャットでは、DeepSeek V4-FlashやGemini 3.5 Flashのほうが適する可能性があります。

注意点

データレジデンシー

呼び出しは中国にあるXiaomiのインフラを経由します。調達、法務、データ管理の観点では、DeepSeekと同様の確認が必要です。

信頼性

XiaomiのファーストパーティAPIは、米国でホストされているフロンティアモデルより運用履歴が短いです。SLAが必要な本番用途では、OpenRouterや他のアグリゲーター経由も検討してください。

関数呼び出しの互換性

スキーマレベルではOpenAI互換ですが、ストリーミングツール引数や並列ツール呼び出しにエッジケースがあります。出荷前に、自分のツール定義で必ず検証してください。

V2.5の前提となるV2-Proのローンチ背景は、Xiaomiが独自のAIモデルをリリース、OpenRouterで無料で確認できます。無料ティアについては、Xiaomi MiMo Orbit無料100Tトークンプログラムで資格と登録方法を説明しています。

移行前に行う評価手順

既存モデルからMiMo V2.5へ切り替える前に、次の順で評価すると安全です。

1. 既存ワークロードのトークン量を集計する

最低限、以下をログから出します。

  • 1リクエストあたりの入力トークン
  • 1リクエストあたりの出力トークン
  • 1日あたりのリクエスト数
  • 固定プレフィックスの長さ
  • キャッシュ可能な入力割合
  • p50 / p95 / p99 レイテンシ

2. 同じプロンプトで100サンプル評価を行う

現在使っているモデルとMiMo V2.5に、同一入力を投げて比較します。

評価項目の例:

  • 正確性
  • 引用の正しさ
  • JSON出力の妥当性
  • ツール呼び出しの成功率
  • レイテンシ
  • 出力トークン数
  • 人手レビューでの採用率

3. 長文入力では位置別に評価する

1Mコンテキストを使う場合、正解の位置によって性能が変わることがあります。

次のように正解位置を分けてテストしてください。

  • 先頭10%
  • 中央付近
  • 末尾10%
  • 複数箇所に分散
  • ノイズ文書の間

4. JSONとツール呼び出しは失敗時のリトライを設計する

ツール呼び出しを使う場合は、以下を実装してください。

  • JSONスキーマ検証
  • パース失敗時の再生成
  • tool nameのallowlist検証
  • argumentsの型検証
  • タイムアウト
  • 並列ツール呼び出しの上限

2026年のLLM価格競争の現状

MiMo V2.5は、わずか1週間のうちに中国のラボが行った2回目のフロンティア層モデル恒久値下げです。

  • DeepSeekは5月22日にV4-Proを定価の4分の1で恒久化
  • Kimi K2は第1四半期に値下げ
  • OpenAI O3は2月に80%値下げ

傾向は明確です。

  • 中国のラボは価格で競争している

    これらの値下げはプロモーションではなく、構造的なものです。

  • 米国のラボは機能とバンドルで競争している

    OpenAIとAnthropicはフラッグシップ層の価格を維持し、思考モード、MCPサーバー、エージェントワークフローなどでプレミアムを正当化しています。

  • ベンチマーク差だけで判断しない

    Artificial Analysisによると、MiMo V2.5の公開ベンチマークは、多くのコーディング・推論タスクでGPT-5.5と1桁台のパーセンテージポイント差に収まっています。実ワークロードで再テストすべきです。

関連する価格動向は次の記事で確認できます。

これがあなたの構築にどう影響するか

MiMo V2.5の値下げは、単なるマーケティング施策ではありません。1Mコンテキスト層の構造的な再価格設定です。

コストを理由に次のような機能を延期していた場合は、見積もりをやり直す価値があります。

  • 長文ドキュメントRAG
  • リポジトリ全体を読むコードエージェント
  • 200Kトークン以上の入力を使う分析ワークロード
  • 大量の固定プロンプトを使うバッチ処理

実行すべき次のステップは3つです。

  1. トークンボリューム上位3つのワークロードを再計算する

    新しい一律料金で、入力・出力・キャッシュを分けて見積もってください。

  2. MiMo V2.5 Proと現行モデルを100サンプルで比較する

    品質、レイテンシ、JSON妥当性、ツール呼び出し成功率を同じ入力で比較します。

  3. Apidogで回帰テストを用意する

    次の値下げやモデル追加が来たときに、数週間ではなく数時間で再評価できるようにします。

価格の下限は再び動きました。長文コンテキストを前提にした設計を、もう一度見直すタイミングです。

Top comments (0)