Emre Demir

Posted on May 27 • Originally published at apidog.com

Xiaomi MiMo V2.5 Kosten 2026: Preisübersicht

Die Preise für die Xiaomi MiMo V2.5 API sanken am 27. Mai 2026 dauerhaft auf 1 US-Dollar pro Million Input-Token und 3 US-Dollar pro Million Output-Token. Die frühere Long-Context-Stufe mit hohen Multiplikatoren für Prompts über 256K Token entfällt. Für Entwickler heißt das praktisch: MiMo V2.5 ist jetzt eine der günstigsten Produktionsoptionen für 1M-Kontext-Workloads.

Testen Sie Apidog noch heute

Das Wichtigste in Kürze

Dauerhafter Tarif ab 27. Mai 2026: 1,00 $ Input, 3,00 $ Output und 0,20 $ gecached pro Million Token bei einem 1M-Token-Kontextfenster.
Long-Context-Multiplikatoren fallen weg: Der frühere Aufpreis für Prompts über 256K Token wurde durch einen Pauschaltarif ersetzt.
Token-Pläne wurden angepasst: Kunden mit Prepaid-Token-Plänen erhielten eine 5- bis 8-fache Quotensteigerung und eine Rücksetzung der genutzten Credits innerhalb des bestehenden Gültigkeitszeitraums.
Die Senkung ist dauerhaft: Xiaomis Mitteilung beschreibt die Änderung als dauerhafte Erneuerung des Modell-Preissystems.
Entwickler-Relevanz: Workloads mit großen Dokumenten, Codebases oder langen RAG-Kontexten sollten neu kalkuliert und erneut evaluiert werden.

Was sich am 27. Mai 2026 geändert hat

Xiaomis offizielle Mitteilung zur Preisaktualisierung nennt drei Änderungen. Sie traten am 27. Mai um 00:00 Uhr Pekinger Zeit in Kraft, also am 26. Mai um 16:00 Uhr UTC.

1. Ein Preis für alle Kontextlängen

Vorher nutzte MiMo V2.5 gestaffelte Preise:

Basistarif bis 32K Input-Token
höherer Satz zwischen 32K und 256K
noch höherer Satz über 256K

Jetzt gilt ein einzelner Preis pro Token-Typ. Anwendungen mit langen Kontexten zahlen keine zusätzliche Long-Context-Gebühr mehr.

2. Dauerhaft statt Promotion

Die Ankündigung verwendet Formulierungen wie „dauerhafte Preissenkung“ und „das gesamte Modell-Preissystem dauerhaft erneuern“. Es gibt kein Ablaufdatum und keine Rabattfrist. Behandeln Sie den neuen Tarif als neuen Listenpreis.

3. Token-Plan-Guthaben wurde zurückgesetzt

Wenn Sie Xiaomis Token-Plan-System nutzen, wurde Ihr Guthaben um das 5- bis 8-fache erhöht. Bereits verbrauchte Credits innerhalb des gültigen Zeitraums wurden erstattet. Der Gültigkeitszeitraum selbst wurde nicht verlängert.

Die Aussage „bis zu 99% Rabatt“ bezieht sich vor allem auf den Long-Context-Bereich. Für 256K+ Input-Token war der frühere effektive Preis hoch genug, dass der neue Satz von 1 $/M Token eine Reduktion von über 90% bedeutet. Für kleinere Prompts ist die Senkung geringer, aber weiterhin relevant.

Neues dauerhaftes Preisblatt

Preise pro 1 Million Token in USD:

Modell	Input	Output	Gecached	Kontext
MiMo V2.5 Pro	$1.00	$3.00	$0.20	1M Tokens
MiMo V2 Flash	~$0.10	~$0.40	$0.02	256K Tokens

Wichtige Details für die Implementierung:

Cached Input kostet 0,20 $/M Token. Das ist 5-mal günstiger als normaler Input.
Das 1M-Kontextfenster ist der zentrale Vorteil. Viele in den USA gehostete Frontier-Modelle liegen bei 200K bis 400K Token.
V2.5 Omni und TTS werden erwähnt, aber nicht detailliert. Prüfen Sie diese Varianten separat in der Plattform.

Als Referenz für die ältere V2-Pro-Preisstruktur siehe den MiMo V2-Pro & Omni Preisleitfaden.

Was MiMo V2.5 neben dem Preis bietet

Die Preisänderung ist der Anlass, aber V2.5 selbst ist ebenfalls ein Upgrade gegenüber V2-Pro. Für Entwickler sind vor allem drei Punkte relevant:

Längerer nutzbarer Kontext: V2.5 Pro behält das 1M-Token-Fenster bei. Xiaomi gibt außerdem Verbesserungen bei der Abrufqualität im Bereich von 200K bis 800K Token an.
Bessere Tool-Call-Formatierung: V2-Pro hatte bekannte Probleme mit parallelen Tool-Calls und fehlerhaftem JSON in gestreamten Antworten. V2.5 reduziert diese Fehler, ersetzt aber keine Validierung.
Aktualisierter Trainingskorpus: V2.5 wurde mit Daten bis Q1 2026 trainiert und liegt damit ungefähr drei Monate vor V2-Pro.

Für produktive Integrationen gilt weiterhin: Tool-Calls validieren, JSON-Schemas erzwingen und Regressionstests für Prompt-Änderungen einplanen.

Vergleich mit anderen Frontier-APIs

Der relevante Vergleich ist nicht der alte MiMo-V2.5-Tarif, sondern der API-Markt im Mai 2026:

Modell	Input ($/MTok)	Output ($/MTok)	Kontext
Xiaomi MiMo V2.5 Pro	$1.00	$3.00	1M
DeepSeek V4-Pro	$0.435	$0.87	128K
GPT-5.5	$5.00	$30.00	200K
Claude Opus 4.7	$3.00	$15.00	200K
Gemini 3.5 Flash	~$1.50	~$9.00	1M

Praktische Einordnung:

DeepSeek V4-Pro bleibt pro Token günstiger. Wenn ausschließlich Tokenkosten zählen, liegt DeepSeek vorne.
MiMo V2.5 ist stark bei 1M-Kontext-Workloads. Gemini 3.5 Flash ist die andere 1M-Option in dieser Tabelle, aber teurer.
MiMo V2.5 ist deutlich günstiger als GPT-5.5, bei laut Artificial Analysis vergleichbarer Benchmark-Leistung in vielen Aufgaben.

Für die DeepSeek-Seite des Vergleichs siehe DeepSeek V4-Pro 75% Preissenkung ist jetzt dauerhaft.

Drei Workloads neu kalkuliert

Nutzen Sie für eine schnelle Schätzung diese Formel:

Monatskosten =
(Input_Tokens_pro_Request × Requests_pro_Tag × 30 × Input_Preis / 1_000_000)
+
(Output_Tokens_pro_Request × Requests_pro_Tag × 30 × Output_Preis / 1_000_000)

Mit dem neuen MiMo-V2.5-Tarif ergeben sich folgende Beispiele:

1. Langdokument-RAG über Unternehmens-PDFs

50.000 Anfragen pro Tag
800K Input-Token pro Anfrage
1K Output-Token pro Antwort

Alter geschätzter Long-Context-Satz: ca. 60.000 $/Monat

Neuer Pauschaltarif: ca. 1.225 $/Monat

Ersparnis: 58.775 $/Monat

2. Code-Review-Agent

5.000 Pull Requests pro Tag
30K Repository-Kontext
2K Kommentar-Output

Alte GPT-5.5-Monatsrechnung: ca. 5.250 $

Neue MiMo-V2.5-Rechnung: ca. 510 $

Ersparnis: 4.740 $/Monat

3. Kundensupport-Chatbot

200.000 Turns pro Tag
4K System-Prompt
300 Output-Token

Alte Claude-Opus-4.7-Monatsrechnung: ca. 11.250 $

Neue MiMo-V2.5-Rechnung: ca. 805 $

Ersparnis: 10.445 $/Monat

Der wichtigste Fall ist Workload #1. Vor der Preissenkung waren vollständige Dokumentkontexte bei Frontier-APIs oft zu teuer. Jetzt können viele Pipelines, die vorher aggressiv chunking, ranking und summarization nutzen mussten, erneut als Full-Context-Ansatz getestet werden.

Cache-Hits richtig nutzen

Cached Input kostet 0,20 $/M Token statt 1,00 $/M Token. Das ist weniger aggressiv als DeepSeeks 120:1-Verhältnis, aber für stabile Präfixe trotzdem relevant.

Beispiel:

6.000-Token-System-Prompt
80.000 Chat-Turns pro Tag
250 Input-Token pro Nutzerturn
600 Output-Token pro Antwort

Ohne Cache-Hits:

80.000 × 6.250 × $1.00 / 1.000.000 = $500 pro Tag Input-Kosten

Mit 60% Cache-Hits auf das System-Prompt-Präfix:

80.000 × (250 × $1.00 + 6.000 × (0,6 × $0.20 + 0,4 × $1.00)) / 1.000.000
≈ $271 pro Tag

Das sind rund 46% weniger Input-Kosten.

Praktische Regeln für bessere Cache-Hits:

System-Prompt stabil halten.
Wiederverwendbare Instruktionen an den Anfang setzen.
Abgerufenen Kontext deterministisch sortieren.
Keine Zeitstempel, Request-IDs oder nutzerspezifischen Werte in das Präfix schreiben.
Tool-Definitionen nicht unnötig zwischen Requests verändern.

Wann MiMo V2.5 sinnvoll ist

Gute Einsatzfälle

Langdokument-RAG: Verträge, technische Spezifikationen, Compliance-Dokumente, interne PDFs.
Codebase-Agenten: Repository-weite Analyse, Refactoring-Vorschläge, Pull-Request-Reviews.
Dokumentenverarbeitung mit hohem Volumen: Vorhersehbare Kosten und günstiger cached Input.

Mehr zu Prompt-Caching finden Sie in Wie Prompt-Caching die LLM-Leistung steigert und Kosten senkt.

Schlechte Einsatzfälle

Latenzempfindlicher interaktiver Chat: Für Typeahead, Autocomplete oder Sub-Sekunden-Chat können DeepSeek V4-Flash oder Gemini 3.5 Flash bessere Latenzprofile zu ähnlichen Kosten bieten.

Vorbehalte

Datenresidenz: Calls laufen über Xiaomis Infrastruktur in China.
Zuverlässigkeit: Xiaomis First-Party-API hat eine kürzere Betriebshistorie als etablierte US-Anbieter. Für SLA-gestützte Produktion kann Routing über OpenRouter oder einen Aggregator sinnvoll sein.
Tool-Call-Parität: Die API ist OpenAI-kompatibel auf Schema-Ebene, aber gestreamte Tool-Argumente und parallele Tool-Calls sollten getestet werden.

Weiterer Kontext:

MiMo V2.5 mit Apidog testen

Bevor Sie Produktionsverkehr umschalten, sollten Sie MiMo V2.5 gegen Ihre bestehenden Prompts, Tool-Calls und Antwortformate testen.

Mit Apidog können Sie eine OpenAI-kompatible Chat-Completions-Anfrage an Xiaomis Endpoint senden:

curl https://platform.xiaomimimo.com/v1/chat/completions \
  -H "Authorization: Bearer $MIMO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {
        "role": "system",
        "content": "Du bist ein technischer Assistent."
      },
      {
        "role": "user",
        "content": "Fasse dieses Dokument in fünf technischen Stichpunkten zusammen."
      }
    ]
  }'

Ein sinnvoller Testablauf:

OpenAI Chat Completion Schema importieren.
Base URL auf https://platform.xiaomimimo.com/v1 setzen.
MiMo API-Key als Auth-Header konfigurieren.
Golden Responses für kritische Prompts speichern.
Tool-Calls mit JSON-Schema-Assertions validieren.
MiMo V2.5 gegen das aktuelle Modell side-by-side testen.

Besonders wichtig ist die Validierung von tool_calls, weil gestreamte Funktionsargumente häufig der Bereich sind, in dem OpenAI-kompatible APIs voneinander abweichen.

Laden Sie Apidog herunter, importieren Sie das OpenAI Chat Completion Schema und ändern Sie die Basis-URL. Denselben Workflow empfehlen wir auch in Wie man die DeepSeek V4 API verwendet.

Wie sich der LLM-Preiskampf 2026 entwickelt

MiMo V2.5 ist die zweite dauerhafte Frontier-Tier-Preissenkung eines chinesischen Labors innerhalb einer Woche. DeepSeek setzte V4-Pro am 22. Mai dauerhaft auf 1/4 des Listenpreises. Kimi K2 senkte bereits früher im ersten Quartal. OpenAI O3 wurde im Februar um 80% günstiger.

Das Muster:

Chinesische Labore konkurrieren stark über Preis. Diese Senkungen sind strukturell, nicht nur kurzfristige Promotions.
US-Labore konkurrieren stärker über Fähigkeiten und Bündelung. OpenAI und Anthropic rechtfertigen Premiumpreise über Features wie Denkmodi, MCP-Server und agentische Workflows.
Die Benchmark-Lücke ist klein genug für Re-Tests. Laut Artificial Analysis liegt MiMo V2.5 bei vielen Coding- und Reasoning-Aufgaben in einem einstelligen Prozentbereich von GPT-5.5.

Weitere Preisvergleiche:

Was Entwickler jetzt tun sollten

Die MiMo-V2.5-Preissenkung ist kein kurzfristiger Rabatt, sondern eine dauerhafte Neubewertung der 1M-Kontext-Ebene. Wenn Sie Langdokument-RAG, repository-weite Code-Agenten oder andere >200K-Token-Workloads bisher aus Kostengründen verschoben haben, sollten Sie die Rechnung neu aufmachen.

Konkrete nächste Schritte:

Top-3-Workloads nach Token-Volumen identifizieren.
Kosten mit 1,00 $/M Input und 3,00 $/M Output neu berechnen.
Eine 100-Sample-Evaluierung gegen Ihr aktuelles Modell durchführen.
Tool-Calls und JSON-Ausgaben automatisiert validieren.
Eine Apidog-Regressionstest-Suite einrichten, damit zukünftige Modell- oder Preiswechsel schneller bewertet werden können.

Die Preisuntergrenze für lange Kontexte hat sich erneut verschoben. Entwickeln Sie entsprechend.

DEV Community