Die Preise für die Xiaomi MiMo V2.5 API sanken am 27. Mai 2026 dauerhaft auf 1 US-Dollar pro Million Input-Token und 3 US-Dollar pro Million Output-Token. Die frühere Long-Context-Stufe mit hohen Multiplikatoren für Prompts über 256K Token entfällt. Für Entwickler heißt das praktisch: MiMo V2.5 ist jetzt eine der günstigsten Produktionsoptionen für 1M-Kontext-Workloads.
Das Wichtigste in Kürze
- Dauerhafter Tarif ab 27. Mai 2026: 1,00 $ Input, 3,00 $ Output und 0,20 $ gecached pro Million Token bei einem 1M-Token-Kontextfenster.
- Long-Context-Multiplikatoren fallen weg: Der frühere Aufpreis für Prompts über 256K Token wurde durch einen Pauschaltarif ersetzt.
- Token-Pläne wurden angepasst: Kunden mit Prepaid-Token-Plänen erhielten eine 5- bis 8-fache Quotensteigerung und eine Rücksetzung der genutzten Credits innerhalb des bestehenden Gültigkeitszeitraums.
- Die Senkung ist dauerhaft: Xiaomis Mitteilung beschreibt die Änderung als dauerhafte Erneuerung des Modell-Preissystems.
- Entwickler-Relevanz: Workloads mit großen Dokumenten, Codebases oder langen RAG-Kontexten sollten neu kalkuliert und erneut evaluiert werden.
Was sich am 27. Mai 2026 geändert hat
Xiaomis offizielle Mitteilung zur Preisaktualisierung nennt drei Änderungen. Sie traten am 27. Mai um 00:00 Uhr Pekinger Zeit in Kraft, also am 26. Mai um 16:00 Uhr UTC.
1. Ein Preis für alle Kontextlängen
Vorher nutzte MiMo V2.5 gestaffelte Preise:
- Basistarif bis 32K Input-Token
- höherer Satz zwischen 32K und 256K
- noch höherer Satz über 256K
Jetzt gilt ein einzelner Preis pro Token-Typ. Anwendungen mit langen Kontexten zahlen keine zusätzliche Long-Context-Gebühr mehr.
2. Dauerhaft statt Promotion
Die Ankündigung verwendet Formulierungen wie „dauerhafte Preissenkung“ und „das gesamte Modell-Preissystem dauerhaft erneuern“. Es gibt kein Ablaufdatum und keine Rabattfrist. Behandeln Sie den neuen Tarif als neuen Listenpreis.
3. Token-Plan-Guthaben wurde zurückgesetzt
Wenn Sie Xiaomis Token-Plan-System nutzen, wurde Ihr Guthaben um das 5- bis 8-fache erhöht. Bereits verbrauchte Credits innerhalb des gültigen Zeitraums wurden erstattet. Der Gültigkeitszeitraum selbst wurde nicht verlängert.
Die Aussage „bis zu 99% Rabatt“ bezieht sich vor allem auf den Long-Context-Bereich. Für 256K+ Input-Token war der frühere effektive Preis hoch genug, dass der neue Satz von 1 $/M Token eine Reduktion von über 90% bedeutet. Für kleinere Prompts ist die Senkung geringer, aber weiterhin relevant.
Neues dauerhaftes Preisblatt
Preise pro 1 Million Token in USD:
| Modell | Input | Output | Gecached | Kontext |
|---|---|---|---|---|
| MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M Tokens |
| MiMo V2 Flash | ~$0.10 | ~$0.40 | $0.02 | 256K Tokens |
Wichtige Details für die Implementierung:
- Cached Input kostet 0,20 $/M Token. Das ist 5-mal günstiger als normaler Input.
- Das 1M-Kontextfenster ist der zentrale Vorteil. Viele in den USA gehostete Frontier-Modelle liegen bei 200K bis 400K Token.
- V2.5 Omni und TTS werden erwähnt, aber nicht detailliert. Prüfen Sie diese Varianten separat in der Plattform.
Als Referenz für die ältere V2-Pro-Preisstruktur siehe den MiMo V2-Pro & Omni Preisleitfaden.
Was MiMo V2.5 neben dem Preis bietet
Die Preisänderung ist der Anlass, aber V2.5 selbst ist ebenfalls ein Upgrade gegenüber V2-Pro. Für Entwickler sind vor allem drei Punkte relevant:
- Längerer nutzbarer Kontext: V2.5 Pro behält das 1M-Token-Fenster bei. Xiaomi gibt außerdem Verbesserungen bei der Abrufqualität im Bereich von 200K bis 800K Token an.
- Bessere Tool-Call-Formatierung: V2-Pro hatte bekannte Probleme mit parallelen Tool-Calls und fehlerhaftem JSON in gestreamten Antworten. V2.5 reduziert diese Fehler, ersetzt aber keine Validierung.
- Aktualisierter Trainingskorpus: V2.5 wurde mit Daten bis Q1 2026 trainiert und liegt damit ungefähr drei Monate vor V2-Pro.
Für produktive Integrationen gilt weiterhin: Tool-Calls validieren, JSON-Schemas erzwingen und Regressionstests für Prompt-Änderungen einplanen.
Vergleich mit anderen Frontier-APIs
Der relevante Vergleich ist nicht der alte MiMo-V2.5-Tarif, sondern der API-Markt im Mai 2026:
| Modell | Input ($/MTok) | Output ($/MTok) | Kontext |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | 1M |
| DeepSeek V4-Pro | $0.435 | $0.87 | 128K |
| GPT-5.5 | $5.00 | $30.00 | 200K |
| Claude Opus 4.7 | $3.00 | $15.00 | 200K |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1M |
Praktische Einordnung:
- DeepSeek V4-Pro bleibt pro Token günstiger. Wenn ausschließlich Tokenkosten zählen, liegt DeepSeek vorne.
- MiMo V2.5 ist stark bei 1M-Kontext-Workloads. Gemini 3.5 Flash ist die andere 1M-Option in dieser Tabelle, aber teurer.
- MiMo V2.5 ist deutlich günstiger als GPT-5.5, bei laut Artificial Analysis vergleichbarer Benchmark-Leistung in vielen Aufgaben.
Für die DeepSeek-Seite des Vergleichs siehe DeepSeek V4-Pro 75% Preissenkung ist jetzt dauerhaft.
Drei Workloads neu kalkuliert
Nutzen Sie für eine schnelle Schätzung diese Formel:
Monatskosten =
(Input_Tokens_pro_Request × Requests_pro_Tag × 30 × Input_Preis / 1_000_000)
+
(Output_Tokens_pro_Request × Requests_pro_Tag × 30 × Output_Preis / 1_000_000)
Mit dem neuen MiMo-V2.5-Tarif ergeben sich folgende Beispiele:
1. Langdokument-RAG über Unternehmens-PDFs
- 50.000 Anfragen pro Tag
- 800K Input-Token pro Anfrage
- 1K Output-Token pro Antwort
Alter geschätzter Long-Context-Satz: ca. 60.000 $/Monat
Neuer Pauschaltarif: ca. 1.225 $/Monat
Ersparnis: 58.775 $/Monat
2. Code-Review-Agent
- 5.000 Pull Requests pro Tag
- 30K Repository-Kontext
- 2K Kommentar-Output
Alte GPT-5.5-Monatsrechnung: ca. 5.250 $
Neue MiMo-V2.5-Rechnung: ca. 510 $
Ersparnis: 4.740 $/Monat
3. Kundensupport-Chatbot
- 200.000 Turns pro Tag
- 4K System-Prompt
- 300 Output-Token
Alte Claude-Opus-4.7-Monatsrechnung: ca. 11.250 $
Neue MiMo-V2.5-Rechnung: ca. 805 $
Ersparnis: 10.445 $/Monat
Der wichtigste Fall ist Workload #1. Vor der Preissenkung waren vollständige Dokumentkontexte bei Frontier-APIs oft zu teuer. Jetzt können viele Pipelines, die vorher aggressiv chunking, ranking und summarization nutzen mussten, erneut als Full-Context-Ansatz getestet werden.
Cache-Hits richtig nutzen
Cached Input kostet 0,20 $/M Token statt 1,00 $/M Token. Das ist weniger aggressiv als DeepSeeks 120:1-Verhältnis, aber für stabile Präfixe trotzdem relevant.
Beispiel:
- 6.000-Token-System-Prompt
- 80.000 Chat-Turns pro Tag
- 250 Input-Token pro Nutzerturn
- 600 Output-Token pro Antwort
Ohne Cache-Hits:
80.000 × 6.250 × $1.00 / 1.000.000 = $500 pro Tag Input-Kosten
Mit 60% Cache-Hits auf das System-Prompt-Präfix:
80.000 × (250 × $1.00 + 6.000 × (0,6 × $0.20 + 0,4 × $1.00)) / 1.000.000
≈ $271 pro Tag
Das sind rund 46% weniger Input-Kosten.
Praktische Regeln für bessere Cache-Hits:
- System-Prompt stabil halten.
- Wiederverwendbare Instruktionen an den Anfang setzen.
- Abgerufenen Kontext deterministisch sortieren.
- Keine Zeitstempel, Request-IDs oder nutzerspezifischen Werte in das Präfix schreiben.
- Tool-Definitionen nicht unnötig zwischen Requests verändern.
Wann MiMo V2.5 sinnvoll ist
Gute Einsatzfälle
- Langdokument-RAG: Verträge, technische Spezifikationen, Compliance-Dokumente, interne PDFs.
- Codebase-Agenten: Repository-weite Analyse, Refactoring-Vorschläge, Pull-Request-Reviews.
- Dokumentenverarbeitung mit hohem Volumen: Vorhersehbare Kosten und günstiger cached Input.
Mehr zu Prompt-Caching finden Sie in Wie Prompt-Caching die LLM-Leistung steigert und Kosten senkt.
Schlechte Einsatzfälle
- Latenzempfindlicher interaktiver Chat: Für Typeahead, Autocomplete oder Sub-Sekunden-Chat können DeepSeek V4-Flash oder Gemini 3.5 Flash bessere Latenzprofile zu ähnlichen Kosten bieten.
Vorbehalte
- Datenresidenz: Calls laufen über Xiaomis Infrastruktur in China.
- Zuverlässigkeit: Xiaomis First-Party-API hat eine kürzere Betriebshistorie als etablierte US-Anbieter. Für SLA-gestützte Produktion kann Routing über OpenRouter oder einen Aggregator sinnvoll sein.
- Tool-Call-Parität: Die API ist OpenAI-kompatibel auf Schema-Ebene, aber gestreamte Tool-Argumente und parallele Tool-Calls sollten getestet werden.
Weiterer Kontext:
- Xiaomi hat gerade sein eigenes KI-Modell veröffentlicht, und es ist auf OpenRouter kostenlos
- Xiaomi MiMo Orbit kostenlose 100T Token-Programm
MiMo V2.5 mit Apidog testen
Bevor Sie Produktionsverkehr umschalten, sollten Sie MiMo V2.5 gegen Ihre bestehenden Prompts, Tool-Calls und Antwortformate testen.
Mit Apidog können Sie eine OpenAI-kompatible Chat-Completions-Anfrage an Xiaomis Endpoint senden:
curl https://platform.xiaomimimo.com/v1/chat/completions \
-H "Authorization: Bearer $MIMO_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "mimo-v2.5-pro",
"messages": [
{
"role": "system",
"content": "Du bist ein technischer Assistent."
},
{
"role": "user",
"content": "Fasse dieses Dokument in fünf technischen Stichpunkten zusammen."
}
]
}'
Ein sinnvoller Testablauf:
- OpenAI Chat Completion Schema importieren.
- Base URL auf
https://platform.xiaomimimo.com/v1setzen. - MiMo API-Key als Auth-Header konfigurieren.
- Golden Responses für kritische Prompts speichern.
- Tool-Calls mit JSON-Schema-Assertions validieren.
- MiMo V2.5 gegen das aktuelle Modell side-by-side testen.
Besonders wichtig ist die Validierung von tool_calls, weil gestreamte Funktionsargumente häufig der Bereich sind, in dem OpenAI-kompatible APIs voneinander abweichen.
Laden Sie Apidog herunter, importieren Sie das OpenAI Chat Completion Schema und ändern Sie die Basis-URL. Denselben Workflow empfehlen wir auch in Wie man die DeepSeek V4 API verwendet.
Wie sich der LLM-Preiskampf 2026 entwickelt
MiMo V2.5 ist die zweite dauerhafte Frontier-Tier-Preissenkung eines chinesischen Labors innerhalb einer Woche. DeepSeek setzte V4-Pro am 22. Mai dauerhaft auf 1/4 des Listenpreises. Kimi K2 senkte bereits früher im ersten Quartal. OpenAI O3 wurde im Februar um 80% günstiger.
Das Muster:
- Chinesische Labore konkurrieren stark über Preis. Diese Senkungen sind strukturell, nicht nur kurzfristige Promotions.
- US-Labore konkurrieren stärker über Fähigkeiten und Bündelung. OpenAI und Anthropic rechtfertigen Premiumpreise über Features wie Denkmodi, MCP-Server und agentische Workflows.
- Die Benchmark-Lücke ist klein genug für Re-Tests. Laut Artificial Analysis liegt MiMo V2.5 bei vielen Coding- und Reasoning-Aufgaben in einem einstelligen Prozentbereich von GPT-5.5.
Weitere Preisvergleiche:
- DeepSeek V4-Pro dauerhafte Preissenkung
- Kimi K2 API-Preise
- OpenAI O3 Preissenkung
- Gemini 3.0 API-Kosten
- Der vollständige Claude API-Kostenaufschlüsselung
- MiMo-7B-RL Benchmarks
Was Entwickler jetzt tun sollten
Die MiMo-V2.5-Preissenkung ist kein kurzfristiger Rabatt, sondern eine dauerhafte Neubewertung der 1M-Kontext-Ebene. Wenn Sie Langdokument-RAG, repository-weite Code-Agenten oder andere >200K-Token-Workloads bisher aus Kostengründen verschoben haben, sollten Sie die Rechnung neu aufmachen.
Konkrete nächste Schritte:
- Top-3-Workloads nach Token-Volumen identifizieren.
- Kosten mit 1,00 $/M Input und 3,00 $/M Output neu berechnen.
- Eine 100-Sample-Evaluierung gegen Ihr aktuelles Modell durchführen.
- Tool-Calls und JSON-Ausgaben automatisiert validieren.
- Eine Apidog-Regressionstest-Suite einrichten, damit zukünftige Modell- oder Preiswechsel schneller bewertet werden können.
Die Preisuntergrenze für lange Kontexte hat sich erneut verschoben. Entwickeln Sie entsprechend.



Top comments (0)