Harga API Xiaomi MiMo V2.5 turun menjadi $1 per juta token masukan dan $3 per juta token keluaran pada 27 Mei 2026. Xiaomi juga menghapus tarif berjenjang untuk konteks panjang: sekarang harga tetap sama, baik prompt Anda 32K token maupun mendekati 1 juta token. Dampaknya jelas untuk developer: beban kerja RAG dokumen panjang, agen kode berbasis repo, dan pemrosesan dokumen besar menjadi jauh lebih murah untuk dijalankan di produksi.
Ringkasan Cepat
- Harga permanen Xiaomi MiMo V2.5 mulai 27 Mei 2026: masukan $1,00, keluaran $3,00, cached input $0,20 per juta token, dengan jendela konteks 1 juta token.
- Klaim “diskon hingga 99%” berlaku untuk konteks panjang. Jadwal lama naik tajam di atas 256K token. Jadwal baru menghapus pengganda tersebut.
- Pelanggan Paket Token mendapatkan peningkatan kuota 5x hingga 8x dan reset penuh kredit yang sudah digunakan selama periode validitas.
- Pemotongan ini permanen, bukan promosi sementara. Pemberitahuan resmi Xiaomi menyebutnya sebagai renovasi permanen sistem harga model.
- Konteks pasar: Xiaomi menjadi lab Tiongkok kedua dalam minggu yang sama yang melakukan pemotongan harga permanen untuk model frontier-tier. DeepSeek sebelumnya menjadikan V4-Pro permanen dengan harga 1/4 dari harga daftar.
Apa yang Berubah pada 27 Mei 2026
Pemberitahuan pembaruan harga resmi Xiaomi mencatat tiga perubahan utama. Semuanya berlaku mulai 00:00 waktu Beijing pada 27 Mei, atau 16:00 UTC pada 26 Mei.
1. Harga tetap untuk semua panjang konteks
Sebelumnya, MiMo V2.5 memakai tarif berjenjang:
- harga dasar untuk prompt hingga 32K token masukan,
- pengganda untuk 32K hingga 256K token,
- tarif lebih tinggi untuk konteks di atas 256K token.
Sekarang hanya ada satu harga per jenis token. Artinya, aplikasi konteks panjang tidak lagi membayar “pajak” token besar.
2. Permanen, bukan promosi
Pemberitahuan Xiaomi menggunakan frasa “Penurunan Harga Permanen” dan menyatakan bahwa mereka “secara permanen merenovasi seluruh sistem penetapan harga model”.
Tidak ada tanggal kedaluwarsa. Tidak ada klausa pembalikan. Perlakukan ini sebagai harga daftar baru.
3. Reset untuk pelanggan Paket Token
Jika Anda menggunakan Paket Token Xiaomi:
- saldo kredit ditingkatkan 5x hingga 8x,
- kredit yang sudah digunakan dalam periode validitas dikembalikan,
- periode validitas tidak diperpanjang.
Jadi, paket yang ada mendapatkan ruang anggaran lebih besar, tetapi tidak mendapatkan tambahan waktu.
Klaim “diskon hingga 99%” paling relevan untuk beban kerja di atas 256K token. Untuk beban kerja yang sejak awal berada di tingkat dasar, penghematannya lebih kecil tetapi tetap signifikan.
Daftar Harga Permanen Baru
Harga per 1 juta token dalam USD:
| Model | Masukan | Keluaran | Cached | Konteks |
|---|---|---|---|---|
| MiMo V2.5 Pro | $1,00 | $3,00 | $0,20 | 1 juta token |
| MiMo V2 Flash | ~$0,10 | ~$0,40 | $0,02 | 256 ribu token |
Catatan implementasi:
- Tarif cached input MiMo V2.5 Pro adalah $0,20/M, atau 5x lebih murah daripada input biasa. Ini tetap berguna untuk system prompt yang sering diulang.
- Jendela konteks 1 juta token adalah fitur utama. Banyak model frontier yang di-hosting di AS masih berada di kisaran 200K hingga 400K token.
- Varian V2.5 Omni dan TTS disebut dalam pemberitahuan, tetapi detailnya perlu diverifikasi langsung di platform Xiaomi.
Untuk referensi harga V2-Pro sebelumnya, lihat panduan harga MiMo V2-Pro & Omni.
Dampak Praktis untuk Developer
Jika aplikasi Anda sebelumnya melakukan chunking agresif hanya untuk menekan biaya, harga baru ini mengubah desain arsitektur.
Sebelum pemotongan harga, pola umum untuk dokumen panjang biasanya seperti ini:
- Pecah dokumen menjadi potongan kecil.
- Buat embedding.
- Ambil beberapa chunk yang relevan.
- Kirim hanya chunk terpilih ke LLM.
- Tambahkan reranking atau summarization untuk mengurangi token.
Dengan MiMo V2.5, Anda masih bisa memakai RAG, tetapi Anda juga dapat menguji pendekatan yang lebih langsung:
- Kirim dokumen atau repo besar ke konteks model.
- Tambahkan instruksi ekstraksi atau analisis.
- Validasi output dengan skema.
- Bandingkan biaya dan kualitas terhadap pipeline RAG lama.
Contoh struktur prompt untuk dokumen panjang:
System:
Anda adalah asisten analisis dokumen. Jawab hanya berdasarkan konteks yang diberikan.
Jika jawaban tidak ada dalam dokumen, katakan bahwa informasi tidak ditemukan.
User:
Berikut dokumen lengkap:
<document>
...
</document>
Tugas:
1. Ringkas risiko utama.
2. Kutip bagian dokumen yang relevan.
3. Berikan rekomendasi tindakan.
Untuk dokumen yang sebelumnya terlalu mahal dikirim utuh, pendekatan ini sekarang layak diuji ulang.
Apa yang Ditawarkan MiMo V2.5 Selain Harga
Pengumuman 27 Mei berfokus pada harga, tetapi V2.5 sendiri juga membawa peningkatan dari V2-Pro yang diluncurkan pada April.
Perubahan yang relevan untuk produksi:
- Konteks panjang yang lebih praktis. V2.5 Pro mempertahankan jendela konteks 1 juta token. Xiaomi juga meningkatkan kualitas retrieval pada rentang 200K hingga 800K token. Akurasi needle-in-haystack dilaporkan tetap di atas 95% hingga 800K token.
- Kepatuhan format pemanggilan alat lebih baik. V2-Pro memiliki masalah pada pemanggilan alat paralel, terutama JSON yang salah bentuk dalam respons streamed. V2.5 mengurangi kegagalan ini, tetapi Anda tetap perlu validasi skema.
- Korpus pelatihan diperbarui. V2.5 dilatih dengan data hingga Q1 2026, sekitar tiga bulan lebih baru dari V2-Pro.
Implikasinya: jangan hanya mengganti model berdasarkan harga. Jalankan evaluasi ulang, terutama jika aplikasi Anda memakai tool calling, respons JSON, atau konteks sangat panjang.
Perbandingan dengan Model API Lain
Perbandingan yang berguna adalah dengan opsi API frontier-tier lain yang tersedia pada Mei 2026:
| Model | Masukan ($/MTok) | Keluaran ($/MTok) | Konteks |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | $1,00 | $3,00 | 1 juta |
| DeepSeek V4-Pro | $0,435 | $0,87 | 128 ribu |
| GPT-5.5 | $5,00 | $30,00 | 200 ribu |
| Claude Opus 4.7 | $3,00 | $15,00 | 200 ribu |
| Gemini 3.5 Flash | ~$1,50 | ~$9,00 | 1 juta |
Poin penting:
- DeepSeek V4-Pro masih lebih murah per token. Jika metrik utama Anda hanya biaya token mentah, DeepSeek tetap lebih murah.
- MiMo V2.5 unggul untuk konteks 1 juta token. Dalam tabel ini, Gemini 3.5 Flash adalah pembanding konteks 1 juta token terdekat, tetapi lebih mahal untuk masukan dan keluaran.
- MiMo V2.5 jauh lebih murah daripada GPT-5.5, dengan performa tolok ukur yang sebanding menurut Artificial Analysis.
Untuk perbandingan DeepSeek, baca Pemotongan Harga Permanen DeepSeek V4-Pro sebesar 75%.
Cara Menghitung Ulang Biaya Beban Kerja
Gunakan rumus sederhana ini:
biaya_input = input_tokens / 1_000_000 * harga_input
biaya_output = output_tokens / 1_000_000 * harga_output
biaya_total = biaya_input + biaya_output
Contoh JavaScript:
function estimateCost({
inputTokens,
outputTokens,
inputPricePerMTok = 1.0,
outputPricePerMTok = 3.0,
}) {
const inputCost = (inputTokens / 1_000_000) * inputPricePerMTok;
const outputCost = (outputTokens / 1_000_000) * outputPricePerMTok;
return {
inputCost,
outputCost,
totalCost: inputCost + outputCost,
};
}
const result = estimateCost({
inputTokens: 800_000,
outputTokens: 1_000,
});
console.log(result);
// {
// inputCost: 0.8,
// outputCost: 0.003,
// totalCost: 0.803
// }
Untuk estimasi bulanan:
const perRequest = estimateCost({
inputTokens: 800_000,
outputTokens: 1_000,
});
const requestsPerDay = 50_000;
const daysPerMonth = 30;
const monthlyCost = perRequest.totalCost * requestsPerDay * daysPerMonth;
console.log(monthlyCost);
Gunakan pendekatan ini untuk menghitung ulang tiga beban kerja terbesar Anda berdasarkan volume token.
Tiga Contoh Beban Kerja
1. RAG dokumen panjang untuk PDF perusahaan
Asumsi:
- 50.000 query per hari,
- konteks 800K token per query,
- jawaban 1K token,
- 30 hari per bulan.
Dengan tarif konteks panjang lama, estimasi biaya bisa sekitar $60.000/bulan. Dengan tarif tetap baru, sekitar $1.225/bulan.
Penghematan: sekitar $58.775/bulan.
Ini adalah kasus penggunaan paling kuat untuk MiMo V2.5: dokumen yang sebelumnya harus dipotong dan diringkas kini bisa diuji sebagai konteks utuh.
2. Agen peninjau kode
Asumsi:
- 5.000 pull request per hari,
- konteks repo 30K token,
- output komentar 2K token.
Estimasi tagihan lama dengan GPT-5.5: sekitar $5.250/bulan. Dengan MiMo V2.5: sekitar $510/bulan.
Penghematan: sekitar $4.740/bulan.
3. Chatbot dukungan pelanggan
Asumsi:
- 200.000 putaran per hari,
- system prompt 4K token,
- respons 300 token.
Estimasi tagihan lama dengan Claude Opus 4.7: sekitar $11.250/bulan. Dengan MiMo V2.5: sekitar $805/bulan.
Penghematan: sekitar $10.445/bulan.
Optimalkan Biaya dengan Cache Hits
Tarif cached input MiMo V2.5 adalah $0,20/M, sedangkan input biasa $1,00/M. Ini 5x lebih murah.
Caching paling efektif jika bagian awal prompt stabil, misalnya:
- system prompt,
- instruksi developer,
- template output,
- daftar tool,
- konteks statis yang sering digunakan.
Contoh perhitungan:
- 80.000 giliran chat per hari,
- system prompt 6.000 token,
- pesan user rata-rata 250 token,
- respons rata-rata 600 token.
Tanpa cache:
80.000 * 6.250 * $1,00 / 1.000.000 = $500/hari untuk input
Dengan 60% cache hit pada prefix system prompt:
80.000 * (250 * $1,00 + 6.000 * (0,6 * $0,20 + 0,4 * $1,00)) / 1.000.000
≈ $271/hari
Pengurangan sekitar 46%.
Praktik yang membantu cache hit:
- jangan menyisipkan timestamp dinamis di awal prompt,
- stabilkan urutan konteks yang diambil,
- pisahkan prefix statis dari input user,
- hindari mengubah template instruksi tanpa perlu,
- simpan prompt versi produksi sebagai artefak yang dapat diuji ulang.
Kapan MiMo V2.5 Cocok Digunakan
Gunakan MiMo V2.5 untuk:
- RAG dokumen panjang. Terutama jika konteks Anda sering di atas 200K token.
- Agen berbasis kode. Misalnya review PR, refaktor lintas file, atau analisis repo besar.
- Pemrosesan dokumen bervolume tinggi. Tarif tetap membuat estimasi biaya lebih mudah.
- Pipeline dengan prefix stabil. Tarif cached input membantu jika banyak permintaan memakai instruksi yang sama.
Untuk mekanisme prompt caching lintas penyedia, lihat Bagaimana prompt caching meningkatkan kinerja LLM dan mengurangi biaya.
Kapan MiMo V2.5 Kurang Cocok
Hindari menjadikannya pilihan default untuk:
- Chat interaktif yang sangat sensitif terhadap latensi. MiMo V2.5 Pro bukan model tercepat untuk first token. Untuk autocomplete, typeahead, atau chat sub-detik, model flash bisa lebih cocok.
- Kasus dengan persyaratan residensi data ketat. Panggilan diarahkan melalui infrastruktur Xiaomi di Tiongkok. Validasi dengan tim legal dan pengadaan Anda.
- Produksi yang membutuhkan SLA matang. API pihak pertama Xiaomi memiliki riwayat operasional lebih pendek dibanding penyedia frontier AS. Untuk beberapa kasus, Anda bisa mempertimbangkan akses melalui OpenRouter atau aggregator lain.
- Tool calling kompleks tanpa validasi. Kompatibilitas OpenAI ada pada tingkat skema, tetapi tetap uji kasus streaming, argumen fungsi, dan pemanggilan tool paralel sebelum deploy.
Untuk konteks peluncuran V2-Pro, lihat Xiaomi Baru Saja Merilis Model AI-nya Sendiri, dan Gratis di OpenRouter. Untuk akses tingkat gratis, lihat program 100T token gratis Xiaomi MiMo Orbit.
Menguji MiMo V2.5 dengan Apidog
Kompatibilitas OpenAI membantu, tetapi jangan langsung memindahkan traffic produksi tanpa pengujian regresi.
Apidog dapat digunakan untuk mengarahkan request Chat Completions ke:
https://platform.xiaomimimo.com/v1
Gunakan kunci API MiMo Anda, lalu uji:
- respons model terhadap prompt produksi,
- bentuk JSON untuk
tool_calls, - konsistensi output antar versi prompt,
- perbandingan berdampingan dengan GPT-5.5, Claude, atau DeepSeek V4-Pro.
Contoh request OpenAI-compatible:
curl https://platform.xiaomimimo.com/v1/chat/completions \
-H "Authorization: Bearer $MIMO_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "<model-id>",
"messages": [
{
"role": "system",
"content": "Anda adalah asisten teknis. Jawab ringkas dan gunakan JSON valid jika diminta."
},
{
"role": "user",
"content": "Ringkas dokumen ini dan ekstrak risiko utama."
}
]
}'
Untuk pengujian tool calling, validasi output dengan JSON Schema. Contoh skema sederhana:
{
"type": "object",
"required": ["summary", "risks"],
"properties": {
"summary": {
"type": "string"
},
"risks": {
"type": "array",
"items": {
"type": "object",
"required": ["title", "severity"],
"properties": {
"title": { "type": "string" },
"severity": {
"type": "string",
"enum": ["low", "medium", "high"]
}
}
}
}
}
}
Alur kerja pengujian yang disarankan:
- Unduh Apidog.
- Impor skema OpenAI Chat Completion.
- Ubah base URL ke
https://platform.xiaomimimo.com/v1. - Tambahkan API key MiMo.
- Buat 100–500 sampel prompt dari traffic nyata.
- Jalankan perbandingan terhadap model lama.
- Validasi JSON, latensi, dan kualitas jawaban.
- Baru alihkan sebagian traffic produksi.
Alur kerja yang sama juga dibahas di Cara menggunakan API DeepSeek V4.
Bagaimana Perang Harga LLM 2026 Terjadi
MiMo V2.5 adalah pemotongan harga frontier-tier permanen kedua dari lab Tiongkok dalam satu minggu. DeepSeek menjadikan V4-Pro permanen dengan harga 1/4 dari harga daftar pada 22 Mei. Kimi K2 memotong harga lebih awal di Q1. OpenAI O3 turun 80% pada Februari.
Polanya:
- Lab Tiongkok bersaing agresif di harga. Pemotongan ini terlihat seperti perubahan struktural, bukan promosi.
- Lab AS bersaing lewat kapabilitas dan bundling. OpenAI dan Anthropic mempertahankan harga model flagship sambil menambahkan fitur seperti mode berpikir, server MCP, dan workflow agensi.
- Kesenjangan benchmark cukup kecil sehingga banyak workload perlu diuji ulang. Menurut Artificial Analysis, MiMo V2.5 berada dalam rentang kompetitif untuk banyak tugas coding dan reasoning.
Bacaan terkait:
- Pemotongan harga permanen DeepSeek V4-Pro
- Harga API Kimi K2
- Penurunan harga OpenAI O3
- Biaya API Gemini 3.0
- Rincian biaya API Claude lengkap
- Tolok ukur MiMo-7B-RL
Checklist Migrasi untuk Tim Engineering
Sebelum memakai MiMo V2.5 di produksi, jalankan checklist ini:
- [ ] Hitung ulang biaya tiga workload terbesar berdasarkan volume token.
- [ ] Ambil sampel prompt nyata dari production logs.
- [ ] Jalankan evaluasi berdampingan dengan model lama.
- [ ] Ukur kualitas jawaban, bukan hanya biaya.
- [ ] Validasi output JSON dan
tool_calls. - [ ] Uji konteks panjang di atas 200K token.
- [ ] Uji streaming response jika aplikasi Anda menggunakannya.
- [ ] Ukur latensi p50, p95, dan p99.
- [ ] Cek persyaratan residensi data.
- [ ] Siapkan fallback ke model lama.
- [ ] Jalankan rollout bertahap, misalnya 5%, 25%, 50%, lalu 100%.
Dampak pada Pengembangan Anda
Pemotongan harga MiMo V2.5 bukan sekadar stunt pemasaran. Ini adalah perubahan harga permanen untuk model konteks 1 juta token.
Jika Anda menunda:
- RAG dokumen panjang,
- agen kode lintas repo,
- analisis kontrak atau PDF besar,
- pipeline ekstraksi dokumen,
- workload dengan konteks di atas 200K token,
maka estimasi biaya kuartal lalu kemungkinan sudah tidak akurat.
Tiga langkah konkret:
- Hitung ulang biaya workload Anda dengan harga $1/M input dan $3/M output.
- Jalankan evaluasi 100 sampel terhadap MiMo V2.5 Pro dan model produksi saat ini.
- Siapkan regression suite di Apidog agar setiap perubahan harga atau model bisa dievaluasi dalam hitungan jam, bukan minggu.
Batas harga dasar LLM bergerak lagi. Desain arsitektur Anda sebaiknya ikut bergerak.



Top comments (0)