Laboratorium Tiongkok menurunkan harga API LLM enam kali pada paruh pertama 2026, dan tiga di antaranya dinyatakan permanen. DeepSeek V4-Pro kini $0,87 per juta token keluaran. Xiaomi MiMo V2.5 meratakan tarif konteks panjang menjadi $3 keluaran. Qwen3 Max dari Alibaba berada di $3,90. Kimi K2.6 dari Moonshot mempertahankan cache-hit minimum $0,07. GLM-5 dari Zhipu berada di $3,20 keluaran. Artikel ini merangkum harga, batas konteks, pola penggunaan, dan cara memilih model untuk beban kerja produksi.
TL;DR
- Termurah per token keluaran: DeepSeek V4-Pro, $0,87/MTok.
- Termurah untuk konteks 1 juta token: Xiaomi MiMo V2.5 Pro, $3/MTok keluaran, tarif tetap berapa pun panjang masukan.
- Pilihan produksi umum paling seimbang: Alibaba Qwen3 Max, $3,90/MTok keluaran, konteks 262K.
- Cache-hit termurah untuk prompt sistem panjang: Moonshot Kimi K2.6, $0,07/MTok cache-hit.
- Penalaran berat dan terstruktur: Zhipu GLM-5, $3,20/MTok keluaran, konteks 200K.
- Strategi praktis: gunakan routing multi-model. Kirim beban kerja murah dan banyak keluaran ke DeepSeek, konteks sangat panjang ke MiMo, prompt stabil ke Kimi, produksi multibahasa ke Qwen, dan penalaran formal ke GLM.
Bagaimana perang harga LLM Tiongkok 2026 berlangsung
Pola harga mulai berubah pada Q4 2025 dan makin cepat pada Q2 2026:
- Q4 2025: DeepSeek V3.2 diluncurkan di $0,28/MTok masukan. Kimi K2.6 menyusul dengan harga bertingkat berbasis konteks dan cache-hit $0,07/MTok.
- Maret 2026: Xiaomi meluncurkan MiMo V2-Pro di OpenRouter dengan tarif kompetitif tetapi masih bertingkat.
- April 2026: DeepSeek V4 diluncurkan dengan diskon promosi 75% yang awalnya dijadwalkan berakhir pada 31 Mei.
- 22 Mei 2026: DeepSeek mengumumkan diskon 75% menjadi permanen. V4-Pro tetap di $0,435 masukan / $0,87 keluaran. Rincian lengkapnya ada di sini.
- 27 Mei 2026: Xiaomi membuat harga MiMo V2.5 permanen di $1 masukan / $3 keluaran dan menghapus pengali konteks panjang. Lebih lanjut tentang pemotongan harga MiMo.
Setiap laboratorium menargetkan celah berbeda:
- DeepSeek: biaya per token paling rendah.
- MiMo: konteks panjang dengan harga tetap.
- Qwen: keseimbangan kualitas, ekosistem, dan produksi.
- Kimi: alur kerja agen dengan prompt stabil dan cache-hit murah.
- GLM: penalaran terstruktur.
Perbandingan cepat: 5 API LLM Tiongkok teratas pada Mei 2026
| Model | Masukan ($/MTok) | Keluaran ($/MTok) | Cache hit | Konteks | Paling cocok untuk |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | Biaya token rendah, pengkodean |
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | RAG dokumen panjang, agen repositori |
| Alibaba Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | Produksi umum |
| Moonshot Kimi K2.6 | $0.16–$2.00 bertingkat | ~$2.50 | $0.07 | 128K | Prompt sistem panjang, agen pengkodean |
| Zhipu GLM-5 | $1.00 | $3.20 | Didefinisikan penyedia | 200K | Penalaran terstruktur |
Cara membaca tabel:
- Jika keluaran mendominasi biaya, mulai dari DeepSeek V4-Pro.
- Jika konteks melewati 300K token, MiMo V2.5 Pro menjadi opsi utama dalam daftar ini.
- Jika prompt sistem stabil dan sering dipakai ulang, bandingkan cache-hit, bukan hanya harga masukan normal.
- Jika Anda butuh konteks 200K+ tetapi tidak sampai 1 juta, Qwen3 Max dan GLM-5 masuk daftar pendek.
- Jika evaluasi Anda berbasis tool calling atau agen, uji Kimi K2.6 secara khusus.
Untuk memahami dampak cache terhadap biaya, lihat penjelasan mendalam tentang prompt caching.
DeepSeek: termurah per token
Model utama:
- V4-Pro: $0,435 masukan / $0,87 keluaran / $0,003625 cache-hit, konteks 128K.
- V4-Flash: $0,14 masukan / $0,28 keluaran.
DeepSeek V4-Pro menjadi batas bawah harga untuk model perbatasan Tiongkok. Pemotongan permanen pada 22 Mei membuat harga keluaran berada di $0,87/MTok. Cache-hit $0,003625/MTok juga sangat rendah untuk penyedia pihak pertama. Tarif ini dikonfirmasi terhadap halaman harga resmi DeepSeek.
Gunakan DeepSeek V4-Pro jika
- Beban kerja Anda banyak menghasilkan keluaran, seperti:
- pembuatan kode,
- transformasi teks,
- pipeline agen,
- pembuatan konten terstruktur.
- Prompt sistem stabil di kisaran 5K–10K token dan bisa memanfaatkan cache.
- Anda mengoptimalkan biaya produksi dan bisa menerima celah kualitas kecil terhadap model yang lebih mahal.
Hindari DeepSeek V4-Pro jika
- Prompt Anda membutuhkan konteks di atas 128K.
- Anda membutuhkan latensi sangat rendah untuk chat real-time.
- Evaluasi internal menunjukkan model gagal pada kasus edge domain Anda.
Contoh pola routing
function chooseModel({ inputTokens, outputHeavy, requiresLongContext }) {
if (requiresLongContext || inputTokens > 128_000) {
return "xiaomi-mimo-v2.5-pro";
}
if (outputHeavy) {
return "deepseek-v4-pro";
}
return "qwen3-max";
}
Bacaan lanjutan:
- Pemotongan harga permanen DeepSeek V4-Pro
- Apa itu DeepSeek V4
- Bagaimana cara menggunakan API DeepSeek V4
Xiaomi MiMo: opsi konteks 1 juta termurah
Model utama:
- MiMo V2.5 Pro: $1,00 masukan / $3,00 keluaran / $0,20 cache, konteks 1 juta.
- MiMo V2 Flash: sekitar $0,10 masukan / $0,40 keluaran, konteks 256K.
Pemotongan permanen Xiaomi pada 27 Mei meratakan harga MiMo V2.5 di seluruh jendela konteks. Tarif $1/$3 berlaku baik untuk 5K token maupun 950K token. Pemberitahuan pembaruan harga resmi menyebut pemotongan ini permanen.
Gunakan MiMo V2.5 Pro jika
- Anda memproses dokumen panjang.
- Anda menjalankan RAG dengan konteks besar.
- Anda menganalisis seluruh repositori.
- Prompt sering berada di kisaran 300K–1 juta token.
- Prediktabilitas harga lebih penting daripada tarif keluaran termurah.
Hindari MiMo V2.5 Pro jika
- Prompt Anda pendek dan bisa masuk ke 128K.
- Beban kerja sangat sensitif terhadap biaya keluaran.
- Anda membutuhkan respons sub-detik.
Contoh logika pemilihan konteks
function routeByContext(inputTokens) {
if (inputTokens > 300_000) {
return "mimo-v2.5-pro";
}
if (inputTokens > 128_000) {
return "qwen3-max";
}
return "deepseek-v4-pro";
}
Jendela konteks 1 juta plus tarif tetap membuat MiMo punya posisi unik. Sampai penyedia lain memperluas konteks atau meratakan harga, MiMo tetap kandidat utama untuk beban kerja murah-dan-panjang.
Bacaan lanjutan:
- Berapa biaya menggunakan Xiaomi MiMo V2.5 pada tahun 2026
- Harga MiMo V2-Pro & Omni dan cara menggunakan API
- Program token gratis Xiaomi MiMo Orbit 100T
Alibaba Qwen: mesin produksi umum
Model utama:
- Qwen3 Max: $0,78 masukan / $3,90 keluaran / $0,156 cache, konteks 262K.
- Qwen 3.7 Max yang lebih baru dengan $2,50/MTok masukan dan konteks 1 juta sedang dalam peluncuran awal.
Tarif Qwen3 Max diverifikasi terhadap lembar Qwen3 Max pricepertoken.
Qwen3 Max bukan yang termurah, tetapi cocok sebagai default produksi jika Anda butuh kombinasi kualitas umum, konteks menengah-panjang, dan ekosistem yang matang.
Gunakan Qwen3 Max jika
- Aplikasi Anda multibahasa, terutama Mandarin dan bahasa Asia.
- Anda membutuhkan opsi deployment dan ekosistem perusahaan Alibaba Cloud.
- Konteks Anda sering berada di 128K–262K.
- Anda ingin model produksi umum sebelum melakukan optimasi biaya lebih agresif.
Hindari Qwen3 Max jika
- Keluaran sangat besar dan biaya menjadi prioritas utama.
- Evaluasi Anda menunjukkan DeepSeek cukup baik untuk mayoritas trafik.
- Anda tidak membutuhkan konteks di atas 128K.
Pola implementasi yang masuk akal
Gunakan Qwen sebagai fallback kualitas:
async function callLLM(request) {
const primary = await callModel("deepseek-v4-pro", request);
if (primary.score < 0.8 || primary.needsFallback) {
return callModel("qwen3-max", request);
}
return primary;
}
Bacaan lanjutan:
Moonshot Kimi: spesialis agen dan pengkodean
Model utama:
- Kimi K2.6:
- masukan bertingkat $0,16–$2,00/MTok untuk pita 8K, 32K, 64K, dan 128K,
- cache-hit minimum $0,07/MTok,
- keluaran sekitar $2,50/MTok pada pita tengah.
Kimi K2.6 unggul ketika prompt sistem besar dipakai ulang berkali-kali. Ini sering terjadi pada:
- agen pengkodean,
- chatbot dukungan pelanggan dengan persona stabil,
- pipeline retrieval dengan blok konteks yang berulang,
- tool calling multi-langkah.
Gunakan Kimi K2.6 jika
- Prefiks prompt stabil di banyak request.
- Anda menjalankan agen yang memakai tool calling.
- Anda perlu mempertahankan konteks instruksi panjang selama banyak putaran.
- Biaya cache-hit lebih penting daripada harga masukan normal.
Hindari Kimi K2.6 jika
- Prefiks berubah hampir di setiap request.
- Panjang prompt sering melompat antar tingkat harga.
- Anda butuh perencanaan biaya yang sangat stabil.
Checklist optimasi cache untuk Kimi
- Pisahkan prompt sistem dari input pengguna.
- Jaga prompt sistem tetap deterministik.
- Hindari menyisipkan timestamp, ID acak, atau data request di prefiks.
- Letakkan data dinamis setelah bagian yang ingin di-cache.
- Ukur rasio cache-hit per endpoint.
Contoh struktur prompt:
[SYSTEM PROMPT STABIL]
- Peran agen
- Aturan tool calling
- Format output
- Contoh few-shot tetap
[DATA DINAMIS]
- Pertanyaan pengguna
- Konteks retrieval terbaru
- Parameter request
Bacaan lanjutan:
- Apakah harga API Kimi K2 benar-benar sepadan dengan gembar-gembornya bagi pengembang pada tahun 2026
Zhipu GLM: penantang penalaran
Model utama:
- GLM-5: $1,00 masukan / $3,20 keluaran, konteks 200K.
- GLM-5.1: $0,98 masukan / $3,08 keluaran, konteks 200K.
Tarif diverifikasi terhadap gambaran harga resmi Z.AI.
GLM-5 tidak diposisikan sebagai opsi termurah. Nilainya ada pada penalaran terstruktur dan tugas yang membutuhkan rantai logika lebih kuat.
Gunakan GLM-5 jika
- Anda mengerjakan matematika, penalaran formal, atau analisis terstruktur.
- Biaya jawaban salah lebih mahal daripada biaya token.
- Anda membangun workflow multi-langkah yang membutuhkan jejak reasoning bersih.
- Beban kerja berada di domain seperti analisis keuangan, hukum, atau ilmiah.
Hindari GLM-5 jika
- Anda hanya membuat ringkasan sederhana.
- Anda menjalankan pembuatan konten massal.
- Biaya token adalah metrik optimasi utama.
Pola penggunaan praktis
Gunakan GLM sebagai verifier, bukan selalu sebagai model utama:
const draft = await callModel("deepseek-v4-pro", task);
if (task.requiresFormalReasoning) {
const verification = await callModel("glm-5", {
prompt: `Periksa jawaban berikut secara logis:\n\n${draft.text}`
});
return verification;
}
return draft;
Bacaan lanjutan:
- GLM-5 vs DeepSeek V3 vs GPT-5: kecepatan, biaya, dan perbandingan pengembang praktis
- GLM-5.1 vs Claude, GPT, Gemini, DeepSeek
Matriks pembeli: model termurah per beban kerja
| Beban kerja | Pilihan utama | Alasan |
|---|---|---|
| Pembuatan kode dengan keluaran besar | DeepSeek V4-Pro | Keluaran $0,87/MTok |
| RAG dokumen panjang di atas 300K token | Xiaomi MiMo V2.5 Pro | Konteks 1 juta dengan harga tetap |
| Agen pengkodean dengan prompt sistem stabil | Kimi K2.6 | Cache-hit $0,07/MTok |
| Dukungan pelanggan multibahasa | Alibaba Qwen3 Max | Performa non-Inggris kuat |
| Matematika, penalaran formal, analisis terstruktur | Zhipu GLM-5 | Kualitas reasoning lebih kuat |
Strategi routing multi-model
Untuk produksi, jangan pilih satu model hanya karena harga daftar. Buat router sederhana berdasarkan bentuk request.
1. Routing berdasarkan panjang konteks
function selectByContext(tokens) {
if (tokens > 300_000) return "mimo-v2.5-pro";
if (tokens > 128_000) return "qwen3-max";
return "deepseek-v4-pro";
}
2. Routing berdasarkan tipe tugas
function selectByTask(task) {
switch (task.type) {
case "long_document_rag":
return "mimo-v2.5-pro";
case "coding_agent":
return "kimi-k2.6";
case "formal_reasoning":
return "glm-5";
case "multilingual_support":
return "qwen3-max";
default:
return "deepseek-v4-pro";
}
}
3. Routing dengan fallback kualitas
async function runWithFallback(task) {
const model = selectByTask(task);
const result = await callModel(model, task);
if (result.failedValidation) {
return callModel("qwen3-max", task);
}
return result;
}
Tiga pola yang paling berguna:
- Routing dua model: kirim 70–85% trafik murah ke DeepSeek, lalu fallback ke model lebih kuat untuk kasus sulit.
- Segmentasi konteks: konteks pendek ke DeepSeek, konteks panjang ke MiMo.
- Konsolidasi prefiks cache: stabilkan prompt sistem agar cache-hit meningkat di model yang mendukungnya.
Catatan kualitas dan benchmark
Harga murah tidak cukup. Anda tetap perlu evaluasi internal.
Menurut Artificial Analysis, kelima model dalam perbandingan ini berada dalam jarak 5–10 poin persentase pada banyak benchmark publik. Perbedaan yang perlu diperhatikan:
- DeepSeek V4-Pro: kuat dalam pengkodean dan penalaran, tetapi masih memiliki celah pada tugas agen jangka panjang.
- MiMo V2.5 Pro: kuat dalam retrieval konteks panjang, terutama untuk prompt sangat besar.
- Qwen3 Max: kuat untuk produksi umum dan non-Inggris.
- Kimi K2.6: kuat pada kepatuhan format tool calling, termasuk tool parallel.
- GLM-5: kuat pada penalaran chain-of-thought terstruktur.
Sebelum migrasi, jalankan evaluasi minimal:
- Ambil 100–300 request nyata dari trafik Anda.
- Hapus data sensitif.
- Jalankan ke semua kandidat model.
- Skor output dengan rubric yang sama.
- Ukur:
- biaya,
- latensi,
- validitas JSON,
- akurasi domain,
- tingkat fallback,
- error tool calling.
Contoh format hasil evaluasi:
| Model | Skor kualitas | Biaya relatif | Latensi | Valid JSON | Catatan |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | 0.84 | 1.0x | Sedang | 97% | Murah untuk mayoritas trafik |
| MiMo V2.5 Pro | 0.86 | 2–4x | Sedang | 96% | Unggul di dokumen panjang |
| Qwen3 Max | 0.88 | 4–5x | Sedang | 98% | Fallback produksi |
| Kimi K2.6 | 0.87 | Bervariasi | Sedang | 98% | Tool calling kuat |
| GLM-5 | 0.90 | Tinggi | Sedang | 97% | Reasoning kuat |
Menguji kelima model dengan Apidog
Penyebaran multi-model membutuhkan uji coba multi-model. Apidog dapat digunakan untuk menguji kelima API dari satu ruang kerja karena semuanya menerima pola request OpenAI Chat Completions, dengan beberapa perbedaan kompatibilitas per penyedia.
Workflow praktis:
- Buat satu environment per penyedia:
api.deepseek.complatform.xiaomimimo.com- Alibaba Cloud Model Studio
api.moonshot.cnopen.bigmodel.cn
- Impor skema OpenAI Chat Completion sekali.
- Ganti base URL dan API key per environment.
- Jalankan request uji yang sama ke semua model.
- Bandingkan:
- output,
- latensi,
- validitas JSON,
- bentuk
tool_calls, - error streaming.
- Tambahkan validasi JSON Schema untuk memastikan respons model sesuai kontrak aplikasi.
Contoh bentuk validasi sederhana:
{
"type": "object",
"required": ["answer", "confidence"],
"properties": {
"answer": { "type": "string" },
"confidence": {
"type": "number",
"minimum": 0,
"maximum": 1
}
}
}
Unduh Apidog, impor kasus uji Anda, lalu jalankan perbandingan lima model dalam satu workspace.
Bacaan terkait:
Ke mana arah perang harga selanjutnya
Batas bawah harga bergerak dua kali pada bulan Mei. Beberapa kemungkinan berikutnya:
- Respons Qwen: Alibaba jarang menjadi yang pertama memotong harga, tetapi sering mengikuti setelah pasar bergerak.
- Respons GLM: kenaikan harga GLM-5 terlihat kontrarian di pasar yang sedang turun harga.
- Penyederhanaan harga Kimi: harga konteks bertingkat mulai kurang menarik dibanding tarif tetap seperti MiMo.
Langkah implementasi yang bisa Anda lakukan minggu ini:
- Pilih tiga beban kerja terbesar berdasarkan biaya token.
- Petakan masing-masing ke matriks model di atas.
- Jalankan evaluasi 100 sampel per beban kerja.
- Stabilkan prompt sistem untuk meningkatkan cache-hit.
- Siapkan routing multi-model agar Anda bisa mengganti model berdasarkan harga dan hasil evaluasi, bukan asumsi.
Batas bawah harga belum selesai turun. Bangun stack LLM Anda agar mudah diuji, mudah dirutekan, dan mudah diganti saat gelombang pemotongan berikutnya datang.

Top comments (0)