Walse

Posted on May 27 • Originally published at apidog.com

Perang Harga LLM China 2026: Perbandingan Biaya API Frontier Top 5

Laboratorium Tiongkok menurunkan harga API LLM enam kali pada paruh pertama 2026, dan tiga di antaranya dinyatakan permanen. DeepSeek V4-Pro kini $0,87 per juta token keluaran. Xiaomi MiMo V2.5 meratakan tarif konteks panjang menjadi $3 keluaran. Qwen3 Max dari Alibaba berada di $3,90. Kimi K2.6 dari Moonshot mempertahankan cache-hit minimum $0,07. GLM-5 dari Zhipu berada di $3,20 keluaran. Artikel ini merangkum harga, batas konteks, pola penggunaan, dan cara memilih model untuk beban kerja produksi.

Coba Apidog hari ini

TL;DR

Termurah per token keluaran: DeepSeek V4-Pro, $0,87/MTok.
Termurah untuk konteks 1 juta token: Xiaomi MiMo V2.5 Pro, $3/MTok keluaran, tarif tetap berapa pun panjang masukan.
Pilihan produksi umum paling seimbang: Alibaba Qwen3 Max, $3,90/MTok keluaran, konteks 262K.
Cache-hit termurah untuk prompt sistem panjang: Moonshot Kimi K2.6, $0,07/MTok cache-hit.
Penalaran berat dan terstruktur: Zhipu GLM-5, $3,20/MTok keluaran, konteks 200K.
Strategi praktis: gunakan routing multi-model. Kirim beban kerja murah dan banyak keluaran ke DeepSeek, konteks sangat panjang ke MiMo, prompt stabil ke Kimi, produksi multibahasa ke Qwen, dan penalaran formal ke GLM.

Bagaimana perang harga LLM Tiongkok 2026 berlangsung

Pola harga mulai berubah pada Q4 2025 dan makin cepat pada Q2 2026:

Q4 2025: DeepSeek V3.2 diluncurkan di $0,28/MTok masukan. Kimi K2.6 menyusul dengan harga bertingkat berbasis konteks dan cache-hit $0,07/MTok.
Maret 2026: Xiaomi meluncurkan MiMo V2-Pro di OpenRouter dengan tarif kompetitif tetapi masih bertingkat.
April 2026: DeepSeek V4 diluncurkan dengan diskon promosi 75% yang awalnya dijadwalkan berakhir pada 31 Mei.
22 Mei 2026: DeepSeek mengumumkan diskon 75% menjadi permanen. V4-Pro tetap di $0,435 masukan / $0,87 keluaran. Rincian lengkapnya ada di sini.
27 Mei 2026: Xiaomi membuat harga MiMo V2.5 permanen di $1 masukan / $3 keluaran dan menghapus pengali konteks panjang. Lebih lanjut tentang pemotongan harga MiMo.

Setiap laboratorium menargetkan celah berbeda:

DeepSeek: biaya per token paling rendah.
MiMo: konteks panjang dengan harga tetap.
Qwen: keseimbangan kualitas, ekosistem, dan produksi.
Kimi: alur kerja agen dengan prompt stabil dan cache-hit murah.
GLM: penalaran terstruktur.

Perbandingan cepat: 5 API LLM Tiongkok teratas pada Mei 2026

Model	Masukan ($/MTok)	Keluaran ($/MTok)	Cache hit	Konteks	Paling cocok untuk
DeepSeek V4-Pro	$0.435	$0.87	$0.003625	128K	Biaya token rendah, pengkodean
Xiaomi MiMo V2.5 Pro	$1.00	$3.00	$0.20	1M	RAG dokumen panjang, agen repositori
Alibaba Qwen3 Max	$0.78	$3.90	$0.156	262K	Produksi umum
Moonshot Kimi K2.6	$0.16–$2.00 bertingkat	~$2.50	$0.07	128K	Prompt sistem panjang, agen pengkodean
Zhipu GLM-5	$1.00	$3.20	Didefinisikan penyedia	200K	Penalaran terstruktur

Cara membaca tabel:

Jika keluaran mendominasi biaya, mulai dari DeepSeek V4-Pro.
Jika konteks melewati 300K token, MiMo V2.5 Pro menjadi opsi utama dalam daftar ini.
Jika prompt sistem stabil dan sering dipakai ulang, bandingkan cache-hit, bukan hanya harga masukan normal.
Jika Anda butuh konteks 200K+ tetapi tidak sampai 1 juta, Qwen3 Max dan GLM-5 masuk daftar pendek.
Jika evaluasi Anda berbasis tool calling atau agen, uji Kimi K2.6 secara khusus.

Untuk memahami dampak cache terhadap biaya, lihat penjelasan mendalam tentang prompt caching.

DeepSeek: termurah per token

Model utama:

V4-Pro: $0,435 masukan / $0,87 keluaran / $0,003625 cache-hit, konteks 128K.
V4-Flash: $0,14 masukan / $0,28 keluaran.

DeepSeek V4-Pro menjadi batas bawah harga untuk model perbatasan Tiongkok. Pemotongan permanen pada 22 Mei membuat harga keluaran berada di $0,87/MTok. Cache-hit $0,003625/MTok juga sangat rendah untuk penyedia pihak pertama. Tarif ini dikonfirmasi terhadap halaman harga resmi DeepSeek.

Gunakan DeepSeek V4-Pro jika

Beban kerja Anda banyak menghasilkan keluaran, seperti:
- pembuatan kode,
- transformasi teks,
- pipeline agen,
- pembuatan konten terstruktur.
Prompt sistem stabil di kisaran 5K–10K token dan bisa memanfaatkan cache.
Anda mengoptimalkan biaya produksi dan bisa menerima celah kualitas kecil terhadap model yang lebih mahal.

Hindari DeepSeek V4-Pro jika

Prompt Anda membutuhkan konteks di atas 128K.
Anda membutuhkan latensi sangat rendah untuk chat real-time.
Evaluasi internal menunjukkan model gagal pada kasus edge domain Anda.

Contoh pola routing

function chooseModel({ inputTokens, outputHeavy, requiresLongContext }) {
  if (requiresLongContext || inputTokens > 128_000) {
    return "xiaomi-mimo-v2.5-pro";
  }

  if (outputHeavy) {
    return "deepseek-v4-pro";
  }

  return "qwen3-max";
}

Bacaan lanjutan:

Xiaomi MiMo: opsi konteks 1 juta termurah

Model utama:

MiMo V2.5 Pro: $1,00 masukan / $3,00 keluaran / $0,20 cache, konteks 1 juta.
MiMo V2 Flash: sekitar $0,10 masukan / $0,40 keluaran, konteks 256K.

Pemotongan permanen Xiaomi pada 27 Mei meratakan harga MiMo V2.5 di seluruh jendela konteks. Tarif $1/$3 berlaku baik untuk 5K token maupun 950K token. Pemberitahuan pembaruan harga resmi menyebut pemotongan ini permanen.

Gunakan MiMo V2.5 Pro jika

Anda memproses dokumen panjang.
Anda menjalankan RAG dengan konteks besar.
Anda menganalisis seluruh repositori.
Prompt sering berada di kisaran 300K–1 juta token.
Prediktabilitas harga lebih penting daripada tarif keluaran termurah.

Hindari MiMo V2.5 Pro jika

Prompt Anda pendek dan bisa masuk ke 128K.
Beban kerja sangat sensitif terhadap biaya keluaran.
Anda membutuhkan respons sub-detik.

Contoh logika pemilihan konteks

function routeByContext(inputTokens) {
  if (inputTokens > 300_000) {
    return "mimo-v2.5-pro";
  }

  if (inputTokens > 128_000) {
    return "qwen3-max";
  }

  return "deepseek-v4-pro";
}

Jendela konteks 1 juta plus tarif tetap membuat MiMo punya posisi unik. Sampai penyedia lain memperluas konteks atau meratakan harga, MiMo tetap kandidat utama untuk beban kerja murah-dan-panjang.

Bacaan lanjutan:

Alibaba Qwen: mesin produksi umum

Model utama:

Qwen3 Max: $0,78 masukan / $3,90 keluaran / $0,156 cache, konteks 262K.
Qwen 3.7 Max yang lebih baru dengan $2,50/MTok masukan dan konteks 1 juta sedang dalam peluncuran awal.

Tarif Qwen3 Max diverifikasi terhadap lembar Qwen3 Max pricepertoken.

Qwen3 Max bukan yang termurah, tetapi cocok sebagai default produksi jika Anda butuh kombinasi kualitas umum, konteks menengah-panjang, dan ekosistem yang matang.

Gunakan Qwen3 Max jika

Aplikasi Anda multibahasa, terutama Mandarin dan bahasa Asia.
Anda membutuhkan opsi deployment dan ekosistem perusahaan Alibaba Cloud.
Konteks Anda sering berada di 128K–262K.
Anda ingin model produksi umum sebelum melakukan optimasi biaya lebih agresif.

Hindari Qwen3 Max jika

Keluaran sangat besar dan biaya menjadi prioritas utama.
Evaluasi Anda menunjukkan DeepSeek cukup baik untuk mayoritas trafik.
Anda tidak membutuhkan konteks di atas 128K.

Pola implementasi yang masuk akal

Gunakan Qwen sebagai fallback kualitas:

async function callLLM(request) {
  const primary = await callModel("deepseek-v4-pro", request);

  if (primary.score < 0.8 || primary.needsFallback) {
    return callModel("qwen3-max", request);
  }

  return primary;
}

Bacaan lanjutan:

Qwen 3 vs OpenAI & DeepSeek: perbandingan teknis mendalam untuk pengembang API

Moonshot Kimi: spesialis agen dan pengkodean

Model utama:

Kimi K2.6:
- masukan bertingkat $0,16–$2,00/MTok untuk pita 8K, 32K, 64K, dan 128K,
- cache-hit minimum $0,07/MTok,
- keluaran sekitar $2,50/MTok pada pita tengah.

Kimi K2.6 unggul ketika prompt sistem besar dipakai ulang berkali-kali. Ini sering terjadi pada:

agen pengkodean,
chatbot dukungan pelanggan dengan persona stabil,
pipeline retrieval dengan blok konteks yang berulang,
tool calling multi-langkah.

Gunakan Kimi K2.6 jika

Prefiks prompt stabil di banyak request.
Anda menjalankan agen yang memakai tool calling.
Anda perlu mempertahankan konteks instruksi panjang selama banyak putaran.
Biaya cache-hit lebih penting daripada harga masukan normal.

Hindari Kimi K2.6 jika

Prefiks berubah hampir di setiap request.
Panjang prompt sering melompat antar tingkat harga.
Anda butuh perencanaan biaya yang sangat stabil.

Checklist optimasi cache untuk Kimi

Pisahkan prompt sistem dari input pengguna.
Jaga prompt sistem tetap deterministik.
Hindari menyisipkan timestamp, ID acak, atau data request di prefiks.
Letakkan data dinamis setelah bagian yang ingin di-cache.
Ukur rasio cache-hit per endpoint.

Contoh struktur prompt:

[SYSTEM PROMPT STABIL]
- Peran agen
- Aturan tool calling
- Format output
- Contoh few-shot tetap

[DATA DINAMIS]
- Pertanyaan pengguna
- Konteks retrieval terbaru
- Parameter request

Bacaan lanjutan:

Apakah harga API Kimi K2 benar-benar sepadan dengan gembar-gembornya bagi pengembang pada tahun 2026

Zhipu GLM: penantang penalaran

Model utama:

GLM-5: $1,00 masukan / $3,20 keluaran, konteks 200K.
GLM-5.1: $0,98 masukan / $3,08 keluaran, konteks 200K.

Tarif diverifikasi terhadap gambaran harga resmi Z.AI.

GLM-5 tidak diposisikan sebagai opsi termurah. Nilainya ada pada penalaran terstruktur dan tugas yang membutuhkan rantai logika lebih kuat.

Gunakan GLM-5 jika

Anda mengerjakan matematika, penalaran formal, atau analisis terstruktur.
Biaya jawaban salah lebih mahal daripada biaya token.
Anda membangun workflow multi-langkah yang membutuhkan jejak reasoning bersih.
Beban kerja berada di domain seperti analisis keuangan, hukum, atau ilmiah.

Hindari GLM-5 jika

Anda hanya membuat ringkasan sederhana.
Anda menjalankan pembuatan konten massal.
Biaya token adalah metrik optimasi utama.

Pola penggunaan praktis

Gunakan GLM sebagai verifier, bukan selalu sebagai model utama:

const draft = await callModel("deepseek-v4-pro", task);

if (task.requiresFormalReasoning) {
  const verification = await callModel("glm-5", {
    prompt: `Periksa jawaban berikut secara logis:\n\n${draft.text}`
  });

  return verification;
}

return draft;

Bacaan lanjutan:

Matriks pembeli: model termurah per beban kerja

Beban kerja	Pilihan utama	Alasan
Pembuatan kode dengan keluaran besar	DeepSeek V4-Pro	Keluaran $0,87/MTok
RAG dokumen panjang di atas 300K token	Xiaomi MiMo V2.5 Pro	Konteks 1 juta dengan harga tetap
Agen pengkodean dengan prompt sistem stabil	Kimi K2.6	Cache-hit $0,07/MTok
Dukungan pelanggan multibahasa	Alibaba Qwen3 Max	Performa non-Inggris kuat
Matematika, penalaran formal, analisis terstruktur	Zhipu GLM-5	Kualitas reasoning lebih kuat

Strategi routing multi-model

Untuk produksi, jangan pilih satu model hanya karena harga daftar. Buat router sederhana berdasarkan bentuk request.

1. Routing berdasarkan panjang konteks

function selectByContext(tokens) {
  if (tokens > 300_000) return "mimo-v2.5-pro";
  if (tokens > 128_000) return "qwen3-max";
  return "deepseek-v4-pro";
}

2. Routing berdasarkan tipe tugas

function selectByTask(task) {
  switch (task.type) {
    case "long_document_rag":
      return "mimo-v2.5-pro";
    case "coding_agent":
      return "kimi-k2.6";
    case "formal_reasoning":
      return "glm-5";
    case "multilingual_support":
      return "qwen3-max";
    default:
      return "deepseek-v4-pro";
  }
}

3. Routing dengan fallback kualitas

async function runWithFallback(task) {
  const model = selectByTask(task);
  const result = await callModel(model, task);

  if (result.failedValidation) {
    return callModel("qwen3-max", task);
  }

  return result;
}

Tiga pola yang paling berguna:

Routing dua model: kirim 70–85% trafik murah ke DeepSeek, lalu fallback ke model lebih kuat untuk kasus sulit.
Segmentasi konteks: konteks pendek ke DeepSeek, konteks panjang ke MiMo.
Konsolidasi prefiks cache: stabilkan prompt sistem agar cache-hit meningkat di model yang mendukungnya.

Catatan kualitas dan benchmark

Harga murah tidak cukup. Anda tetap perlu evaluasi internal.

Menurut Artificial Analysis, kelima model dalam perbandingan ini berada dalam jarak 5–10 poin persentase pada banyak benchmark publik. Perbedaan yang perlu diperhatikan:

DeepSeek V4-Pro: kuat dalam pengkodean dan penalaran, tetapi masih memiliki celah pada tugas agen jangka panjang.
MiMo V2.5 Pro: kuat dalam retrieval konteks panjang, terutama untuk prompt sangat besar.
Qwen3 Max: kuat untuk produksi umum dan non-Inggris.
Kimi K2.6: kuat pada kepatuhan format tool calling, termasuk tool parallel.
GLM-5: kuat pada penalaran chain-of-thought terstruktur.

Sebelum migrasi, jalankan evaluasi minimal:

Ambil 100–300 request nyata dari trafik Anda.
Hapus data sensitif.
Jalankan ke semua kandidat model.
Skor output dengan rubric yang sama.
Ukur:
- biaya,
- latensi,
- validitas JSON,
- akurasi domain,
- tingkat fallback,
- error tool calling.

Contoh format hasil evaluasi:

Model	Skor kualitas	Biaya relatif	Latensi	Valid JSON	Catatan
DeepSeek V4-Pro	0.84	1.0x	Sedang	97%	Murah untuk mayoritas trafik
MiMo V2.5 Pro	0.86	2–4x	Sedang	96%	Unggul di dokumen panjang
Qwen3 Max	0.88	4–5x	Sedang	98%	Fallback produksi
Kimi K2.6	0.87	Bervariasi	Sedang	98%	Tool calling kuat
GLM-5	0.90	Tinggi	Sedang	97%	Reasoning kuat

Menguji kelima model dengan Apidog

Penyebaran multi-model membutuhkan uji coba multi-model. Apidog dapat digunakan untuk menguji kelima API dari satu ruang kerja karena semuanya menerima pola request OpenAI Chat Completions, dengan beberapa perbedaan kompatibilitas per penyedia.

Workflow praktis:

Buat satu environment per penyedia:
- api.deepseek.com
- platform.xiaomimimo.com
- Alibaba Cloud Model Studio
- api.moonshot.cn
- open.bigmodel.cn
Impor skema OpenAI Chat Completion sekali.
Ganti base URL dan API key per environment.
Jalankan request uji yang sama ke semua model.
Bandingkan:
- output,
- latensi,
- validitas JSON,
- bentuk tool_calls,
- error streaming.
Tambahkan validasi JSON Schema untuk memastikan respons model sesuai kontrak aplikasi.

Contoh bentuk validasi sederhana:

{
  "type": "object",
  "required": ["answer", "confidence"],
  "properties": {
    "answer": { "type": "string" },
    "confidence": {
      "type": "number",
      "minimum": 0,
      "maximum": 1
    }
  }
}

Unduh Apidog, impor kasus uji Anda, lalu jalankan perbandingan lima model dalam satu workspace.

Bacaan terkait:

Ke mana arah perang harga selanjutnya

Batas bawah harga bergerak dua kali pada bulan Mei. Beberapa kemungkinan berikutnya:

Respons Qwen: Alibaba jarang menjadi yang pertama memotong harga, tetapi sering mengikuti setelah pasar bergerak.
Respons GLM: kenaikan harga GLM-5 terlihat kontrarian di pasar yang sedang turun harga.
Penyederhanaan harga Kimi: harga konteks bertingkat mulai kurang menarik dibanding tarif tetap seperti MiMo.

Langkah implementasi yang bisa Anda lakukan minggu ini:

Pilih tiga beban kerja terbesar berdasarkan biaya token.
Petakan masing-masing ke matriks model di atas.
Jalankan evaluasi 100 sampel per beban kerja.
Stabilkan prompt sistem untuk meningkatkan cache-hit.
Siapkan routing multi-model agar Anda bisa mengganti model berdasarkan harga dan hasil evaluasi, bukan asumsi.

Batas bawah harga belum selesai turun. Bangun stack LLM Anda agar mudah diuji, mudah dirutekan, dan mudah diganti saat gelombang pemotongan berikutnya datang.

DEV Community

Perang Harga LLM China 2026: Perbandingan Biaya API Frontier Top 5

TL;DR

Bagaimana perang harga LLM Tiongkok 2026 berlangsung

Perbandingan cepat: 5 API LLM Tiongkok teratas pada Mei 2026

DeepSeek: termurah per token

Gunakan DeepSeek V4-Pro jika

Hindari DeepSeek V4-Pro jika

Contoh pola routing

Xiaomi MiMo: opsi konteks 1 juta termurah

Gunakan MiMo V2.5 Pro jika

Hindari MiMo V2.5 Pro jika

Contoh logika pemilihan konteks

Alibaba Qwen: mesin produksi umum

Gunakan Qwen3 Max jika

Hindari Qwen3 Max jika

Pola implementasi yang masuk akal

Moonshot Kimi: spesialis agen dan pengkodean

Gunakan Kimi K2.6 jika

Hindari Kimi K2.6 jika

Checklist optimasi cache untuk Kimi

Zhipu GLM: penantang penalaran

Gunakan GLM-5 jika

Hindari GLM-5 jika

Pola penggunaan praktis

Matriks pembeli: model termurah per beban kerja

Strategi routing multi-model

1. Routing berdasarkan panjang konteks

2. Routing berdasarkan tipe tugas

3. Routing dengan fallback kualitas

Catatan kualitas dan benchmark

Menguji kelima model dengan Apidog

Ke mana arah perang harga selanjutnya

Top comments (0)