Tobias Hoffmann

Posted on May 27 • Originally published at apidog.com

2026 Çin LLM Fiyat Savaşı: En İyi 5 API Maliyeti Karşılaştırması

Çinli laboratuvarlar, 2026'nın ilk yarısında LLM API fiyatlarını altı kez düşürdü ve bu indirimlerin üçü kalıcı olarak ilan edildi. DeepSeek V4-Pro'nun çıkış token'ı başına maliyeti şu anda milyon başına 0,87 dolar. Xiaomi MiMo V2.5, uzun bağlam katmanını çıktı başına 3 dolara sabitledi. Alibaba'nın Qwen3 Max'i 3,90 dolardan piyasaya sürüldü. Moonshot'un Kimi K2.6'sı önbellek isabet tabanını 0,07 dolarda tutuyor. Zhipu'nun GLM-5'i çıktı başına 3,20 dolardır. Aşağıda, Mayıs 2026'da Çin'den çıkan en iyi beş öncü API'nin fiyat dökümü, kullanım alanları ve iş yükünüz için seçim matrisi bulunuyor.

Apidog'u bugün deneyin

Özet

Token başına en ucuz çıktı: DeepSeek V4-Pro, 0,87 $/MTok.
1M bağlamda en ucuz seçenek: Xiaomi MiMo V2.5 Pro, çıktı başına 3 $/MTok; girdi uzunluğundan bağımsız sabit fiyat.
Genel üretim için fiyat/kalite dengesi: Alibaba Qwen3 Max, çıktı başına 3,90 $/MTok ve 262K bağlam.
En düşük önbellek isabet tabanı: Moonshot Kimi K2.6, önbelleğe alınmış 0,07 $/MTok.
Akıl yürütme iş yükleri: Zhipu GLM-5, çıktı başına 3,20 $/MTok, 200K bağlam.
Beş laboratuvar da fiyat konusunda rekabet ediyor. Üçü — DeepSeek, MiMo, Kimi — 2026 indirimlerini kalıcı kabul ediyor.

2026 Çin LLM fiyat savaşı nasıl gelişti?

Desen 2025'in 4. çeyreğinde başladı ve 2026'nın 2. çeyreğinde hızlandı:

2025 4. Çeyrek: DeepSeek V3.2, 0,28 $/MTok girdi fiyatıyla piyasaya sürüldü. Kimi K2.6, kademeli bağlam duyarlı fiyatlandırma ve 0,07 $/MTok önbellek isabet oranıyla onu takip etti.
Mart 2026: Xiaomi, MiMo V2-Pro'yu OpenRouter'da rekabetçi ama kademeli oranlarla tanıttı.
Nisan 2026: DeepSeek V4, 31 Mayıs'ta sona erecek %75 promosyon indirimiyle piyasaya çıktı.
22 Mayıs 2026: DeepSeek, %75 indirimin kalıcı olduğunu duyurdu. V4-Pro, süresiz olarak 0,435 $/0,87 $ fiyatında kaldı. Tam döküm burada.
27 Mayıs 2026: Xiaomi, MiMo V2.5 fiyatlandırmasını 1 $/3 $ olarak kalıcı hale getirdi ve uzun bağlam çarpanını kaldırdı. MiMo indirimi hakkında daha fazla bilgi.

Bu indirimler rastgele değil. Her laboratuvar farklı bir maliyet açığını hedefliyor:

DeepSeek: token başına ham maliyet
MiMo: uzun bağlamlı iş yükleri
Qwen ve GLM: orta fiyat + yetenek
Kimi: önbellek isabeti ve ajan/kodlama iş akışları

Bir bakışta: Mayıs 2026'da en iyi 5 Çin LLM API'si

Model	Girdi ($/MTok)	Çıktı ($/MTok)	Önbellek isabeti	Bağlam	En iyi olduğu alan
DeepSeek V4-Pro	$0.435	$0.87	$0.003625	128K	Token başına en ucuz, kodlama
Xiaomi MiMo V2.5 Pro	$1.00	$3.00	$0.20	1M	Uzun belge RAG, depo ajanları
Alibaba Qwen3 Max	$0.78	$3.90	$0.156	262K	Üretim dengesi
Moonshot Kimi K2.6	$0.16–$2.00, kademeli	~$2.50	$0.07	128K	Uzun sistem istemleri, kodlama ajanları
Zhipu GLM-5	$1.00	$3.20	Sağlayıcı tarafından tanımlanır	200K	Yapılandırılmış akıl yürütme

Tabloyu yorumlarken şu üç noktaya dikkat edin:

DeepSeek ve MiMo sabit oranlıdır.

Sabit fiyatlandırma, üretim kapasitesi planlamasını daha öngörülebilir hale getirir. Kademeli fiyatlandırma, özellikle uzun bağlamlı aylarda faturayı şaşırtabilir.
Önbellek isabet oranları ciddi fark yaratır.

Kimi K2.6'nın 0,07 doları ve DeepSeek V4-Pro'nun 0,003625 doları iki uç noktadır. Sabit sistem istemi kullanan ajanlarda karşılaştırmanız gereken oran, önbelleksiz liste fiyatı değil önbellek isabet fiyatıdır. Mekanizma için istem önbellekleme derinlemesine incelemesine bakın.
Bağlam pencereleri farklı segmentlere ayrılıyor.

Bu listede ucuz katmanda 1M token veren tek model MiMo V2.5. Bir sonraki en büyük seçenek Qwen3 Max'in 262K bağlamı. İş yükünüz 300K+ token gerektiriyorsa, MiMo doğrudan adaydır.

Uygulamada seçim için hızlı kontrol listesi

Bir modeli seçmeden önce şu dört metriği çıkarın:

1. Ortalama girdi token'ı
2. Ortalama çıktı token'ı
3. P95 bağlam uzunluğu
4. Sabit sistem istemi / yeniden kullanılabilir prefix var mı?

Basit maliyet hesabı:

function estimateCost({
  inputTokens,
  outputTokens,
  inputPricePerMTok,
  outputPricePerMTok,
}) {
  return (
    (inputTokens / 1_000_000) * inputPricePerMTok +
    (outputTokens / 1_000_000) * outputPricePerMTok
  );
}

const deepseekCost = estimateCost({
  inputTokens: 50_000,
  outputTokens: 10_000,
  inputPricePerMTok: 0.435,
  outputPricePerMTok: 0.87,
});

console.log(`Tahmini istek maliyeti: $${deepseekCost.toFixed(6)}`);

Önbellekli sistem istemi kullanıyorsanız aynı hesabı ikiye ayırın:

function estimateCachedCost({
  cachedInputTokens,
  freshInputTokens,
  outputTokens,
  cacheHitPricePerMTok,
  inputPricePerMTok,
  outputPricePerMTok,
}) {
  return (
    (cachedInputTokens / 1_000_000) * cacheHitPricePerMTok +
    (freshInputTokens / 1_000_000) * inputPricePerMTok +
    (outputTokens / 1_000_000) * outputPricePerMTok
  );
}

Bu hesap, özellikle ajan mimarilerinde model seçimini daha gerçekçi hale getirir.

DeepSeek: token başına en ucuz seçenek

Modeller: V4-Pro — 0,435 $ girdi / 0,87 $ çıktı / 0,003625 $ önbellek isabeti, 128K bağlam. V4-Flash — 0,14 $ / 0,28 $.

DeepSeek V4-Pro, bu listedeki en düşük öncü seviye taban fiyata sahip modeldir. 22 Mayıs'taki kalıcı indirim, çıktı token'larını MToken başına 0,87 dolara düşürdü. MToken başına 0,003625 dolarlık önbellek isabeti de büyük laboratuvarlar arasında en düşük birinci taraf oranlardan biridir. Fiyatlar DeepSeek'in resmi fiyatlandırma sayfasıyla doğrulanmıştır.

Ne zaman kullanılır?

DeepSeek V4-Pro şu işlerde mantıklıdır:

Kod üretimi
Ajan zincirleri
İçerik üretim araçları
Çıktı token'ının toplam bütçenin büyük kısmını oluşturduğu iş yükleri
Sabit 5K–10K token sistem istemi kullanan uygulamalar

Örnek OpenAI uyumlu istek gövdesi:

{
  "model": "deepseek-v4-pro",
  "messages": [
    {
      "role": "system",
      "content": "Sen üretim kodu yazan kıdemli bir yazılım asistanısın."
    },
    {
      "role": "user",
      "content": "Bu TypeScript fonksiyonunu daha okunabilir hale getir."
    }
  ],
  "temperature": 0.2
}

Ne zaman kullanmayın?

128K üzeri uzun belge iş yüklerinde
300K+ token RAG senaryolarında
Bir saniyenin altında yanıt gerektiren gerçek zamanlı sohbetlerde

Daha derin kapsam için: DeepSeek V4-Pro kalıcı fiyat indirimi, DeepSeek V4 nedir, DeepSeek V4 API nasıl kullanılır.

Xiaomi MiMo: en ucuz 1M bağlam seçeneği

Modeller: MiMo V2.5 Pro — 1,00 $ girdi / 3,00 $ çıktı / 0,20 $ önbellek, 1M bağlam. MiMo V2 Flash — yaklaşık 0,10 $ / 0,40 $, 256K bağlam.

Xiaomi'nin 27 Mayıs'taki kalıcı indirimi, MiMo V2.5 fiyatlandırmasını tüm bağlam pencerelerinde sabitledi. Eskiden 256K girdi token'ı üzerindeki uzun bağlam katmanları daha pahalıydı. Yeni yapı, 5K veya 950K token gönderseniz de aynı 1 $/3 $ oranını uyguluyor. Resmi fiyat güncelleme bildirimi, indirimi kalıcı olarak etiketliyor.

Ne zaman kullanılır?

MiMo V2.5 Pro şu işlerde öne çıkar:

Uzun belge RAG
Depo çapında kod analizi
Çoklu belge özetleme
300K–1M token arası bağlam gerektiren iş yükleri
Fiyat öngörülebilirliğinin mutlak en düşük maliyetten daha önemli olduğu belge işleme sistemleri

Basit yönlendirme mantığı:

function selectModel({ contextTokens }) {
  if (contextTokens > 128_000) {
    return "mimo-v2.5-pro";
  }

  return "deepseek-v4-pro";
}

Ne zaman kullanmayın?

Kısa istemli sohbetlerde
DeepSeek'in bağlam penceresine sığan ve maliyetin kritik olduğu işlerde
Düşük gecikme gerektiren gerçek zamanlı ürünlerde

1M bağlam penceresi ve rekabetçi önbellek oranı, MiMo'ya benzersiz bir konum veriyor. DeepSeek bağlamı 128K'nın üzerine genişletene veya Alibaba Qwen fiyatlandırmasını sabitleyene kadar, MiMo ucuz ve uzun bağlam segmentinde güçlü kalır.

Daha derin kapsam için: 2026'da Xiaomi MiMo V2.5 Kullanmak Ne Kadara Mal Olacak, MiMo V2-Pro & Omni fiyatlandırması, Xiaomi MiMo Orbit ücretsiz 100T token programı.

Alibaba Qwen: üretim işgücü

Modeller: Qwen3 Max — 0,78 $ girdi / 3,90 $ çıktı / 0,156 $ önbellek, 262K bağlam. Yeni Qwen 3.7 Max, 1M bağlamla 2,50 $/MTok girdi fiyatıyla erken dağıtımda. Oranlar pricepertoken'ın Qwen3 Max tablosu ile doğrulandı.

Qwen3 Max, Alibaba'nın amiral gemisi modelidir ve uluslararası üretimde yaygın kullanılan Çin modellerinden biridir. DeepSeek V4-Pro'ya göre daha pahalıdır, ancak daha geniş araç ekosistemi, OpenAI uyumluluğu, Anthropic protokol desteği ve Alibaba Cloud kurumsal barındırma seçenekleriyle konumlanır.

Ne zaman kullanılır?

Qwen3 Max şu durumlarda mantıklıdır:

Çok dilli müşteri desteği
Mandarin ve Asya dillerinin önemli olduğu uygulamalar
Kurumsal SLA ve bulut bölgesi gerektiren dağıtımlar
200K–262K bağlam gerektiren ama MiMo kalitesini veya 1M bağlamını gerektirmeyen işler

Örnek kullanım senaryosu:

Kullanıcı mesajı -> Dil algılama -> Qwen3 Max -> Yanıt kalitesi değerlendirmesi -> CRM kaydı

Ne zaman kullanmayın?

Çıktı token'ı yoğun ve maliyete duyarlı işlerde
DeepSeek kalitesinin yeterli olduğu kod üretimi veya içerik üretimi senaryolarında

Daha derin kapsam için: Qwen 3 vs OpenAI & DeepSeek: API geliştiricileri için derinlemesine teknik karşılaştırma.

Moonshot Kimi: kodlama ajanları için güçlü seçenek

Modeller: Kimi K2.6 — 8K, 32K, 64K ve 128K bantlarında 0,16 dolardan 2,00 dolara kadar kademeli girdi fiyatlandırması; 0,07 $/MTok önbellek isabet tabanı; orta bantta yaklaşık 2,50 $/MTok çıktı oranı.

Kimi K2.6, önbellek isabet oranıyla öne çıkar. Sabit sistem istemi, araç tanımları ve birkaç örnekli şablonların tekrar kullanıldığı iş akışlarında maliyet avantajı belirginleşir.

Ne zaman kullanılır?

Kimi K2.6 şu işlerde güçlüdür:

Kodlama ajanları
Claude Code tarzı araç çağırma iş akışları
Sabit persona istemi kullanan müşteri destek botları
Sabit bağlam blokları olan geri çağırma boru hatları
Uzun süreli oturumlarda tekrar eden prefix kullanılan sistemler

Önbellek dostu mesaj yapısı:

{
  "messages": [
    {
      "role": "system",
      "content": "Sabit sistem istemi, araç kuralları ve proje standartları burada tutulur."
    },
    {
      "role": "user",
      "content": "Bu repoda ödeme akışını analiz et."
    }
  ]
}

Buradaki amaç, system içeriğini mümkün olduğunca sabit tutmaktır. Böylece sonraki çağrılarda önbellek isabet oranı artar.

Ne zaman kullanmayın?

Her istekte prefix'in değiştiği trafikte
Bağlam uzunluğunun tahmin edilemediği ve bütçe öngörülebilirliğinin kritik olduğu sistemlerde
Kademeli fiyat geçişlerinin faturayı zorlaştıracağı ürünlerde

Daha derin kapsam için: Kimi K2 API fiyatlandırması 2026'da geliştiriciler için gerçekten abartıldığı kadar iyi mi?.

Zhipu GLM: muhakeme odaklı seçenek

Modeller: GLM-5 — 1,00 $ girdi / 3,20 $ çıktı, 200K bağlam. GLM-5.1 — 0,98 $ / 3,08 $, 200K bağlam. Oranlar Z.AI'nin resmi fiyatlandırma genel bakışıyla doğrulandı.

Zhipu GLM-5, en ucuz seçenek değildir. Konumlandırması daha çok yapılandırılmış akıl yürütme, matematik, analiz ve düşünce zinciri görevleri üzerinedir.

Ne zaman kullanılır?

GLM-5 şu durumlarda tercih edilebilir:

Matematiksel akıl yürütme
Biçimsel analiz
Finansal analiz
Yasal özetleme
Bilimsel akıl yürütme
Çok adımlı ajan iş akışları

Örnek görev şablonu:

{
  "model": "glm-5",
  "messages": [
    {
      "role": "system",
      "content": "Yanıtı yapılandırılmış adımlarla üret. Varsayımları açıkça belirt."
    },
    {
      "role": "user",
      "content": "Bu finansal senaryoda riskleri ve alternatifleri analiz et."
    }
  ]
}

Ne zaman kullanmayın?

Ham maliyetin birincil optimizasyon olduğu uygulamalarda
Basit içerik oluşturma veya özetleme işlerinde
Güçlü akıl yürütmenin kalite farkı yaratmadığı görevlerde

Daha derin kapsam için: GLM-5 vs DeepSeek V3 vs GPT-5: hız, maliyet ve pratik geliştirici karşılaştırması, GLM-5.1 vs Claude, GPT, Gemini, DeepSeek.

İş yüküne göre en ucuz seçenek: alıcı matrisi

İş yükü	Kazanan	Neden
Kod üretimi, çıktı ağırlıklı	DeepSeek V4-Pro	0,87 $/MTok çıktı fiyatı rakipsizdir
Uzun belge RAG, 300K+ bağlam	Xiaomi MiMo V2.5 Pro	Tek sabit fiyatlı 1M bağlam seçeneği
Sabit sistem istemli kodlama ajanı	Kimi K2.6	0,07 $/MTok önbellek isabet tabanı
Çok dilli müşteri desteği	Alibaba Qwen3 Max	Güçlü İngilizce dışı performans
Matematik, biçimsel akıl yürütme, yapısal analiz	Zhipu GLM-5	Güçlü düşünce zinciri kalitesi

Üretimde üç pratik desen öne çıkıyor:

1. İki model yönlendirme

Birçok ekip, trafiğin büyük kısmını ucuz modele gönderip zor sorguları ikinci modele yönlendirir.

function routeRequest({ taskType, contextTokens, needsReasoning }) {
  if (contextTokens > 128_000) return "mimo-v2.5-pro";
  if (needsReasoning) return "glm-5";
  if (taskType === "coding-agent") return "kimi-k2.6";

  return "deepseek-v4-pro";
}

2. Uzun bağlam segmentasyonu

Kısa bağlamı DeepSeek'e, uzun bağlamı MiMo'ya yönlendirin. Faturalandırma karmaşıklaşır, ancak maliyet farkı çoğu üretim sisteminde buna değer.

3. Önbellek prefix optimizasyonu

Hangi modeli seçerseniz seçin, sistem istemlerinizi sabit tutmaya çalışın:

İyi:
- Sabit sistem istemi
- Sabit araç tanımları
- Sabit çıktı formatı

Kötü:
- Her istekte değişen sistem mesajı
- Kullanıcıya özel veriyi system içine gömmek
- Dinamik örnekleri prefix'in başına koymak

Kalite ve kıyaslama notları

Model işi yapamıyorsa fiyatın anlamı yoktur. Artificial Analysis'e göre, bu karşılaştırmadaki beş model çoğu genel kıyaslamada birbirine yakın kümeleniyor. Farklar daha çok kuyruk iş yüklerinde ortaya çıkıyor:

DeepSeek V4-Pro: Kodlamada ve akıl yürütmede güçlü. Uzun vadeli ajan görevlerinde GPT-5.5'e karşı hafif fark.
MiMo V2.5 Pro: Uzun bağlamlı alımda güçlü, kodlamada orta seviye.
Qwen3 Max: İngilizce dışı performans ve genel üretim kalitesi güçlü.
Kimi K2.6: Özellikle paralel araç çağrıları için araç çağırma formatı uyumluluğu güçlü.
GLM-5: Bu setteki en güçlü düşünce zinciri akıl yürütme kalitesine sahip seçeneklerden biri.

Üretime geçmeden önce kendi 100 örnekli değerlendirmenizi çalıştırın:

1. Gerçek kullanıcı sorgularından 100 örnek seçin.
2. Her modeli aynı prompt ve aynı sıcaklık ayarıyla çalıştırın.
3. Yanıtları kalite, maliyet ve gecikmeye göre puanlayın.
4. P95 gecikme ve toplam tahmini aylık maliyeti karşılaştırın.
5. Sadece benchmark skoruna değil, kendi trafiğinizdeki sonuca göre karar verin.

Apidog ile beş modeli test etme

Çok modelli üretim dağıtımı için çok modelli test donanımı gerekir. Apidog, beş Çin API'sini tek çalışma alanından yönetmenizi sağlar. Beşinin de OpenAI Sohbet Tamamlama istek gövdelerini küçük uyumluluk farklarıyla kabul etmesi, karşılaştırmayı pratik hale getirir.

Uygulanabilir test akışı:

Apidog'da her sağlayıcı için ortam oluşturun:
- api.deepseek.com
- platform.xiaomimimo.com
- Alibaba Cloud Model Studio
- api.moonshot.cn
- open.bigmodel.cn
OpenAI Sohbet Tamamlama şemasını bir kez içe aktarın.
Temel URL'yi her ortama göre değiştirin.
Aynı test senaryosunu beş modelde çalıştırın.
Yanıtları şu metriklerle karşılaştırın:
- Kalite puanı
- İlk token gecikmesi
- Toplam gecikme
- Girdi token'ı
- Çıktı token'ı
- Tahmini maliyet
- tool_calls uyumluluğu
Her sağlayıcıya özgü akış formatı farklarını yakalamak için JSON Schema doğrulaması ekleyin.

Örnek doğrulama alanları:

{
  "type": "object",
  "required": ["choices"],
  "properties": {
    "choices": {
      "type": "array"
    },
    "usage": {
      "type": "object",
      "properties": {
        "prompt_tokens": { "type": "number" },
        "completion_tokens": { "type": "number" },
        "total_tokens": { "type": "number" }
      }
    }
  }
}

Apidog'u indirin, test senaryolarınızı içe aktarın ve kısa sürede beş yönlü bir karşılaştırma çalıştırın. Model başına derinlemesine incelemelerde önerilen akış da aynıdır: DeepSeek V4-Pro kalıcı indirimi, MiMo V2.5 maliyeti, Kimi K2 fiyatlandırması.

Fiyat savaşı nereye gidiyor?

Fiyat tabanı Mayıs ayında iki kez değişti. 3. çeyrek bitmeden iki hamle daha bekleniyor:

Qwen yanıtı: Alibaba genellikle ilk kesinti yapan taraf değil, ancak çoğu zaman haftalar içinde takip ediyor. Temmuz ayına kadar Qwen3 Max revizyonu veya Qwen 3.8 duyurusu beklenebilir.
GLM yanıtı: Zhipu'nun GLM-5'teki %30'luk artışı, pazarın geneline göre daha pahalı görünüyor. Yapısal bir kesintiye sahip GLM-5.2 olası.
Kimi yapısal basitleştirme: Kademeli bağlam fiyatlandırması daha az cazip hale geliyor. Moonshot, K2.6'yı MiMo'nun yapısına benzer şekilde düzleştirebilir.

Sonraki adımlar

Üretim sisteminiz için kısa uygulama planı:

En büyük üç LLM iş yükünüzü çıkarın.
Her biri için ortalama girdi, çıktı ve P95 bağlam uzunluğunu ölçün.
Yukarıdaki matrise göre aday modeli seçin.
En az 100 gerçek örnekle kalite testi çalıştırın.
Sabit sistem istemlerini önbellek dostu hale getirin.
Beş sağlayıcıyı hedefleyen bir Apidog regresyon paketi oluşturun.
Yeni fiyat indirimi geldiğinde tüm paketi tekrar çalıştırın.

Fiyat tabanı düşmeye devam edecek. Kazanan kurulum, tek modele kilitlenen değil; iş yükünü ölçen, yönlendiren ve hızlı karşılaştırma yapabilen kurulum olacak.

DEV Community

2026 Çin LLM Fiyat Savaşı: En İyi 5 API Maliyeti Karşılaştırması

Özet

2026 Çin LLM fiyat savaşı nasıl gelişti?

Bir bakışta: Mayıs 2026'da en iyi 5 Çin LLM API'si

Uygulamada seçim için hızlı kontrol listesi

DeepSeek: token başına en ucuz seçenek

Ne zaman kullanılır?

Ne zaman kullanmayın?

Xiaomi MiMo: en ucuz 1M bağlam seçeneği

Ne zaman kullanılır?

Ne zaman kullanmayın?

Alibaba Qwen: üretim işgücü

Ne zaman kullanılır?

Ne zaman kullanmayın?

Moonshot Kimi: kodlama ajanları için güçlü seçenek

Ne zaman kullanılır?

Ne zaman kullanmayın?

Zhipu GLM: muhakeme odaklı seçenek

Ne zaman kullanılır?

Ne zaman kullanmayın?

İş yüküne göre en ucuz seçenek: alıcı matrisi

1. İki model yönlendirme

2. Uzun bağlam segmentasyonu

3. Önbellek prefix optimizasyonu

Kalite ve kıyaslama notları

Apidog ile beş modeli test etme

Fiyat savaşı nereye gidiyor?

Sonraki adımlar

Top comments (0)