DeepSeek mengubah diskon sementara paling agresif dalam harga LLM tahun 2026 menjadi harga normal baru. Pada 22 Mei, tim mengumumkan bahwa diskon 75% untuk DeepSeek-V4-Pro, yang semula akan berakhir pada 31 Mei 2026 pukul 15:59 UTC, menjadi harga permanen. Input turun menjadi $0,435 per juta token, output menjadi $0,87, dan cache hit menjadi $0,003625. Artikel ini merangkum perubahan harga, dampaknya ke biaya API, dan langkah praktis untuk mengevaluasi migrasi.
TL;DR
- Harga API DeepSeek-V4-Pro kini permanen menjadi 1/4 dari harga awal: input $0,435/MTok, output $0,87/MTok, cache hit $0,003625/MTok.
- Diskon promosi 75% yang semula berakhir pada 31 Mei 2026 kini menjadi tarif reguler. Tidak ada pengembalian harga.
- V4-Pro kini sekitar 34x lebih murah daripada GPT-5.5 untuk output, sementara kualitasnya berada dalam ~95% dari GPT-5.5 pada sebagian besar benchmark pengkodean dan penalaran.
- Harga cache hit $0,003625/MTok membuat prompt sistem panjang jauh lebih murah jika prefix Anda stabil.
- Jika harga fitur AI Anda dihitung berdasarkan GPT-5.5 atau Claude Opus 4.7 pada kuartal lalu, perhitungan biaya perlu diperbarui minggu ini.
Mengapa ini penting sekarang
Harga LLM biasanya turun perlahan. DeepSeek mengambil rute berbeda: menjalankan promosi agresif sepanjang Mei, melihat adopsi developer meningkat, lalu menjadikan harga promosi sebagai harga permanen.
Jika produk Anda memanggil LLM di jalur utama seperti autocomplete, RAG chat, review kode, atau agent loop, selisih antara $3,48 dan $0,87 per juta token output langsung terlihat di tagihan.
Contoh cepat:
Output harian: 50 juta token
Harga lama: 50 × $3,48 = $174/hari
Harga baru: 50 × $0,87 = $43,50/hari
Estimasi bulanan:
Harga lama: ~$5.220
Harga baru: ~$1.305
Penghematan: ~$3.915/bulan
Membangun di atas DeepSeek? Apidog memungkinkan Anda membuat, menguji, dan memantau panggilan API V4-Pro dalam satu workspace, termasuk streaming, tool calls, dan validasi skema JSON. Anda dapat mengkloning request, mengubah base URL, lalu menjalankan uji regresi terhadap model lama dan V4-Pro.
Di bawah ini, kita akan membahas:
- Apa yang berubah dari pengumuman harga.
- Tabel harga permanen baru.
- Perbandingan dengan GPT-5.5, Claude Opus 4.7, dan Gemini 3.5 Flash.
- Cara menghitung dampak cache hit.
- Checklist migrasi yang bisa Anda jalankan minggu ini.
Apa yang berubah dari pengumuman DeepSeek
Pemberitahuan harga resmi DeepSeek singkat, tetapi ada tiga poin penting untuk developer API.
1. Diskon 75% menjadi permanen
Promo yang berlaku hingga 31 Mei 2026 pukul 15:59 UTC awalnya akan kembali ke harga peluncuran pada 1 Juni. Itu tidak terjadi. Tarif promosi menjadi tarif reguler tanpa batas waktu.
2. Pemotongan berlaku untuk V4-Pro
DeepSeek-V4-Flash sudah berada di tier murah, yaitu $0,14 input dan $0,28 output per juta token. Perubahan besar terjadi pada V4-Pro, model frontier DeepSeek.
Untuk detail Flash vs Pro, lihat Apa itu DeepSeek V4.
3. Cache hit menjadi jauh lebih murah
Harga cache hit dipotong menjadi 1/10 dari harga peluncuran, berlaku sejak 26 April 2026 pukul 12:15 UTC. Setelah digabung dengan pemotongan utama, harga cache hit menjadi:
$0,003625 per 1 juta token
Ini penting untuk aplikasi yang memakai prefix panjang seperti:
- system prompt
- tool schema
- instruction block
- few-shot examples
- template agent
Strateginya jelas: DeepSeek ingin developer menjalankan workload inferensi, agent, dan konteks panjang di V4-Pro.
Lembar harga permanen baru
Harga per 1 juta token, USD:
| Jenis token | Harga lama | Harga permanen baru | Potongan |
|---|---|---|---|
| Input, cache miss | $1.74 | $0.435 | 75% |
| Input, cache hit | $0.0145 | $0.003625 | 75% |
| Output | $3.48 | $0.87 | 75% |
Catatan implementasi:
- Token output biasanya menjadi komponen biaya terbesar pada agent, code generator, dan reasoning workflow.
- Input cache hit sangat murah jika prefix request stabil.
- Rasio input cache miss ke cache hit sekitar 120:1.
- Tarif ini berlaku untuk API. Web chat DeepSeek tetap gratis untuk pengguna individu.
Untuk konteks lebih lengkap tentang tier harga V4, lihat Harga API DeepSeek V4.
Perbandingan V4-Pro dengan GPT-5.5, Claude Opus 4.7, dan Gemini 3.5 Flash
Perbandingan yang relevan bukan V4-Pro lama vs V4-Pro baru, tetapi V4-Pro baru vs model frontier lain.
| Model | Input ($/MTok) | Output ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro baru | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
Dua angka utama:
- Untuk output token, DeepSeek-V4-Pro 34x lebih murah daripada GPT-5.5.
- V4-Pro berada dalam jarak 3 sampai 7 poin persentase dari GPT-5.5 pada banyak benchmark pengkodean dan penalaran publik, menurut perbandingan DataCamp.
Implikasinya:
- Jika workload Anda toleran terhadap sedikit variasi kualitas, migrasi sebagian traffic ke V4-Pro layak diuji.
- Jika workload membutuhkan reliabilitas maksimum, gunakan V4-Pro sebagai model draft, classifier, router, atau critic sebelum memanggil model premium.
- Jika biaya output mendominasi tagihan, V4-Pro harus masuk evaluasi prioritas.
Untuk perbandingan lebih spesifik, lihat DeepSeek V4 vs Claude Opus 4.5 untuk pengkodean dan GLM-5 vs DeepSeek V3 vs GPT-5: kecepatan, biaya, dan perbandingan developer praktis.
Sudut pandang cache hit yang sering terlewat
Banyak pembahasan fokus pada output $0,87. Namun untuk sistem agent, cache hit $0,003625/MTok dapat mengubah desain prompt.
Prompt caching DeepSeek aktif ketika prefix request identik secara byte dengan request sebelumnya dalam jendela waktu sekitar 30 menit. Pada agent chat dan pipeline RAG, prefix biasanya berisi:
system prompt
+ tool definitions
+ instruction framework
+ few-shot examples
Bagian ini sering berukuran 4.000 sampai 10.000 token dan tidak berubah antar giliran.
Contoh biaya cache hit
Misalkan aplikasi chat Anda memiliki pola berikut:
System prompt: 6.000 token
User message rata-rata: 200 token
Response rata-rata: 800 token
Traffic: 100.000 chat turn/hari
Harga input V4-Pro: $0,435/MTok
Harga cache hit: $0,003625/MTok
Tanpa cache hit:
100.000 × 6.200 token input × $0,435 / 1.000.000
= $269,70 per hari untuk input
Dengan 90% system prompt terkena cache:
Per turn:
- 200 token user message pada harga input normal
- 6.000 token system prompt:
- 90% pada harga cache hit
- 10% pada harga cache miss
Estimasi total:
≈ $32 per hari untuk input
Hasilnya: biaya input turun sekitar 88%.
Untuk penjelasan mekanisme lintas provider, baca pembahasan mendalam tentang prompt caching.
Cara mendesain request agar cache hit tinggi
Gunakan tiga pola berikut.
1. Stabilkan prefix
Pastikan bagian awal request selalu identik.
Baik:
[system prompt tetap]
[tool schema tetap]
[few-shot examples tetap]
[user message dinamis]
Buruk:
[system prompt + timestamp + user_id + session_id]
[tool schema]
[user message]
Timestamp, user ID, session ID, dan konteks dinamis sebaiknya masuk ke message terpisah, bukan ke prefix stabil.
2. Urutkan konteks dinamis secara deterministik
Jika Anda menambahkan hasil retrieval, urutkan secara stabil.
Contoh strategi:
sort by document_id ASC
sort by chunk_index ASC
deduplicate by chunk_hash
Perubahan kecil pada urutan chunk bisa mengubah byte prefix dan menghilangkan cache hit.
3. Lakukan warm-up request
Saat service atau agent worker dimulai, kirim satu request dengan prefix lengkap untuk mengisi cache provider sebelum traffic pengguna masuk.
Contoh pseudocode:
async function warmupDeepSeek(client) {
await client.chat.completions.create({
model: "deepseek-v4-pro",
messages: [
{
role: "system",
content: SYSTEM_PROMPT_WITH_TOOL_SCHEMA
},
{
role: "user",
content: "Warm up request. Reply with OK."
}
]
});
}
Checklist migrasi minggu ini
Migrasi tidak harus all-in. Gunakan pendekatan bertahap.
1. Ukur rasio output:input
Ambil data penggunaan token dari production selama 7 sampai 14 hari.
Hitung:
output_ratio = output_tokens / (input_tokens + output_tokens)
Interpretasi:
- Jika output ratio tinggi, misalnya 60–80%, penghematan V4-Pro kemungkinan besar.
- Jika input ratio tinggi karena RAG dokumen panjang, optimasi cache prefix menjadi prioritas.
2. Jalankan evaluasi 100 sampel
Jangan hanya mengandalkan benchmark publik. Ambil 100 trace nyata dari production:
request_id
prompt
retrieved_context
tool_schema
expected_output atau golden_response
Lalu jalankan terhadap:
- model saat ini
- DeepSeek-V4-Pro
Nilai berdasarkan metrik internal Anda, misalnya:
- valid JSON
- tool call benar
- jawaban faktual
- tidak melanggar format
- latency
- biaya per request
3. Terapkan routing berdasarkan tingkat kesulitan
Alih-alih mengganti semua traffic, route berdasarkan kategori.
Contoh:
70–85% traffic umum -> DeepSeek-V4-Pro
15–30% traffic sulit -> model premium
fallback/error recovery -> model premium
Pola ini sering memberikan penghematan besar tanpa regresi kualitas yang signifikan.
4. Kunci prefix cache
Audit system prompt Anda:
- Hapus timestamp dari system prompt.
- Pindahkan user/session metadata ke user message atau metadata internal.
- Pastikan tool schema tidak berubah antar request jika tidak perlu.
- Simpan prompt template dalam versioned file agar konsisten.
Contoh struktur:
prompts/
agent-system-v1.md
tool-schema-v1.json
few-shot-v1.md
5. Siapkan uji regresi sebelum rollout
Gunakan Apidog untuk membandingkan respons model lama dan V4-Pro.
Langkah praktis:
- Impor koleksi API yang kompatibel dengan OpenAI.
- Ubah base URL ke:
https://api.deepseek.com
- Simpan environment terpisah:
ENV_MODEL_CURRENT
ENV_MODEL_DEEPSEEK_V4_PRO
- Jalankan request yang sama terhadap dua model.
- Bandingkan:
- status code
- response schema
- JSON validity
- tool call arguments
- latency
- token usage
Unduh Apidog, impor koleksi Anda, lalu jalankan smoke test berdampingan sebelum traffic production dialihkan.
Untuk panduan endpoint V4-Pro, lihat Cara menggunakan DeepSeek V4 API.
Contoh struktur request API
Jika endpoint Anda kompatibel dengan format chat completion, struktur request biasanya seperti ini:
{
"model": "deepseek-v4-pro",
"messages": [
{
"role": "system",
"content": "Anda adalah agent developer. Ikuti format output JSON yang diberikan."
},
{
"role": "user",
"content": "Refactor fungsi berikut agar lebih mudah dites..."
}
],
"temperature": 0.2
}
Untuk workload yang membutuhkan output JSON, validasi schema sebelum hasil dikirim ke user atau sistem downstream.
Contoh validasi sederhana:
function validateToolResult(result) {
if (!result || typeof result !== "object") {
throw new Error("Invalid result: expected object");
}
if (typeof result.action !== "string") {
throw new Error("Invalid result: action is required");
}
if (!Array.isArray(result.arguments)) {
throw new Error("Invalid result: arguments must be array");
}
return true;
}
Bagaimana V4-Pro dibandingkan dengan penurunan harga lain di 2026
DeepSeek bukan satu-satunya lab yang memangkas harga. Pasar LLM 2026 sedang mengalami kompresi margin:
- OpenAI O3 turun 80% awal tahun ini. Lihat perincian harga O3.
- Kimi K2 melakukan repricing agresif untuk bersaing dengan tier V3 DeepSeek. Lihat Harga API Kimi K2.
- Anthropic Claude mempertahankan harga Opus tetapi memperkenalkan tier Haiku dan Sonnet yang lebih murah. Lihat perincian biaya API Claude.
Perbedaan utama: pemotongan V4-Pro menargetkan model dengan kapabilitas frontier, bukan hanya tier budget. Itu yang membuat dampaknya lebih besar untuk developer yang menjalankan workload produksi.
Perhitungan development telah berubah
DeepSeek tidak hanya menurunkan harga. Mereka mengubah baseline ekonomi untuk model frontier. Output di bawah $1/MTok kini menjadi opsi nyata untuk aplikasi production.
Langkah praktis berikutnya:
- Audit tiga workload LLM terbesar Anda.
- Pilih satu workload untuk diuji dengan V4-Pro minggu ini.
- Jalankan evaluasi 100 sampel dengan data production.
- Stabilkan prefix prompt untuk memaksimalkan cache hit.
- Siapkan regresi API di Apidog agar evaluasi model berikutnya bisa selesai dalam hitungan jam, bukan minggu.
Bendera promo sudah dilepas. Diskonnya tetap ada.
Top comments (0)