Walse

Posted on Apr 24 • Originally published at apidog.com

Harga API DeepSeek V4

DeepSeek merilis harga V4 pada hari peluncuran model, 23 April 2026. V4-Flash dikenakan biaya $0,14 per juta token input dan $0,28 per juta token output. V4-Pro dikenakan biaya $1,74 input dan $3,48 output, keduanya dengan jendela konteks 1 juta token dan output hingga 384 ribu token. Diskon cache-hit yang agresif memangkas biaya input hingga 80-90% pada prompt berulang.

Coba Apidog hari ini

Panduan ini memuat daftar harga lengkap, dampak caching konteks pada biaya riil, perbandingan langsung dengan GPT-5.5 dan Claude Opus, serta 4 tips agar biaya tetap terkontrol di Apidog.

Untuk gambaran produk, cek apa itu DeepSeek V4. Untuk panduan dev, baca cara menggunakan DeepSeek V4 API. Ingin akses gratis? Lihat cara menggunakan DeepSeek V4 secara gratis.

TL;DR

V4-Flash: $0,14 / Juta input (cache miss), $0,028 / Juta input (cache hit), $0,28 / Juta output.
V4-Pro: $1,74 / Juta input (cache miss), $0,145 / Juta input (cache hit), $3,48 / Juta output.
Jendela konteks: 1 juta token input, 384 ribu token output.
Diskon cache-hit: sekitar 80% untuk Flash, 92% untuk Pro pada awalan berulang.
deepseek-chat dan deepseek-reasoner akan dihentikan 24 Juli 2026; penagihan dialihkan ke V4-Flash.
Pada cache-miss, V4-Pro ~2,9x lebih murah dari GPT-5.5 (input) dan ~8,6x lebih murah (output).

Daftar Harga Lengkap

Model	Input (cache miss)	Input (cache hit)	Output	Konteks
`deepseek-v4-flash`	$0,14 / Juta	$0,028 / Juta	$0,28 / Juta	1 Juta / 384 Ribu
`deepseek-v4-pro`	$1,74 / Juta	$0,145 / Juta	$3,48 / Juta	1 Juta / 384 Ribu
`deepseek-chat` (dihentikan 2026-07-24)	dipetakan ke V4-Flash non-thinking	—	—	—
`deepseek-reasoner` (dihentikan 2026-07-24)	dipetakan ke V4-Flash thinking	—	—	—

Tiga poin penting:

Tarif tetap per ID model, tidak tergantung mode (berpikir/non-berpikir). Mode hanya mempengaruhi jumlah token, bukan harga per token.
Cache-hit otomatis: Awalan sama (≥1024 token, byte-per-byte) di akun yang sama otomatis didiskon. Tidak perlu konfigurasi manual.
Alih tagihan ID lama: deepseek-chat dan deepseek-reasoner dialihkan ke V4-Flash. Migrasi tidak wajib; penagihan otomatis berubah sebelum 24 Juli 2026.

Context Caching Sederhana

Context caching adalah kunci efisiensi biaya di DeepSeek V4. Setiap bagian prompt yang identik dan berulang (misal: sistem prompt panjang, tools schema, atau RAG context) hanya dikenakan tarif penuh sekali; selanjutnya hanya membayar tarif cache-hit.

Contoh:

Prompt sistem 20.000 token (tetap), 100 pertanyaan user (masing-masing 200 token).

Tanpa caching:

Input: 100 x 20.200 x $1,74 / Juta = $3,52
Output: 100 x 500 x $3,48 / Juta = $0,17
Total: $3,69

Dengan caching (1 miss + 99 hit):

Input panggilan pertama: 20.200 x $1,74 / Juta = $0,035
99 cache-hit awalan: 99 x 20.000 x $0,145 / Juta = $0,287
99 token user (cache-miss): 99 x 200 x $1,74 / Juta = $0,034
Output: 100 x 500 x $3,48 / Juta = $0,174
Total: $0,53

Hemat ~7x pada workload identik. Efek ini makin besar di V4-Flash.

Perbandingan dengan GPT-5.5 & Claude

Model	Input (standar)	Input (cached)	Output	Konteks
DeepSeek V4-Flash	$0,14 / Juta	$0,028 / Juta	$0,28 / Juta	1 Juta
DeepSeek V4-Pro	$1,74 / Juta	$0,145 / Juta	$3,48 / Juta	1 Juta
GPT-5.5	$5 / Juta	$1,25 / Juta	$30 / Juta	1 Juta
GPT-5.5 Pro	$30 / Juta	—	$180 / Juta	1 Juta
Claude Opus 4.6	$15 / Juta	$1,50 / Juta	$75 / Juta	200 Ribu

Analisis:

Token output: V4-Pro ~8,6x lebih murah dari GPT-5.5, ~21x dari Claude Opus 4.6. Output seringkali konsumsi biaya terbesar.
Input cached: V4-Pro ~10x lebih murah dari GPT-5.5/Claude saat cache-hit.
Benchmark: V4-Pro setara/unggul vs GPT-5.5 di LiveCodeBench dan Codeforces dengan biaya jauh lebih kecil. Detail di apa itu DeepSeek V4.

Catatan: Claude unggul untuk retrieval konteks panjang; Gemini 3.1 Pro unggul MMLU-Pro. Jika beban kerja Anda spesifik pada penarikan informasi di jutaan token, selisih harga bisa kalah oleh kualitas.

Pemodelan Biaya untuk Use Case Umum

Empat pola workload produksi dan estimasi biaya (V4-Pro, cache-miss; cache-hit lebih murah):

1. Coding Agentik Iteratif (konteks 50K, output 2K, 20 panggilan per tugas)

Input: 50.000 x 20 x $1,74 / Juta = $1,74
Output: 2.000 x 20 x $3,48 / Juta = $0,14
Total per tugas: ~$1,88

GPT-5.5: ±$6,20/tugas serupa.

2. Q&A Dokumen Panjang (konteks 500K, output 1K)

Input: 500.000 x $1,74 / Juta = $0,87
Output: 1.000 x $3,48 / Juta = $0,003
Total per panggilan: ~$0,87

GPT-5.5: ±$2,53/panggilan.

3. Klasifikasi Volume Tinggi (konteks 2K, output 200, 10.000 panggilan)

Gunakan V4-Flash, V4-Pro overkill.

Input: 2.000 x 10.000 x $0,14 / Juta = $2,80
Output: 200 x 10.000 x $0,28 / Juta = $0,56
Eksekusi: ~$3,36

GPT-5.5: ±$110.

4. Chatbot dengan Prompt Berulang (prompt 10K, 500 token user, 1K output, 1.000 sesi)

Input pertama: 10.500 x $1,74 / Juta = $0,018
Input cache-hit: 999 x 10.000 x $0,145 / Juta = $1,45
User (cache-miss): 999 x 500 x $1,74 / Juta = $0,87
Output: 1.000 x 1.000 x $3,48 / Juta = $3,48
Total sesi: ~$5,82

GPT-5.5 + caching: ±$26,35.

Biaya Tersembunyi yang Sering Terjadi

Empat jebakan biaya yang sering terjadi:

Inflasi token mode berpikir: thinking_max bisa 3-10x lebih boros output token. Batasi dengan flag.
Pertumbuhan konteks diam-diam: Loop agent sering mengirim ulang seluruh riwayat. Potong/rangkum agresif.
Badai retry: Retry otomatis setiap error 500 bisa menggandakan tagihan. Tambahkan exponential backoff & limit retry.
Perubahan dev: Ulang prompt via curl = context penuh dikirim ulang. Gunakan Apidog & variabel agar pengujian prompt hemat biaya.

Melacak Biaya di Apidog

Cara kontrol biaya dengan workflow Apidog:

Unduh Apidog dan simpan DEEPSEEK_API_KEY sebagai variabel rahasia.
Simpan satu permintaan POST ke https://api.deepseek.com/v1/chat/completions.
Di panel respons, tampilkan usage.prompt_tokens, usage.completion_tokens, dan usage.reasoning_tokens. Biaya tiap panggilan langsung terlihat.
Parameterisasi model dan thinking_mode untuk A/B test V4-Flash vs V4-Pro, Non-Think vs Think Max—tanpa duplikasi request.
Buat koleksi sama untuk GPT-5.5 (lihat panduan API GPT-5.5). Satu jendela, dua provider, biaya transparan.

Cara ini menangkal ~80% jebakan biaya tak terduga di akhir bulan.

Empat Aturan Agar Biaya Tetap Terkontrol

Default ke V4-Flash. Upgrade ke V4-Pro hanya jika gap kualitas terbukti berdampak pada hasil bisnis.
Default ke Non-Think. Pakai Think High untuk task sulit; Think Max hanya untuk kebutuhan kritis.
Batasi max_tokens. Output 384K adalah limit, bukan target. Sebagian besar jawaban <2K token.
Log penggunaan. Catat prompt_tokens, completion_tokens, reasoning_tokens di tiap panggilan. Waspadai lonjakan reasoning-token: bisa menandakan prompt tidak sengaja masuk Think Max.

FAQ

Ada tier gratis?

Tidak ada tier API gratis. Akun baru kadang mendapat kredit trial. Untuk alternatif gratis, cek cara menggunakan DeepSeek V4 secara gratis.

Bagaimana cache-hit dihitung?

Awalan ≥1.024 token dan identik di akun yang sama otomatis dapat diskon. Panggilan pertama bayar normal, berikutnya diskon. Caching otomatis.

Mode berpikir lebih mahal?

Tarif per token sama, tapi mode berpikir menghasilkan lebih banyak token output (jejak reasoning). Pantau reasoning_tokens di objek usage.

Harga stabil?

Harga DeepSeek bisa berubah. Tarif V3.2 berlaku sepanjang 2025; harga V4 belum ada tanggal akhir. Selalu cek halaman harga resmi sebelum budgeting.

V4-Pro dan V4-Flash output tarif sama?

Tidak. V4-Pro: $3,48 / Juta, V4-Flash: $0,28 / Juta. Selisih 12,4x, gunakan V4-Flash secara default.

Apakah endpoint format Anthropic mempengaruhi harga?

Tidak. Endpoint https://api.deepseek.com/anthropic tarifnya sama dengan OpenAI format. Format tidak mempengaruhi billing.

DEV Community