Walse

Posted on May 25 • Originally published at apidog.com

Potongan Harga Permanen 75% DeepSeek V4-Pro: Dampaknya bagi Developer (2026)

DeepSeek mengubah diskon sementara paling agresif dalam harga LLM tahun 2026 menjadi harga normal baru. Pada 22 Mei, tim mengumumkan bahwa diskon 75% untuk DeepSeek-V4-Pro, yang semula akan berakhir pada 31 Mei 2026 pukul 15:59 UTC, menjadi harga permanen. Input turun menjadi $0,435 per juta token, output menjadi $0,87, dan cache hit menjadi $0,003625. Artikel ini merangkum perubahan harga, dampaknya ke biaya API, dan langkah praktis untuk mengevaluasi migrasi.

Coba Apidog hari ini

TL;DR

Harga API DeepSeek-V4-Pro kini permanen menjadi 1/4 dari harga awal: input $0,435/MTok, output $0,87/MTok, cache hit $0,003625/MTok.
Diskon promosi 75% yang semula berakhir pada 31 Mei 2026 kini menjadi tarif reguler. Tidak ada pengembalian harga.
V4-Pro kini sekitar 34x lebih murah daripada GPT-5.5 untuk output, sementara kualitasnya berada dalam ~95% dari GPT-5.5 pada sebagian besar benchmark pengkodean dan penalaran.
Harga cache hit $0,003625/MTok membuat prompt sistem panjang jauh lebih murah jika prefix Anda stabil.
Jika harga fitur AI Anda dihitung berdasarkan GPT-5.5 atau Claude Opus 4.7 pada kuartal lalu, perhitungan biaya perlu diperbarui minggu ini.

Mengapa ini penting sekarang

Harga LLM biasanya turun perlahan. DeepSeek mengambil rute berbeda: menjalankan promosi agresif sepanjang Mei, melihat adopsi developer meningkat, lalu menjadikan harga promosi sebagai harga permanen.

Jika produk Anda memanggil LLM di jalur utama seperti autocomplete, RAG chat, review kode, atau agent loop, selisih antara $3,48 dan $0,87 per juta token output langsung terlihat di tagihan.

Contoh cepat:

Output harian: 50 juta token
Harga lama: 50 × $3,48 = $174/hari
Harga baru: 50 × $0,87 = $43,50/hari

Estimasi bulanan:
Harga lama: ~$5.220
Harga baru: ~$1.305
Penghematan: ~$3.915/bulan

Membangun di atas DeepSeek? Apidog memungkinkan Anda membuat, menguji, dan memantau panggilan API V4-Pro dalam satu workspace, termasuk streaming, tool calls, dan validasi skema JSON. Anda dapat mengkloning request, mengubah base URL, lalu menjalankan uji regresi terhadap model lama dan V4-Pro.

Di bawah ini, kita akan membahas:

Apa yang berubah dari pengumuman harga.
Tabel harga permanen baru.
Perbandingan dengan GPT-5.5, Claude Opus 4.7, dan Gemini 3.5 Flash.
Cara menghitung dampak cache hit.
Checklist migrasi yang bisa Anda jalankan minggu ini.

Apa yang berubah dari pengumuman DeepSeek

Pemberitahuan harga resmi DeepSeek singkat, tetapi ada tiga poin penting untuk developer API.

1. Diskon 75% menjadi permanen

Promo yang berlaku hingga 31 Mei 2026 pukul 15:59 UTC awalnya akan kembali ke harga peluncuran pada 1 Juni. Itu tidak terjadi. Tarif promosi menjadi tarif reguler tanpa batas waktu.

2. Pemotongan berlaku untuk V4-Pro

DeepSeek-V4-Flash sudah berada di tier murah, yaitu $0,14 input dan $0,28 output per juta token. Perubahan besar terjadi pada V4-Pro, model frontier DeepSeek.

Untuk detail Flash vs Pro, lihat Apa itu DeepSeek V4.

3. Cache hit menjadi jauh lebih murah

Harga cache hit dipotong menjadi 1/10 dari harga peluncuran, berlaku sejak 26 April 2026 pukul 12:15 UTC. Setelah digabung dengan pemotongan utama, harga cache hit menjadi:

$0,003625 per 1 juta token

Ini penting untuk aplikasi yang memakai prefix panjang seperti:

system prompt
tool schema
instruction block
few-shot examples
template agent

Strateginya jelas: DeepSeek ingin developer menjalankan workload inferensi, agent, dan konteks panjang di V4-Pro.

Lembar harga permanen baru

Harga per 1 juta token, USD:

Jenis token	Harga lama	Harga permanen baru	Potongan
Input, cache miss	$1.74	$0.435	75%
Input, cache hit	$0.0145	$0.003625	75%
Output	$3.48	$0.87	75%

Catatan implementasi:

Token output biasanya menjadi komponen biaya terbesar pada agent, code generator, dan reasoning workflow.
Input cache hit sangat murah jika prefix request stabil.
Rasio input cache miss ke cache hit sekitar 120:1.
Tarif ini berlaku untuk API. Web chat DeepSeek tetap gratis untuk pengguna individu.

Untuk konteks lebih lengkap tentang tier harga V4, lihat Harga API DeepSeek V4.

Perbandingan V4-Pro dengan GPT-5.5, Claude Opus 4.7, dan Gemini 3.5 Flash

Perbandingan yang relevan bukan V4-Pro lama vs V4-Pro baru, tetapi V4-Pro baru vs model frontier lain.

Model	Input ($/MTok)	Output ($/MTok)	SWE-bench Pro
DeepSeek-V4-Pro baru	$0.435	$0.87	55.4%
GPT-5.5	$5.00	$30.00	58.6%
Claude Opus 4.7	$3.00	$15.00	~62%
Gemini 3.5 Flash	~$1.50	~$9.00	~48%
DeepSeek-V4-Flash	$0.14	$0.28	~42%

Dua angka utama:

Untuk output token, DeepSeek-V4-Pro 34x lebih murah daripada GPT-5.5.
V4-Pro berada dalam jarak 3 sampai 7 poin persentase dari GPT-5.5 pada banyak benchmark pengkodean dan penalaran publik, menurut perbandingan DataCamp.

Implikasinya:

Jika workload Anda toleran terhadap sedikit variasi kualitas, migrasi sebagian traffic ke V4-Pro layak diuji.
Jika workload membutuhkan reliabilitas maksimum, gunakan V4-Pro sebagai model draft, classifier, router, atau critic sebelum memanggil model premium.
Jika biaya output mendominasi tagihan, V4-Pro harus masuk evaluasi prioritas.

Untuk perbandingan lebih spesifik, lihat DeepSeek V4 vs Claude Opus 4.5 untuk pengkodean dan GLM-5 vs DeepSeek V3 vs GPT-5: kecepatan, biaya, dan perbandingan developer praktis.

Sudut pandang cache hit yang sering terlewat

Banyak pembahasan fokus pada output $0,87. Namun untuk sistem agent, cache hit $0,003625/MTok dapat mengubah desain prompt.

Prompt caching DeepSeek aktif ketika prefix request identik secara byte dengan request sebelumnya dalam jendela waktu sekitar 30 menit. Pada agent chat dan pipeline RAG, prefix biasanya berisi:

system prompt
+ tool definitions
+ instruction framework
+ few-shot examples

Bagian ini sering berukuran 4.000 sampai 10.000 token dan tidak berubah antar giliran.

Contoh biaya cache hit

Misalkan aplikasi chat Anda memiliki pola berikut:

System prompt: 6.000 token
User message rata-rata: 200 token
Response rata-rata: 800 token
Traffic: 100.000 chat turn/hari
Harga input V4-Pro: $0,435/MTok
Harga cache hit: $0,003625/MTok

Tanpa cache hit:

100.000 × 6.200 token input × $0,435 / 1.000.000
= $269,70 per hari untuk input

Dengan 90% system prompt terkena cache:

Per turn:
- 200 token user message pada harga input normal
- 6.000 token system prompt:
  - 90% pada harga cache hit
  - 10% pada harga cache miss

Estimasi total:
≈ $32 per hari untuk input

Hasilnya: biaya input turun sekitar 88%.

Untuk penjelasan mekanisme lintas provider, baca pembahasan mendalam tentang prompt caching.

Cara mendesain request agar cache hit tinggi

Gunakan tiga pola berikut.

1. Stabilkan prefix

Pastikan bagian awal request selalu identik.

Baik:

[system prompt tetap]
[tool schema tetap]
[few-shot examples tetap]
[user message dinamis]

Buruk:

[system prompt + timestamp + user_id + session_id]
[tool schema]
[user message]

Timestamp, user ID, session ID, dan konteks dinamis sebaiknya masuk ke message terpisah, bukan ke prefix stabil.

2. Urutkan konteks dinamis secara deterministik

Jika Anda menambahkan hasil retrieval, urutkan secara stabil.

Contoh strategi:

sort by document_id ASC
sort by chunk_index ASC
deduplicate by chunk_hash

Perubahan kecil pada urutan chunk bisa mengubah byte prefix dan menghilangkan cache hit.

3. Lakukan warm-up request

Saat service atau agent worker dimulai, kirim satu request dengan prefix lengkap untuk mengisi cache provider sebelum traffic pengguna masuk.

Contoh pseudocode:

async function warmupDeepSeek(client) {
  await client.chat.completions.create({
    model: "deepseek-v4-pro",
    messages: [
      {
        role: "system",
        content: SYSTEM_PROMPT_WITH_TOOL_SCHEMA
      },
      {
        role: "user",
        content: "Warm up request. Reply with OK."
      }
    ]
  });
}

Checklist migrasi minggu ini

Migrasi tidak harus all-in. Gunakan pendekatan bertahap.

1. Ukur rasio output:input

Ambil data penggunaan token dari production selama 7 sampai 14 hari.

Hitung:

output_ratio = output_tokens / (input_tokens + output_tokens)

Interpretasi:

Jika output ratio tinggi, misalnya 60–80%, penghematan V4-Pro kemungkinan besar.
Jika input ratio tinggi karena RAG dokumen panjang, optimasi cache prefix menjadi prioritas.

2. Jalankan evaluasi 100 sampel

Jangan hanya mengandalkan benchmark publik. Ambil 100 trace nyata dari production:

request_id
prompt
retrieved_context
tool_schema
expected_output atau golden_response

Lalu jalankan terhadap:

model saat ini
DeepSeek-V4-Pro

Nilai berdasarkan metrik internal Anda, misalnya:

valid JSON
tool call benar
jawaban faktual
tidak melanggar format
latency
biaya per request

3. Terapkan routing berdasarkan tingkat kesulitan

Alih-alih mengganti semua traffic, route berdasarkan kategori.

Contoh:

70–85% traffic umum       -> DeepSeek-V4-Pro
15–30% traffic sulit      -> model premium
fallback/error recovery   -> model premium

Pola ini sering memberikan penghematan besar tanpa regresi kualitas yang signifikan.

4. Kunci prefix cache

Audit system prompt Anda:

Hapus timestamp dari system prompt.
Pindahkan user/session metadata ke user message atau metadata internal.
Pastikan tool schema tidak berubah antar request jika tidak perlu.
Simpan prompt template dalam versioned file agar konsisten.

Contoh struktur:

prompts/
  agent-system-v1.md
  tool-schema-v1.json
  few-shot-v1.md

5. Siapkan uji regresi sebelum rollout

Gunakan Apidog untuk membandingkan respons model lama dan V4-Pro.

Langkah praktis:

Impor koleksi API yang kompatibel dengan OpenAI.
Ubah base URL ke:

https://api.deepseek.com

Simpan environment terpisah:

ENV_MODEL_CURRENT
ENV_MODEL_DEEPSEEK_V4_PRO

Jalankan request yang sama terhadap dua model.
Bandingkan:
- status code
- response schema
- JSON validity
- tool call arguments
- latency
- token usage

Unduh Apidog, impor koleksi Anda, lalu jalankan smoke test berdampingan sebelum traffic production dialihkan.

Untuk panduan endpoint V4-Pro, lihat Cara menggunakan DeepSeek V4 API.

Contoh struktur request API

Jika endpoint Anda kompatibel dengan format chat completion, struktur request biasanya seperti ini:

{
  "model": "deepseek-v4-pro",
  "messages": [
    {
      "role": "system",
      "content": "Anda adalah agent developer. Ikuti format output JSON yang diberikan."
    },
    {
      "role": "user",
      "content": "Refactor fungsi berikut agar lebih mudah dites..."
    }
  ],
  "temperature": 0.2
}

Untuk workload yang membutuhkan output JSON, validasi schema sebelum hasil dikirim ke user atau sistem downstream.

Contoh validasi sederhana:

function validateToolResult(result) {
  if (!result || typeof result !== "object") {
    throw new Error("Invalid result: expected object");
  }

  if (typeof result.action !== "string") {
    throw new Error("Invalid result: action is required");
  }

  if (!Array.isArray(result.arguments)) {
    throw new Error("Invalid result: arguments must be array");
  }

  return true;
}

Bagaimana V4-Pro dibandingkan dengan penurunan harga lain di 2026

DeepSeek bukan satu-satunya lab yang memangkas harga. Pasar LLM 2026 sedang mengalami kompresi margin:

OpenAI O3 turun 80% awal tahun ini. Lihat perincian harga O3.
Kimi K2 melakukan repricing agresif untuk bersaing dengan tier V3 DeepSeek. Lihat Harga API Kimi K2.
Anthropic Claude mempertahankan harga Opus tetapi memperkenalkan tier Haiku dan Sonnet yang lebih murah. Lihat perincian biaya API Claude.

Perbedaan utama: pemotongan V4-Pro menargetkan model dengan kapabilitas frontier, bukan hanya tier budget. Itu yang membuat dampaknya lebih besar untuk developer yang menjalankan workload produksi.

Perhitungan development telah berubah

DeepSeek tidak hanya menurunkan harga. Mereka mengubah baseline ekonomi untuk model frontier. Output di bawah $1/MTok kini menjadi opsi nyata untuk aplikasi production.

Langkah praktis berikutnya:

Audit tiga workload LLM terbesar Anda.
Pilih satu workload untuk diuji dengan V4-Pro minggu ini.
Jalankan evaluasi 100 sampel dengan data production.
Stabilkan prefix prompt untuk memaksimalkan cache hit.
Siapkan regresi API di Apidog agar evaluasi model berikutnya bisa selesai dalam hitungan jam, bukan minggu.

Bendera promo sudah dilepas. Diskonnya tetap ada.

DEV Community