Walse

Posted on Apr 24 • Originally published at apidog.com

Cara Menggunakan DeepSeek V4 API

DeepSeek V4 hadir dengan API yang siap pakai sejak hari pertama. ID model yang digunakan adalah deepseek-v4-pro dan deepseek-v4-flash, endpoint-nya kompatibel dengan OpenAI, dan URL dasar yang digunakan adalah https://api.deepseek.com. Artinya, klien yang sudah digunakan untuk GPT-5.5 atau API OpenAI dapat langsung digunakan dengan DeepSeek V4 cukup dengan mengganti URL dasar.

Coba Apidog hari ini

Artikel ini membahas autentikasi, parameter penting, contoh kode Python dan Node, mode penalaran matematika, tool calling, streaming, dan workflow berbasis Apidog agar Anda dapat mengontrol biaya saat melakukan iterasi.

Untuk ikhtisar produk, lihat apa itu DeepSeek V4. Untuk jalur tanpa biaya, cek cara menggunakan DeepSeek V4 secara gratis.

TL;DR (Ringkasan Cepat)

DeepSeek V4 tersedia di endpoint kompatibel OpenAI: https://api.deepseek.com/v1/chat/completions dan endpoint kompatibel Anthropic: https://api.deepseek.com/anthropic.
ID Model: deepseek-v4-pro (1.6T, aktif 49B) dan deepseek-v4-flash (284B, aktif 13B).
Mendukung konteks 1M-token dan tiga mode reasoning: non-thinking, thinking, thinking_max.
Gunakan temperature=1.0, top_p=1.0 sesuai rekomendasi DeepSeek.
ID lama deepseek-chat dan deepseek-reasoner tidak berlaku mulai 24 Juli 2026; lakukan migrasi segera.
Unduh Apidog untuk replay permintaan, bandingkan mode, serta menjaga keamanan kunci API Anda.

Tangkapan layar antarmuka Apidog yang menunjukkan permintaan API DeepSeek V4.

Prasyarat

Sebelum mengirim permintaan ke API DeepSeek V4, siapkan hal berikut:

Akun developer DeepSeek di platform.deepseek.com dengan saldo minimal $2. Tanpa saldo, permintaan akan gagal dengan 402 Insufficient Balance.
API key dengan scope pada proyek, bukan akun, untuk keamanan produksi.
SDK yang mendukung OpenAI base URL. Python openai>=1.30.0 dan Node openai@4.x bisa digunakan tanpa modifikasi.
API client yang dapat me-replay permintaan, seperti Apidog, agar tidak tercecer di terminal.

Ekspor API key Anda:

export DEEPSEEK_API_KEY="sk-..."

Endpoint dan Autentikasi

Ada dua endpoint utama:

POST https://api.deepseek.com/v1/chat/completions    # format OpenAI
POST https://api.deepseek.com/anthropic/v1/messages  # format Anthropic

Gunakan endpoint OpenAI jika tidak ada kebutuhan khusus untuk format Anthropic. Autentikasi menggunakan Bearer token di header Authorization.

Contoh permintaan minimal dengan curl:

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Jelaskan perutean MoE dalam dua kalimat."}
    ]
  }'

Response sukses berisi array choices, blok usage (input, output, dan reasoning_tokens jika mode thinking aktif), serta id untuk pelacakan. Error menggunakan struktur standar OpenAI.

Parameter Permintaan

Setiap parameter API memengaruhi biaya atau perilaku:

Parameter	Tipe	Nilai	Catatan
`model`	string	`deepseek-v4-pro`, `deepseek-v4-flash`	Wajib.
`messages`	array	pasangan peran/konten	Wajib. Skema sama dengan OpenAI.
`thinking_mode`	string	`non-thinking`, `thinking`, `thinking_max`	Default adalah `non-thinking`.
`temperature`	float	0 hingga 2	DeepSeek merekomendasikan 1.0.
`top_p`	float	0 hingga 1	DeepSeek merekomendasikan 1.0.
`max_tokens`	int	1 hingga 131.072	Membatasi panjang output.
`stream`	boolean	true atau false	Mengaktifkan streaming SSE.
`tools`	array	spesifikasi alat OpenAI	Untuk panggilan fungsi.
`tool_choice`	string atau objek	`auto`, `required`, `none`, atau alat tertentu	Mengontrol penggunaan alat.
`response_format`	objek	`{"type": "json_object"}`	Output mode JSON.
`seed`	int	integer apa pun	Untuk reproduktibilitas.
`presence_penalty`	float	-2 hingga 2	Menghukum topik yang berulang.
`frequency_penalty`	float	-2 hingga 2	Menghukum token yang berulang.

thinking_mode memengaruhi biaya paling besar. non-thinking untuk kecepatan, thinking untuk akurasi kode/matematika, thinking_max untuk benchmark DeepSeek (paling mahal, butuh konteks besar).

Klien Python

Gunakan SDK openai dengan base URL yang diganti. Kompatibel dengan wrapper seperti LangChain, LlamaIndex, dan DSPy.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Balas hanya dalam kode."},
        {"role": "user", "content": "Tulis fungsi Rust yang melakukan debouncing event."},
    ],
    extra_body={"thinking_mode": "thinking"},
    temperature=1.0,
    top_p=1.0,
    max_tokens=2048,
)

choice = response.choices[0]
print("Konten:", choice.message.content)
print("Token penalaran:", response.usage.reasoning_tokens)
print("Total token:", response.usage.total_tokens)

Gunakan extra_body untuk parameter khusus DeepSeek tanpa patch SDK.

Klien Node

Struktur hampir identik di Node:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [
    { role: "user", content: "Jelaskan optimizer Muon dalam bahasa Inggris sederhana." },
  ],
  thinking_mode: "thinking",
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);
console.log("Penggunaan:", response.usage);

Bidang non-standar seperti thinking_mode bisa langsung di-request body.

Streaming Respons

Aktifkan stream: true untuk menerima hasil potongan demi potongan (SSE):

stream = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Streaming esai 300 kata tentang MoE."}],
    stream=True,
    extra_body={"thinking_mode": "non-thinking"},
)

for chunk in stream:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)

Jika mode thinking aktif, delta.reasoning_content berisi reasoning trace — bisa ditampilkan atau diabaikan.

Panggilan Alat (Tool Calling)

DeepSeek V4 mendukung tool calling OpenAI. Definisikan fungsi di tools:

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Mengembalikan cuaca saat ini untuk suatu kota.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string"},
                "unit": {"type": "string", "enum": ["c", "f"]},
            },
            "required": ["city"],
        },
    },
}]

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Cuaca di Lagos dalam Celcius?"}],
    tools=tools,
    tool_choice="auto",
    extra_body={"thinking_mode": "thinking"},
)

tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name, tool_call.function.arguments)

Setelah fungsi dipanggil, tambahkan hasil sebagai pesan role: "tool" dan kirim ulang ke API untuk melanjutkan loop. Prosesnya identik dengan OpenAI dan Anthropic.

Mode JSON

Untuk output terstruktur, gunakan response_format:

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "Balas dengan satu objek JSON."},
        {"role": "user", "content": "Ringkas catatan rilis ini sebagai {judul, tanggal, poin-poin}: ..."},
    ],
    response_format={"type": "json_object"},
    extra_body={"thinking_mode": "non-thinking"},
)

Mode JSON memastikan output valid JSON, tetapi tidak memaksa skema tertentu. Validasi skema sebaiknya dilakukan di sisi klien (misal, Pydantic, Zod).

Bangun Koleksi di Apidog

Replay permintaan dari terminal boros kredit dan tidak rapi. Workflow nyata:

Unduh Apidog dan buat proyek.
Tambahkan environment dengan {{DEEPSEEK_API_KEY}} sebagai variabel rahasia.
Simpan permintaan POST ke {{BASE_URL}}/chat/completions dengan header Authorization: Bearer {{DEEPSEEK_API_KEY}}.
Parameterisasi model dan thinking_mode untuk A/B testing varian tanpa duplikasi request.
Gunakan response viewer untuk cek usage.reasoning_tokens setiap proses — ini indikator utama cost reasoning.

Jika sudah punya koleksi API GPT-5.5 di Apidog, duplikat saja, ubah base URL ke https://api.deepseek.com/v1, ganti model ID, dan bisa langsung membandingkan hasil kedua provider.

Penanganan Kesalahan

Error response mengikuti standar OpenAI:

Kode	Arti	Perbaikan
400	Permintaan buruk	Periksa skema JSON, terutama `messages` dan `tools`.
401	Kunci tidak valid	Buat ulang di platform.deepseek.com.
402	Saldo tidak mencukupi	Isi ulang akun.
403	Model tidak diizinkan	Periksa cakupan kunci dan ejaan ID model.
422	Parameter di luar jangkauan	`max_tokens` atau `thinking_mode` mungkin tidak cocok.
429	Batas tarif	Berhenti sebentar, lalu coba lagi dengan jitter eksponensial.
500	Kesalahan server	Coba lagi sekali; jika terulang, periksa halaman status.
503	Kelebihan beban	Beralih ke V4-Flash atau coba lagi dalam 30 detik.

Gunakan helper retry dengan backoff eksponensial untuk 429 dan 5xx. Jangan retry otomatis untuk 4xx — itu bug logika.

Pola Kontrol Biaya

Empat strategi agar pengeluaran tetap aman:

Default ke V4-Flash; naik ke V4-Pro hanya jika kualitas terbukti lebih baik.
Batasi thinking_max dengan flag; gunakan hanya jika akurasi sangat dibutuhkan.
Batasi max_tokens. Jawaban rata-rata cukup 2.000 token.
Log usage setiap panggilan. Pantau input, output, dan reasoning tokens; set alert jika reasoning spike mendadak.

Migrasi dari Model DeepSeek Lama

ID deepseek-chat dan deepseek-reasoner deprecated mulai 24 Juli 2026. Migrasi hanya ganti satu baris ID model; bentuk permintaan dan respons tidak berubah.

-  model="deepseek-chat"
+  model="deepseek-v4-pro"

Sebelum produksi, lakukan A/B testing di Apidog. Kualitas respons umumnya meningkat; deadline migrasi akan memaksa update.

FAQ

Apakah API DeepSeek V4 siap produksi?

Ya, API sudah production-ready sejak 23 April 2026. Infrastruktur sama dengan V3/V3.2.

Apakah V4 mendukung format pesan Anthropic?

Ya. Gunakan https://api.deepseek.com/anthropic/v1/messages dan payload Anthropic.

Berapa jendela konteksnya?

1 juta token untuk V4-Pro dan V4-Flash. Mode Think Max rekomendasi minimal 384K token.

Bagaimana cek jumlah token input sebelum request?

Gunakan tokenizer OpenAI untuk estimasi. Jumlah pasti diberikan di blok usage response.

Bisakah fine-tune via API?

Saat ini belum tersedia. Fine-tune hanya via checkpoint Base di Hugging Face.

Apakah ada tier gratis?

Tidak ada free tier, tapi pendaftar baru kadang dapat kredit percobaan.

DEV Community