Thanawat Wongchai

Posted on Apr 24 • Originally published at apidog.com

ราคา DeepSeek V4 API

DeepSeek ได้ประกาศราคา V4 ในวันเดียวกับที่เปิดตัวโมเดล (23 เมษายน 2026) โดยกำหนดมาตรฐานใหม่สำหรับ AI ระดับแนวหน้า V4-Flash มีราคา $0.14 ต่อ 1 ล้านโทเค็นนำเข้า และ $0.28 ต่อ 1 ล้านโทเค็นส่งออก ส่วน V4-Pro จะอยู่ที่ $1.74 สำหรับนำเข้า และ $3.48 สำหรับส่งออก ทั้งสองรุ่นมี context window ขนาด 1 ล้านโทเค็น และโทเค็นส่งออกสูงสุด 384K พร้อม cache-hit discount ที่ลดต้นทุนนำเข้าลง 80–90% สำหรับ prompt ที่ซ้ำกัน

ทดลองใช้ Apidog วันนี้

คู่มือนี้ครอบคลุมอัตราค่าบริการ วิธีที่ context caching มีผลต่อต้นทุนจริง การเปรียบเทียบกับ GPT-5.5 และ Claude Opus และ 4 วิธีควบคุมค่าใช้จ่ายให้คาดการณ์ได้ใน Apidog

สำหรับภาพรวมผลิตภัณฑ์ ดู DeepSeek V4 คืออะไร สำหรับคู่มือ dev ดู วิธีใช้ DeepSeek V4 API สำหรับวิธีใช้ฟรี ดู วิธีใช้ DeepSeek V4 ฟรี

สรุปโดยย่อ

V4-Flash: $0.14 / M สำหรับนำเข้า (ไม่พบในแคช), $0.028 / M สำหรับนำเข้า (พบในแคช), $0.28 / M สำหรับส่งออก
V4-Pro: $1.74 / M สำหรับนำเข้า (ไม่พบในแคช), $0.145 / M สำหรับนำเข้า (พบในแคช), $3.48 / M สำหรับส่งออก
Context window: นำเข้า 1M โทเค็น, ส่งออก 384K โทเค็น (ทั้งสองรุ่น)
Cache-hit discount: ประมาณลด 80% สำหรับ Flash, ลด 92% สำหรับ Pro กรณี prefix ซ้ำกัน
deepseek-chat และ deepseek-reasoner จะเลิกใช้วันที่ 24 กรกฎาคม 2026; การเรียกเก็บเงินอิง V4-Flash
ที่อัตรา cache-miss, V4-Pro ถูกกว่า GPT-5.5 ~2.9 เท่าสำหรับนำเข้า และ ~8.6 เท่าสำหรับส่งออก

ตารางอัตราค่าบริการทั้งหมด

โมเดล	นำเข้า (ไม่พบในแคช)	นำเข้า (พบในแคช)	ส่งออก	บริบท
`deepseek-v4-flash`	$0.14 / M	$0.028 / M	$0.28 / M	1M / 384K
`deepseek-v4-pro`	$1.74 / M	$0.145 / M	$3.48 / M	1M / 384K
`deepseek-chat` (จะเลิกใช้ 2026-07-24)	อ้างอิง V4-Flash (โหมดไม่คิด)	—	—	—
`deepseek-reasoner` (จะเลิกใช้ 2026-07-24)	อ้างอิง V4-Flash (โหมดคิด)	—	—	—

จุดสำคัญสำหรับการใช้งานจริง:

ราคาไม่เปลี่ยนตาม "โหมดคิด" หรือ "ไม่คิด" แต่ขึ้นกับ model ID โหมด reasoning มีผลต่อจำนวนโทเค็นที่ใช้งานเท่านั้น
Cache-hit pricing ทำงานอัตโนมัติ: ทุก request ที่ prefix ตรงกัน (>= 1024 โทเค็น, ตรงทุกไบต์) ใน account เดียวกันจะได้ราคาถูกลง ไม่ต้องตั้งค่าเพิ่ม
รหัส deepseek-chat/deepseek-reasoner รุ่นเก่า ถูกคิดเงินเป็น alias ของ V4-Flash แล้ว กำหนดเส้นตายเลิกใช้คือ 24 กรกฎาคม 2026

การแคชบริบท (Context Caching) อธิบายแบบใช้งาน

การแคชคือหัวใจของการควบคุมต้นทุน DeepSeek V4. ทุกอย่างที่ซ้ำในแต่ละ request (เช่น system prompt, agent tool schema, RAG context) จะถูกคิดราคาแบบ cache-hit อัตโนมัติในการเรียกซ้ำ

ตัวอย่าง:

เรียกใช้ agent ด้วย system prompt 20,000 โทเค็น ถาม user 100 ข้อ (200 โทเค็น/ข้อ)

แบบไม่มีแคช:

นำเข้า: 100 × 20,200 × $1.74 / M = $3.52
ส่งออก: 100 × 500 × $3.48 / M = $0.17
รวม: $3.69

แบบมีแคช (ครั้งแรกไม่เจอแคช, 99 ครั้งต่อไปเจอ):

นำเข้าครั้งแรก: 20,200 × $1.74 / M = $0.035
prefix ที่เจอแคช (99 ครั้ง): 99 × 20,000 × $0.145 / M = $0.287
ส่วน user ที่ไม่เจอแคช (99 ครั้ง): 99 × 200 × $1.74 / M = $0.034
ส่งออก: 100 × 500 × $3.48 / M = $0.174
รวม: $0.53

สรุป: ประหยัด ~7 เท่าสำหรับงานเหมือนกัน โดยเฉพาะถ้าใช้ V4-Flash จะถูกลงมาก

เปรียบเทียบกับ GPT-5.5 และ Claude

โมเดล	นำเข้า (มาตรฐาน)	นำเข้า (แคช)	ส่งออก	บริบท
DeepSeek V4-Flash	$0.14 / M	$0.028 / M	$0.28 / M	1M
DeepSeek V4-Pro	$1.74 / M	$0.145 / M	$3.48 / M	1M
GPT-5.5	$5 / M	$1.25 / M	$30 / M	1M
GPT-5.5 Pro	$30 / M	—	$180 / M	1M
Claude Opus 4.6	$15 / M	$1.50 / M	$75 / M	200K

สรุปการเปรียบเทียบ:

ส่งออก: V4-Pro ถูกกว่า GPT-5.5 ~8.6 เท่า, Claude Opus ~21 เท่า
นำเข้าที่แคช: V4-Pro ถูกกว่า GPT-5.5 ~10 เท่า และ Claude ~10 เท่า สำหรับ system prompt/schemas/RAG context ที่ซ้ำกัน
คุณภาพเทียบราคา: V4-Pro เทียบเท่า GPT-5.5 ใน LiveCodeBench และ Codeforces แต่ต้นทุนต่ำกว่ามาก (ดู ตารางเกณฑ์มาตรฐาน)

ข้อควรระวัง: Claude ดีกว่าใน long-context retrieval และ Gemini 3.1 Pro ยังนำหน้า MMLU-Pro สำหรับ use case ที่ต้องดึงข้อมูลขนาดใหญ่ อาจต้องเทียบคุณภาพก่อนเลือก

การสร้างแบบจำลองต้นทุนสำหรับปริมาณงานทั่วไป

1. Agentic coding loop (context 50K, output 2K, 20 calls/job)

นำเข้า: 50,000 × 20 × $1.74 / M = $1.74
ส่งออก: 2,000 × 20 × $3.48 / M = $0.14
ต้นทุนต่องาน: ~$1.88

เทียบ GPT-5.5 ≈ $6.20 ต่องาน

2. Long-document Q&A (context 500K, output 1K)

นำเข้า: 500,000 × $1.74 / M = $0.87
ส่งออก: 1,000 × $3.48 / M = $0.003
ต้นทุนต่อ call: ~$0.87

เทียบ GPT-5.5 ≈ $2.53 ต่อ call

3. High-volume classification (context 2K, output 200, 10,000 calls)

ใช้ V4-Flash จะคุ้มที่สุด

นำเข้า: 2,000 × 10,000 × $0.14 / M = $2.80
ส่งออก: 200 × 10,000 × $0.28 / M = $0.56
ต้นทุนรวม: ~$3.36

เทียบ GPT-5.5 ≈ $110

4. Repeated-prompt chatbot (system prompt 10K, user 500, output 1K, 1,000 sessions)

นำเข้าครั้งแรก: 10,500 × $1.74 / M = $0.018
นำเข้าที่แคช: 999 × 10,000 × $0.145 / M = $1.45
ส่วน user ที่ไม่แคช: 999 × 500 × $1.74 / M = $0.87
ส่งออก: 1,000 × 1,000 × $3.48 / M = $3.48
รวมต่อ 1,000 sessions: ~$5.82

เทียบ GPT-5.5 (มีแคช) ≈ $26.35

ค่าใช้จ่ายแอบแฝงที่ต้องระวัง

Token inflation ใน thinking mode: thinking_max ใช้โทเค็นส่งออกมากกว่า non-thinking 3–10 เท่า (ต่อ prompt เดียวกัน) กำหนดขีดจำกัดให้ดี
Context โตไม่รู้ตัว: Agent loop ที่ feed conversation ย้อนกลับทั้งก้อนจะโตเร็วมากใน context 1M token — limit หรือ summarize อย่างเข้มข้น
Retry storm: ถ้ามี retry ทุก 500 error จะเพิ่มต้นทุนหลายเท่า ให้ใช้ exponential backoff + limit retry ต่อ request
Cost volatility ระหว่าง dev: การ test ผ่าน curl จะ reload context ทุกครั้ง ใช้ Apidog แทน จะใกล้เคียง 0 เพราะเปลี่ยน variable ได้ ไม่ต้อง re-upload context ทุกครั้ง

ติดตามค่าใช้จ่ายใน Apidog

Workflow แนะนำสำหรับทีม dev:

ดาวน์โหลด Apidog แล้วตั้งค่า DEEPSEEK_API_KEY เป็น secret variable ในแต่ละ environment
สร้าง POST request ไปที่ https://api.deepseek.com/v1/chat/completions
ใน response panel ให้ pin ค่า usage.prompt_tokens, usage.completion_tokens, usage.reasoning_tokens ทุก call จะเห็นต้นทุนคำนวณพร้อมผลลัพธ์
กำหนด parameter model และ thinking_mode เพื่อ A/B test V4-Flash vs V4-Pro, Non-Think vs Think Max ได้ใน request เดียว
ทำซ้ำชุดข้อมูลเดียวกันกับ GPT-5.5 (ดูคู่มือ GPT-5.5 API) เทียบ cost side-by-side

ผล: ลดเซอร์ไพรส์ในบิลสิ้นเดือนได้ ~80%

สี่กฎที่ทำให้ค่าใช้จ่ายคาดการณ์ได้

ใช้ V4-Flash เป็น default เลือก V4-Pro เมื่อวัดคุณภาพแล้วว่าคุ้มกว่า
ใช้ Non-Think เป็น default เพิ่มเป็น Think High สำหรับงานยาก, ใช้ Think Max เฉพาะกรณีต้องแม่นยำสุด
จำกัด max_tokens 384K ควรเป็น safety limit ไม่ใช่เป้าหมาย การใช้งานจริง ส่วนใหญ่ใช้ ~2K
Log การใช้งาน บันทึก prompt_tokens, completion_tokens, reasoning_tokens ทุก call — แจ้งเตือนเมื่อ reasoning token พุ่งสูงผิดปกติ

คำถามที่พบบ่อย

มี free tier หรือไม่?

ไม่มี free API โดยตรง แต่บางครั้ง account ใหม่จะได้ trial credit เล็กน้อย สำหรับทางเลือกใช้ฟรีนอก API ดู วิธีใช้ DeepSeek V4 ฟรี

Cache-hit pricing ทำงานอย่างไร?

prefix (>=1024 tokens) ที่ซ้ำกันใน account เดียวกันจะได้ราคาถูกลงอัตโนมัติ

Request แรก: จ่าย rate ปกติ
Request ถัดไปที่ prefix ตรงกัน: จ่าย rate ลด ไม่ต้องตั้งค่าใดๆ

โหมด Think แพงกว่าหรือไม่?

อัตราต่อโทเค็นเท่ากัน แต่โหมดนี้ใช้ reasoning token มากกว่า ติดตามได้ใน usage.reasoning_tokens

ราคาคงที่หรือไม่?

DeepSeek มีการปรับราคาเป็นระยะ V3.2 คงที่ตลอดปี 2025, V4 ยังไม่ประกาศวันหมด ตรวจสอบ หน้าอัตราค่าบริการปัจจุบัน ก่อนตั้งงบ

V4-Pro กับ V4-Flash คิดค่าบริการส่งออกเท่ากันไหม?

ไม่เท่ากัน — V4-Pro $3.48 / M, V4-Flash $0.28 / M ต่างกัน 12.4 เท่า

Anthropic endpoint ส่งผลต่อราคาหรือไม่?

ไม่มีผล https://api.deepseek.com/anthropic ราคาเท่ากับ OpenAI endpoint ทุกรูปแบบ

DEV Community