DEV Community

Cover image for ราคา DeepSeek V4 API
Thanawat Wongchai
Thanawat Wongchai

Posted on • Originally published at apidog.com

ราคา DeepSeek V4 API

DeepSeek ได้ประกาศราคา V4 ในวันเดียวกับที่เปิดตัวโมเดล (23 เมษายน 2026) โดยกำหนดมาตรฐานใหม่สำหรับ AI ระดับแนวหน้า V4-Flash มีราคา $0.14 ต่อ 1 ล้านโทเค็นนำเข้า และ $0.28 ต่อ 1 ล้านโทเค็นส่งออก ส่วน V4-Pro จะอยู่ที่ $1.74 สำหรับนำเข้า และ $3.48 สำหรับส่งออก ทั้งสองรุ่นมี context window ขนาด 1 ล้านโทเค็น และโทเค็นส่งออกสูงสุด 384K พร้อม cache-hit discount ที่ลดต้นทุนนำเข้าลง 80–90% สำหรับ prompt ที่ซ้ำกัน

ทดลองใช้ Apidog วันนี้

คู่มือนี้ครอบคลุมอัตราค่าบริการ วิธีที่ context caching มีผลต่อต้นทุนจริง การเปรียบเทียบกับ GPT-5.5 และ Claude Opus และ 4 วิธีควบคุมค่าใช้จ่ายให้คาดการณ์ได้ใน Apidog

สำหรับภาพรวมผลิตภัณฑ์ ดู DeepSeek V4 คืออะไร สำหรับคู่มือ dev ดู วิธีใช้ DeepSeek V4 API สำหรับวิธีใช้ฟรี ดู วิธีใช้ DeepSeek V4 ฟรี

สรุปโดยย่อ

  • V4-Flash: $0.14 / M สำหรับนำเข้า (ไม่พบในแคช), $0.028 / M สำหรับนำเข้า (พบในแคช), $0.28 / M สำหรับส่งออก
  • V4-Pro: $1.74 / M สำหรับนำเข้า (ไม่พบในแคช), $0.145 / M สำหรับนำเข้า (พบในแคช), $3.48 / M สำหรับส่งออก
  • Context window: นำเข้า 1M โทเค็น, ส่งออก 384K โทเค็น (ทั้งสองรุ่น)
  • Cache-hit discount: ประมาณลด 80% สำหรับ Flash, ลด 92% สำหรับ Pro กรณี prefix ซ้ำกัน
  • deepseek-chat และ deepseek-reasoner จะเลิกใช้วันที่ 24 กรกฎาคม 2026; การเรียกเก็บเงินอิง V4-Flash
  • ที่อัตรา cache-miss, V4-Pro ถูกกว่า GPT-5.5 ~2.9 เท่าสำหรับนำเข้า และ ~8.6 เท่าสำหรับส่งออก

ตารางอัตราค่าบริการทั้งหมด

โมเดล นำเข้า (ไม่พบในแคช) นำเข้า (พบในแคช) ส่งออก บริบท
deepseek-v4-flash $0.14 / M $0.028 / M $0.28 / M 1M / 384K
deepseek-v4-pro $1.74 / M $0.145 / M $3.48 / M 1M / 384K
deepseek-chat (จะเลิกใช้ 2026-07-24) อ้างอิง V4-Flash (โหมดไม่คิด)
deepseek-reasoner (จะเลิกใช้ 2026-07-24) อ้างอิง V4-Flash (โหมดคิด)

จุดสำคัญสำหรับการใช้งานจริง:

  • ราคาไม่เปลี่ยนตาม "โหมดคิด" หรือ "ไม่คิด" แต่ขึ้นกับ model ID โหมด reasoning มีผลต่อจำนวนโทเค็นที่ใช้งานเท่านั้น
  • Cache-hit pricing ทำงานอัตโนมัติ: ทุก request ที่ prefix ตรงกัน (>= 1024 โทเค็น, ตรงทุกไบต์) ใน account เดียวกันจะได้ราคาถูกลง ไม่ต้องตั้งค่าเพิ่ม
  • รหัส deepseek-chat/deepseek-reasoner รุ่นเก่า ถูกคิดเงินเป็น alias ของ V4-Flash แล้ว กำหนดเส้นตายเลิกใช้คือ 24 กรกฎาคม 2026

การแคชบริบท (Context Caching) อธิบายแบบใช้งาน

การแคชคือหัวใจของการควบคุมต้นทุน DeepSeek V4. ทุกอย่างที่ซ้ำในแต่ละ request (เช่น system prompt, agent tool schema, RAG context) จะถูกคิดราคาแบบ cache-hit อัตโนมัติในการเรียกซ้ำ

ตัวอย่าง:

  • เรียกใช้ agent ด้วย system prompt 20,000 โทเค็น ถาม user 100 ข้อ (200 โทเค็น/ข้อ)

แบบไม่มีแคช:

  • นำเข้า: 100 × 20,200 × $1.74 / M = $3.52
  • ส่งออก: 100 × 500 × $3.48 / M = $0.17
  • รวม: $3.69

แบบมีแคช (ครั้งแรกไม่เจอแคช, 99 ครั้งต่อไปเจอ):

  • นำเข้าครั้งแรก: 20,200 × $1.74 / M = $0.035
  • prefix ที่เจอแคช (99 ครั้ง): 99 × 20,000 × $0.145 / M = $0.287
  • ส่วน user ที่ไม่เจอแคช (99 ครั้ง): 99 × 200 × $1.74 / M = $0.034
  • ส่งออก: 100 × 500 × $3.48 / M = $0.174
  • รวม: $0.53

สรุป: ประหยัด ~7 เท่าสำหรับงานเหมือนกัน โดยเฉพาะถ้าใช้ V4-Flash จะถูกลงมาก

เปรียบเทียบกับ GPT-5.5 และ Claude

โมเดล นำเข้า (มาตรฐาน) นำเข้า (แคช) ส่งออก บริบท
DeepSeek V4-Flash $0.14 / M $0.028 / M $0.28 / M 1M
DeepSeek V4-Pro $1.74 / M $0.145 / M $3.48 / M 1M
GPT-5.5 $5 / M $1.25 / M $30 / M 1M
GPT-5.5 Pro $30 / M $180 / M 1M
Claude Opus 4.6 $15 / M $1.50 / M $75 / M 200K

สรุปการเปรียบเทียบ:

  1. ส่งออก: V4-Pro ถูกกว่า GPT-5.5 ~8.6 เท่า, Claude Opus ~21 เท่า
  2. นำเข้าที่แคช: V4-Pro ถูกกว่า GPT-5.5 ~10 เท่า และ Claude ~10 เท่า สำหรับ system prompt/schemas/RAG context ที่ซ้ำกัน
  3. คุณภาพเทียบราคา: V4-Pro เทียบเท่า GPT-5.5 ใน LiveCodeBench และ Codeforces แต่ต้นทุนต่ำกว่ามาก (ดู ตารางเกณฑ์มาตรฐาน)

ข้อควรระวัง: Claude ดีกว่าใน long-context retrieval และ Gemini 3.1 Pro ยังนำหน้า MMLU-Pro สำหรับ use case ที่ต้องดึงข้อมูลขนาดใหญ่ อาจต้องเทียบคุณภาพก่อนเลือก

การสร้างแบบจำลองต้นทุนสำหรับปริมาณงานทั่วไป

1. Agentic coding loop (context 50K, output 2K, 20 calls/job)

  • นำเข้า: 50,000 × 20 × $1.74 / M = $1.74
  • ส่งออก: 2,000 × 20 × $3.48 / M = $0.14
  • ต้นทุนต่องาน: ~$1.88

เทียบ GPT-5.5 ≈ $6.20 ต่องาน

2. Long-document Q&A (context 500K, output 1K)

  • นำเข้า: 500,000 × $1.74 / M = $0.87
  • ส่งออก: 1,000 × $3.48 / M = $0.003
  • ต้นทุนต่อ call: ~$0.87

เทียบ GPT-5.5 ≈ $2.53 ต่อ call

3. High-volume classification (context 2K, output 200, 10,000 calls)

ใช้ V4-Flash จะคุ้มที่สุด

  • นำเข้า: 2,000 × 10,000 × $0.14 / M = $2.80
  • ส่งออก: 200 × 10,000 × $0.28 / M = $0.56
  • ต้นทุนรวม: ~$3.36

เทียบ GPT-5.5 ≈ $110

4. Repeated-prompt chatbot (system prompt 10K, user 500, output 1K, 1,000 sessions)

  • นำเข้าครั้งแรก: 10,500 × $1.74 / M = $0.018
  • นำเข้าที่แคช: 999 × 10,000 × $0.145 / M = $1.45
  • ส่วน user ที่ไม่แคช: 999 × 500 × $1.74 / M = $0.87
  • ส่งออก: 1,000 × 1,000 × $3.48 / M = $3.48
  • รวมต่อ 1,000 sessions: ~$5.82

เทียบ GPT-5.5 (มีแคช) ≈ $26.35

ค่าใช้จ่ายแอบแฝงที่ต้องระวัง

  1. Token inflation ใน thinking mode: thinking_max ใช้โทเค็นส่งออกมากกว่า non-thinking 3–10 เท่า (ต่อ prompt เดียวกัน) กำหนดขีดจำกัดให้ดี
  2. Context โตไม่รู้ตัว: Agent loop ที่ feed conversation ย้อนกลับทั้งก้อนจะโตเร็วมากใน context 1M token — limit หรือ summarize อย่างเข้มข้น
  3. Retry storm: ถ้ามี retry ทุก 500 error จะเพิ่มต้นทุนหลายเท่า ให้ใช้ exponential backoff + limit retry ต่อ request
  4. Cost volatility ระหว่าง dev: การ test ผ่าน curl จะ reload context ทุกครั้ง ใช้ Apidog แทน จะใกล้เคียง 0 เพราะเปลี่ยน variable ได้ ไม่ต้อง re-upload context ทุกครั้ง

ติดตามค่าใช้จ่ายใน Apidog

Workflow แนะนำสำหรับทีม dev:

  1. ดาวน์โหลด Apidog แล้วตั้งค่า DEEPSEEK_API_KEY เป็น secret variable ในแต่ละ environment
  2. สร้าง POST request ไปที่ https://api.deepseek.com/v1/chat/completions
  3. ใน response panel ให้ pin ค่า usage.prompt_tokens, usage.completion_tokens, usage.reasoning_tokens ทุก call จะเห็นต้นทุนคำนวณพร้อมผลลัพธ์
  4. กำหนด parameter model และ thinking_mode เพื่อ A/B test V4-Flash vs V4-Pro, Non-Think vs Think Max ได้ใน request เดียว
  5. ทำซ้ำชุดข้อมูลเดียวกันกับ GPT-5.5 (ดูคู่มือ GPT-5.5 API) เทียบ cost side-by-side

ผล: ลดเซอร์ไพรส์ในบิลสิ้นเดือนได้ ~80%

สี่กฎที่ทำให้ค่าใช้จ่ายคาดการณ์ได้

  1. ใช้ V4-Flash เป็น default เลือก V4-Pro เมื่อวัดคุณภาพแล้วว่าคุ้มกว่า
  2. ใช้ Non-Think เป็น default เพิ่มเป็น Think High สำหรับงานยาก, ใช้ Think Max เฉพาะกรณีต้องแม่นยำสุด
  3. จำกัด max_tokens 384K ควรเป็น safety limit ไม่ใช่เป้าหมาย การใช้งานจริง ส่วนใหญ่ใช้ ~2K
  4. Log การใช้งาน บันทึก prompt_tokens, completion_tokens, reasoning_tokens ทุก call — แจ้งเตือนเมื่อ reasoning token พุ่งสูงผิดปกติ

คำถามที่พบบ่อย

มี free tier หรือไม่?

ไม่มี free API โดยตรง แต่บางครั้ง account ใหม่จะได้ trial credit เล็กน้อย สำหรับทางเลือกใช้ฟรีนอก API ดู วิธีใช้ DeepSeek V4 ฟรี

Cache-hit pricing ทำงานอย่างไร?

prefix (>=1024 tokens) ที่ซ้ำกันใน account เดียวกันจะได้ราคาถูกลงอัตโนมัติ

  • Request แรก: จ่าย rate ปกติ
  • Request ถัดไปที่ prefix ตรงกัน: จ่าย rate ลด ไม่ต้องตั้งค่าใดๆ

โหมด Think แพงกว่าหรือไม่?

อัตราต่อโทเค็นเท่ากัน แต่โหมดนี้ใช้ reasoning token มากกว่า ติดตามได้ใน usage.reasoning_tokens

ราคาคงที่หรือไม่?

DeepSeek มีการปรับราคาเป็นระยะ V3.2 คงที่ตลอดปี 2025, V4 ยังไม่ประกาศวันหมด ตรวจสอบ หน้าอัตราค่าบริการปัจจุบัน ก่อนตั้งงบ

V4-Pro กับ V4-Flash คิดค่าบริการส่งออกเท่ากันไหม?

ไม่เท่ากัน — V4-Pro $3.48 / M, V4-Flash $0.28 / M ต่างกัน 12.4 เท่า

Anthropic endpoint ส่งผลต่อราคาหรือไม่?

ไม่มีผล https://api.deepseek.com/anthropic ราคาเท่ากับ OpenAI endpoint ทุกรูปแบบ

Top comments (0)