DeepSeek ได้ประกาศราคา V4 ในวันเดียวกับที่เปิดตัวโมเดล (23 เมษายน 2026) โดยกำหนดมาตรฐานใหม่สำหรับ AI ระดับแนวหน้า V4-Flash มีราคา $0.14 ต่อ 1 ล้านโทเค็นนำเข้า และ $0.28 ต่อ 1 ล้านโทเค็นส่งออก ส่วน V4-Pro จะอยู่ที่ $1.74 สำหรับนำเข้า และ $3.48 สำหรับส่งออก ทั้งสองรุ่นมี context window ขนาด 1 ล้านโทเค็น และโทเค็นส่งออกสูงสุด 384K พร้อม cache-hit discount ที่ลดต้นทุนนำเข้าลง 80–90% สำหรับ prompt ที่ซ้ำกัน
คู่มือนี้ครอบคลุมอัตราค่าบริการ วิธีที่ context caching มีผลต่อต้นทุนจริง การเปรียบเทียบกับ GPT-5.5 และ Claude Opus และ 4 วิธีควบคุมค่าใช้จ่ายให้คาดการณ์ได้ใน Apidog
สำหรับภาพรวมผลิตภัณฑ์ ดู DeepSeek V4 คืออะไร สำหรับคู่มือ dev ดู วิธีใช้ DeepSeek V4 API สำหรับวิธีใช้ฟรี ดู วิธีใช้ DeepSeek V4 ฟรี
สรุปโดยย่อ
- V4-Flash: $0.14 / M สำหรับนำเข้า (ไม่พบในแคช), $0.028 / M สำหรับนำเข้า (พบในแคช), $0.28 / M สำหรับส่งออก
- V4-Pro: $1.74 / M สำหรับนำเข้า (ไม่พบในแคช), $0.145 / M สำหรับนำเข้า (พบในแคช), $3.48 / M สำหรับส่งออก
- Context window: นำเข้า 1M โทเค็น, ส่งออก 384K โทเค็น (ทั้งสองรุ่น)
- Cache-hit discount: ประมาณลด 80% สำหรับ Flash, ลด 92% สำหรับ Pro กรณี prefix ซ้ำกัน
-
deepseek-chatและdeepseek-reasonerจะเลิกใช้วันที่ 24 กรกฎาคม 2026; การเรียกเก็บเงินอิง V4-Flash - ที่อัตรา cache-miss, V4-Pro ถูกกว่า GPT-5.5 ~2.9 เท่าสำหรับนำเข้า และ ~8.6 เท่าสำหรับส่งออก
ตารางอัตราค่าบริการทั้งหมด
| โมเดล | นำเข้า (ไม่พบในแคช) | นำเข้า (พบในแคช) | ส่งออก | บริบท |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.028 / M | $0.28 / M | 1M / 384K |
deepseek-v4-pro |
$1.74 / M | $0.145 / M | $3.48 / M | 1M / 384K |
deepseek-chat (จะเลิกใช้ 2026-07-24) |
อ้างอิง V4-Flash (โหมดไม่คิด) | — | — | — |
deepseek-reasoner (จะเลิกใช้ 2026-07-24) |
อ้างอิง V4-Flash (โหมดคิด) | — | — | — |
จุดสำคัญสำหรับการใช้งานจริง:
- ราคาไม่เปลี่ยนตาม "โหมดคิด" หรือ "ไม่คิด" แต่ขึ้นกับ model ID โหมด reasoning มีผลต่อจำนวนโทเค็นที่ใช้งานเท่านั้น
- Cache-hit pricing ทำงานอัตโนมัติ: ทุก request ที่ prefix ตรงกัน (>= 1024 โทเค็น, ตรงทุกไบต์) ใน account เดียวกันจะได้ราคาถูกลง ไม่ต้องตั้งค่าเพิ่ม
- รหัส
deepseek-chat/deepseek-reasonerรุ่นเก่า ถูกคิดเงินเป็น alias ของ V4-Flash แล้ว กำหนดเส้นตายเลิกใช้คือ 24 กรกฎาคม 2026
การแคชบริบท (Context Caching) อธิบายแบบใช้งาน
การแคชคือหัวใจของการควบคุมต้นทุน DeepSeek V4. ทุกอย่างที่ซ้ำในแต่ละ request (เช่น system prompt, agent tool schema, RAG context) จะถูกคิดราคาแบบ cache-hit อัตโนมัติในการเรียกซ้ำ
ตัวอย่าง:
- เรียกใช้ agent ด้วย system prompt 20,000 โทเค็น ถาม user 100 ข้อ (200 โทเค็น/ข้อ)
แบบไม่มีแคช:
- นำเข้า: 100 × 20,200 × $1.74 / M = $3.52
- ส่งออก: 100 × 500 × $3.48 / M = $0.17
- รวม: $3.69
แบบมีแคช (ครั้งแรกไม่เจอแคช, 99 ครั้งต่อไปเจอ):
- นำเข้าครั้งแรก: 20,200 × $1.74 / M = $0.035
- prefix ที่เจอแคช (99 ครั้ง): 99 × 20,000 × $0.145 / M = $0.287
- ส่วน user ที่ไม่เจอแคช (99 ครั้ง): 99 × 200 × $1.74 / M = $0.034
- ส่งออก: 100 × 500 × $3.48 / M = $0.174
- รวม: $0.53
สรุป: ประหยัด ~7 เท่าสำหรับงานเหมือนกัน โดยเฉพาะถ้าใช้ V4-Flash จะถูกลงมาก
เปรียบเทียบกับ GPT-5.5 และ Claude
| โมเดล | นำเข้า (มาตรฐาน) | นำเข้า (แคช) | ส่งออก | บริบท |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0.14 / M | $0.028 / M | $0.28 / M | 1M |
| DeepSeek V4-Pro | $1.74 / M | $0.145 / M | $3.48 / M | 1M |
| GPT-5.5 | $5 / M | $1.25 / M | $30 / M | 1M |
| GPT-5.5 Pro | $30 / M | — | $180 / M | 1M |
| Claude Opus 4.6 | $15 / M | $1.50 / M | $75 / M | 200K |
สรุปการเปรียบเทียบ:
- ส่งออก: V4-Pro ถูกกว่า GPT-5.5 ~8.6 เท่า, Claude Opus ~21 เท่า
- นำเข้าที่แคช: V4-Pro ถูกกว่า GPT-5.5 ~10 เท่า และ Claude ~10 เท่า สำหรับ system prompt/schemas/RAG context ที่ซ้ำกัน
- คุณภาพเทียบราคา: V4-Pro เทียบเท่า GPT-5.5 ใน LiveCodeBench และ Codeforces แต่ต้นทุนต่ำกว่ามาก (ดู ตารางเกณฑ์มาตรฐาน)
ข้อควรระวัง: Claude ดีกว่าใน long-context retrieval และ Gemini 3.1 Pro ยังนำหน้า MMLU-Pro สำหรับ use case ที่ต้องดึงข้อมูลขนาดใหญ่ อาจต้องเทียบคุณภาพก่อนเลือก
การสร้างแบบจำลองต้นทุนสำหรับปริมาณงานทั่วไป
1. Agentic coding loop (context 50K, output 2K, 20 calls/job)
- นำเข้า: 50,000 × 20 × $1.74 / M = $1.74
- ส่งออก: 2,000 × 20 × $3.48 / M = $0.14
- ต้นทุนต่องาน: ~$1.88
เทียบ GPT-5.5 ≈ $6.20 ต่องาน
2. Long-document Q&A (context 500K, output 1K)
- นำเข้า: 500,000 × $1.74 / M = $0.87
- ส่งออก: 1,000 × $3.48 / M = $0.003
- ต้นทุนต่อ call: ~$0.87
เทียบ GPT-5.5 ≈ $2.53 ต่อ call
3. High-volume classification (context 2K, output 200, 10,000 calls)
ใช้ V4-Flash จะคุ้มที่สุด
- นำเข้า: 2,000 × 10,000 × $0.14 / M = $2.80
- ส่งออก: 200 × 10,000 × $0.28 / M = $0.56
- ต้นทุนรวม: ~$3.36
เทียบ GPT-5.5 ≈ $110
4. Repeated-prompt chatbot (system prompt 10K, user 500, output 1K, 1,000 sessions)
- นำเข้าครั้งแรก: 10,500 × $1.74 / M = $0.018
- นำเข้าที่แคช: 999 × 10,000 × $0.145 / M = $1.45
- ส่วน user ที่ไม่แคช: 999 × 500 × $1.74 / M = $0.87
- ส่งออก: 1,000 × 1,000 × $3.48 / M = $3.48
- รวมต่อ 1,000 sessions: ~$5.82
เทียบ GPT-5.5 (มีแคช) ≈ $26.35
ค่าใช้จ่ายแอบแฝงที่ต้องระวัง
-
Token inflation ใน thinking mode:
thinking_maxใช้โทเค็นส่งออกมากกว่าnon-thinking3–10 เท่า (ต่อ prompt เดียวกัน) กำหนดขีดจำกัดให้ดี - Context โตไม่รู้ตัว: Agent loop ที่ feed conversation ย้อนกลับทั้งก้อนจะโตเร็วมากใน context 1M token — limit หรือ summarize อย่างเข้มข้น
- Retry storm: ถ้ามี retry ทุก 500 error จะเพิ่มต้นทุนหลายเท่า ให้ใช้ exponential backoff + limit retry ต่อ request
- Cost volatility ระหว่าง dev: การ test ผ่าน curl จะ reload context ทุกครั้ง ใช้ Apidog แทน จะใกล้เคียง 0 เพราะเปลี่ยน variable ได้ ไม่ต้อง re-upload context ทุกครั้ง
ติดตามค่าใช้จ่ายใน Apidog
Workflow แนะนำสำหรับทีม dev:
-
ดาวน์โหลด Apidog แล้วตั้งค่า
DEEPSEEK_API_KEYเป็น secret variable ในแต่ละ environment - สร้าง POST request ไปที่
https://api.deepseek.com/v1/chat/completions - ใน response panel ให้ pin ค่า
usage.prompt_tokens,usage.completion_tokens,usage.reasoning_tokensทุก call จะเห็นต้นทุนคำนวณพร้อมผลลัพธ์ - กำหนด parameter
modelและthinking_modeเพื่อ A/B test V4-Flash vs V4-Pro, Non-Think vs Think Max ได้ใน request เดียว - ทำซ้ำชุดข้อมูลเดียวกันกับ GPT-5.5 (ดูคู่มือ GPT-5.5 API) เทียบ cost side-by-side
ผล: ลดเซอร์ไพรส์ในบิลสิ้นเดือนได้ ~80%
สี่กฎที่ทำให้ค่าใช้จ่ายคาดการณ์ได้
- ใช้ V4-Flash เป็น default เลือก V4-Pro เมื่อวัดคุณภาพแล้วว่าคุ้มกว่า
- ใช้ Non-Think เป็น default เพิ่มเป็น Think High สำหรับงานยาก, ใช้ Think Max เฉพาะกรณีต้องแม่นยำสุด
-
จำกัด
max_tokens384K ควรเป็น safety limit ไม่ใช่เป้าหมาย การใช้งานจริง ส่วนใหญ่ใช้ ~2K -
Log การใช้งาน
บันทึก
prompt_tokens,completion_tokens,reasoning_tokensทุก call — แจ้งเตือนเมื่อ reasoning token พุ่งสูงผิดปกติ
คำถามที่พบบ่อย
มี free tier หรือไม่?
ไม่มี free API โดยตรง แต่บางครั้ง account ใหม่จะได้ trial credit เล็กน้อย สำหรับทางเลือกใช้ฟรีนอก API ดู วิธีใช้ DeepSeek V4 ฟรี
Cache-hit pricing ทำงานอย่างไร?
prefix (>=1024 tokens) ที่ซ้ำกันใน account เดียวกันจะได้ราคาถูกลงอัตโนมัติ
- Request แรก: จ่าย rate ปกติ
- Request ถัดไปที่ prefix ตรงกัน: จ่าย rate ลด ไม่ต้องตั้งค่าใดๆ
โหมด Think แพงกว่าหรือไม่?
อัตราต่อโทเค็นเท่ากัน แต่โหมดนี้ใช้ reasoning token มากกว่า ติดตามได้ใน usage.reasoning_tokens
ราคาคงที่หรือไม่?
DeepSeek มีการปรับราคาเป็นระยะ V3.2 คงที่ตลอดปี 2025, V4 ยังไม่ประกาศวันหมด ตรวจสอบ หน้าอัตราค่าบริการปัจจุบัน ก่อนตั้งงบ
V4-Pro กับ V4-Flash คิดค่าบริการส่งออกเท่ากันไหม?
ไม่เท่ากัน — V4-Pro $3.48 / M, V4-Flash $0.28 / M ต่างกัน 12.4 เท่า
Anthropic endpoint ส่งผลต่อราคาหรือไม่?
ไม่มีผล https://api.deepseek.com/anthropic ราคาเท่ากับ OpenAI endpoint ทุกรูปแบบ
Top comments (0)