DEV Community

Cover image for ราคา Claude Opus 4.8: เจาะลึกค่าใช้จ่ายทั้งหมด
Thanawat Wongchai
Thanawat Wongchai

Posted on • Originally published at apidog.com

ราคา Claude Opus 4.8: เจาะลึกค่าใช้จ่ายทั้งหมด

Claude Opus 4.8 มีค่าใช้จ่าย $5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน ซึ่งเท่ากับ Opus 4.7 ดังนั้นถ้าคุณมีงบสำหรับ 4.7 อยู่แล้ว การอัปเกรดเป็น 4.8 จะไม่เปลี่ยนอัตราพื้นฐาน สิ่งที่มีผลต่อบิลจริงมากกว่าคือโหมดเร็ว, ระดับ effort, prompt caching, Batch API และการควบคุม max_tokens

ลองใช้ Apidog วันนี้

คู่มือนี้สรุปวิธีคำนวณต้นทุนจริงของ Claude Opus 4.8 พร้อมตัวอย่างที่นำไปใช้ได้ทันที สำหรับภาพรวมของโมเดล ดู Claude Opus 4.8 คืออะไร และถ้าต้องการเริ่มเรียก API ดู คู่มือ API

ตารางอัตราค่าบริการ

โหมด อินพุต ต่อ 1 ล้านโทเค็น เอาต์พุต ต่อ 1 ล้านโทเค็น ความเร็ว
มาตรฐาน $5 $25 พื้นฐาน
เร็ว $10 $50 เอาต์พุตเร็วขึ้น 2.5 เท่า

จุดที่ควรนำไปใช้ในการออกแบบระบบ:

  • เอาต์พุตแพงกว่าอินพุต 5 เท่า ดังนั้นความยาวคำตอบสำคัญกว่าขนาดพรอมต์
  • โหมดเร็วคิดราคา 2 เท่า แต่ได้เอาต์พุตเร็วขึ้น 2.5 เท่า
  • ถ้า workload ไม่ต้องตอบแบบ real-time ให้ใช้โหมดมาตรฐานก่อนเสมอ

ตรวจสอบอัตราล่าสุดได้จาก เอกสารราคาของ Anthropic

เลือกโหมดมาตรฐานหรือโหมดเร็วอย่างไร

ใช้โหมดมาตรฐานเป็นค่าเริ่มต้นสำหรับงานส่วนใหญ่ เช่น:

  • batch job
  • scheduled task
  • background agent loop
  • document processing
  • data extraction

ใช้โหมดเร็วเมื่อ latency กระทบประสบการณ์ผู้ใช้โดยตรง เช่น:

  • ผู้ช่วยเขียนโค้ดแบบ real-time
  • chatbot ที่ผู้ใช้รอคำตอบทันที
  • interactive agent
  • UI ที่ต้อง stream คำตอบระหว่างพิมพ์หรือคลิก

แนวทางตัดสินใจแบบง่าย:

ถ้าผู้ใช้กำลังรออยู่บนหน้าจอ → พิจารณาโหมดเร็ว
ถ้างานรันเบื้องหลัง → ใช้โหมดมาตรฐาน
Enter fullscreen mode Exit fullscreen mode

ใช้ effort เพื่อควบคุมต้นทุน

พารามิเตอร์ effort ของ Opus 4.8 ควบคุมปริมาณโทเค็นที่โมเดลใช้ระหว่างสร้างคำตอบ รวมถึงการเรียกใช้เครื่องมือด้วย เพราะ output tokens แพงกว่า input tokens การตั้ง effort ให้เหมาะกับงานจึงลดค่าใช้จ่ายได้โดยตรง

ระดับจากถูกไปแพงในแง่จำนวนโทเค็น:

ระดับ เหมาะกับงาน
low classification, extraction, คำตอบสั้น, งานที่ไม่ต้อง reasoning ลึก
medium งานทั่วไปที่ต้องการสมดุลระหว่างคุณภาพและต้นทุน
high ค่าเริ่มต้น เหมาะกับงานที่ต้องการคำตอบละเอียด
xhigh งานเขียนโค้ด, debugging, reasoning หลายขั้น
max งานซับซ้อนมากและยอมรับต้นทุนสูงได้

ตัวอย่างแนวทางกำหนดค่า:

{
  "model": "claude-opus-4-8",
  "messages": [
    {
      "role": "user",
      "content": "Classify this support ticket into billing, bug, or feature request."
    }
  ],
  "effort": "low",
  "max_tokens": 100
}
Enter fullscreen mode Exit fullscreen mode

สำหรับงานง่าย เช่น classification หรือ routing อย่าใช้ high โดยไม่จำเป็น เพราะอาจใช้ output tokens มากกว่าหลายเท่าโดยไม่ได้เพิ่มคุณค่าต่อผลลัพธ์มากนัก ดูรายละเอียดเพิ่มเติมได้ใน แนวทางเกี่ยวกับระดับความพยายาม

วิธีคำนวณค่าใช้จ่าย

สูตรพื้นฐาน:

input_cost = input_tokens / 1,000,000 × input_rate
output_cost = output_tokens / 1,000,000 × output_rate
total_cost = input_cost + output_cost
Enter fullscreen mode Exit fullscreen mode

สำหรับโหมดมาตรฐาน:

input_rate = $5
output_rate = $25
Enter fullscreen mode Exit fullscreen mode

สถานการณ์จำลองค่าใช้จ่าย

ตัวอย่างต่อไปนี้ใช้อัตราโหมดมาตรฐาน $5 ต่อ 1 ล้าน input tokens และ $25 ต่อ 1 ล้าน output tokens ตัวเลขจริงอาจเปลี่ยนตามพรอมต์, effort, tool use และความยาวคำตอบ

สถานการณ์ที่ 1: แชทบอทหนึ่งรอบ

สมมติ:

  • input: 1,000 tokens
  • output: 500 tokens

คำนวณ:

input  = 1,000 / 1,000,000 × $5  = $0.005
output = 500 / 1,000,000 × $25   = $0.0125
total  = $0.0175
Enter fullscreen mode Exit fullscreen mode

รวมประมาณ $0.018 ต่อรอบ

ถ้าใช้ effort: "low" และจำกัด max_tokens ให้เหมาะสม ค่าใช้จ่ายต่อรอบอาจลดลงต่ำกว่าหนึ่งเซ็นต์ได้

สถานการณ์ที่ 2: เอเจนต์เขียนโค้ด

สมมติ:

  • input: 50,000 tokens สำหรับบริบท repo
  • output: 8,000 tokens
  • effort: xhigh

คำนวณ:

input  = 50,000 / 1,000,000 × $5 = $0.25
output = 8,000 / 1,000,000 × $25 = $0.20
total  = $0.45
Enter fullscreen mode Exit fullscreen mode

รวมประมาณ $0.45 ต่องาน

ถ้าบริบท repo 50K tokens ถูกใช้ซ้ำหลายครั้ง ให้ใช้ prompt caching เพื่อลดต้นทุน input ที่ซ้ำกัน หลังจากแคชแล้ว input ส่วนเดิมอาจลดเหลือประมาณ $0.025 ทำให้ต้นทุนรวมลดลงเหลือประมาณ $0.23

สถานการณ์ที่ 3: Batch processing ข้ามคืน

สมมติ:

  • input: 1,000,000 tokens
  • output: 200,000 tokens
  • รันผ่าน Batch API พร้อมส่วนลด 50%

คำนวณ:

input  = 1,000,000 / 1,000,000 × $5 × 0.5 = $2.50
output = 200,000 / 1,000,000 × $25 × 0.5 = $2.50
total  = $5.00
Enter fullscreen mode Exit fullscreen mode

รวมประมาณ $5.00 สำหรับทั้งแบตช์

สำหรับการเปรียบเทียบกับโมเดลที่ถูกกว่า ดู รายละเอียดราคาของ Gemini 3.5 Flash และ ค่าใช้จ่าย API ของ Xiaomi MiMo v2.5

Prompt caching: จุดที่ประหยัดได้มากที่สุด

ถ้าคุณส่งข้อมูลเดิมซ้ำทุก request เช่น:

  • system prompt ขนาดใหญ่
  • เอกสาร reference
  • codebase context
  • policy หรือ schema เดิม
  • tool instructions

คุณกำลังจ่าย input tokens เต็มราคาให้ข้อมูลที่โมเดลเห็นซ้ำแล้ว Prompt caching ช่วยลดต้นทุนส่วนนี้ หลังจากการเขียนแคชครั้งแรก การอ่าน input ที่แคชไว้จะถูกคิดในอัตราที่ต่ำกว่า input ปกติประมาณหนึ่งในสิบ

แนวทางใช้งาน:

  1. แยกพรอมต์ออกเป็นส่วนที่เปลี่ยนบ่อยและไม่เปลี่ยน
  2. วาง context ขนาดใหญ่ที่ใช้ซ้ำไว้ในส่วนที่ cache ได้
  3. ใช้พรอมต์เดิมซ้ำให้มากที่สุดเพื่อให้ cache hit
  4. ตรวจสอบ usage ต่อ request เพื่อดูว่าต้นทุนลดลงจริงหรือไม่

ตัวอย่างโครงสร้างพรอมต์:

[Cacheable context]
- system instructions
- repo summary
- API documentation
- coding conventions

[Dynamic user input]
- issue ปัจจุบัน
- error log
- task เฉพาะรอบนี้
Enter fullscreen mode Exit fullscreen mode

เอเจนต์ที่ใช้บริบทยาว เช่น code agent หรือ document agent มักได้ประโยชน์จาก caching มากที่สุด เพราะ input ส่วนใหญ่เป็น context เดิมที่ถูกส่งซ้ำ

ใช้ Batch API เมื่องานไม่ต้อง real-time

Batch API เหมาะกับงานที่รับผลลัพธ์ช้าลงได้เพื่อแลกกับต้นทุนที่ต่ำลง เช่น:

  • evaluation
  • bulk summarization
  • data labeling
  • report generation
  • nightly processing
  • migration หรือ enrichment pipeline

Opus 4.8 รองรับเอาต์พุตสูงสุด 300K tokens ผ่าน Batch API ด้วย beta header:

output-300k-2026-03-24
Enter fullscreen mode Exit fullscreen mode

เทียบกับ 128K tokens บน synchronous Messages API

ใช้ Batch API เมื่อ:

ต้องการลดต้นทุน → ใช่
ไม่ต้องตอบทันที → ใช่
งานมีจำนวนมาก → ใช่
ต้อง stream กลับ UI ทันที → ไม่เหมาะ
Enter fullscreen mode Exit fullscreen mode

ราคา Opus ในแต่ละรุ่น

โมเดล อินพุต ต่อ 1 ล้าน เอาต์พุต ต่อ 1 ล้าน
Opus 4.1 $15 $75
Opus 4.5 $5 $25
Opus 4.6 $5 $25
Opus 4.7 $5 $25
Opus 4.8 $5 $25

Opus ลดราคาจาก $15/$75 เหลือ $5/$25 ตั้งแต่รุ่น 4.5 และคงราคานั้นมาจนถึง 4.8 ดังนั้นคุณได้คุณภาพของ 4.8 ในอัตราเดียวกับ 4.5 สำหรับการเปรียบเทียบกับโมเดลเรือธงอื่น ดู Opus 4.8 vs GPT-5.5 vs Gemini 3.5

Checklist สำหรับลดต้นทุน Opus 4.8

ก่อนนำ Opus 4.8 ไปใช้จริงหรือ scale production ให้ตรวจรายการนี้:

  • ตั้ง effort ตามงาน

    ใช้ low สำหรับ classification/extraction และเก็บ xhigh ไว้สำหรับ coding หรือ reasoning ซับซ้อน

  • จำกัด max_tokens

    เพราะ output tokens แพงกว่า input tokens 5 เท่า อย่าปล่อยให้โมเดลตอบยาวโดยไม่จำเป็น

  • ใช้ prompt caching กับ context ที่ซ้ำ

    เช่น system prompt, docs, repo context และ schema

  • ย้ายงานไม่เร่งด่วนไป Batch API

    โดยเฉพาะ evaluation, bulk processing และ nightly jobs

  • ใช้โหมดมาตรฐานเป็นค่าเริ่มต้น

    ใช้โหมดเร็วเฉพาะกรณีที่ latency ส่งผลต่อผู้ใช้จริง

  • บันทึก usage ต่อ request

    เก็บ input_tokens, output_tokens, effort, max_tokens และ workload name เพื่อวิเคราะห์ต้นทุน

  • ติดตาม quota และ rate limits

    อัตราการใช้งานและค่าใช้จ่ายมักเพิ่มพร้อมกัน ดูตัวอย่างจาก การเปลี่ยนแปลงขีดจำกัดรายสัปดาห์ของ Claude Code

ติดตามค่าใช้จ่ายจริงด้วย Apidog

ค่าใช้จ่ายโดยประมาณมักต่างจากค่าใช้จ่ายจริงเมื่อเริ่มใช้งาน production เพราะคำตอบจริงมีความยาวไม่เท่ากัน และบาง request อาจมี tool use เพิ่ม วิธีที่แม่นยำที่สุดคือดูออบเจกต์ usage จากทุก response ของ Messages API ซึ่งรายงานจำนวน input และ output tokens ต่อการเรียกใช้

Apidog usage tracking

Apidog ช่วยให้คุณทดสอบและติดตามต้นทุนได้ใน workflow เดียว:

  • ส่ง request ไปยัง Opus 4.8 และดูบล็อก usage ใน response
  • เปรียบเทียบ token usage ระหว่าง effort: "low", high และ xhigh
  • บันทึก request สำหรับแต่ละ workload แล้วรันซ้ำเมื่อพรอมต์เปลี่ยน
  • ทดสอบ endpoint และ mock API โดยไม่ต้องใช้โทเค็นจริง

ขั้นตอนแนะนำ:

  1. สร้าง request ไปยัง Messages endpoint
  2. ใส่พรอมต์เดียวกัน
  3. รันด้วย effort: "low"
  4. รันซ้ำด้วย effort: "high" และ effort: "xhigh"
  5. เปรียบเทียบ input_tokens และ output_tokens
  6. เลือกระดับที่ให้คุณภาพพอและต้นทุนต่ำที่สุด

ตัวเลขใน usage จะบอกชัดเจนว่าแต่ละ workload มีค่าใช้จ่ายเท่าไรก่อนนำไปใช้จริงใน production

คำถามที่พบบ่อย

Claude Opus 4.8 มีค่าใช้จ่ายเท่าไร?

$5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน โหมดเร็วมีค่าใช้จ่าย $10 และ $50 เพื่อแลกกับเอาต์พุตที่เร็วขึ้น 2.5 เท่า

Opus 4.8 แพงกว่า Opus 4.7 หรือไม่?

ไม่ อัตราต่อโทเค็นเท่ากัน การอัปเกรดจาก 4.7 เป็น 4.8 จึงไม่เปลี่ยนต้นทุนพื้นฐาน

ควรใช้โหมดเร็วเมื่อไร?

ใช้เมื่อผู้ใช้กำลังรอคำตอบแบบ real-time เช่น coding assistant หรือ interactive agent ถ้างานรันเบื้องหลังให้ใช้โหมดมาตรฐาน

จะลดค่าใช้จ่าย Opus 4.8 ได้อย่างไร?

ลด effort สำหรับงานง่าย แคชพรอมต์ที่ซ้ำ ใช้ Batch API สำหรับงานไม่เร่งด่วน และตั้ง max_tokens ให้เหมาะสม

Prompt caching ช่วยประหยัดเงินจริงหรือไม่?

ใช่ หลังจากเขียนแคชครั้งแรกแล้ว input ที่ซ้ำกันจะถูกอ่านในอัตราประมาณหนึ่งในสิบของ input ปกติ เหมาะมากกับ agent ที่ใช้ context ยาว

Opus 4.8 สร้างเอาต์พุตได้สูงสุดกี่โทเค็น?

สูงสุด 128K tokens บน synchronous Messages API และสูงสุด 300K tokens ผ่าน Batch API ด้วย beta header output-300k-2026-03-24

ดู token usage ต่อ request ได้จากที่ไหน?

ดูได้จากออบเจกต์ usage ใน response ของ Messages API เครื่องมืออย่าง Apidog ช่วยแสดงข้อมูลนี้เพื่อเปรียบเทียบต้นทุนระหว่าง workload และระดับ effort ได้ง่ายขึ้น

Top comments (0)