Thanawat Wongchai

Posted on May 29 • Originally published at apidog.com

ราคา Claude Opus 4.8: เจาะลึกค่าใช้จ่ายทั้งหมด

Claude Opus 4.8 มีค่าใช้จ่าย $5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน ซึ่งเท่ากับ Opus 4.7 ดังนั้นถ้าคุณมีงบสำหรับ 4.7 อยู่แล้ว การอัปเกรดเป็น 4.8 จะไม่เปลี่ยนอัตราพื้นฐาน สิ่งที่มีผลต่อบิลจริงมากกว่าคือโหมดเร็ว, ระดับ effort, prompt caching, Batch API และการควบคุม max_tokens

ลองใช้ Apidog วันนี้

คู่มือนี้สรุปวิธีคำนวณต้นทุนจริงของ Claude Opus 4.8 พร้อมตัวอย่างที่นำไปใช้ได้ทันที สำหรับภาพรวมของโมเดล ดู Claude Opus 4.8 คืออะไร และถ้าต้องการเริ่มเรียก API ดู คู่มือ API

ตารางอัตราค่าบริการ

โหมด	อินพุต ต่อ 1 ล้านโทเค็น	เอาต์พุต ต่อ 1 ล้านโทเค็น	ความเร็ว
มาตรฐาน	$5	$25	พื้นฐาน
เร็ว	$10	$50	เอาต์พุตเร็วขึ้น 2.5 เท่า

จุดที่ควรนำไปใช้ในการออกแบบระบบ:

เอาต์พุตแพงกว่าอินพุต 5 เท่า ดังนั้นความยาวคำตอบสำคัญกว่าขนาดพรอมต์
โหมดเร็วคิดราคา 2 เท่า แต่ได้เอาต์พุตเร็วขึ้น 2.5 เท่า
ถ้า workload ไม่ต้องตอบแบบ real-time ให้ใช้โหมดมาตรฐานก่อนเสมอ

ตรวจสอบอัตราล่าสุดได้จาก เอกสารราคาของ Anthropic

เลือกโหมดมาตรฐานหรือโหมดเร็วอย่างไร

ใช้โหมดมาตรฐานเป็นค่าเริ่มต้นสำหรับงานส่วนใหญ่ เช่น:

batch job
scheduled task
background agent loop
document processing
data extraction

ใช้โหมดเร็วเมื่อ latency กระทบประสบการณ์ผู้ใช้โดยตรง เช่น:

ผู้ช่วยเขียนโค้ดแบบ real-time
chatbot ที่ผู้ใช้รอคำตอบทันที
interactive agent
UI ที่ต้อง stream คำตอบระหว่างพิมพ์หรือคลิก

แนวทางตัดสินใจแบบง่าย:

ถ้าผู้ใช้กำลังรออยู่บนหน้าจอ → พิจารณาโหมดเร็ว
ถ้างานรันเบื้องหลัง → ใช้โหมดมาตรฐาน

ใช้ `effort` เพื่อควบคุมต้นทุน

พารามิเตอร์ effort ของ Opus 4.8 ควบคุมปริมาณโทเค็นที่โมเดลใช้ระหว่างสร้างคำตอบ รวมถึงการเรียกใช้เครื่องมือด้วย เพราะ output tokens แพงกว่า input tokens การตั้ง effort ให้เหมาะกับงานจึงลดค่าใช้จ่ายได้โดยตรง

ระดับจากถูกไปแพงในแง่จำนวนโทเค็น:

ระดับ	เหมาะกับงาน
`low`	classification, extraction, คำตอบสั้น, งานที่ไม่ต้อง reasoning ลึก
`medium`	งานทั่วไปที่ต้องการสมดุลระหว่างคุณภาพและต้นทุน
`high`	ค่าเริ่มต้น เหมาะกับงานที่ต้องการคำตอบละเอียด
`xhigh`	งานเขียนโค้ด, debugging, reasoning หลายขั้น
`max`	งานซับซ้อนมากและยอมรับต้นทุนสูงได้

ตัวอย่างแนวทางกำหนดค่า:

{
  "model": "claude-opus-4-8",
  "messages": [
    {
      "role": "user",
      "content": "Classify this support ticket into billing, bug, or feature request."
    }
  ],
  "effort": "low",
  "max_tokens": 100
}

สำหรับงานง่าย เช่น classification หรือ routing อย่าใช้ high โดยไม่จำเป็น เพราะอาจใช้ output tokens มากกว่าหลายเท่าโดยไม่ได้เพิ่มคุณค่าต่อผลลัพธ์มากนัก ดูรายละเอียดเพิ่มเติมได้ใน แนวทางเกี่ยวกับระดับความพยายาม

วิธีคำนวณค่าใช้จ่าย

สูตรพื้นฐาน:

input_cost = input_tokens / 1,000,000 × input_rate
output_cost = output_tokens / 1,000,000 × output_rate
total_cost = input_cost + output_cost

สำหรับโหมดมาตรฐาน:

input_rate = $5
output_rate = $25

สถานการณ์จำลองค่าใช้จ่าย

ตัวอย่างต่อไปนี้ใช้อัตราโหมดมาตรฐาน $5 ต่อ 1 ล้าน input tokens และ $25 ต่อ 1 ล้าน output tokens ตัวเลขจริงอาจเปลี่ยนตามพรอมต์, effort, tool use และความยาวคำตอบ

สถานการณ์ที่ 1: แชทบอทหนึ่งรอบ

สมมติ:

input: 1,000 tokens
output: 500 tokens

คำนวณ:

input  = 1,000 / 1,000,000 × $5  = $0.005
output = 500 / 1,000,000 × $25   = $0.0125
total  = $0.0175

รวมประมาณ $0.018 ต่อรอบ

ถ้าใช้ effort: "low" และจำกัด max_tokens ให้เหมาะสม ค่าใช้จ่ายต่อรอบอาจลดลงต่ำกว่าหนึ่งเซ็นต์ได้

สถานการณ์ที่ 2: เอเจนต์เขียนโค้ด

สมมติ:

input: 50,000 tokens สำหรับบริบท repo
output: 8,000 tokens
effort: xhigh

คำนวณ:

input  = 50,000 / 1,000,000 × $5 = $0.25
output = 8,000 / 1,000,000 × $25 = $0.20
total  = $0.45

รวมประมาณ $0.45 ต่องาน

ถ้าบริบท repo 50K tokens ถูกใช้ซ้ำหลายครั้ง ให้ใช้ prompt caching เพื่อลดต้นทุน input ที่ซ้ำกัน หลังจากแคชแล้ว input ส่วนเดิมอาจลดเหลือประมาณ $0.025 ทำให้ต้นทุนรวมลดลงเหลือประมาณ $0.23

สถานการณ์ที่ 3: Batch processing ข้ามคืน

สมมติ:

input: 1,000,000 tokens
output: 200,000 tokens
รันผ่าน Batch API พร้อมส่วนลด 50%

คำนวณ:

input  = 1,000,000 / 1,000,000 × $5 × 0.5 = $2.50
output = 200,000 / 1,000,000 × $25 × 0.5 = $2.50
total  = $5.00

รวมประมาณ $5.00 สำหรับทั้งแบตช์

สำหรับการเปรียบเทียบกับโมเดลที่ถูกกว่า ดู รายละเอียดราคาของ Gemini 3.5 Flash และ ค่าใช้จ่าย API ของ Xiaomi MiMo v2.5

Prompt caching: จุดที่ประหยัดได้มากที่สุด

ถ้าคุณส่งข้อมูลเดิมซ้ำทุก request เช่น:

system prompt ขนาดใหญ่
เอกสาร reference
codebase context
policy หรือ schema เดิม
tool instructions

คุณกำลังจ่าย input tokens เต็มราคาให้ข้อมูลที่โมเดลเห็นซ้ำแล้ว Prompt caching ช่วยลดต้นทุนส่วนนี้ หลังจากการเขียนแคชครั้งแรก การอ่าน input ที่แคชไว้จะถูกคิดในอัตราที่ต่ำกว่า input ปกติประมาณหนึ่งในสิบ

แนวทางใช้งาน:

แยกพรอมต์ออกเป็นส่วนที่เปลี่ยนบ่อยและไม่เปลี่ยน
วาง context ขนาดใหญ่ที่ใช้ซ้ำไว้ในส่วนที่ cache ได้
ใช้พรอมต์เดิมซ้ำให้มากที่สุดเพื่อให้ cache hit
ตรวจสอบ usage ต่อ request เพื่อดูว่าต้นทุนลดลงจริงหรือไม่

ตัวอย่างโครงสร้างพรอมต์:

[Cacheable context]
- system instructions
- repo summary
- API documentation
- coding conventions

[Dynamic user input]
- issue ปัจจุบัน
- error log
- task เฉพาะรอบนี้

เอเจนต์ที่ใช้บริบทยาว เช่น code agent หรือ document agent มักได้ประโยชน์จาก caching มากที่สุด เพราะ input ส่วนใหญ่เป็น context เดิมที่ถูกส่งซ้ำ

ใช้ Batch API เมื่องานไม่ต้อง real-time

Batch API เหมาะกับงานที่รับผลลัพธ์ช้าลงได้เพื่อแลกกับต้นทุนที่ต่ำลง เช่น:

evaluation
bulk summarization
data labeling
report generation
nightly processing
migration หรือ enrichment pipeline

Opus 4.8 รองรับเอาต์พุตสูงสุด 300K tokens ผ่าน Batch API ด้วย beta header:

output-300k-2026-03-24

เทียบกับ 128K tokens บน synchronous Messages API

ใช้ Batch API เมื่อ:

ต้องการลดต้นทุน → ใช่
ไม่ต้องตอบทันที → ใช่
งานมีจำนวนมาก → ใช่
ต้อง stream กลับ UI ทันที → ไม่เหมาะ

ราคา Opus ในแต่ละรุ่น

โมเดล	อินพุต ต่อ 1 ล้าน	เอาต์พุต ต่อ 1 ล้าน
Opus 4.1	$15	$75
Opus 4.5	$5	$25
Opus 4.6	$5	$25
Opus 4.7	$5	$25
Opus 4.8	$5	$25

Opus ลดราคาจาก $15/$75 เหลือ $5/$25 ตั้งแต่รุ่น 4.5 และคงราคานั้นมาจนถึง 4.8 ดังนั้นคุณได้คุณภาพของ 4.8 ในอัตราเดียวกับ 4.5 สำหรับการเปรียบเทียบกับโมเดลเรือธงอื่น ดู Opus 4.8 vs GPT-5.5 vs Gemini 3.5

Checklist สำหรับลดต้นทุน Opus 4.8

ก่อนนำ Opus 4.8 ไปใช้จริงหรือ scale production ให้ตรวจรายการนี้:

ตั้ง effort ตามงาน

ใช้ low สำหรับ classification/extraction และเก็บ xhigh ไว้สำหรับ coding หรือ reasoning ซับซ้อน
จำกัด max_tokens

เพราะ output tokens แพงกว่า input tokens 5 เท่า อย่าปล่อยให้โมเดลตอบยาวโดยไม่จำเป็น
ใช้ prompt caching กับ context ที่ซ้ำ

เช่น system prompt, docs, repo context และ schema
ย้ายงานไม่เร่งด่วนไป Batch API

โดยเฉพาะ evaluation, bulk processing และ nightly jobs
ใช้โหมดมาตรฐานเป็นค่าเริ่มต้น

ใช้โหมดเร็วเฉพาะกรณีที่ latency ส่งผลต่อผู้ใช้จริง
บันทึก usage ต่อ request

เก็บ input_tokens, output_tokens, effort, max_tokens และ workload name เพื่อวิเคราะห์ต้นทุน
ติดตาม quota และ rate limits

อัตราการใช้งานและค่าใช้จ่ายมักเพิ่มพร้อมกัน ดูตัวอย่างจาก การเปลี่ยนแปลงขีดจำกัดรายสัปดาห์ของ Claude Code

ติดตามค่าใช้จ่ายจริงด้วย Apidog

ค่าใช้จ่ายโดยประมาณมักต่างจากค่าใช้จ่ายจริงเมื่อเริ่มใช้งาน production เพราะคำตอบจริงมีความยาวไม่เท่ากัน และบาง request อาจมี tool use เพิ่ม วิธีที่แม่นยำที่สุดคือดูออบเจกต์ usage จากทุก response ของ Messages API ซึ่งรายงานจำนวน input และ output tokens ต่อการเรียกใช้

Apidog ช่วยให้คุณทดสอบและติดตามต้นทุนได้ใน workflow เดียว:

ส่ง request ไปยัง Opus 4.8 และดูบล็อก usage ใน response
เปรียบเทียบ token usage ระหว่าง effort: "low", high และ xhigh
บันทึก request สำหรับแต่ละ workload แล้วรันซ้ำเมื่อพรอมต์เปลี่ยน
ทดสอบ endpoint และ mock API โดยไม่ต้องใช้โทเค็นจริง

ขั้นตอนแนะนำ:

สร้าง request ไปยัง Messages endpoint
ใส่พรอมต์เดียวกัน
รันด้วย effort: "low"
รันซ้ำด้วย effort: "high" และ effort: "xhigh"
เปรียบเทียบ input_tokens และ output_tokens
เลือกระดับที่ให้คุณภาพพอและต้นทุนต่ำที่สุด

ตัวเลขใน usage จะบอกชัดเจนว่าแต่ละ workload มีค่าใช้จ่ายเท่าไรก่อนนำไปใช้จริงใน production

คำถามที่พบบ่อย

Claude Opus 4.8 มีค่าใช้จ่ายเท่าไร?

$5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน โหมดเร็วมีค่าใช้จ่าย $10 และ $50 เพื่อแลกกับเอาต์พุตที่เร็วขึ้น 2.5 เท่า

Opus 4.8 แพงกว่า Opus 4.7 หรือไม่?

ไม่ อัตราต่อโทเค็นเท่ากัน การอัปเกรดจาก 4.7 เป็น 4.8 จึงไม่เปลี่ยนต้นทุนพื้นฐาน

ควรใช้โหมดเร็วเมื่อไร?

ใช้เมื่อผู้ใช้กำลังรอคำตอบแบบ real-time เช่น coding assistant หรือ interactive agent ถ้างานรันเบื้องหลังให้ใช้โหมดมาตรฐาน

จะลดค่าใช้จ่าย Opus 4.8 ได้อย่างไร?

ลด effort สำหรับงานง่าย แคชพรอมต์ที่ซ้ำ ใช้ Batch API สำหรับงานไม่เร่งด่วน และตั้ง max_tokens ให้เหมาะสม

Prompt caching ช่วยประหยัดเงินจริงหรือไม่?

ใช่ หลังจากเขียนแคชครั้งแรกแล้ว input ที่ซ้ำกันจะถูกอ่านในอัตราประมาณหนึ่งในสิบของ input ปกติ เหมาะมากกับ agent ที่ใช้ context ยาว

Opus 4.8 สร้างเอาต์พุตได้สูงสุดกี่โทเค็น?

สูงสุด 128K tokens บน synchronous Messages API และสูงสุด 300K tokens ผ่าน Batch API ด้วย beta header output-300k-2026-03-24

ดู token usage ต่อ request ได้จากที่ไหน?

ดูได้จากออบเจกต์ usage ใน response ของ Messages API เครื่องมืออย่าง Apidog ช่วยแสดงข้อมูลนี้เพื่อเปรียบเทียบต้นทุนระหว่าง workload และระดับ effort ได้ง่ายขึ้น

DEV Community

ราคา Claude Opus 4.8: เจาะลึกค่าใช้จ่ายทั้งหมด

ตารางอัตราค่าบริการ

เลือกโหมดมาตรฐานหรือโหมดเร็วอย่างไร

ใช้ `effort` เพื่อควบคุมต้นทุน

วิธีคำนวณค่าใช้จ่าย

สถานการณ์จำลองค่าใช้จ่าย

สถานการณ์ที่ 1: แชทบอทหนึ่งรอบ

สถานการณ์ที่ 2: เอเจนต์เขียนโค้ด

สถานการณ์ที่ 3: Batch processing ข้ามคืน

Prompt caching: จุดที่ประหยัดได้มากที่สุด

ใช้ Batch API เมื่องานไม่ต้อง real-time

ราคา Opus ในแต่ละรุ่น

Checklist สำหรับลดต้นทุน Opus 4.8

ติดตามค่าใช้จ่ายจริงด้วย Apidog

คำถามที่พบบ่อย

Top comments (0)

ตารางอัตราค่าบริการ

เลือกโหมดมาตรฐานหรือโหมดเร็วอย่างไร

ใช้ effort เพื่อควบคุมต้นทุน

วิธีคำนวณค่าใช้จ่าย

สถานการณ์จำลองค่าใช้จ่าย

สถานการณ์ที่ 1: แชทบอทหนึ่งรอบ

สถานการณ์ที่ 2: เอเจนต์เขียนโค้ด

สถานการณ์ที่ 3: Batch processing ข้ามคืน

Prompt caching: จุดที่ประหยัดได้มากที่สุด

ใช้ Batch API เมื่องานไม่ต้อง real-time

ราคา Opus ในแต่ละรุ่น

Checklist สำหรับลดต้นทุน Opus 4.8

ติดตามค่าใช้จ่ายจริงด้วย Apidog

คำถามที่พบบ่อย

ใช้ `effort` เพื่อควบคุมต้นทุน