Claude Opus 4.8 มีค่าใช้จ่าย $5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน ซึ่งเท่ากับ Opus 4.7 ดังนั้นถ้าคุณมีงบสำหรับ 4.7 อยู่แล้ว การอัปเกรดเป็น 4.8 จะไม่เปลี่ยนอัตราพื้นฐาน สิ่งที่มีผลต่อบิลจริงมากกว่าคือโหมดเร็ว, ระดับ effort, prompt caching, Batch API และการควบคุม max_tokens
คู่มือนี้สรุปวิธีคำนวณต้นทุนจริงของ Claude Opus 4.8 พร้อมตัวอย่างที่นำไปใช้ได้ทันที สำหรับภาพรวมของโมเดล ดู Claude Opus 4.8 คืออะไร และถ้าต้องการเริ่มเรียก API ดู คู่มือ API
ตารางอัตราค่าบริการ
| โหมด | อินพุต ต่อ 1 ล้านโทเค็น | เอาต์พุต ต่อ 1 ล้านโทเค็น | ความเร็ว |
|---|---|---|---|
| มาตรฐาน | $5 | $25 | พื้นฐาน |
| เร็ว | $10 | $50 | เอาต์พุตเร็วขึ้น 2.5 เท่า |
จุดที่ควรนำไปใช้ในการออกแบบระบบ:
- เอาต์พุตแพงกว่าอินพุต 5 เท่า ดังนั้นความยาวคำตอบสำคัญกว่าขนาดพรอมต์
- โหมดเร็วคิดราคา 2 เท่า แต่ได้เอาต์พุตเร็วขึ้น 2.5 เท่า
- ถ้า workload ไม่ต้องตอบแบบ real-time ให้ใช้โหมดมาตรฐานก่อนเสมอ
ตรวจสอบอัตราล่าสุดได้จาก เอกสารราคาของ Anthropic
เลือกโหมดมาตรฐานหรือโหมดเร็วอย่างไร
ใช้โหมดมาตรฐานเป็นค่าเริ่มต้นสำหรับงานส่วนใหญ่ เช่น:
- batch job
- scheduled task
- background agent loop
- document processing
- data extraction
ใช้โหมดเร็วเมื่อ latency กระทบประสบการณ์ผู้ใช้โดยตรง เช่น:
- ผู้ช่วยเขียนโค้ดแบบ real-time
- chatbot ที่ผู้ใช้รอคำตอบทันที
- interactive agent
- UI ที่ต้อง stream คำตอบระหว่างพิมพ์หรือคลิก
แนวทางตัดสินใจแบบง่าย:
ถ้าผู้ใช้กำลังรออยู่บนหน้าจอ → พิจารณาโหมดเร็ว
ถ้างานรันเบื้องหลัง → ใช้โหมดมาตรฐาน
ใช้ effort เพื่อควบคุมต้นทุน
พารามิเตอร์ effort ของ Opus 4.8 ควบคุมปริมาณโทเค็นที่โมเดลใช้ระหว่างสร้างคำตอบ รวมถึงการเรียกใช้เครื่องมือด้วย เพราะ output tokens แพงกว่า input tokens การตั้ง effort ให้เหมาะกับงานจึงลดค่าใช้จ่ายได้โดยตรง
ระดับจากถูกไปแพงในแง่จำนวนโทเค็น:
| ระดับ | เหมาะกับงาน |
|---|---|
low |
classification, extraction, คำตอบสั้น, งานที่ไม่ต้อง reasoning ลึก |
medium |
งานทั่วไปที่ต้องการสมดุลระหว่างคุณภาพและต้นทุน |
high |
ค่าเริ่มต้น เหมาะกับงานที่ต้องการคำตอบละเอียด |
xhigh |
งานเขียนโค้ด, debugging, reasoning หลายขั้น |
max |
งานซับซ้อนมากและยอมรับต้นทุนสูงได้ |
ตัวอย่างแนวทางกำหนดค่า:
{
"model": "claude-opus-4-8",
"messages": [
{
"role": "user",
"content": "Classify this support ticket into billing, bug, or feature request."
}
],
"effort": "low",
"max_tokens": 100
}
สำหรับงานง่าย เช่น classification หรือ routing อย่าใช้ high โดยไม่จำเป็น เพราะอาจใช้ output tokens มากกว่าหลายเท่าโดยไม่ได้เพิ่มคุณค่าต่อผลลัพธ์มากนัก ดูรายละเอียดเพิ่มเติมได้ใน แนวทางเกี่ยวกับระดับความพยายาม
วิธีคำนวณค่าใช้จ่าย
สูตรพื้นฐาน:
input_cost = input_tokens / 1,000,000 × input_rate
output_cost = output_tokens / 1,000,000 × output_rate
total_cost = input_cost + output_cost
สำหรับโหมดมาตรฐาน:
input_rate = $5
output_rate = $25
สถานการณ์จำลองค่าใช้จ่าย
ตัวอย่างต่อไปนี้ใช้อัตราโหมดมาตรฐาน $5 ต่อ 1 ล้าน input tokens และ $25 ต่อ 1 ล้าน output tokens ตัวเลขจริงอาจเปลี่ยนตามพรอมต์, effort, tool use และความยาวคำตอบ
สถานการณ์ที่ 1: แชทบอทหนึ่งรอบ
สมมติ:
- input: 1,000 tokens
- output: 500 tokens
คำนวณ:
input = 1,000 / 1,000,000 × $5 = $0.005
output = 500 / 1,000,000 × $25 = $0.0125
total = $0.0175
รวมประมาณ $0.018 ต่อรอบ
ถ้าใช้ effort: "low" และจำกัด max_tokens ให้เหมาะสม ค่าใช้จ่ายต่อรอบอาจลดลงต่ำกว่าหนึ่งเซ็นต์ได้
สถานการณ์ที่ 2: เอเจนต์เขียนโค้ด
สมมติ:
- input: 50,000 tokens สำหรับบริบท repo
- output: 8,000 tokens
-
effort:xhigh
คำนวณ:
input = 50,000 / 1,000,000 × $5 = $0.25
output = 8,000 / 1,000,000 × $25 = $0.20
total = $0.45
รวมประมาณ $0.45 ต่องาน
ถ้าบริบท repo 50K tokens ถูกใช้ซ้ำหลายครั้ง ให้ใช้ prompt caching เพื่อลดต้นทุน input ที่ซ้ำกัน หลังจากแคชแล้ว input ส่วนเดิมอาจลดเหลือประมาณ $0.025 ทำให้ต้นทุนรวมลดลงเหลือประมาณ $0.23
สถานการณ์ที่ 3: Batch processing ข้ามคืน
สมมติ:
- input: 1,000,000 tokens
- output: 200,000 tokens
- รันผ่าน Batch API พร้อมส่วนลด 50%
คำนวณ:
input = 1,000,000 / 1,000,000 × $5 × 0.5 = $2.50
output = 200,000 / 1,000,000 × $25 × 0.5 = $2.50
total = $5.00
รวมประมาณ $5.00 สำหรับทั้งแบตช์
สำหรับการเปรียบเทียบกับโมเดลที่ถูกกว่า ดู รายละเอียดราคาของ Gemini 3.5 Flash และ ค่าใช้จ่าย API ของ Xiaomi MiMo v2.5
Prompt caching: จุดที่ประหยัดได้มากที่สุด
ถ้าคุณส่งข้อมูลเดิมซ้ำทุก request เช่น:
- system prompt ขนาดใหญ่
- เอกสาร reference
- codebase context
- policy หรือ schema เดิม
- tool instructions
คุณกำลังจ่าย input tokens เต็มราคาให้ข้อมูลที่โมเดลเห็นซ้ำแล้ว Prompt caching ช่วยลดต้นทุนส่วนนี้ หลังจากการเขียนแคชครั้งแรก การอ่าน input ที่แคชไว้จะถูกคิดในอัตราที่ต่ำกว่า input ปกติประมาณหนึ่งในสิบ
แนวทางใช้งาน:
- แยกพรอมต์ออกเป็นส่วนที่เปลี่ยนบ่อยและไม่เปลี่ยน
- วาง context ขนาดใหญ่ที่ใช้ซ้ำไว้ในส่วนที่ cache ได้
- ใช้พรอมต์เดิมซ้ำให้มากที่สุดเพื่อให้ cache hit
- ตรวจสอบ usage ต่อ request เพื่อดูว่าต้นทุนลดลงจริงหรือไม่
ตัวอย่างโครงสร้างพรอมต์:
[Cacheable context]
- system instructions
- repo summary
- API documentation
- coding conventions
[Dynamic user input]
- issue ปัจจุบัน
- error log
- task เฉพาะรอบนี้
เอเจนต์ที่ใช้บริบทยาว เช่น code agent หรือ document agent มักได้ประโยชน์จาก caching มากที่สุด เพราะ input ส่วนใหญ่เป็น context เดิมที่ถูกส่งซ้ำ
ใช้ Batch API เมื่องานไม่ต้อง real-time
Batch API เหมาะกับงานที่รับผลลัพธ์ช้าลงได้เพื่อแลกกับต้นทุนที่ต่ำลง เช่น:
- evaluation
- bulk summarization
- data labeling
- report generation
- nightly processing
- migration หรือ enrichment pipeline
Opus 4.8 รองรับเอาต์พุตสูงสุด 300K tokens ผ่าน Batch API ด้วย beta header:
output-300k-2026-03-24
เทียบกับ 128K tokens บน synchronous Messages API
ใช้ Batch API เมื่อ:
ต้องการลดต้นทุน → ใช่
ไม่ต้องตอบทันที → ใช่
งานมีจำนวนมาก → ใช่
ต้อง stream กลับ UI ทันที → ไม่เหมาะ
ราคา Opus ในแต่ละรุ่น
| โมเดล | อินพุต ต่อ 1 ล้าน | เอาต์พุต ต่อ 1 ล้าน |
|---|---|---|
| Opus 4.1 | $15 | $75 |
| Opus 4.5 | $5 | $25 |
| Opus 4.6 | $5 | $25 |
| Opus 4.7 | $5 | $25 |
| Opus 4.8 | $5 | $25 |
Opus ลดราคาจาก $15/$75 เหลือ $5/$25 ตั้งแต่รุ่น 4.5 และคงราคานั้นมาจนถึง 4.8 ดังนั้นคุณได้คุณภาพของ 4.8 ในอัตราเดียวกับ 4.5 สำหรับการเปรียบเทียบกับโมเดลเรือธงอื่น ดู Opus 4.8 vs GPT-5.5 vs Gemini 3.5
Checklist สำหรับลดต้นทุน Opus 4.8
ก่อนนำ Opus 4.8 ไปใช้จริงหรือ scale production ให้ตรวจรายการนี้:
ตั้ง
effortตามงาน
ใช้lowสำหรับ classification/extraction และเก็บxhighไว้สำหรับ coding หรือ reasoning ซับซ้อนจำกัด
max_tokens
เพราะ output tokens แพงกว่า input tokens 5 เท่า อย่าปล่อยให้โมเดลตอบยาวโดยไม่จำเป็นใช้ prompt caching กับ context ที่ซ้ำ
เช่น system prompt, docs, repo context และ schemaย้ายงานไม่เร่งด่วนไป Batch API
โดยเฉพาะ evaluation, bulk processing และ nightly jobsใช้โหมดมาตรฐานเป็นค่าเริ่มต้น
ใช้โหมดเร็วเฉพาะกรณีที่ latency ส่งผลต่อผู้ใช้จริงบันทึก usage ต่อ request
เก็บinput_tokens,output_tokens,effort,max_tokensและ workload name เพื่อวิเคราะห์ต้นทุนติดตาม quota และ rate limits
อัตราการใช้งานและค่าใช้จ่ายมักเพิ่มพร้อมกัน ดูตัวอย่างจาก การเปลี่ยนแปลงขีดจำกัดรายสัปดาห์ของ Claude Code
ติดตามค่าใช้จ่ายจริงด้วย Apidog
ค่าใช้จ่ายโดยประมาณมักต่างจากค่าใช้จ่ายจริงเมื่อเริ่มใช้งาน production เพราะคำตอบจริงมีความยาวไม่เท่ากัน และบาง request อาจมี tool use เพิ่ม วิธีที่แม่นยำที่สุดคือดูออบเจกต์ usage จากทุก response ของ Messages API ซึ่งรายงานจำนวน input และ output tokens ต่อการเรียกใช้
Apidog ช่วยให้คุณทดสอบและติดตามต้นทุนได้ใน workflow เดียว:
- ส่ง request ไปยัง Opus 4.8 และดูบล็อก
usageใน response - เปรียบเทียบ token usage ระหว่าง
effort: "low",highและxhigh - บันทึก request สำหรับแต่ละ workload แล้วรันซ้ำเมื่อพรอมต์เปลี่ยน
- ทดสอบ endpoint และ mock API โดยไม่ต้องใช้โทเค็นจริง
ขั้นตอนแนะนำ:
- สร้าง request ไปยัง Messages endpoint
- ใส่พรอมต์เดียวกัน
- รันด้วย
effort: "low" - รันซ้ำด้วย
effort: "high"และeffort: "xhigh" - เปรียบเทียบ
input_tokensและoutput_tokens - เลือกระดับที่ให้คุณภาพพอและต้นทุนต่ำที่สุด
ตัวเลขใน usage จะบอกชัดเจนว่าแต่ละ workload มีค่าใช้จ่ายเท่าไรก่อนนำไปใช้จริงใน production
คำถามที่พบบ่อย
Claude Opus 4.8 มีค่าใช้จ่ายเท่าไร?
$5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน โหมดเร็วมีค่าใช้จ่าย $10 และ $50 เพื่อแลกกับเอาต์พุตที่เร็วขึ้น 2.5 เท่า
Opus 4.8 แพงกว่า Opus 4.7 หรือไม่?
ไม่ อัตราต่อโทเค็นเท่ากัน การอัปเกรดจาก 4.7 เป็น 4.8 จึงไม่เปลี่ยนต้นทุนพื้นฐาน
ควรใช้โหมดเร็วเมื่อไร?
ใช้เมื่อผู้ใช้กำลังรอคำตอบแบบ real-time เช่น coding assistant หรือ interactive agent ถ้างานรันเบื้องหลังให้ใช้โหมดมาตรฐาน
จะลดค่าใช้จ่าย Opus 4.8 ได้อย่างไร?
ลด effort สำหรับงานง่าย แคชพรอมต์ที่ซ้ำ ใช้ Batch API สำหรับงานไม่เร่งด่วน และตั้ง max_tokens ให้เหมาะสม
Prompt caching ช่วยประหยัดเงินจริงหรือไม่?
ใช่ หลังจากเขียนแคชครั้งแรกแล้ว input ที่ซ้ำกันจะถูกอ่านในอัตราประมาณหนึ่งในสิบของ input ปกติ เหมาะมากกับ agent ที่ใช้ context ยาว
Opus 4.8 สร้างเอาต์พุตได้สูงสุดกี่โทเค็น?
สูงสุด 128K tokens บน synchronous Messages API และสูงสุด 300K tokens ผ่าน Batch API ด้วย beta header output-300k-2026-03-24
ดู token usage ต่อ request ได้จากที่ไหน?
ดูได้จากออบเจกต์ usage ใน response ของ Messages API เครื่องมืออย่าง Apidog ช่วยแสดงข้อมูลนี้เพื่อเปรียบเทียบต้นทุนระหว่าง workload และระดับ effort ได้ง่ายขึ้น

Top comments (0)