Anthropic đã phát hành Claude Opus 4.8 vào ngày 28 tháng 5 năm 2026 và cung cấp ngay trong cùng ngày trên Claude API, ứng dụng Claude, Claude Code và các nền tảng đám mây lớn. Đây là mô hình mạnh nhất trong dòng Claude, tập trung vào suy luận phức tạp, mã hóa tác nhân dài hạn và công việc tự chủ cao. ID mô hình API là claude-opus-4-8.
Nếu bạn đang dùng Opus 4.7, bước nâng cấp chính là đổi model ID. Giá và cửa sổ ngữ cảnh không đổi. Điểm khác biệt nằm ở chất lượng: theo thông báo của Anthropic, Opus 4.8 ít để lọt lỗi trong mã hơn khoảng 4 lần so với 4.7 và trung thực hơn về những gì nó không biết.
Bài viết này tập trung vào cách triển khai thực tế: model ID, tham số mới, migration từ 4.7, kiểm thử request và các trường hợp nên dùng Opus 4.8.
Tóm tắt nhanh
Ba thông tin cần biết trước khi nâng cấp:
-
Model ID:
claude-opus-4-8 - Có sẵn trên: Claude API, AWS, Vertex AI và Microsoft Foundry
- Giá tiêu chuẩn: 5 USD / 1 triệu token đầu vào, 25 USD / 1 triệu token đầu ra
- Ngữ cảnh: 1 triệu token
- Đầu ra tối đa: 128K token
Những phần mới đáng chú ý:
- Tham số
effortđể cân bằng giữa chất lượng và chi phí token - Suy luận thích ứng với
thinking: { "type": "adaptive" } - Dynamic Workflows trong Claude Code cho tác vụ tác nhân lớn
- Gọi công cụ hiệu quả hơn, ít lỗi mã bị lọt hơn và trung thực hơn khi không chắc chắn
Xem thêm: phân tích giá Opus 4.8 và hướng dẫn API Opus 4.8.
Có gì mới trong Opus 4.8?
Opus 4.8 giữ nguyên thông số chính của 4.7, nhưng cải thiện hành vi mô hình bên dưới. Khi triển khai, bạn nên chú ý bốn điểm sau.
1. Chất lượng mã tốt hơn
Anthropic báo cáo rằng Opus 4.8 để lọt ít lỗi mã hơn khoảng 4 lần so với 4.7. Với các workflow tạo diff, refactor hoặc chạy agent coding dài, điều này giúp giảm rủi ro lỗi ngầm.
2. Trung thực hơn khi không chắc chắn
Opus 4.8 có xu hướng đánh dấu sự không chắc chắn rõ hơn và ít đưa ra tuyên bố không được hỗ trợ hơn. Với agent tự động, đây là điểm quan trọng vì mô hình cần biết khi nào nên dừng, hỏi lại hoặc gọi công cụ thay vì suy đoán.
3. Gọi công cụ hiệu quả hơn
Mô hình chọn công cụ tốt hơn và giảm các tool call không cần thiết. Trong vòng lặp agent, điều này có thể giúp giảm:
- Độ trễ
- Token sử dụng cho tool arguments
- Số lần gọi API phụ
- Lỗi do tool call sai hoặc dư thừa
4. Có tham số effort
Đây là thay đổi API quan trọng nhất khi bạn chuyển từ 4.7 sang 4.8.
Dùng effort để kiểm soát chất lượng và token
Tham số effort nằm trong output_config. Nó cho phép bạn điều chỉnh mức độ mô hình “đầu tư” token cho phản hồi, suy luận và tool call.
Các giá trị hỗ trợ:
lowmediumhighxhighmax
Mặc định là high.
Ví dụ request:
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"messages": [
{
"role": "user",
"content": "Refactor this module."
}
],
"output_config": {
"effort": "xhigh"
}
}
Điểm cần nhớ: effort ảnh hưởng đến toàn bộ token đầu ra, không chỉ phần suy luận. Nó cũng tác động đến:
- Văn bản trả về
- Tool call
- Function arguments
- Độ dài và độ kỹ lưỡng của phản hồi
Gợi ý triển khai:
| Loại tác vụ | Mức effort nên bắt đầu |
|---|---|
| Refactor, sửa lỗi, agent coding dài | xhigh |
| Phân tích kỹ thuật, reasoning nhiều bước |
high hoặc xhigh
|
| Tóm tắt, phân loại đơn giản | medium |
| Tác vụ chi phí thấp, latency-sensitive |
low sau khi đã benchmark |
Theo hướng dẫn của Anthropic, nên bắt đầu với xhigh cho tác vụ mã hóa và agent, giữ high làm mức tối thiểu cho phần lớn workload nặng về suy luận, rồi chỉ giảm xuống medium hoặc low sau khi đánh giá chất lượng. Xem thêm trong tài liệu effort của Anthropic.
Chuyển sang suy luận thích ứng
Opus 4.8 dùng suy luận thích ứng. Thay vì tự đặt ngân sách suy luận thủ công, bạn cấu hình:
{
"thinking": {
"type": "adaptive"
}
}
Sau đó mô hình tự quyết định khi nào cần suy luận sâu và cần bao nhiêu.
Ở các mức high, xhigh và max, mô hình thường suy nghĩ kỹ hơn. Ở medium hoặc low, mô hình có thể bỏ qua suy luận sâu với yêu cầu đơn giản.
Nếu bạn đang dùng budget_tokens từ phiên bản Opus cũ, cần thay đổi. Opus 4.8 không hỗ trợ suy luận mở rộng thủ công bằng budget_tokens; request dạng đó sẽ trả về lỗi 400.
Migration tối thiểu:
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"thinking": {
"type": "adaptive"
},
"output_config": {
"effort": "high"
},
"messages": [
{
"role": "user",
"content": "Analyze this API design and suggest improvements."
}
]
}
Chi tiết cấu trúc request có trong hướng dẫn API Opus 4.8.
Dynamic Workflows trong Claude Code
Dynamic Workflows là tính năng nổi bật trong Claude Code. Một phiên có thể khởi chạy hàng trăm tác nhân phụ song song để xử lý tác vụ lớn và phân nhánh.
Về mặt cơ chế, tính năng này kết hợp:
- Mức nỗ lực cao, thường là
xhigh - Thông báo hệ thống giữa cuộc hội thoại
- Cập nhật API Messages cho phép system entry xuất hiện giữa cuộc hội thoại, không chỉ ở đầu
Điều này cho phép một agent điều phối tạo agent con trong quá trình xử lý nhiệm vụ.
Nếu bạn muốn hiểu cơ chế và cách mô phỏng chế độ điều phối tương tự qua API, xem phân tích Dynamic Workflows của Claude Code. Để hiểu cách Claude Code cấu trúc agent run, xem thêm phân tích kiến trúc agent harness của Claude Code.
Điểm chuẩn đáng chú ý
Các benchmark Anthropic công bố tập trung vào workload agent:
- Vượt GPT-5.5 trên benchmark Super-Agent
- Dẫn đầu benchmark Legal Agent và là mô hình đầu tiên vượt 10% tổng thể
- Đạt 84% trên Online-Mind2Web, benchmark agent điều hướng web
Đây là các điểm số về khả năng hoàn thành tác vụ của agent, không chỉ là chất lượng hội thoại. Điều đó cho thấy Opus 4.8 được tối ưu cho các workflow tự chủ và nhiều bước.
Để so sánh với các mô hình khác, xem Opus 4.8 so với GPT-5.5 so với Gemini 3.5. Bài Gemini 3.5 so với GPT-5.5 so với Opus 4.7 vẫn hữu ích nếu bạn cần đường cơ sở từ 4.7.
Opus 4.8 so với Opus 4.7
| Thuộc tính | Opus 4.7 | Opus 4.8 |
|---|---|---|
| API ID | claude-opus-4-7 |
claude-opus-4-8 |
| Giá đầu vào | 5 USD / 1 triệu token | 5 USD / 1 triệu token |
| Giá đầu ra | 25 USD / 1 triệu token | 25 USD / 1 triệu token |
| Cửa sổ ngữ cảnh | 1 triệu token | 1 triệu token |
| Đầu ra tối đa | 128K token | 128K token |
Mức effort
|
low đến max
|
low đến max
|
| Lỗi mã bị lọt | Cơ bản | Ít hơn khoảng 4 lần |
| Trung thực / phù hợp | Cơ bản | Cải thiện |
| Giới hạn kiến thức | Tháng 1 năm 2026 | Tháng 1 năm 2026 |
Vì thông số và giá không đổi, migration từ 4.7 sang 4.8 thường có rủi ro thấp. Tuy nhiên, bạn vẫn nên kiểm thử lại parsing, streaming, tool schema và output format trước khi triển khai production.
Cách truy cập Claude Opus 4.8
Bạn có bốn lựa chọn chính.
1. Claude API
Dùng model ID claude-opus-4-8 với Messages API.
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"messages": [
{
"role": "user",
"content": "Review this pull request and identify risky changes."
}
],
"output_config": {
"effort": "xhigh"
},
"thinking": {
"type": "adaptive"
}
}
Bắt đầu tại hướng dẫn API Opus 4.8.
2. Ứng dụng Claude
Opus 4.8 là mô hình cao cấp mặc định tại claude.ai cho các gói trả phí, với quyền truy cập hạn chế trên gói miễn phí.
3. Claude Code
Claude Code hỗ trợ Opus 4.8 làm mô hình hàng đầu, bao gồm Dynamic Workflows khi dùng chế độ nỗ lực cao.
4. Nền tảng đám mây
Opus 4.8 có trên:
- AWS Bedrock:
anthropic.claude-opus-4-8 - Vertex AI:
claude-opus-4-8 - Microsoft Foundry, với cửa sổ ngữ cảnh giới hạn ở 200K token
Nếu bạn muốn thử trước khi dùng API trả phí, xem hướng dẫn sử dụng Opus 4.8 miễn phí.
Khi nào nên dùng Opus 4.8?
Nên dùng Opus 4.8 khi workload có chi phí lỗi cao hoặc cần suy luận phức tạp:
- Agent coding chạy nhiều bước
- Refactor hoặc tạo diff lớn
- Tác vụ cần tự đánh giá và ra quyết định
- Workflow dùng nhiều tool call
- Phân tích pháp lý, kỹ thuật hoặc tài liệu dài
- Tác vụ cần mô hình biết khi nào không chắc chắn
Không nên mặc định dùng Opus 4.8 cho mọi request. Với tác vụ đơn giản hoặc nhạy cảm latency, hãy cân nhắc:
- Mô hình nhỏ hơn
effort: "medium"-
effort: "low"sau khi đã có benchmark nội bộ
Cách thực tế nhất là tạo bộ eval của riêng bạn, chạy cùng request trên nhiều mức effort, rồi đo:
- Tỷ lệ đúng
- Số token đầu ra
- Số tool call
- Latency
- Lỗi parsing
- Chi phí mỗi tác vụ
Checklist migration từ Opus 4.7 sang 4.8
Trước khi đổi production traffic, nên làm theo checklist này:
- Đổi model ID từ
claude-opus-4-7sangclaude-opus-4-8 - Thêm
output_config.effort - Nếu đang dùng
budget_tokens, chuyển sangthinking: { "type": "adaptive" } - Chạy lại request thật từ production logs hoặc staging
- So sánh output giữa 4.7 và 4.8
- Kiểm tra streaming chunks
- Kiểm tra tool call arguments
- Kiểm tra schema validation phía backend
- Đo token, latency và chi phí
- Roll out theo phần trăm traffic thay vì chuyển toàn bộ ngay lập tức
Kiểm thử Opus 4.8 trước khi triển khai
Đổi model ID rất dễ, nhưng các thay đổi nhỏ trong response có thể làm hỏng downstream code. Các phần nên kiểm thử kỹ gồm:
- Streaming event
- Tool call validation
output_config- Response khi dùng suy luận thích ứng
- Format JSON nếu bạn ép mô hình trả về dữ liệu có cấu trúc
Apidog cho phép kiểm thử Messages API trong một workspace:
- Lưu request Opus 4.8 và gắn
x-api-key - Đổi
claude-opus-4-7thànhclaude-opus-4-8trên cùng request để so sánh - Xem streaming chunk theo thời gian thực
- Thêm assertion để phát hiện thay đổi schema khi đổi mức
effort - Mock endpoint để kiểm thử downstream code mà không tốn credit
Bạn có thể tải xuống Apidog, tạo request tới Messages API và dán đoạn curl từ hướng dẫn API. Thiết lập thường chỉ mất vài phút.
Câu hỏi thường gặp
Claude Opus 4.8 có tốt hơn Opus 4.7 không?
Có, về chất lượng. Nó phát hiện lỗi mã tốt hơn khoảng 4 lần, trung thực hơn khi không chắc chắn và gọi công cụ hiệu quả hơn. Giá, cửa sổ ngữ cảnh và đầu ra tối đa không đổi.
Opus 4.8 có giá bao nhiêu?
Giá tiêu chuẩn là 5 USD / 1 triệu token đầu vào và 25 USD / 1 triệu token đầu ra. Chế độ nhanh có giá 10 USD đầu vào và 50 USD đầu ra cho tốc độ nhanh hơn 2.5 lần. Xem chi tiết trong phân tích giá.
Cửa sổ ngữ cảnh của Opus 4.8 là bao nhiêu?
Opus 4.8 hỗ trợ 1 triệu token đầu vào và tối đa 128K token đầu ra trên API Messages đồng bộ. API Batch hỗ trợ tối đa 300K token đầu ra với một beta header. Trên Microsoft Foundry, cửa sổ ngữ cảnh là 200K token.
Opus 4.8 có hỗ trợ suy luận mở rộng không?
Có, nhưng theo cơ chế suy luận thích ứng:
{
"thinking": {
"type": "adaptive"
}
}
Suy luận thủ công bằng budget_tokens không được hỗ trợ và sẽ trả về lỗi 400.
Tham số effort là gì?
effort là cài đặt trong output_config để kiểm soát lượng token Claude dùng cho văn bản, tool call và suy luận. Các mức gồm low, medium, high, xhigh và max. Mặc định là high.
Tôi có thể dùng Opus 4.8 miễn phí không?
Không có bậc API miễn phí, nhưng bạn có thể dùng thử trên gói miễn phí tại claude.ai với giới hạn, hoặc thông qua credit dùng thử. Xem hướng dẫn truy cập miễn phí.
Dynamic Workflows là gì?
Dynamic Workflows là tính năng của Claude Code cho phép khởi chạy nhiều tác nhân phụ song song trong một phiên. Nó dựa trên mức effort cao, thường là xhigh, và khả năng dùng system message giữa cuộc hội thoại. Xem chi tiết trong hướng dẫn Dynamic Workflows.


Top comments (0)