Sebastian Petrus

Posted on May 29 • Originally published at apidog.com

Claude Opus 4.8 Là Gì? Mọi Điều Nhà Phát Triển Cần Biết

Anthropic đã phát hành Claude Opus 4.8 vào ngày 28 tháng 5 năm 2026 và cung cấp ngay trong cùng ngày trên Claude API, ứng dụng Claude, Claude Code và các nền tảng đám mây lớn. Đây là mô hình mạnh nhất trong dòng Claude, tập trung vào suy luận phức tạp, mã hóa tác nhân dài hạn và công việc tự chủ cao. ID mô hình API là claude-opus-4-8.

Dùng thử Apidog ngay hôm nay

Nếu bạn đang dùng Opus 4.7, bước nâng cấp chính là đổi model ID. Giá và cửa sổ ngữ cảnh không đổi. Điểm khác biệt nằm ở chất lượng: theo thông báo của Anthropic, Opus 4.8 ít để lọt lỗi trong mã hơn khoảng 4 lần so với 4.7 và trung thực hơn về những gì nó không biết.

Bài viết này tập trung vào cách triển khai thực tế: model ID, tham số mới, migration từ 4.7, kiểm thử request và các trường hợp nên dùng Opus 4.8.

Tóm tắt nhanh

Ba thông tin cần biết trước khi nâng cấp:

Model ID: claude-opus-4-8
Có sẵn trên: Claude API, AWS, Vertex AI và Microsoft Foundry
Giá tiêu chuẩn: 5 USD / 1 triệu token đầu vào, 25 USD / 1 triệu token đầu ra
Ngữ cảnh: 1 triệu token
Đầu ra tối đa: 128K token

Những phần mới đáng chú ý:

Tham số effort để cân bằng giữa chất lượng và chi phí token
Suy luận thích ứng với thinking: { "type": "adaptive" }
Dynamic Workflows trong Claude Code cho tác vụ tác nhân lớn
Gọi công cụ hiệu quả hơn, ít lỗi mã bị lọt hơn và trung thực hơn khi không chắc chắn

Xem thêm: phân tích giá Opus 4.8 và hướng dẫn API Opus 4.8.

Có gì mới trong Opus 4.8?

Opus 4.8 giữ nguyên thông số chính của 4.7, nhưng cải thiện hành vi mô hình bên dưới. Khi triển khai, bạn nên chú ý bốn điểm sau.

1. Chất lượng mã tốt hơn

Anthropic báo cáo rằng Opus 4.8 để lọt ít lỗi mã hơn khoảng 4 lần so với 4.7. Với các workflow tạo diff, refactor hoặc chạy agent coding dài, điều này giúp giảm rủi ro lỗi ngầm.

2. Trung thực hơn khi không chắc chắn

Opus 4.8 có xu hướng đánh dấu sự không chắc chắn rõ hơn và ít đưa ra tuyên bố không được hỗ trợ hơn. Với agent tự động, đây là điểm quan trọng vì mô hình cần biết khi nào nên dừng, hỏi lại hoặc gọi công cụ thay vì suy đoán.

3. Gọi công cụ hiệu quả hơn

Mô hình chọn công cụ tốt hơn và giảm các tool call không cần thiết. Trong vòng lặp agent, điều này có thể giúp giảm:

Độ trễ
Token sử dụng cho tool arguments
Số lần gọi API phụ
Lỗi do tool call sai hoặc dư thừa

4. Có tham số `effort`

Đây là thay đổi API quan trọng nhất khi bạn chuyển từ 4.7 sang 4.8.

Dùng `effort` để kiểm soát chất lượng và token

Tham số effort nằm trong output_config. Nó cho phép bạn điều chỉnh mức độ mô hình “đầu tư” token cho phản hồi, suy luận và tool call.

Các giá trị hỗ trợ:

low
medium
high
xhigh
max

Mặc định là high.

Ví dụ request:

{
  "model": "claude-opus-4-8",
  "max_tokens": 4096,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this module."
    }
  ],
  "output_config": {
    "effort": "xhigh"
  }
}

Điểm cần nhớ: effort ảnh hưởng đến toàn bộ token đầu ra, không chỉ phần suy luận. Nó cũng tác động đến:

Văn bản trả về
Tool call
Function arguments
Độ dài và độ kỹ lưỡng của phản hồi

Gợi ý triển khai:

Loại tác vụ	Mức `effort` nên bắt đầu
Refactor, sửa lỗi, agent coding dài	`xhigh`
Phân tích kỹ thuật, reasoning nhiều bước	`high` hoặc `xhigh`
Tóm tắt, phân loại đơn giản	`medium`
Tác vụ chi phí thấp, latency-sensitive	`low` sau khi đã benchmark

Theo hướng dẫn của Anthropic, nên bắt đầu với xhigh cho tác vụ mã hóa và agent, giữ high làm mức tối thiểu cho phần lớn workload nặng về suy luận, rồi chỉ giảm xuống medium hoặc low sau khi đánh giá chất lượng. Xem thêm trong tài liệu effort của Anthropic.

Chuyển sang suy luận thích ứng

Opus 4.8 dùng suy luận thích ứng. Thay vì tự đặt ngân sách suy luận thủ công, bạn cấu hình:

{
  "thinking": {
    "type": "adaptive"
  }
}

Sau đó mô hình tự quyết định khi nào cần suy luận sâu và cần bao nhiêu.

Ở các mức high, xhigh và max, mô hình thường suy nghĩ kỹ hơn. Ở medium hoặc low, mô hình có thể bỏ qua suy luận sâu với yêu cầu đơn giản.

Nếu bạn đang dùng budget_tokens từ phiên bản Opus cũ, cần thay đổi. Opus 4.8 không hỗ trợ suy luận mở rộng thủ công bằng budget_tokens; request dạng đó sẽ trả về lỗi 400.

Migration tối thiểu:

{
  "model": "claude-opus-4-8",
  "max_tokens": 4096,
  "thinking": {
    "type": "adaptive"
  },
  "output_config": {
    "effort": "high"
  },
  "messages": [
    {
      "role": "user",
      "content": "Analyze this API design and suggest improvements."
    }
  ]
}

Chi tiết cấu trúc request có trong hướng dẫn API Opus 4.8.

Dynamic Workflows trong Claude Code

Dynamic Workflows là tính năng nổi bật trong Claude Code. Một phiên có thể khởi chạy hàng trăm tác nhân phụ song song để xử lý tác vụ lớn và phân nhánh.

Về mặt cơ chế, tính năng này kết hợp:

Mức nỗ lực cao, thường là xhigh
Thông báo hệ thống giữa cuộc hội thoại
Cập nhật API Messages cho phép system entry xuất hiện giữa cuộc hội thoại, không chỉ ở đầu

Điều này cho phép một agent điều phối tạo agent con trong quá trình xử lý nhiệm vụ.

Nếu bạn muốn hiểu cơ chế và cách mô phỏng chế độ điều phối tương tự qua API, xem phân tích Dynamic Workflows của Claude Code. Để hiểu cách Claude Code cấu trúc agent run, xem thêm phân tích kiến trúc agent harness của Claude Code.

Điểm chuẩn đáng chú ý

Các benchmark Anthropic công bố tập trung vào workload agent:

Vượt GPT-5.5 trên benchmark Super-Agent
Dẫn đầu benchmark Legal Agent và là mô hình đầu tiên vượt 10% tổng thể
Đạt 84% trên Online-Mind2Web, benchmark agent điều hướng web

Đây là các điểm số về khả năng hoàn thành tác vụ của agent, không chỉ là chất lượng hội thoại. Điều đó cho thấy Opus 4.8 được tối ưu cho các workflow tự chủ và nhiều bước.

Để so sánh với các mô hình khác, xem Opus 4.8 so với GPT-5.5 so với Gemini 3.5. Bài Gemini 3.5 so với GPT-5.5 so với Opus 4.7 vẫn hữu ích nếu bạn cần đường cơ sở từ 4.7.

Opus 4.8 so với Opus 4.7

Thuộc tính	Opus 4.7	Opus 4.8
API ID	`claude-opus-4-7`	`claude-opus-4-8`
Giá đầu vào	5 USD / 1 triệu token	5 USD / 1 triệu token
Giá đầu ra	25 USD / 1 triệu token	25 USD / 1 triệu token
Cửa sổ ngữ cảnh	1 triệu token	1 triệu token
Đầu ra tối đa	128K token	128K token
Mức `effort`	`low` đến `max`	`low` đến `max`
Lỗi mã bị lọt	Cơ bản	Ít hơn khoảng 4 lần
Trung thực / phù hợp	Cơ bản	Cải thiện
Giới hạn kiến thức	Tháng 1 năm 2026	Tháng 1 năm 2026

Vì thông số và giá không đổi, migration từ 4.7 sang 4.8 thường có rủi ro thấp. Tuy nhiên, bạn vẫn nên kiểm thử lại parsing, streaming, tool schema và output format trước khi triển khai production.

Cách truy cập Claude Opus 4.8

Bạn có bốn lựa chọn chính.

1. Claude API

Dùng model ID claude-opus-4-8 với Messages API.

{
  "model": "claude-opus-4-8",
  "max_tokens": 4096,
  "messages": [
    {
      "role": "user",
      "content": "Review this pull request and identify risky changes."
    }
  ],
  "output_config": {
    "effort": "xhigh"
  },
  "thinking": {
    "type": "adaptive"
  }
}

Bắt đầu tại hướng dẫn API Opus 4.8.

2. Ứng dụng Claude

Opus 4.8 là mô hình cao cấp mặc định tại claude.ai cho các gói trả phí, với quyền truy cập hạn chế trên gói miễn phí.

3. Claude Code

Claude Code hỗ trợ Opus 4.8 làm mô hình hàng đầu, bao gồm Dynamic Workflows khi dùng chế độ nỗ lực cao.

4. Nền tảng đám mây

Opus 4.8 có trên:

AWS Bedrock: anthropic.claude-opus-4-8
Vertex AI: claude-opus-4-8
Microsoft Foundry, với cửa sổ ngữ cảnh giới hạn ở 200K token

Nếu bạn muốn thử trước khi dùng API trả phí, xem hướng dẫn sử dụng Opus 4.8 miễn phí.

Khi nào nên dùng Opus 4.8?

Nên dùng Opus 4.8 khi workload có chi phí lỗi cao hoặc cần suy luận phức tạp:

Agent coding chạy nhiều bước
Refactor hoặc tạo diff lớn
Tác vụ cần tự đánh giá và ra quyết định
Workflow dùng nhiều tool call
Phân tích pháp lý, kỹ thuật hoặc tài liệu dài
Tác vụ cần mô hình biết khi nào không chắc chắn

Không nên mặc định dùng Opus 4.8 cho mọi request. Với tác vụ đơn giản hoặc nhạy cảm latency, hãy cân nhắc:

Mô hình nhỏ hơn
effort: "medium"
effort: "low" sau khi đã có benchmark nội bộ

Cách thực tế nhất là tạo bộ eval của riêng bạn, chạy cùng request trên nhiều mức effort, rồi đo:

Tỷ lệ đúng
Số token đầu ra
Số tool call
Latency
Lỗi parsing
Chi phí mỗi tác vụ

Checklist migration từ Opus 4.7 sang 4.8

Trước khi đổi production traffic, nên làm theo checklist này:

Đổi model ID từ claude-opus-4-7 sang claude-opus-4-8
Thêm output_config.effort
Nếu đang dùng budget_tokens, chuyển sang thinking: { "type": "adaptive" }
Chạy lại request thật từ production logs hoặc staging
So sánh output giữa 4.7 và 4.8
Kiểm tra streaming chunks
Kiểm tra tool call arguments
Kiểm tra schema validation phía backend
Đo token, latency và chi phí
Roll out theo phần trăm traffic thay vì chuyển toàn bộ ngay lập tức

Kiểm thử Opus 4.8 trước khi triển khai

Đổi model ID rất dễ, nhưng các thay đổi nhỏ trong response có thể làm hỏng downstream code. Các phần nên kiểm thử kỹ gồm:

Streaming event
Tool call validation
output_config
Response khi dùng suy luận thích ứng
Format JSON nếu bạn ép mô hình trả về dữ liệu có cấu trúc

Apidog cho phép kiểm thử Messages API trong một workspace:

Lưu request Opus 4.8 và gắn x-api-key
Đổi claude-opus-4-7 thành claude-opus-4-8 trên cùng request để so sánh
Xem streaming chunk theo thời gian thực
Thêm assertion để phát hiện thay đổi schema khi đổi mức effort
Mock endpoint để kiểm thử downstream code mà không tốn credit

Bạn có thể tải xuống Apidog, tạo request tới Messages API và dán đoạn curl từ hướng dẫn API. Thiết lập thường chỉ mất vài phút.

Câu hỏi thường gặp

Claude Opus 4.8 có tốt hơn Opus 4.7 không?

Có, về chất lượng. Nó phát hiện lỗi mã tốt hơn khoảng 4 lần, trung thực hơn khi không chắc chắn và gọi công cụ hiệu quả hơn. Giá, cửa sổ ngữ cảnh và đầu ra tối đa không đổi.

Opus 4.8 có giá bao nhiêu?

Giá tiêu chuẩn là 5 USD / 1 triệu token đầu vào và 25 USD / 1 triệu token đầu ra. Chế độ nhanh có giá 10 USD đầu vào và 50 USD đầu ra cho tốc độ nhanh hơn 2.5 lần. Xem chi tiết trong phân tích giá.

Cửa sổ ngữ cảnh của Opus 4.8 là bao nhiêu?

Opus 4.8 hỗ trợ 1 triệu token đầu vào và tối đa 128K token đầu ra trên API Messages đồng bộ. API Batch hỗ trợ tối đa 300K token đầu ra với một beta header. Trên Microsoft Foundry, cửa sổ ngữ cảnh là 200K token.

Opus 4.8 có hỗ trợ suy luận mở rộng không?

Có, nhưng theo cơ chế suy luận thích ứng:

{
  "thinking": {
    "type": "adaptive"
  }
}

Suy luận thủ công bằng budget_tokens không được hỗ trợ và sẽ trả về lỗi 400.

Tham số `effort` là gì?

effort là cài đặt trong output_config để kiểm soát lượng token Claude dùng cho văn bản, tool call và suy luận. Các mức gồm low, medium, high, xhigh và max. Mặc định là high.

Tôi có thể dùng Opus 4.8 miễn phí không?

Không có bậc API miễn phí, nhưng bạn có thể dùng thử trên gói miễn phí tại claude.ai với giới hạn, hoặc thông qua credit dùng thử. Xem hướng dẫn truy cập miễn phí.

Dynamic Workflows là gì?

Dynamic Workflows là tính năng của Claude Code cho phép khởi chạy nhiều tác nhân phụ song song trong một phiên. Nó dựa trên mức effort cao, thường là xhigh, và khả năng dùng system message giữa cuộc hội thoại. Xem chi tiết trong hướng dẫn Dynamic Workflows.

DEV Community

Claude Opus 4.8 Là Gì? Mọi Điều Nhà Phát Triển Cần Biết

Tóm tắt nhanh

Có gì mới trong Opus 4.8?

1. Chất lượng mã tốt hơn

2. Trung thực hơn khi không chắc chắn

3. Gọi công cụ hiệu quả hơn

4. Có tham số `effort`

Dùng `effort` để kiểm soát chất lượng và token

Chuyển sang suy luận thích ứng

Dynamic Workflows trong Claude Code

Điểm chuẩn đáng chú ý

Opus 4.8 so với Opus 4.7

Cách truy cập Claude Opus 4.8

1. Claude API

2. Ứng dụng Claude

3. Claude Code

4. Nền tảng đám mây

Khi nào nên dùng Opus 4.8?

Checklist migration từ Opus 4.7 sang 4.8

Kiểm thử Opus 4.8 trước khi triển khai

Câu hỏi thường gặp

Claude Opus 4.8 có tốt hơn Opus 4.7 không?

Opus 4.8 có giá bao nhiêu?

Cửa sổ ngữ cảnh của Opus 4.8 là bao nhiêu?

Opus 4.8 có hỗ trợ suy luận mở rộng không?

Tham số `effort` là gì?

Tôi có thể dùng Opus 4.8 miễn phí không?

Dynamic Workflows là gì?

Top comments (0)

Tóm tắt nhanh

Có gì mới trong Opus 4.8?

1. Chất lượng mã tốt hơn

2. Trung thực hơn khi không chắc chắn

3. Gọi công cụ hiệu quả hơn

4. Có tham số effort

Dùng effort để kiểm soát chất lượng và token

Chuyển sang suy luận thích ứng

Dynamic Workflows trong Claude Code

Điểm chuẩn đáng chú ý

Opus 4.8 so với Opus 4.7

Cách truy cập Claude Opus 4.8

1. Claude API

2. Ứng dụng Claude

3. Claude Code

4. Nền tảng đám mây

Khi nào nên dùng Opus 4.8?

Checklist migration từ Opus 4.7 sang 4.8

Kiểm thử Opus 4.8 trước khi triển khai

Câu hỏi thường gặp

Claude Opus 4.8 có tốt hơn Opus 4.7 không?

Opus 4.8 có giá bao nhiêu?

Cửa sổ ngữ cảnh của Opus 4.8 là bao nhiêu?

Opus 4.8 có hỗ trợ suy luận mở rộng không?

Tham số effort là gì?

Tôi có thể dùng Opus 4.8 miễn phí không?

Dynamic Workflows là gì?

4. Có tham số `effort`

Dùng `effort` để kiểm soát chất lượng và token

Tham số `effort` là gì?