Sebastian Petrus

Posted on Jun 22 • Originally published at apidog.com

Fugu Ultra vs Fable 5 vs Mythos: Sakana Orchestrator đối đầu các đối thủ hàng đầu

Fugu Ultra là biến thể cao cấp nhất của Fugu từ Sakana AI. Cách đọc đúng: Sakana định vị Fugu Ultra ngang hàng với các mô hình tiên tiến hiện tại, không phải “đánh bại” chúng. Theo Sakana, Fugu Ultra “sánh vai” với Fable 5 và Mythos Preview trên các điểm chuẩn kỹ thuật, khoa học và suy luận. Điểm quan trọng với developer: Fugu là một trình điều phối (orchestrator) gọi nhiều mô hình từ các nhà cung cấp khác, nên nó thuộc danh mục khác với các mô hình đơn lẻ như Fable 5 hoặc Mythos. Xem thêm tại trang phát hành Sakana Fugu và bài phân tích Fugu Sakana là gì.

Dùng thử Apidog hôm nay

Bạn đang so sánh loại hệ thống nào?

Trước khi nhìn điểm benchmark, hãy phân biệt rõ hai nhóm:

Fugu / Fugu Ultra: hệ thống điều phối đa tác tử, cung cấp qua một API tương thích OpenAI.
Fable 5 / Mythos: mô hình đơn lẻ của Anthropic.

Fugu được Sakana mô tả là một mô hình ngôn ngữ được huấn luyện để ủy quyền, giao tiếp giữa tác tử và tổng hợp kết quả. Với mỗi request, Fugu có thể trả lời trực tiếp hoặc tập hợp một nhóm mô hình, bao gồm cả các bản sao đệ quy của chính nó.

Fable 5 và Mythos khác về bản chất. Chúng là các mô hình đơn lẻ. Fable 5 là mô hình “Mythos-class” được Anthropic làm an toàn để phát hành rộng rãi, một cấp trên Opus 4.8. Mythos Preview được phát hành ngày 7 tháng 4 năm 2026 và được Anthropic mô tả là quá nguy hiểm để phát hành công khai.

Chi tiết cần lưu ý: Sakana so sánh với Mythos Preview, không phải Mythos 5 hiện tại. Nếu bạn đang đánh giá phía Anthropic, xem thêm Fable 5 vs Mythos 5 và giải thích mô hình Mythos-class.

Kết luận thực dụng: đây không phải là “một model đấu với một model”, mà là một hệ thống điều phối nhiều model đấu với các model đơn lẻ.

Fugu và Fugu Ultra: chọn biến thể nào?

Sakana phát hành hai biến thể qua một điểm cuối:

Fugu: lựa chọn cân bằng, độ trễ thấp, phù hợp cho tác vụ hằng ngày như coding, review code, chatbot và dịch vụ tương tác.
Fugu Ultra: tối ưu chất lượng trả lời, phù hợp cho nghiên cứu AI, tái tạo paper, phân tích an ninh mạng, điều tra tài liệu hoặc bằng sáng chế.

Trong bản beta và nhiều bài báo, biến thể nhỏ từng được gọi là “Fugu Mini”. Tuy nhiên, trang phát hành hiện dùng “Fugu” và “Fugu Ultra”, nên khi tích hợp hoặc viết tài liệu nội bộ, hãy dùng hai tên này.

Điểm cốt lõi: orchestrator không giống single model

Đây là điểm quan trọng nhất khi đánh giá Fugu.

Fugu là một trình điều phối. Khi nó tạo ra câu trả lời chất lượng cao, nó có thể đã:

gọi một mô hình mạnh từ nhà cung cấp khác,
gọi nhiều mô hình song song,
yêu cầu một mô hình kiểm tra mô hình khác,
tổng hợp kết quả cuối cùng.

Điều đó có thể bao gồm việc gọi Opus 4.8, Gemini hoặc các bản sao đệ quy của chính Fugu.

Vì vậy, nếu bạn thấy một kết quả như “Fugu vượt Opus 4.8”, cách đọc chính xác hơn là:

Một hệ thống được điều phối đạt kết quả tốt hơn một mô hình đơn lẻ trong tác vụ cụ thể đó.

Không nên đọc thành:

Một mô hình đơn lẻ mới đã đánh bại Opus 4.8 bằng trọng số của chính nó.

Fable 5 và Mythos là các mô hình đơn lẻ. Chúng trả lời từ tham số của chính chúng, không có một nhóm mô hình phía sau.

Nếu bạn muốn kiểm tra chi tiết benchmark, xem điểm chuẩn Sakana Fugu.

Tuyên bố 1: Fugu Ultra ngang bằng Fable 5 và Mythos Preview

Tuyên bố đầu tiên của Sakana là về sự ngang bằng. Theo Sakana, Fugu Ultra “sánh vai” với Fable 5 và Mythos Preview trên các benchmark kỹ thuật, khoa học và suy luận.

Đây là một tuyên bố quan trọng, nhưng cần đọc đúng:

“Sánh vai” nghĩa là ngang bằng, không phải chiến thắng.
Mythos được so sánh là Mythos Preview, không phải Mythos 5.
Fugu Ultra đạt chất lượng ở cấp hệ thống, không nhất thiết chứng minh một mô hình nền đơn lẻ của nó ngang Fable 5.

Về giá tham chiếu phía Anthropic, tính đến ngày 9 tháng 6 năm 2026:

Fable 5: 10 USD / 1M token đầu vào, 50 USD / 1M token đầu ra.
Mythos 5: 10 USD / 1M token đầu vào, 50 USD / 1M token đầu ra.
Mythos Preview: 25 USD / 1M token đầu vào, 125 USD / 1M token đầu ra.

Việc Sakana chọn Mythos Preview có thể hợp lý cho khả năng tái lập benchmark, nhưng bạn không nên xem đó là so sánh với giới hạn Anthropic mới nhất. Để hiểu vị trí của Fable 5, xem Claude Fable 5 vs Opus 4.8.

Tuyên bố 2: Fugu vượt trội trong một số ứng dụng cụ thể

Đây là tuyên bố riêng, không nên trộn với tuyên bố ngang bằng ở trên.

Theo Sakana, Fugu “luôn vượt trội” ba mô hình tiên tiến trong một số ứng dụng cụ thể:

Gemini 3.1 Pro (cao)
Opus 4.8 (tối đa)
GPT 5.5 (rất cao)

Các tác vụ được nêu gồm:

AutoResearch
Rubik’s Cube
Thiết kế cơ khí
Phân tích chữ viết tay tiếng Nhật
Cờ vua một lượt (One-Shot Chess)
Dự đoán chuỗi thời gian tài chính

Cách đọc thực tế cho developer:

Đây là chiến thắng theo ứng dụng, không phải chiến thắng benchmark tổng quát.
Các tác vụ nhiều bước, có thể xác minh, rất phù hợp với orchestration.
Fugu có thể tạo giá trị bằng cách lập kế hoạch, ủy quyền, kiểm tra, retry và tổng hợp.
Nếu Fugu gọi Opus bên trong vòng lặp rồi vượt Opus ở tác vụ cuối, đó vẫn là chiến thắng của hệ thống, không phải chiến thắng của một single model.

Tóm lại: Fugu có thể tạo giá trị rõ nhất ở các workflow có cấu trúc, nhiều bước và có tiêu chí kiểm chứng đầu ra.

Bảng so sánh nhanh

Tiêu chí	Fugu / Fugu Ultra	Fable 5	Mythos Preview / Mythos 5
Loại hệ thống	Trình điều phối gọi nhiều LLM, bao gồm cả chính nó	Mô hình Anthropic đơn lẻ	Mô hình Anthropic đơn lẻ
Nhà cung cấp	Sakana AI	Anthropic	Anthropic
Tuyên bố của Sakana	Ngang bằng với Fable 5 và Mythos Preview	Đối thủ ngang bằng được nêu tên	Đối thủ ngang bằng được nêu tên, là Preview chứ không phải 5
Tuyên bố vượt trội riêng	So với Gemini 3.1 Pro, Opus 4.8, GPT 5.5 trên ứng dụng cụ thể	Không phải mục tiêu vượt trội	Không phải mục tiêu vượt trội
Giá	Có subscription và pay-as-you-go, số cụ thể cần xác minh	10 USD input / 50 USD output mỗi 1M token	Preview: 25 / 125 USD; Mythos 5: 10 / 50 USD
Giao diện API	Một endpoint tương thích OpenAI	API Anthropic	API Anthropic
Điểm mạnh	Tác vụ đa bước, có cấu trúc, cần định tuyến và xác minh	Chất lượng tiên tiến đa dụng	Giới hạn frontier thô

Các số giá Fugu hiện được báo cáo từ nguồn thứ cấp, không phải từ trang phát hành chính thức. Hãy xác minh trực tiếp trong console trước khi lập ngân sách. Với điểm số Fable 5, xem điểm chuẩn Claude Fable 5.

Giá Fugu: chỉ dùng để ước lượng, chưa dùng để lập ngân sách

Sakana xác nhận cấu trúc giá gồm:

gói đăng ký theo cấp độ cho sử dụng hằng ngày,
pay-as-you-go cho workload nặng hơn và doanh nghiệp.

Tuy nhiên, các con số cụ thể cần xác minh.

Tính đến ngày 22 tháng 6 năm 2026, các mức giá được báo cáo từ nguồn thứ cấp gồm:

subscription khoảng 20 USD, 100 USD và 200 USD / tháng,
khuyến mãi tháng thứ hai miễn phí nếu đăng ký trước cuối tháng 7 năm 2026,
pay-as-you-go khoảng 5 USD input, 30 USD output và 0,50 USD cache mỗi 1M token,
phụ phí cho context trên 272K token,
biến thể Fugu cơ bản có thể được tính theo giá forward của mô hình nền mà nó gọi,
chưa có free tier độc lập được công bố.

Cách làm an toàn:

Không hard-code giá trong tài liệu nội bộ.
Không lập ngân sách production dựa trên số được báo cáo.
Kiểm tra giá trong dashboard Sakana trước khi chạy workload lớn.
Nếu benchmark nhiều model, log token usage theo từng request.

Nền tảng nghiên cứu phía sau Fugu

Sakana không phát minh ra orchestration. Mixture-of-Agents từ Together AI (ICLR 2025) đã cho thấy hệ thống điều phối nhiều mô hình có thể vượt một mô hình đơn lẻ.

Điểm mới hẹp hơn của Fugu là:

topology điều phối được học,
thích ứng theo tác vụ,
có chọn lọc chi phí,
được đóng gói dưới một endpoint duy nhất.

Hai paper ICLR 2026 liên quan:

Trinity, “An Evolved LLM Coordinator” (arXiv:2512.04695): bộ điều phối dưới 20K tham số, tối ưu bằng tiến hóa không đạo hàm, với các vai trò Thinker, Worker và Verifier.
Conductor, “Learning to Orchestrate Agents in Natural Language” (arXiv:2512.04388): mô hình 7B được huấn luyện bằng reinforcement learning để học cấu trúc giao tiếp và tuyên bố vượt Mixture-of-Agents với chi phí thấp hơn.

Không nên nhầm hai hướng nghiên cứu này với thông số sản phẩm Fugu đã phát hành. Trang phát hành không công bố số lượng tham số sản phẩm, nên việc gán “7B” trực tiếp cho Fugu là suy luận từ bên thứ ba, không phải thông tin đã được Sakana xác nhận.

So sánh thực dụng:

Router như OpenRouter hoặc Martian chọn một model rồi gửi request đến đó.
Framework agent như Swarm, AutoGen hoặc LangGraph buộc bạn tự xây orchestrator.
Fugu huấn luyện orchestrator và ẩn nó sau một API call duy nhất.

Cách thử Fugu trong workflow API của bạn

Fugu cung cấp endpoint tương thích OpenAI. Vì vậy, nếu bạn đã dùng OpenAI SDK, bạn có thể đổi base_url và api_key thay vì viết lại toàn bộ client.

Lưu ý quan trọng:

URL cơ sở chưa được công bố công khai tính đến ngày 22 tháng 6 năm 2026.
Không dùng URL trôi nổi từ blog hoặc mạng xã hội.
Hãy copy URL thật từ dashboard tại console.sakana.ai.
ID model được báo cáo là fugu và fugu-ultra, nhưng vẫn nên xác nhận trong console.

Ví dụ Python:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_SAKANA_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",  # copy from console.sakana.ai
)

response = client.chat.completions.create(
    model="fugu-ultra",  # confirm exact ID in console; use "fugu" for balanced variant
    messages=[
        {"role": "system", "content": "You are a careful code reviewer."},
        {"role": "user", "content": "Review this pull request for security issues."},
    ],
)

print(response.choices[0].message.content)

Vì Fugu dùng định dạng chat completion tương thích OpenAI (tham chiếu API OpenAI), bạn có thể test nó như các model endpoint khác.

Cách benchmark Fugu bằng Apidog

Trong Apidog, bạn có thể tạo một bộ request tái sử dụng để so sánh Fugu Ultra với Fable 5 hoặc Opus 4.8.

Một quy trình đơn giản:

Tạo request mới.
Dán base URL từ console Sakana.
Thêm header xác thực theo API key của bạn.
Đặt body theo format chat completion.
Đặt model là fugu-ultra.
Clone request này cho Fable 5 hoặc Opus 4.8.
Chạy cùng prompt trên các model.
So sánh latency, token usage, độ chính xác và khả năng tuân thủ yêu cầu.

Ví dụ body:

{
  "model": "fugu-ultra",
  "messages": [
    {
      "role": "system",
      "content": "Bạn là một reviewer bảo mật nghiêm ngặt."
    },
    {
      "role": "user",
      "content": "Hãy review đoạn code này và liệt kê các rủi ro bảo mật có thể khai thác."
    }
  ]
}

Cách đánh giá nên tập trung vào tác vụ thực tế của bạn:

review code,
phân tích log,
tạo test case,
tóm tắt tài liệu kỹ thuật,
phân tích lỗ hổng,
reasoning nhiều bước,
kiểm tra tuân thủ policy nội bộ.

Mục tiêu là biến tuyên bố “ngang bằng” của Sakana thành dữ liệu đo được trong môi trường của bạn. Bạn có thể tải xuống Apidog để thiết lập bộ so sánh này.

Checklist khi đưa Fugu vào thử nghiệm nội bộ

Trước khi chạy POC, nên chuẩn bị checklist sau:

[ ] Xác nhận base URL chính thức trong console Sakana.
[ ] Xác nhận model ID hiện tại cho fugu và fugu-ultra.
[ ] Xác nhận giá thực tế trong dashboard.
[ ] Log token input/output cho từng request.
[ ] Chạy cùng prompt trên Fugu Ultra, Fable 5 và Opus 4.8.
[ ] Tách benchmark theo loại tác vụ, không chỉ chấm điểm tổng.
[ ] Kiểm tra các tác vụ nhiều bước, có tiêu chí xác minh rõ.
[ ] Kiểm tra latency P50/P95.
[ ] Kiểm tra trace hoặc metadata nếu Sakana cung cấp.
[ ] Với môi trường tuân thủ, xác minh model/provider nào được phép gọi.

Một điểm vận hành đáng chú ý: Sakana nói rằng các tác tử của Fugu có thể hoán đổi, và bạn có thể loại bỏ tác tử cụ thể khỏi nhóm vì lý do dữ liệu hoặc tuân thủ. Nếu bạn làm trong môi trường regulated, hãy test kỹ đường dẫn này. Đảm bảo provider bị loại trừ không xuất hiện trong trace hoặc phản hồi phụ trợ.

Phán quyết thực tế

Có lý do để ấn tượng. Sakana đã đóng gói một trình điều phối được huấn luyện thành một endpoint gọn, có nền tảng nghiên cứu rõ ràng, và tuyên bố ngang bằng với các model frontier trong một số benchmark. Với các tác vụ có cấu trúc như AutoResearch, chess hoặc review code nhiều bước, orchestration là hướng tiếp cận hợp lý.

Cũng có lý do để thận trọng. Tuyên bố ngang bằng là với Mythos Preview cũ hơn, không phải Mythos 5. Tuyên bố vượt trội nằm ở cấp ứng dụng cụ thể, không phải benchmark tổng quát. Và vì Fugu có thể gọi chính các model frontier trong quá trình xử lý, kết quả tốt nên được hiểu là chiến thắng của hệ thống điều phối, không phải bằng chứng về một single model tốt nhất mới.

Cách tiếp cận đúng cho hầu hết đội ngũ:

Không hype.
Không bỏ qua.
Chạy Fugu Ultra trên task thật của bạn.
So sánh trực tiếp với Fable 5, Opus 4.8 hoặc model đang dùng.
Đo chất lượng, chi phí, latency và khả năng kiểm soát provider.
Chỉ quyết định sau khi có dữ liệu từ workload của chính bạn.

Ẩn dụ “fugu” khá phù hợp: cá nóc chỉ an toàn khi được đầu bếp lành nghề xử lý. Với AI workflow, lớp điều phối chính là phần “chế biến” đó. Nó có đáng tiền hay không phụ thuộc vào bộ test của bạn, không phải tiêu đề benchmark.

Câu hỏi thường gặp

Fugu Ultra có đánh bại Fable 5 không?

Không. Sakana không tuyên bố như vậy. Theo Sakana, Fugu Ultra sánh vai với Fable 5 và Mythos Preview. Đây là tuyên bố ngang bằng, không phải chiến thắng. Vì Fugu là orchestrator có thể gọi nhiều model frontier, mọi “chiến thắng” cần được đọc ở cấp hệ thống. Xem thêm Fable 5 vs Mythos 5.

Sakana muốn nói gì khi nói Fugu vượt Opus 4.8?

Đó là tuyên bố riêng, áp dụng cho các ứng dụng cụ thể như AutoResearch, One-Shot Chess và dự đoán chuỗi thời gian tài chính. Nó không có nghĩa Fugu là một single model vượt Opus 4.8 ở mọi benchmark. Nếu Fugu gọi Opus trong vòng lặp rồi tạo kết quả tốt hơn, đó là chiến thắng của orchestration.

Tại sao Sakana so sánh với Mythos Preview thay vì Mythos 5?

Mythos Preview là mô hình frontier tháng 4 năm 2026, còn Mythos 5 là phiên bản hiện tại có sẵn rộng rãi. Sakana gọi tên Mythos Preview trong so sánh. Điều đó có thể hợp lý cho khả năng tái lập, nhưng không nên hiểu là benchmark với giới hạn Anthropic mới nhất. Xem giải thích mô hình Mythos-class.

Fugu là một mô hình đơn lẻ hay một nhóm mô hình?

Fugu là một hệ thống điều phối. Nó có thể ủy quyền cho nhiều LLM, bao gồm cả bản sao đệ quy của chính nó, rồi trình bày toàn bộ hệ thống như một API tương thích OpenAI. Fable 5 và Mythos là các mô hình đơn lẻ.

Làm thế nào để tự kiểm tra Fugu so với Fable 5?

Trỏ client tương thích OpenAI vào base URL Sakana trong console, đặt model là fugu-ultra, rồi chạy cùng prompt với Fable 5 hoặc Opus 4.8. Trong Apidog, bạn có thể lưu mỗi model thành một request riêng, chạy song song và so sánh kết quả.

Fugu có giá bao nhiêu so với Fable 5?

Sakana đã xác nhận cấu trúc giá gồm subscription và pay-as-you-go, nhưng các số USD cụ thể của Fugu vẫn cần xác minh trực tiếp trong dashboard tính đến ngày 22 tháng 6 năm 2026. Để tham khảo, Anthropic niêm yết Fable 5 ở mức 10 USD / 1M token đầu vào và 50 USD / 1M token đầu ra. Bài điểm chuẩn Sakana Fugu sẽ phù hợp để theo dõi khi giá được xác nhận.

DEV Community