Sebastian Petrus

Posted on Jun 22 • Originally published at apidog.com

Điểm chuẩn Sakana Fugu: Sánh ngang Fable 5 thực sự có ý nghĩa gì

Các điểm chuẩn Fugu của Sakana nên được đọc như tuyên bố do nhà cung cấp báo cáo, không phải bảng điểm đã được xác minh độc lập. Theo trang phát hành của Sakana, Fugu Ultra “đứng ngang hàng với các mô hình hàng đầu như Fable 5 và Mythos Preview” trong các tác vụ kỹ thuật, khoa học và suy luận, còn Fugu “liên tục vượt trội” Gemini 3.1 Pro, Opus 4.8 và GPT 5.5 trên một số ứng dụng được đặt tên. Điểm quan trọng trước khi nhìn vào bất kỳ con số nào: Fugu là một hệ thống điều phối gọi các mô hình tiên tiến của nhà cung cấp khác, nên kết quả của nó không tương đương với chiến thắng của một mô hình đơn lẻ như Fable 5.

Dùng thử Apidog hôm nay

Fugu thực sự là gì, và vì sao điều đó ảnh hưởng đến cách đọc benchmark

Fugu không phải là một foundation model đơn lẻ. Nó là một hệ thống điều phối đa tác nhân, được trình bày như một mô hình duy nhất đằng sau API tương thích OpenAI.

Theo Sakana, Fugu được đào tạo chuyên cho:

Ủy quyền tác vụ
Giao tiếp giữa tác nhân
Tổng hợp kết quả
Điều phối động nhiều LLM
Gọi đệ quy các phiên bản của chính nó khi cần

Nói cách khác, Fugu có thể quyết định:

Tự trả lời trực tiếp
Gọi một hoặc nhiều mô hình khác
Tạo một “nhóm” tác nhân
Tổng hợp kết quả cuối cùng

Đây là lý do bạn không nên đọc benchmark của Fugu giống benchmark của một mô hình đơn lẻ.

Với một mô hình thông thường, điểm số phản ánh năng lực của chính trọng số mô hình đó. Với Fugu, điểm số có thể phản ánh việc hệ thống gọi Opus 4.8, GPT 5.5, Gemini 3.1 Pro hoặc các mô hình khác, sau đó hợp nhất đầu ra.

Vì vậy, một kết quả kiểu “vượt Opus 4.8” có thể đến từ một hệ thống có gọi Opus 4.8 trong quá trình xử lý. Đây là kết quả của một “mô hình-của-các-mô-hình”, không phải bằng chứng rằng một mô hình Sakana đơn lẻ mạnh hơn Opus.

Nếu bạn cần bối cảnh kiến trúc chi tiết hơn, bài Sakana Fugu là gì giải thích sâu hơn về vòng lặp điều phối này.

Tuyên bố ngang bằng: “ngang hàng với Fable 5 và Mythos Preview”

Tuyên bố đầu tiên của Sakana là một tuyên bố về sự ngang bằng, không phải tuyên bố chiến thắng.

Theo Sakana, Fugu Ultra “đứng ngang hàng với các mô hình hàng đầu như Fable 5 và Mythos Preview” trên các benchmark kỹ thuật, khoa học và suy luận.

Cách đọc đúng:

Không phải: “Fugu đánh bại Fable 5”
Mà là: “Sakana nói Fugu Ultra ở cùng nhóm năng lực với Fable 5 và Mythos Preview”

Có hai điểm cần lưu ý.

1. Đối thủ được nhắc đến là Mythos Preview, không phải Mythos 5 hiện tại

Sakana nhắc đến “Mythos Preview”, mô hình tiên tiến từ tháng 4 mà Anthropic từng mô tả là quá nguy hiểm để phát hành rộng rãi. Đây không phải Mythos 5 hiện có sẵn rộng rãi.

Nếu bạn đã đọc về mô hình lớp Mythos, bạn sẽ thấy Preview và dòng sản phẩm đã phát hành là hai hiện vật khác nhau.

Việc chọn so sánh với Preview thay vì mô hình hiện tại ảnh hưởng trực tiếp đến mức độ ấn tượng của tuyên bố.

2. Chưa có bảng điểm có thể tái chạy độc lập

Tuyên bố này hiện là định tính trên trang phát hành. Không có:

Phương pháp luận chi tiết
Lưới điểm theo từng tác vụ
Bộ dữ liệu đánh giá công khai
Script benchmark
Kết quả tái tạo từ bên thứ ba

Vì vậy, hãy coi “ngang hàng” là cách Sakana mô tả kết quả nội bộ của họ, không phải phép đo độc lập.

Tuyên bố mạnh hơn: “liên tục vượt trội” trên các ứng dụng được đặt tên

Sakana cũng đưa ra một tuyên bố mạnh hơn: Fugu “liên tục vượt trội” ba đối thủ đã được cấu hình trên một danh sách ứng dụng cụ thể.

Các đối thủ được nêu:

Gemini 3.1 Pro, cấu hình “cao”
Opus 4.8, cấu hình “tối đa”
GPT 5.5, cấu hình “rất cao”

Các ứng dụng được đặt tên:

AutoResearch
Rubik’s Cube
Mechanical Design
Japanese Handwriting Analysis
One-Shot Chess
Financial Time Series Prediction

Đây là hiệu suất cấp ứng dụng, không phải bộ benchmark học thuật tiêu chuẩn.

Điều này quan trọng vì các tác vụ đầu cuối là nơi một hệ thống điều phối có thể phát huy lợi thế. Fugu có thể chia nhỏ bài toán, định tuyến từng phần đến mô hình phù hợp, rồi tổng hợp kết quả.

Đó là loại bài toán mà một “người điều phối” có thể vượt một “người chơi đơn lẻ”.

Tuy nhiên, cần đọc trung thực:

Một số đối thủ là các mô hình mà Fugu có thể gọi.
Một kết quả “vượt Opus 4.8” có thể bao gồm việc Fugu gọi Opus 4.8.
Kết quả tốt hơn có thể đến từ tổng hợp đa mô hình, không phải từ năng lực suy luận của một mô hình đơn lẻ.

Vì vậy, đừng diễn đạt kết quả này thành “Fugu đánh bại Fable 5”. Sakana không tuyên bố điều đó. Tuyên bố ngang bằng và tuyên bố vượt trội nhắm đến các nhóm đối thủ khác nhau.

Vì sao các số liệu này chưa thể được xác minh độc lập

Chưa có sao chép độc lập. Mọi số liệu benchmark Fugu hiện tại đều do nhà cung cấp báo cáo, được đo trên thiết lập riêng của Sakana, với cấu hình đối thủ do Sakana chọn. Tính đến ngày 22-06-2026, chưa có bên thứ ba nào chạy lại các tác vụ này, chưa có lưới điểm theo từng tác vụ nào được công bố, và chưa có bộ công cụ đánh giá nào được phát hành. Cách đọc đúng là xem chúng như tuyên bố, không phải phép đo đã xác minh.

Đây không phải vấn đề riêng của Sakana. Với hầu hết mô hình mới ra mắt, benchmark ngày đầu thường là số liệu từ nhà cung cấp.

Điểm khác biệt của Fugu là kiến trúc điều phối khiến việc tái tạo khó hơn.

Để tái tạo benchmark của một mô hình đơn lẻ, bạn cần:

Mô hình
Dataset hoặc tác vụ
Cấu hình chạy
Script đánh giá

Để tái tạo benchmark của Fugu, bạn cần thêm:

Fugu
Quyền truy cập vào mọi mô hình nền mà Fugu định tuyến đến
Cùng phiên bản mô hình
Cùng cài đặt nỗ lực
Cùng cấu trúc tác nhân
Cùng logic định tuyến động
Cùng điều kiện giới hạn từ nhà cung cấp mô hình nền

Vì Fugu có thể điều chỉnh cấu trúc tác nhân theo từng tác vụ, hai lần chạy cùng một prompt cũng có thể không dùng cùng “đội hình” nội bộ.

Điều đó hữu ích cho người dùng, nhưng gây khó cho khả năng tái tạo.

Vì vậy, nên thận trọng với bất kỳ số “Fugu đạt X điểm” nào từ nguồn thứ cấp. Một số bài viết thứ cấp còn đặt sai phiên bản đối thủ, ví dụ dùng Mythos hiện tại thay vì Mythos Preview.

Ở thời điểm này, không có bảng điểm đầy đủ nào là trạng thái trung thực nhất. Bài so sánh Fugu Ultra vs Fable 5 vs Mythos cũng giữ cách tiếp cận định tính vì lý do này.

Các hồ sơ nghiên cứu đứng sau tuyên bố của Sakana

Marketing của Sakana dựa trên nghiên cứu có thể trích dẫn. Hai bài ICLR 2026 thường được nhắc đến là Trinity và Conductor.

Tuy nhiên, cần đọc chúng như hồ sơ nghiên cứu, không phải bảng thông số kỹ thuật sản phẩm Fugu.

Trinity

Trinity, “Một Điều phối viên LLM tiến hóa” (arXiv:2512.04695), mô tả một điều phối viên dưới 20.000 tham số, được tối ưu hóa bằng tiến hóa không đạo hàm.

Trinity dùng các vai trò:

Thinker
Worker
Verifier

Điểm chính:

Rất nhỏ
Được tối ưu bằng tiến hóa
Không được đào tạo bằng gradient descent

Conductor

Conductor, “Học cách điều phối tác nhân bằng ngôn ngữ tự nhiên” (arXiv:2512.04388), mô tả một mô hình 7B được đào tạo bằng học tăng cường.

Conductor học cách cấu trúc giao tiếp giữa các tác nhân. Bài báo tuyên bố nó đánh bại Mixture-of-Agents với chi phí thấp hơn.

Đừng gộp Trinity, Conductor và Fugu thành một

Trinity và Conductor khác nhau về:

Phương pháp huấn luyện
Kích thước
Mục tiêu nghiên cứu
Cách điều phối

Trinity là điều phối viên dưới 20K tham số. Conductor là mô hình 7B dùng RL.

Không nên suy luận rằng thông số 7B hoặc bất kỳ mô hình nền cụ thể nào chính là thông số của Fugu đã phát hành. Bản phát hành chính thức không công bố số lượng tham số sản phẩm.

Phụ lục thông số kỹ thuật để đọc cùng benchmark

Bảng dưới đây tách phần đã được nêu rõ khỏi phần chưa được xác nhận.

Mục	Sakana / các nguồn nói gì	Độ tin cậy
Loại hệ thống	Bộ điều phối đa tác nhân đằng sau một mô hình	Được nêu trên trang phát hành
Các biến thể	Fugu, cân bằng / độ trễ thấp; Fugu Ultra, chất lượng tối đa	Được nêu trên trang phát hành
Tên phiên bản beta cũ	Biến thể nhỏ từng được gọi là “Fugu Mini” trong beta và báo chí	Lịch sử
Bề mặt API	Một endpoint tương thích OpenAI cho cả hai biến thể	Được nêu trên trang phát hành
Các mô hình cơ bản	Gọi nhiều LLM tiên tiến, bao gồm cả chính nó một cách đệ quy	Được nêu trên trang phát hành
Số lượng tham số sản phẩm	Chưa được công bố; thông số 7B / Conductor là suy luận của bên thứ ba	[XÁC MINH]
Phương pháp benchmark	Do nhà cung cấp báo cáo, thiết lập riêng của Sakana, chưa phát hành bộ công cụ đánh giá	[XÁC MINH]

Lưu ý về tên: biến thể nhỏ từng được gọi là “Fugu Mini” trong giai đoạn beta khoảng 500 người dùng, bắt đầu vào khoảng ngày 24-25 tháng 4 năm 2026. Trang phát hành hiện dùng “Fugu” và “Fugu Ultra”. Khi viết tài liệu hoặc cấu hình, hãy dùng tên hiện tại.

Cách tự kiểm tra Fugu trong workload của bạn

Bạn không thể xác minh trực tiếp benchmark nội bộ của Sakana. Nhưng bạn có thể chạy benchmark riêng cho workload của mình.

Vì Fugu dùng giao thức chat completions tương thích OpenAI, bạn có thể dùng client OpenAI hiện có và trỏ sang base URL của Fugu.

Điểm cần lưu ý:

URL base công khai chưa được công bố tính đến ngày 22-06-2026.
Hãy lấy URL từ dashboard của bạn tại console.sakana.ai.
Không dùng base URL từ nguồn không chính thức.
Xác minh model ID trong console trước khi hard-code.

Ví dụ Python:

from openai import OpenAI

# Sao chép base URL thực tế từ console.sakana.ai sau khi đăng nhập.
client = OpenAI(
    api_key="YOUR_FUGU_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)

resp = client.chat.completions.create(
    model="fugu-ultra",  # dùng "fugu" cho biến thể cân bằng; xác minh ID trong console
    messages=[
        {
            "role": "system",
            "content": "Bạn là một reviewer bảo mật mã nguồn, trả lời ngắn gọn và chính xác."
        },
        {
            "role": "user",
            "content": "Hãy review hàm sau để tìm vấn đề bảo mật:\n<dán mã của bạn ở đây>"
        },
    ],
)

print(resp.choices[0].message.content)

Nếu bạn muốn benchmark thực tế hơn, hãy chạy nhiều loại tác vụ:

tasks = [
    {
        "name": "security_review",
        "prompt": "Review đoạn code này để tìm lỗi bảo mật:\n<code>"
    },
    {
        "name": "api_design",
        "prompt": "Đề xuất thiết kế REST API cho hệ thống đặt lịch khám bệnh."
    },
    {
        "name": "bug_reproduction",
        "prompt": "Từ log sau, hãy suy luận nguyên nhân lỗi và bước tái hiện:\n<log>"
    },
]

for task in tasks:
    resp = client.chat.completions.create(
        model="fugu-ultra",
        messages=[
            {"role": "system", "content": "Trả lời có cấu trúc, ưu tiên hành động cụ thể."},
            {"role": "user", "content": task["prompt"]},
        ],
    )

    print(f"\n=== {task['name']} ===")
    print(resp.choices[0].message.content)

Khi đánh giá Fugu, đừng chỉ nhìn chất lượng câu trả lời. Hãy ghi lại ít nhất:

Prompt
Model ID
Output
Latency
HTTP status
Token usage nếu có
Chi phí ước tính
Số lần chạy
Biến thể dùng: fugu hoặc fugu-ultra

Vì Fugu có thể quyết định mỗi request sẽ trả lời trực tiếp hay lập nhóm tác nhân, cùng một prompt có thể tạo ra độ trễ và chi phí khác nhau giữa các lần chạy.

Một bảng log tối thiểu có thể như sau:

Run	Model	Task	Latency	Status	Output score	Ghi chú
1	fugu-ultra	security_review	12.4s	200	4/5	Phát hiện đúng lỗi auth
2	fugu-ultra	security_review	18.9s	200	5/5	Có thêm đề xuất fix
3	opus-4.8	security_review	9.1s	200	4/5	Ngắn hơn, ít giải thích

Điểm cần đo là hiệu quả trên tác vụ của bạn, không phải AutoResearch hay One-Shot Chess nếu chúng không liên quan đến sản phẩm của bạn.

Cách đưa Fugu vào workflow kiểm thử API với Apidog

Bạn không cần một công cụ riêng chỉ để kiểm tra tuyên bố benchmark của nhà cung cấp. Điều bạn cần là một cách lặp lại cùng prompt trên nhiều endpoint và so sánh kết quả.

Với Apidog, bạn có thể đăng ký endpoint Fugu như một API tương thích OpenAI, lưu prompt đánh giá thành request, rồi chạy lại như một kịch bản kiểm thử.

Một workflow thực tế:

Tạo một environment cho Fugu.
Thêm biến base_url, api_key, model.
Tạo request POST /chat/completions.
Lưu prompt benchmark của bạn vào body.
Clone request cho Fable 5, Opus hoặc các endpoint khác.
Chạy cùng input trên nhiều endpoint.
So sánh output, status code, latency và token usage.

Ví dụ body request tương thích OpenAI:

{
  "model": "{{model}}",
  "messages": [
    {
      "role": "system",
      "content": "Bạn là một reviewer API, ưu tiên phát hiện lỗi thiết kế và rủi ro bảo mật."
    },
    {
      "role": "user",
      "content": "Review API spec sau:\n{{api_spec}}"
    }
  ]
}

Bạn có thể tạo các assertion như:

Status code phải là 200
Thời gian phản hồi dưới một ngưỡng nhất định
Response không rỗng
Output chứa các mục bắt buộc như Security, Backward compatibility, Error handling
Token usage nằm trong khoảng chấp nhận được nếu API trả về metadata đó

Cách này hữu ích hơn nhiều so với việc chỉ đọc một tuyên bố “ngang hàng” không có phương pháp luận công khai. Với Fugu, đặc biệt nên theo dõi latency và token usage qua nhiều lần chạy vì định tuyến thích ứng có thể làm chi phí thay đổi.

Các câu hỏi thường gặp

Fugu có đánh bại Fable 5 trên benchmark không?

Không, Sakana chưa tuyên bố điều đó. Tuyên bố chính là Fugu Ultra “đứng ngang hàng với” Fable 5 và Mythos Preview. Tuyên bố “vượt trội” riêng biệt nhắm vào Gemini 3.1 Pro, Opus 4.8 và GPT 5.5 trên các ứng dụng cụ thể, không phải Fable 5.

Để xem bối cảnh về mô hình đơn lẻ đó, hãy đọc các điểm chuẩn Claude Fable 5.

Các con số benchmark Fugu đã được xác minh độc lập chưa?

Chưa. Tính đến ngày 22-06-2026, các số liệu hiện có đều do nhà cung cấp báo cáo trên thiết lập riêng của Sakana. Chưa có bên thứ ba chạy lại các tác vụ, và chưa có bộ công cụ đánh giá công khai.

Hãy coi chúng là tuyên bố của nhà cung cấp cho đến khi có tái tạo độc lập.

Vì sao việc Fugu là hệ thống điều phối lại quan trọng?

Vì Fugu có thể gọi các mô hình tiên tiến của nhà cung cấp khác, bao gồm cả chính nó một cách đệ quy. Do đó, một kết quả “vượt Opus 4.8” có thể đến từ việc Fugu gọi Opus, gọi thêm mô hình khác, rồi tổng hợp kết quả.

Đó là chiến thắng của một hệ thống điều phối đa mô hình, không phải bằng chứng rằng một mô hình đơn lẻ của Sakana vượt Opus về năng lực suy luận.

Fable 5 và dòng Mythos là các mô hình Anthropic đơn lẻ, nên so sánh trực tiếp với Fugu cần được đọc cẩn thận.

Sakana đã so sánh với phiên bản Mythos nào?

Sakana nhắc đến Mythos Preview từ tháng 4, không phải Mythos 5 hiện tại. Một số bài viết thứ cấp đặt sai phiên bản.

Bài giải thích về lớp Mythos trình bày sự khác biệt giữa Preview và dòng sản phẩm đã phát hành.

Trinity và Conductor khác nhau thế nào?

Chúng là hai bài ICLR 2026 riêng biệt.

Trinity, arXiv:2512.04695, là điều phối viên dưới 20.000 tham số, được tối ưu hóa bằng tiến hóa.
Conductor, arXiv:2512.04388, là mô hình 7B được đào tạo bằng học tăng cường.

Chúng khác nhau về kích thước và phương pháp. Không bài nào là bảng thông số kỹ thuật chính thức của sản phẩm Fugu đã phát hành.

Làm cách nào để tự kiểm tra hiệu suất của Fugu?

Hãy trỏ một client tương thích OpenAI đến base URL Fugu từ console.sakana.ai, gửi tác vụ thực tế của bạn, rồi đo chất lượng, latency và chi phí.

Nếu muốn so sánh có thể lặp lại, hãy đăng ký endpoint trong Apidog, chạy cùng prompt trên Fugu và các mô hình đơn lẻ bạn đang dùng, rồi lưu lại kết quả theo từng lần chạy.

DEV Community