Sebastian Petrus

Posted on Jun 22 • Originally published at apidog.com

Bảng Giá Sakana Fugu: Các Gói Đăng Ký, Thanh Toán Theo Mức Sử Dụng và Mô Hình Chi Phí Chuyển Tiếp

Giá của Sakana Fugu được xây dựng quanh 2 cách mua: gói đăng ký theo cấp bậc cho nhu cầu hằng ngày và trả theo mức sử dụng (pay-as-you-go/PAYG) cho workload nặng hoặc doanh nghiệp. Điểm khác biệt là cơ chế thanh toán chuyển tiếp (passthrough billing): một request có thể kích hoạt nhiều tác nhân mà không cộng phí riêng cho từng tác nhân. Các số liệu USD bên dưới đến từ nguồn thứ cấp, vì trang phát hành của Sakana mô tả cấu trúc nhưng không hiển thị trực tiếp giá. Lưu ý rằng Fugu là một hệ thống điều phối được đóng gói như một mô hình duy nhất, nên cơ chế thanh toán này mới khả thi.

Dùng thử Apidog ngay hôm nay

Cách định giá của Fugu được cấu trúc

Fugu không giống một model chat thông thường. Nó hoạt động như một bộ điều phối: nhận request, quyết định có tự trả lời hay phân rã công việc cho nhiều model/tác nhân khác, bao gồm cả các phiên bản đệ quy của chính nó. Vì vậy, khi đánh giá chi phí, bạn cần nhìn vào cả giá token lẫn cách Fugu định tuyến request.

Sakana xác nhận 2 phương thức mua trên trang phát hành:

Gói đăng ký theo cấp bậc: phù hợp cho công việc hằng ngày như lập trình, review code, chatbot hoặc dịch vụ tương tác. Bạn trả phí cố định hằng tháng.

Trả theo mức sử dụng (PAYG): phù hợp cho workload nặng, chạy batch, nghiên cứu hoặc traffic tăng đột biến. Bạn trả theo token.

Cả biến thể Fugu cân bằng và Fugu Ultra chất lượng cao hơn đều nằm sau một endpoint tương thích OpenAI. Bạn chọn biến thể bằng model ID; Fugu tự quyết định mức năng lực cần dùng cho request.

Hiện không có cấp miễn phí độc lập nào được báo cáo. Lựa chọn gần nhất là một chương trình khuyến mãi ra mắt, được đề cập bên dưới.

Nếu muốn kiểm tra chi phí trước khi commit, hãy trỏ OpenAI client hiện có vào endpoint Fugu và ghi log token usage theo từng request. Apidog hữu ích trong trường hợp này vì một request Fugu có thể phân nhánh thành nhiều lời gọi model bên dưới.

Giá được báo cáo: cần xác minh trực tiếp trước khi lập ngân sách

Các gói đăng ký được báo cáo

Gói	Giá hằng tháng được báo cáo	Đối tượng phù hợp
Entry	được báo cáo $20/tháng	Nhà phát triển cá nhân, sử dụng nhẹ hằng ngày
Mid	được báo cáo $100/tháng	Đội nhóm, workload lập trình và review ổn định
Top	được báo cáo $200/tháng	Người dùng cao cấp, dịch vụ tương tác khối lượng lớn

Các cấp tương tự được báo cáo là áp dụng cho cả Fugu và Fugu Ultra.

Một chương trình khuyến mãi ra mắt được báo cáo là tặng tháng thứ hai miễn phí nếu đăng ký trước cuối tháng 7 năm 2026. Nếu ưu đãi này ảnh hưởng đến quyết định mua, hãy kiểm tra trực tiếp trong dashboard trước vì khuyến mãi có thể thay đổi và không được xác nhận trên trang phát hành.

Tỷ lệ PAYG được báo cáo

Loại token	Tỷ lệ được báo cáo / 1 triệu token	Phụ phí được báo cáo trên ngữ cảnh 272K
Input	được báo cáo $5	được báo cáo $10
Output	được báo cáo $30	được báo cáo $45
Cached input	được báo cáo $0.50	được báo cáo $1.00

Điểm cần chú ý là cột phụ phí. Request có context dài trên khoảng 272K token được báo cáo là có thể bị tính gấp đôi mỗi triệu token. Với hệ thống điều phối, prompt thường dài hơn vì context cần được truyền giữa các tác nhân. Một lần chạy Fugu Ultra cho tác vụ nghiên cứu có thể vượt ngưỡng này nhanh hơn bạn nghĩ.

Nếu đã từng tính giá Claude Fable 5, bạn sẽ thấy mô hình thanh toán theo token này quen thuộc, nhưng Fugu có thêm yếu tố điều phối.

Cách đọc đúng cơ chế passthrough billing

Đừng chỉ nhìn vào giá mỗi token. Với Fugu, bạn cần tách 2 phần:

Chi phí của bộ điều phối: logic định tuyến, giao tiếp giữa tác nhân và tổng hợp kết quả.
Chi phí của các model làm việc: các model mà Fugu gọi khi request khó hoặc cần năng lực cao hơn.

Biến thể Fugu cơ bản được mô tả là dựa trên giá của model cơ sở mà nó gọi. Tuy nhiên, Fugu Ultra và các mức PAYG cao hơn phản ánh chi phí vận hành điều phối của Sakana.

Cách hiểu thực tế:

Bộ điều phối có thể rẻ. Bài báo Trinity mô tả một bộ điều phối dưới 20.000 tham số được tối ưu bằng tiến hóa. Bài báo Conductor mô tả một model 7B được huấn luyện bằng học tăng cường và tuyên bố vượt Mixture-of-Agents với chi phí thấp hơn.
Các model mà bộ điều phối gọi có thể đắt. Khi Fugu quyết định một bài toán khó cần model tiên tiến, bạn vẫn trả cho token của model đó, cộng phần biên cho điều phối.

Nói ngắn gọn: một bộ điều phối rẻ nhưng gọi “lao động đắt tiền” vẫn có thể tạo hóa đơn đắt. Fugu chỉ tiết kiệm nếu traffic của bạn có nhiều request dễ và chỉ thỉnh thoảng cần model mạnh.

So sánh với giá của các model tiên tiến

Không nên đánh giá Fugu chỉ bằng giá headline. Hãy so sánh với các model có giá công khai. Các số liệu dưới đây đến từ giá Anthropic ngày 09-06-2026:

Mô hình	Input / 1 triệu token	Output / 1 triệu token	Ghi chú
Fable 5	$10	$50	Model mạnh nhất của Anthropic hiện có, trên Opus 4.8
Mythos 5	$10	$50	Cùng phân khúc giá với Fable 5
Mythos Preview	$25	$125	Model tiên tiến tháng 4/2026 bị giữ lại vì “quá nguy hiểm để phát hành”

PAYG được báo cáo của Fugu là khoảng $5 input và $30 output cho mỗi triệu token. Trên giấy tờ, mức này có vẻ rẻ hơn Fable 5. Nhưng so sánh như vậy chưa đủ.

Sakana tuyên bố Fugu Ultra “sánh ngang với các model hàng đầu như Fable 5 và Mythos Preview” trên benchmark kỹ thuật, khoa học và suy luận. Đây là tuyên bố về mức tương đương, không phải tuyên bố vượt trội. Quan trọng hơn: Fugu là một hệ thống điều phối có thể gọi model bên ngoài và gọi chính nó đệ quy. Khi Fugu tạo câu trả lời cấp frontier, nó có thể đã kích hoạt nhiều bước xử lý đắt hơn phía sau.

Nếu bạn đang cân nhắc Fugu, hãy đọc thêm hướng dẫn cách truy cập Sakana Fugu. Điểm cần nhớ: Fable 5 và Mythos là model đơn với giá công bố rõ ràng; Fugu là hệ thống có chi phí hiệu quả phụ thuộc vào quyết định định tuyến.

Gọi Fugu bằng OpenAI-compatible client

Fugu cung cấp endpoint tương thích OpenAI, nên bạn có thể dùng lại SDK hiện có. URL cơ sở chưa được công bố công khai, vì vậy hãy sao chép từ dashboard của bạn và không hard-code host tự đoán.

from openai import OpenAI

# Sao chép base URL thực từ console.sakana.ai sau khi đăng nhập.
client = OpenAI(
    api_key="YOUR_SAKANA_API_KEY",
    base_url="<YOUR_FUGU_BASE_URL_FROM_CONSOLE>",
)

# "fugu" định tuyến biến thể cân bằng.
# "fugu-ultra" định tuyến biến thể chất lượng cao hơn.
response = client.chat.completions.create(
    model="fugu",
    messages=[
        {
            "role": "user",
            "content": "Review this function for security issues."
        },
    ],
)

print(response.choices[0].message.content)

# Luôn log usage để theo dõi chi phí.
print(response.usage)

Các model ID như fugu và fugu-ultra được báo cáo, nhưng bạn vẫn nên xác nhận trong dashboard. Một số triển khai có thể dùng hậu tố ngày tháng hoặc tên model cụ thể.

Với Fugu, trường quan trọng nhất là response.usage. Đây là tín hiệu thực tế nhất để theo dõi chi phí vì các bước điều phối nội bộ được gom vào usage của request.

Bạn có thể bọc lời gọi bằng hàm đo chi phí đơn giản:

def log_fugu_usage(response):
    usage = response.usage

    print({
        "prompt_tokens": getattr(usage, "prompt_tokens", None),
        "completion_tokens": getattr(usage, "completion_tokens", None),
        "total_tokens": getattr(usage, "total_tokens", None),
    })

Format request/response tuân theo Chat Completions API của OpenAI, nên các tool hỗ trợ giao thức này có thể hoạt động mà không cần rewrite lớn. Xem thêm hướng dẫn cách sử dụng API Sakana Fugu nếu bạn cần quy trình thiết lập đầy đủ.

Checklist triển khai để kiểm soát chi phí Fugu

Trước khi đưa Fugu vào production, hãy làm tối thiểu các bước sau:

Xác minh giá trong dashboard
- Kiểm tra subscription tier.
- Kiểm tra PAYG rate.
- Kiểm tra điều kiện khuyến mãi nếu có.
Log token usage cho từng request
- Lưu prompt_tokens.
- Lưu completion_tokens.
- Lưu total_tokens.
- Gắn thêm metadata như route, user, feature, environment.
Phân loại workload
- Request dễ: hỏi đáp ngắn, phân loại, tóm tắt đơn giản.
- Request trung bình: review code, phân tích tài liệu.
- Request khó: reasoning dài, nghiên cứu, multi-step agent workflow.
Đặt ngưỡng context
- Cảnh báo khi prompt tiến gần 272K token.
- Tách tài liệu dài thành chunk nếu có thể.
- Cache input lặp lại để tận dụng cached input pricing nếu được hỗ trợ.
So sánh với model đơn
- Chạy cùng workload trên Fugu và một model frontier đơn.
- So sánh chất lượng, latency và total token cost.
- Không quyết định chỉ dựa trên giá mỗi triệu token.

Câu hỏi thường gặp

Fugu có cấp miễn phí không?

Không có cấp miễn phí độc lập nào được báo cáo. Ưu đãi gần nhất là chương trình khuyến mãi ra mắt được báo cáo là tặng tháng thứ hai miễn phí nếu đăng ký trước cuối tháng 7 năm 2026. Chương trình này không được xác nhận trên trang phát hành, nên hãy kiểm tra trực tiếp tại console.sakana.ai.

Tại sao Fugu có vẻ rẻ hơn mỗi token nhưng vẫn có thể tốn kém hơn?

Vì giá mỗi token được báo cáo không nói hết chi phí điều phối. Fugu có thể gọi các model tiên tiến khác cho request khó. Một model đơn như Fable 5 có giá công bố rõ ràng hơn và không có phân nhánh điều phối ẩn. Xem thêm phân tích giá Claude Fable 5 để có điểm so sánh.

Passthrough billing trong Fugu là gì?

Passthrough billing nghĩa là request có thể kích hoạt nhiều tác nhân mà không cộng phí điều phối riêng cho từng tác nhân theo cách truyền thống. Tuy nhiên, bạn vẫn cần tính đến chi phí model được gọi và phần biên của Sakana, đặc biệt với Fugu Ultra hoặc PAYG.

Nên chọn subscription hay PAYG?

Chọn subscription nếu workload ổn định: lập trình, review code, chatbot nội bộ, dịch vụ tương tác có lưu lượng dự đoán được.

Chọn PAYG nếu workload biến động: batch job, nghiên cứu, request dài, traffic spike hoặc thử nghiệm chưa biết usage.

Làm sao theo dõi chi phí của một request Fugu?

Ghi lại trường usage của mỗi response và lưu theo request ID. Nếu bạn đang so sánh Fugu với các bộ định tuyến model khác, hướng dẫn các lựa chọn thay thế OpenRouter tốt nhất có thêm góc nhìn về chi phí định tuyến so với điều phối.

Kết luận

Fugu có lợi nhất khi traffic của bạn chủ yếu là request dễ hoặc trung bình, thỉnh thoảng mới cần năng lực frontier. Nếu workload luôn ở cấp độ khó, chi phí có thể tiến gần hoặc vượt việc gọi trực tiếp một model tiên tiến.

Cách làm an toàn là: xác minh giá trong dashboard, chạy benchmark bằng request thật, log usage theo từng request, rồi mới chọn subscription hoặc PAYG. Để theo dõi token usage của các lời gọi tương thích OpenAI trong quá trình thử nghiệm, hãy tải xuống Apidog và định tuyến request qua đó.

DEV Community