Cách Sử Dụng Hy3 Preview API Miễn Phí

Tencent đã công bố mã nguồn mở Hy3 Preview vào ngày 22 tháng 4 năm 2026, và chỉ sau 1 ngày, OpenRouter đã thêm nó như một điểm cuối miễn phí hoàn toàn. Không cần thẻ tín dụng, không phí token, không giới hạn dùng thử. Bạn có thể gọi mô hình Mixture-of-Experts 295B-tham số mà Tencent sử dụng cho Yuanbao và CodeBuddy, trực tiếp từ mã nguồn của bạn, hoàn toàn miễn phí.

Dùng thử Apidog ngay hôm nay

Bài viết này hướng dẫn cách sử dụng API Hy3 Preview miễn phí qua OpenRouter, Hugging Face Space và repo Hy3 gốc. Bạn sẽ biết các chế độ suy luận đặc biệt của Hy3 và cách kiểm thử API trong Apidog mà không cần viết script một lần.

Nếu bạn muốn nhận kết quả nhanh nhất, hãy chuyển ngay tới mục “Hướng dẫn từng bước: gọi Hy3 Preview miễn phí trên OpenRouter.”

TL;DR

Hy3 Preview miễn phí trên OpenRouter với model ID tencent/hy3-preview:free, giá $0 cho cả input và output.
Mô hình Mixture-of-Experts: 295B tham số tổng, 21B tham số hoạt động, 192 chuyên gia, định tuyến top-8, cửa sổ ngữ cảnh 256K-token.
Ba chế độ suy luận tích hợp: no_think cho trả lời nhanh; low và high cho chuỗi suy nghĩ sâu cho tác vụ agent/lập trình.
Điểm chuẩn mạnh cho mô hình mã nguồn mở: SWE-bench Verified 74.4, Terminal-Bench 2.0 54.4, GPQA Diamond 87.2, MMLU 87.42.
Có thể sử dụng miễn phí qua: gói free của OpenRouter, Hy3-preview Space của Hugging Face, hoặc chạy cục bộ với vLLM và trọng số mở.
Apidog tích hợp tốt với endpoint OpenRouter vì Hy3 dùng schema OpenAI Chat Completions; chỉ cần trỏ request tới OpenRouter là chạy.

Hy3 Preview là gì?

Hy3 Preview là bản phát hành nền tảng lớn đầu tiên từ nhóm Hunyuan Platform Models đã tái cấu trúc của Tencent, do Yao Shunyu (cựu OpenAI) dẫn dắt. Đây là mô hình mạnh nhất của Tencent, cạnh tranh trực tiếp với các mô hình mã nguồn mở hàng đầu Trung Quốc như DeepSeek, Alibaba, Zhipu.

Thông số kỹ thuật từ thẻ mô hình chính thức:

Kiến trúc: Mixture-of-Experts, 80 lớp + 1 lớp MTP, 64 head attention, attention nhóm truy vấn.
Tham số: 295B tổng, 21B hoạt động mỗi lượt forward.
Chuyên gia: 192 chuyên gia, định tuyến top-8/token.
Ngữ cảnh: 256K token (OpenRouter hiển thị 262.144).
Tokenizer: 120.832 mục, BF16.
Giấy phép: Tencent Hy Community License, cho phép thương mại trong điều khoản.

Điểm khác biệt là huấn luyện theo hướng agent: Tencent xây lại hạ tầng RL cho multi-turn tool use, đạt điểm benchmark SWE-bench, Terminal-Bench, WildClawBench tiệm cận mô hình đóng cho tác vụ code/shell.

Ba cách miễn phí để sử dụng Hy3 Preview

Bạn có 3 lựa chọn tùy nhu cầu: giao diện chat, API, hay tự lưu trữ trọng số.

Đường dẫn	Nó là gì	Miễn phí?	Thích hợp cho
OpenRouter `tencent/hy3-preview:free`	API OpenAI-compatible hosted	Có, $0 input/output	Xây agent, script, backend
Hugging Face Space	Chat demo trên browser	Có	Nhắc lệnh nhanh, test sơ bộ
Tự lưu trữ (vLLM/SGLang)	Chạy trọng số mở trên GPU của bạn	Phần mềm free, tốn phần cứng	Công việc cần bảo mật, khối lượng lớn

Đa số dev sẽ chọn OpenRouter – nhanh nhất từ đăng ký tới gọi API, rate limit free đủ cho prototype.

Hướng dẫn từng bước: gọi Hy3 Preview miễn phí trên OpenRouter

Đây là quy trình đơn giản nhất để gọi Hy3 Preview qua API:

Đăng ký tài khoản OpenRouter tại openrouter.ai. Chỉ cần email, không yêu cầu thanh toán cho model free.
Tạo API key. Vào "Keys" → tạo mới, copy vào biến môi trường, vd: export OPENROUTER_API_KEY=sk-or-...
Mở trang mô hình. Vào danh sách miễn phí Hy3 Preview và xác nhận trạng thái "Free". Xem usage và trạng thái.

Gửi request đầu tiên. Schema OpenAI Chat Completions; mọi OpenAI SDK đều dùng được:

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tencent/hy3-preview:free",
    "messages": [
      {"role": "user", "content": "Explain the MoE routing decision inside a top-8 of 192 setup in 3 sentences."}
    ],
    "temperature": 0.9,
    "top_p": 1.0
  }'

Bật suy luận khi cần. Thêm tham số reasoning với effort là low hoặc high. OpenRouter trả về dấu vết suy nghĩ trong mảng reasoning_details:

{
  "model": "tencent/hy3-preview:free",
  "messages": [
    {"role": "user", "content": "Plan, then write a Bash script that rotates daily log files older than 30 days into a dated archive folder."}
  ],
  "reasoning": {"effort": "high"}
}

Lặp lại. Giữ nguyên thread để tận dụng cửa sổ 256K token, phù hợp với codebase lớn hoặc context dài.

Mô hình này giống bản trên Hugging Face; chất lượng trên OpenRouter free = các bản trả phí khác.

Miễn phí, Plus, và tự lưu trữ: điểm khác biệt

So sánh nhanh:

Khả năng	OpenRouter Free	OpenRouter Trả phí	Tự lưu trữ (vLLM/SGLang)
Giá/token	$0	Theo provider	Điện + khấu hao GPU
Chế độ suy luận	`no_think`, `low`, `high`	Như trên	Như trên
Độ dài ngữ cảnh	256K	256K	256K (tùy RAM)
Thông lượng tải cao	Nhóm chung, ưu tiên thấp	Riêng biệt	Tùy cluster
Giới hạn rate	Theo chính sách free OpenRouter	Theo provider	Không có
Lưu trữ dữ liệu	Theo OpenRouter	Theo provider	Trên máy bạn
Hiển thị reasoning tokens	Có	Có	Có

Miễn phí phù hợp cho prototype, dự án phụ, agent traffic thấp. Trả phí hoặc tự lưu trữ khi cần độ trễ thấp, vượt giới hạn rate.

Mẹo nhắc lệnh & tham số tận dụng tối đa Hy3

Phối hợp nhiệt độ với chế độ. Dùng temperature=0.9, top_p=1.0 mặc định. Output có cấu trúc giảm xuống 0.3, sáng tạo giữ 0.9.
Dùng no_think cho chat thường. Chỉ bật low/high khi cần planning, code đa bước, toán học.
Đặt tên tool trong system prompt. Luôn mô tả tool, đừng chỉ dựa vào schema.
Paste code, không tóm tắt. Cửa sổ 256K, paste nguyên file rồi hỏi.
Sửa nhiều file cùng lúc. Đưa toàn bộ files vào 1 message, không drip từng file.
Bắt mô hình lên kế hoạch. Với agent, dùng mẫu 2 bước: "plan trước, chờ tôi xác nhận, rồi thực hiện".

Giới hạn cần biết trước khi triển khai

Rate limit thay đổi theo tải. Free group chia nhau, giờ cao điểm dễ lỗi 429. Luôn retry với exponential backoff.
Token suy luận tính vào output. reasoning_details miễn phí trên OpenRouter free, nhưng bản trả phí tính phí như output.
License không phải Apache 2.0. Đọc kỹ giấy phép trên GitHub nếu thương mại hóa.
Tool call cần parser đúng. Tự host phải dùng vLLM/SGLang kèm --tool-call-parser hy_v3.
Tiếng Anh/Trung mạnh nhất. Ngôn ngữ khác hỗ trợ nhưng chất lượng thấp hơn.
Chưa bằng flagship Mỹ trên benchmark suy luận khó. Hy3 ngang top Trung Quốc, nhưng vẫn dưới OpenAI/Google DeepMind trên một số test.

Lối tắt phát triển: Hy3 Preview + Apidog

Dùng curl để test nhanh, nhưng để lặp lại thực tế, nên dùng client API trực quan như Apidog.

Tạo dự án mới trên Apidog. Nhập OpenAPI spec của OpenAI Chat Completions.
Đặt base URL là https://openrouter.ai/api/v1, thêm biến môi trường cho OPENROUTER_API_KEY.
Tạo request tới /chat/completions với model tencent/hy3-preview:free.
Clone request để so sánh các chế độ reasoning (no_think, low, high) song song.
Lưu prompt templates. Dùng biến của Apidog để tái sử dụng system prompt, tool schema, lượt user.

Nếu chuyển từ Postman, tham khảo hướng dẫn kiểm thử API không dùng Postman năm 2026. Làm việc trong VS Code? Xem cách dùng Apidog trong VS Code để chỉnh prompt cạnh code.

Các lựa chọn thay thế miễn phí nếu chạm giới hạn

Nếu rate limit free của OpenRouter khiến bạn chậm vào giờ cao điểm, thử:

Hugging Face Space: Hy3-preview Space cho chat demo trên browser (không script, nhưng free và nhanh).
Các model mã nguồn mở Trung Quốc khác: Qwen 3.5 Omni của Alibaba có free tier mạnh, đa phương thức; xem thông báo Qwen 3.5 Omni và hướng dẫn sử dụng. Zhipu GLM 5V Turbo cũng miễn phí rộng; hướng dẫn tại API GLM 5V Turbo.

Các model này không vượt Hy3 ở agentic coding, nhưng đáp ứng tốt chat, đa ngôn ngữ, đa phương thức. Để test thực tế, hãy thiết lập bộ sưu tập trên Apidog cho từng model và benchmark với prompt thực tế của bạn.

Tự lưu trữ Hy3 Preview với vLLM

Muốn suy luận cục bộ? Thẻ model khuyên dùng vLLM với tensor-parallel 8, bật multi-token speculative decoding:

vllm serve tencent/Hy3-preview \
  --tensor-parallel-size 8 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser hy_v3 \
  --reasoning-parser hy_v3 \
  --enable-auto-tool-choice \
  --served-model-name hy3-preview

SGLang dùng --tool-call-parser hunyuan và --reasoning-parser hunyuan. Khi server chạy ở http://localhost:8000/v1, dùng bất kỳ SDK OpenAI nào, chỉ đổi base URL và key.

Cần tối thiểu 8 GPU H100 với BF16 để chạy model đầy đủ. Bản lượng tử hóa cộng đồng sẽ sớm ra mắt, nhưng hiện tại chỉ có bản full precision.

Câu hỏi thường gặp

Hy3 Preview có miễn phí không?

Có. OpenRouter liệt kê tencent/hy3-preview:free với $0 cho 1M token input/output. Token reasoning cũng miễn phí trên free tier (nhưng tính vào rate limit). Kiểm tra trạng thái tại trang model OpenRouter trước khi dùng sản xuất.

Hy3 Preview so với DeepSeek V3 & Qwen 3 thế nào?

Điểm SWE-bench 74.4, Terminal-Bench 54.4 của Hy3 ngang top open models Trung Quốc, mạnh về agent/tool use. Với chat thường, Qwen 3 và DeepSeek V3 cạnh tranh; về agent/lập trình, Hy3 nổi trội nhờ RL tool use.

Các chế độ reasoning của Hy3 là gì?

Ba chế độ: no_think (mặc định, trả lời trực tiếp), low, high. Chuyển qua tham số reasoning khi gọi OpenRouter, hoặc chat_template_kwargs={"reasoning_effort": "high"} khi gọi trực tiếp. Dùng high cho planning, code đa bước, toán học; tắt khi chỉ chat.

Có thể dùng Hy3 Preview cho mục đích thương mại?

Có, theo Tencent Hy Community License. Đọc kỹ license trên GitHub nếu muốn nhúng vào sản phẩm có thu.

Free tier hỗ trợ context dài bao nhiêu?

256K token. OpenRouter hiển thị 262.144 token, đúng với thẻ model. Đủ chứa nguyên codebase trung bình, tool schema và history.

Kiểm thử Hy3 Preview mà không viết code thế nào?

Dùng Hugging Face Space để chat demo trên browser, hoặc trỏ Apidog vào endpoint OpenRouter. Apidog nhập spec OpenAI, chỉ cần base URL, API key, model name là chạy.