Sebastian Petrus

Posted on May 14 • Originally published at apidog.com

ERNIE 5.1 là gì? Mô hình MoE mới của Baidu

Baidu đã phát hành ERNIE 5.1 vào ngày 9 tháng 5 năm 2026. Điểm đáng chú ý: đây là mô hình Mixture-of-Experts (MoE) có tổng số tham số khoảng một phần ba ERNIE 5.0, đạt hạng 4 toàn cầu trên Arena Search và đứng đầu trong nhóm mô hình Trung Quốc với điểm 1.223.

Dùng thử Apidog hôm nay

ERNIE 5.1 là phiên bản đầu tiên trong dòng ERNIE được Baidu định vị rõ ràng cho các workload tác nhân: gọi công cụ, suy luận nhiều bước và viết dài. Nếu bạn đang xây dựng hệ thống agent bằng Apidog, hoặc đang so sánh các mô hình Trung Quốc như DeepSeek V4 và Kimi K2.6, ERNIE 5.1 là một lựa chọn đáng đưa vào benchmark nội bộ.

Bài viết này tập trung vào phần triển khai: ERNIE 5.1 là gì, bạn có thể thử ở đâu, cần kiểm thử những gì, và nên đặt nó vào stack LLM như thế nào.

TL;DR: ERNIE 5.1 trong một đoạn

ERNIE 5.1 là mô hình MoE chỉ văn bản. Baidu cho biết chi phí tiền huấn luyện của nó chỉ khoảng 6% so với các mô hình tiên phong tương đương, tổng số tham số khoảng một phần ba ERNIE 5.0, và số tham số hoạt động trên mỗi lượt truyền tiến khoảng một nửa. Mô hình đạt 1.223 điểm trên Arena Search, vượt DeepSeek-V4-Pro trên τ³-bench và SpreadsheetBench-Verified, đồng thời đạt 99.6 trên AIME26 khi dùng công cụ. Bạn có thể thử qua giao diện chat ERNIE, ERNIE 5.1 Playground trên Baidu AI Studio, hoặc API Qianfan.

Vì sao developer nên quan tâm

Có ba điểm đáng chú ý khi đánh giá ERNIE 5.1 cho ứng dụng thực tế.

1. Tỷ lệ chi phí / chất lượng

Baidu tuyên bố chi phí tiền huấn luyện chỉ khoảng 6% so với các mô hình tương đương. Nếu chi phí này được phản ánh vào giá API Qianfan, ERNIE 5.1 có thể trở thành một lựa chọn cloud rẻ hơn cho các workload agent và tìm kiếm tăng cường.

Khi đánh giá, đừng chỉ nhìn benchmark. Hãy đo:

Chi phí mỗi request thực tế
Độ trễ trung bình và p95
Tỷ lệ tool call đúng
Tỷ lệ hallucination trong dữ liệu nghiệp vụ của bạn
Chi phí retry khi model gọi sai công cụ

2. MoE định tuyến theo ba trục

Baidu mô tả ERNIE 5.1 là MoE có định tuyến linh hoạt theo:

Chiều sâu
Chiều rộng
Độ thưa thớt

Điều này giúp giảm số tham số hoạt động mà vẫn giữ hiệu năng ở các tác vụ gọi công cụ. Về mặt triển khai, bạn nên xem ERNIE 5.1 như một model cloud tối ưu chi phí, không phải model có thể self-host.

3. Agent là use case chính

ERNIE 5.0 được nhắc nhiều ở khả năng kiến thức và viết sáng tạo. ERNIE 5.1 được Baidu quảng bá trực tiếp cho tác nhân và tool use. Điều này quan trọng nếu bạn đang xây dựng các workflow như:

Chatbot có gọi API nội bộ
Agent xử lý bảng tính
Trợ lý tìm kiếm có trích dẫn
Workflow nhiều bước có state
LLM router cho nhiều nhà cung cấp

Benchmark: ERNIE 5.1 so với các model khác

Dưới đây là các số liệu Baidu đã công bố và ý nghĩa thực tế khi triển khai.

Benchmark	ERNIE 5.1	Kiểm tra gì	Đối thủ gần nhất
Arena Search	1,223 — hạng 4 toàn cầu, hạng 1 Trung Quốc	QA có nhận thức tìm kiếm, do con người đánh giá	Gemini 3.1 Pro, GPT-5.x
τ³-bench	Vượt DeepSeek-V4-Pro	Tool use đa lượt, tác vụ agent	DeepSeek-V4-Pro
SpreadsheetBench-Verified	Vượt DeepSeek-V4-Pro	Tác vụ bảng tính thực tế	DeepSeek-V4-Pro
AIME26 có công cụ	99.6	Toán với trình thông dịch mã	GPT-5.x, Gemini 3.1 Pro
GPQA	“Tiếp cận các model nguồn đóng hàng đầu”	QA khoa học cấp sau đại học	Claude Sonnet 4.6
MMLU-Pro	“Tiếp cận các model nguồn đóng hàng đầu”	Kiến thức tổng quát	Các model frontier

Cần đọc benchmark này một cách thận trọng:

Arena Search phụ thuộc vào tập prompt và nhóm người đánh giá.
AIME26 được đo trong chế độ có công cụ, không phải suy luận thuần túy.
Baidu mô tả viết sáng tạo là “tiếp cận Gemini 3.1 Pro”, không tuyên bố vượt.
Các benchmark agent như τ³-bench và SpreadsheetBench đáng chú ý hơn nếu bạn đang xây dựng workflow gọi công cụ.

Kiến trúc: những gì đã biết

Baidu chưa công bố chi tiết như một technical paper đầy đủ, nhưng các thông tin sau đã được xác nhận:

Tổng số tham số: khoảng một phần ba ERNIE 5.0
Tham số hoạt động trên mỗi token: khoảng một nửa ERNIE 5.0
Định tuyến: theo chiều sâu, chiều rộng và độ thưa thớt
Chi phí tiền huấn luyện: khoảng 6% so với “các model tương đương”
Phương thức: chỉ văn bản khi ra mắt
Ngôn ngữ: có bản tiếng Trung và tiếng Anh

Những điểm chưa được công bố:

Độ dài context window
Tổng số tham số chính xác
Số expert
Ngân sách token huấn luyện
Trọng số để self-host

Nếu bạn từng tích hợp các mô hình MoE Trung Quốc như GLM 5.1, hãy chuẩn bị quy trình đánh giá tương tự: kiểm tra độ ổn định output, latency, tool calling và khả năng xử lý prompt dài.

Những gì bạn chưa nên thiết kế dựa vào ERNIE 5.1

Trước khi đưa ERNIE 5.1 vào production, cần ghi nhớ các giới hạn sau.

Không có đầu vào hình ảnh. ERNIE 5.1 chỉ xử lý văn bản. Nếu workflow cần thị giác, bạn cần ERNIE-VL hoặc model vision khác.
Không có audio input/output. Không hỗ trợ giọng nói tự nhiên hoặc realtime voice.
Chưa công bố context window. Với tài liệu dài, hãy chunk input và thêm bước retrieval thay vì gửi toàn bộ tài liệu.
Không có trọng số HuggingFace. Đây là model hosted-only. Nếu cần chạy tại chỗ, hãy xem DeepSeek V4 cục bộ hoặc một LLM cục bộ.

Khi nào nên chọn ERNIE 5.1

Nếu bạn đang so sánh ERNIE 5.1 với DeepSeek, Kimi, GLM hoặc Qwen, có thể dùng ma trận quyết định sau.

Chọn ERNIE 5.1 khi

Bạn cần:

Agent gọi công cụ ổn định
Trả lời có hỗ trợ tìm kiếm bằng tiếng Trung hoặc tiếng Anh
Model cloud Trung Quốc có tiềm năng chi phí thấp
API hosted thay vì self-host
Benchmark tốt trên tác vụ bảng tính và tool use

Chọn DeepSeek V4 khi

Bạn cần:

Trọng số mở
Triển khai tại chỗ
Kiểm soát hạ tầng
Suy luận toán học thuần túy mạnh
Tích hợp với stack đã dùng DeepSeek

Xem thêm: DeepSeek V4

Chọn Kimi K2.6 khi

Bạn cần:

Context window dài
Xử lý tài liệu lớn
Workflow phân tích văn bản nhiều trang
Tóm tắt hoặc truy vấn tài liệu dài

Xem thêm: Kimi K2.6

Chọn GLM 5.1 khi

Bạn cần:

Model tổng quát cân bằng
Tích hợp với hệ sinh thái Zhipu hoặc Z.ai
Một lựa chọn ổn định cho nhiều tác vụ không quá chuyên biệt

Xem thêm: GLM 5.1

Không nên chọn model chỉ dựa vào bảng xếp hạng. Hãy chạy một tập đánh giá 20–50 prompt đại diện cho workload thật của bạn.

Cách thử ERNIE 5.1 hôm nay

Có ba cách chính.

1. Dùng giao diện chat ERNIE

Truy cập ernie.baidu.com.

Phù hợp để kiểm tra nhanh:

Viết sáng tạo
Hỏi đáp tiếng Trung
Hỏi đáp tiếng Anh
Suy luận nhiều bước
Chất lượng trả lời tự nhiên

2. Dùng ERNIE 5.1 Playground trên Baidu AI Studio

Playground phù hợp hơn nếu bạn muốn thử:

Tool calling
Agent demo
Prompt nhiều lượt
So sánh hành vi với model khác trước khi viết code

3. Dùng API Qianfan

API Qianfan là đường triển khai cho developer. Theo mô tả của Baidu, request có định dạng tương thích OpenAI và xác thực bằng Bearer token. Hướng dẫn chi tiết nằm trong bài viết Cách sử dụng API ERNIE 5.1.

Một skeleton request có thể được tổ chức như sau:

curl "$QIANFAN_ENDPOINT" \
  -H "Authorization: Bearer $QIANFAN_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "ernie-5.1",
    "messages": [
      {
        "role": "system",
        "content": "Bạn là trợ lý kỹ thuật, trả lời ngắn gọn và chính xác."
      },
      {
        "role": "user",
        "content": "Tóm tắt log lỗi này và đề xuất bước debug tiếp theo."
      }
    ]
  }'

Nếu bạn dùng nhiều nhà cung cấp model, Apidog giúp quản lý request template, biến môi trường, API key và so sánh response mà không cần viết script riêng cho từng provider.

Checklist đánh giá ERNIE 5.1 trước production

Thay vì chỉ test vài câu hỏi thủ công, hãy tạo một benchmark nhỏ theo workload thật.

Bước 1: Chọn 20–50 test case

Ví dụ:

10 prompt hỏi đáp nghiệp vụ
10 prompt cần gọi công cụ
10 prompt có dữ liệu bảng
10 prompt dài hoặc nhiều ngữ cảnh
10 prompt gây nhiễu hoặc dễ hallucinate

Bước 2: Xác định tiêu chí chấm điểm

Nên đo ít nhất:

Tiêu chí	Cách đo
Độ chính xác	So với đáp án chuẩn hoặc review thủ công
Tool call đúng	Tên tool, tham số, thứ tự gọi
Latency	p50, p95, timeout
Chi phí	Token input/output, retry
Tính ổn định	Chạy lại cùng prompt nhiều lần
Khả năng từ chối	Có từ chối đúng khi thiếu dữ liệu không

Bước 3: So sánh với model hiện tại

Chạy cùng bộ prompt trên:

ERNIE 5.1
Model production hiện tại
Một model fallback
Một model rẻ hơn nếu có

Bạn có thể dùng workflow trong Kiểm tra LLM dưới dạng API để chuẩn hóa request và response trong Apidog.

Bước 4: Test tool calling riêng

Với agent, đừng chỉ đọc final answer. Hãy log toàn bộ:

Tool nào được gọi
Tham số truyền vào tool
Tool có được gọi đúng thời điểm không
Model có tự sửa khi tool trả lỗi không
Model có gọi tool khi không cần không

Một case test đơn giản:

{
  "input": "Tìm đơn hàng gần nhất của khách hàng A và kiểm tra trạng thái giao hàng.",
  "expected_tool_sequence": [
    "search_customer",
    "list_orders",
    "get_shipping_status"
  ],
  "failure_conditions": [
    "bịa mã đơn hàng",
    "bỏ qua bước xác minh khách hàng",
    "trả lời mà không gọi tool"
  ]
}

Giá cả và triển khai

Baidu cho biết ERNIE 5.1 sẽ được triển khai trên hơn 10 nền tảng sản xuất sáng tạo sau khi ra mắt. Tuy nhiên, bài công bố không đưa ra giá public theo token trên Qianfan.

Vì vậy, khi lập kế hoạch production:

Kiểm tra giá trực tiếp trong dashboard Qianfan.
Ước tính token input/output theo traffic thật.
Thêm chi phí retry và fallback.
Đo latency từ khu vực người dùng của bạn.
Xác nhận yêu cầu pháp lý về lưu trữ dữ liệu.

Nếu chính sách dữ liệu của bạn không cho phép hạ tầng đặt tại Trung Quốc, ERNIE 5.1 có thể không phù hợp dù benchmark tốt.

Khuyến nghị triển khai cho developer

1. Không thay model production ngay

Hãy chạy ERNIE 5.1 ở chế độ shadow hoặc A/B test trước:

Gửi cùng request đến model hiện tại và ERNIE 5.1
Không hiển thị response ERNIE cho user ở giai đoạn đầu
Log output để review
Chỉ chuyển traffic khi metric ổn định

2. Dùng fallback model

Vì ERNIE 5.1 là hosted-only, nên luôn có fallback:

try:
    response = call_ernie_5_1(request)
except TimeoutError:
    response = call_fallback_model(request)
except ProviderError:
    response = call_fallback_model(request)

Fallback nên được kích hoạt khi:

Timeout
Rate limit
Lỗi xác thực
Response không hợp lệ
Tool call thiếu tham số bắt buộc

3. Tách prompt theo loại tác vụ

Không dùng một system prompt cho mọi thứ. Tách theo:

QA
Tool calling
Tóm tắt
Viết dài
Phân tích bảng tính
Trích xuất dữ liệu

Điều này giúp bạn đo chính xác ERNIE 5.1 mạnh ở đâu và yếu ở đâu.

4. Giám sát output sau khi deploy

Các chỉ số nên log:

Model version
Prompt template version
Token input/output
Latency
Tool call trace
Error type
User feedback
Fallback rate

FAQ

ERNIE 5.1 có mã nguồn mở không?

Không. ERNIE 5.1 là model hosted-only, truy cập qua giao diện chat của Baidu, Baidu AI Studio và API Qianfan. Tại thời điểm viết bài, không có trọng số công khai trên HuggingFace.

ERNIE 5.1 có hỗ trợ hình ảnh không?

Không. ERNIE 5.1 chỉ xử lý văn bản khi ra mắt. Với tác vụ thị giác, bạn cần ERNIE-VL hoặc một model multimodal khác. Nếu cần một model multimodal Trung Quốc, có thể xem Qwen 3.5 Omni.

Context window của ERNIE 5.1 là bao nhiêu?

Baidu chưa công bố con số cụ thể. Cho đến khi có thông tin chính thức, nên thiết kế workflow tài liệu dài bằng chunking, retrieval và giới hạn input.

Có thể dùng ERNIE 5.1 bên ngoài Trung Quốc không?

Giao diện chat và API Qianfan có thể truy cập từ nhiều khu vực, nhưng độ trễ, xác minh tài khoản và tính năng doanh nghiệp có thể khác nhau. Một số tính năng có thể yêu cầu số điện thoại hoặc giấy phép kinh doanh tại Trung Quốc đại lục. Xem hướng dẫn Cách sử dụng API ERNIE 5.1 để biết quy trình truy cập.

ERNIE 5.1 có tốt hơn DeepSeek-V4-Pro không?

Theo Baidu, ERNIE 5.1 vượt DeepSeek-V4-Pro trên τ³-bench và SpreadsheetBench-Verified. Tuy nhiên, DeepSeek vẫn có lợi thế nếu bạn cần trọng số mở hoặc triển khai tại chỗ. Với suy luận toán học thuần túy không dùng công cụ, dữ liệu công khai chưa đủ để kết luận chắc chắn.

Kết luận

ERNIE 5.1 đáng chú ý nhất ở ba điểm: thiết kế MoE tiết kiệm chi phí, benchmark agent mạnh, và định hướng rõ ràng cho tool use. Nếu bạn đang xây dựng agent hoặc workflow gọi API, hãy thêm ERNIE 5.1 vào benchmark nội bộ thay vì chỉ đọc điểm số công khai.

Cách tiếp cận thực tế:

Tạo bộ 20–50 prompt đại diện.
Test ERNIE 5.1 qua Qianfan.
So sánh với model hiện tại.
Đo tool call, latency, chi phí và fallback rate.
Chỉ deploy khi metric phù hợp với workload của bạn.

Sẵn sàng bắt đầu xây dựng? Tải Apidog và nhập OpenAPI spec của Qianfan để kiểm thử ERNIE 5.1 cùng các model hiện tại trong một workspace.

DEV Community

ERNIE 5.1 là gì? Mô hình MoE mới của Baidu

TL;DR: ERNIE 5.1 trong một đoạn

Vì sao developer nên quan tâm

1. Tỷ lệ chi phí / chất lượng

2. MoE định tuyến theo ba trục

3. Agent là use case chính

Benchmark: ERNIE 5.1 so với các model khác

Kiến trúc: những gì đã biết

Những gì bạn chưa nên thiết kế dựa vào ERNIE 5.1

Khi nào nên chọn ERNIE 5.1

Chọn ERNIE 5.1 khi

Chọn DeepSeek V4 khi

Chọn Kimi K2.6 khi

Chọn GLM 5.1 khi

Cách thử ERNIE 5.1 hôm nay

1. Dùng giao diện chat ERNIE

2. Dùng ERNIE 5.1 Playground trên Baidu AI Studio

3. Dùng API Qianfan

Checklist đánh giá ERNIE 5.1 trước production

Bước 1: Chọn 20–50 test case

Bước 2: Xác định tiêu chí chấm điểm

Bước 3: So sánh với model hiện tại

Bước 4: Test tool calling riêng

Giá cả và triển khai

Khuyến nghị triển khai cho developer

1. Không thay model production ngay

2. Dùng fallback model

3. Tách prompt theo loại tác vụ

4. Giám sát output sau khi deploy

FAQ

ERNIE 5.1 có mã nguồn mở không?

ERNIE 5.1 có hỗ trợ hình ảnh không?

Context window của ERNIE 5.1 là bao nhiêu?

Có thể dùng ERNIE 5.1 bên ngoài Trung Quốc không?

ERNIE 5.1 có tốt hơn DeepSeek-V4-Pro không?

Kết luận

Top comments (0)