DEV Community

Cover image for ERNIE 5.1 là gì? Mô hình MoE mới của Baidu
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

ERNIE 5.1 là gì? Mô hình MoE mới của Baidu

Baidu đã phát hành ERNIE 5.1 vào ngày 9 tháng 5 năm 2026. Điểm đáng chú ý: đây là mô hình Mixture-of-Experts (MoE) có tổng số tham số khoảng một phần ba ERNIE 5.0, đạt hạng 4 toàn cầu trên Arena Search và đứng đầu trong nhóm mô hình Trung Quốc với điểm 1.223.

Dùng thử Apidog hôm nay

ERNIE 5.1 là phiên bản đầu tiên trong dòng ERNIE được Baidu định vị rõ ràng cho các workload tác nhân: gọi công cụ, suy luận nhiều bước và viết dài. Nếu bạn đang xây dựng hệ thống agent bằng Apidog, hoặc đang so sánh các mô hình Trung Quốc như DeepSeek V4Kimi K2.6, ERNIE 5.1 là một lựa chọn đáng đưa vào benchmark nội bộ.

Bài viết này tập trung vào phần triển khai: ERNIE 5.1 là gì, bạn có thể thử ở đâu, cần kiểm thử những gì, và nên đặt nó vào stack LLM như thế nào.

TL;DR: ERNIE 5.1 trong một đoạn

ERNIE 5.1 là mô hình MoE chỉ văn bản. Baidu cho biết chi phí tiền huấn luyện của nó chỉ khoảng 6% so với các mô hình tiên phong tương đương, tổng số tham số khoảng một phần ba ERNIE 5.0, và số tham số hoạt động trên mỗi lượt truyền tiến khoảng một nửa. Mô hình đạt 1.223 điểm trên Arena Search, vượt DeepSeek-V4-Pro trên τ³-bench và SpreadsheetBench-Verified, đồng thời đạt 99.6 trên AIME26 khi dùng công cụ. Bạn có thể thử qua giao diện chat ERNIE, ERNIE 5.1 Playground trên Baidu AI Studio, hoặc API Qianfan.

Vì sao developer nên quan tâm

Có ba điểm đáng chú ý khi đánh giá ERNIE 5.1 cho ứng dụng thực tế.

1. Tỷ lệ chi phí / chất lượng

Baidu tuyên bố chi phí tiền huấn luyện chỉ khoảng 6% so với các mô hình tương đương. Nếu chi phí này được phản ánh vào giá API Qianfan, ERNIE 5.1 có thể trở thành một lựa chọn cloud rẻ hơn cho các workload agent và tìm kiếm tăng cường.

Khi đánh giá, đừng chỉ nhìn benchmark. Hãy đo:

  • Chi phí mỗi request thực tế
  • Độ trễ trung bình và p95
  • Tỷ lệ tool call đúng
  • Tỷ lệ hallucination trong dữ liệu nghiệp vụ của bạn
  • Chi phí retry khi model gọi sai công cụ

2. MoE định tuyến theo ba trục

Baidu mô tả ERNIE 5.1 là MoE có định tuyến linh hoạt theo:

  • Chiều sâu
  • Chiều rộng
  • Độ thưa thớt

Điều này giúp giảm số tham số hoạt động mà vẫn giữ hiệu năng ở các tác vụ gọi công cụ. Về mặt triển khai, bạn nên xem ERNIE 5.1 như một model cloud tối ưu chi phí, không phải model có thể self-host.

3. Agent là use case chính

ERNIE 5.0 được nhắc nhiều ở khả năng kiến thức và viết sáng tạo. ERNIE 5.1 được Baidu quảng bá trực tiếp cho tác nhân và tool use. Điều này quan trọng nếu bạn đang xây dựng các workflow như:

  • Chatbot có gọi API nội bộ
  • Agent xử lý bảng tính
  • Trợ lý tìm kiếm có trích dẫn
  • Workflow nhiều bước có state
  • LLM router cho nhiều nhà cung cấp

Benchmark: ERNIE 5.1 so với các model khác

Dưới đây là các số liệu Baidu đã công bố và ý nghĩa thực tế khi triển khai.

Benchmark ERNIE 5.1 Kiểm tra gì Đối thủ gần nhất
Arena Search 1,223 — hạng 4 toàn cầu, hạng 1 Trung Quốc QA có nhận thức tìm kiếm, do con người đánh giá Gemini 3.1 Pro, GPT-5.x
τ³-bench Vượt DeepSeek-V4-Pro Tool use đa lượt, tác vụ agent DeepSeek-V4-Pro
SpreadsheetBench-Verified Vượt DeepSeek-V4-Pro Tác vụ bảng tính thực tế DeepSeek-V4-Pro
AIME26 có công cụ 99.6 Toán với trình thông dịch mã GPT-5.x, Gemini 3.1 Pro
GPQA “Tiếp cận các model nguồn đóng hàng đầu” QA khoa học cấp sau đại học Claude Sonnet 4.6
MMLU-Pro “Tiếp cận các model nguồn đóng hàng đầu” Kiến thức tổng quát Các model frontier

Cần đọc benchmark này một cách thận trọng:

  • Arena Search phụ thuộc vào tập prompt và nhóm người đánh giá.
  • AIME26 được đo trong chế độ có công cụ, không phải suy luận thuần túy.
  • Baidu mô tả viết sáng tạo là “tiếp cận Gemini 3.1 Pro”, không tuyên bố vượt.
  • Các benchmark agent như τ³-bench và SpreadsheetBench đáng chú ý hơn nếu bạn đang xây dựng workflow gọi công cụ.

Kiến trúc: những gì đã biết

Baidu chưa công bố chi tiết như một technical paper đầy đủ, nhưng các thông tin sau đã được xác nhận:

  • Tổng số tham số: khoảng một phần ba ERNIE 5.0
  • Tham số hoạt động trên mỗi token: khoảng một nửa ERNIE 5.0
  • Định tuyến: theo chiều sâu, chiều rộng và độ thưa thớt
  • Chi phí tiền huấn luyện: khoảng 6% so với “các model tương đương”
  • Phương thức: chỉ văn bản khi ra mắt
  • Ngôn ngữ: có bản tiếng Trung và tiếng Anh

Những điểm chưa được công bố:

  • Độ dài context window
  • Tổng số tham số chính xác
  • Số expert
  • Ngân sách token huấn luyện
  • Trọng số để self-host

Nếu bạn từng tích hợp các mô hình MoE Trung Quốc như GLM 5.1, hãy chuẩn bị quy trình đánh giá tương tự: kiểm tra độ ổn định output, latency, tool calling và khả năng xử lý prompt dài.

Những gì bạn chưa nên thiết kế dựa vào ERNIE 5.1

Trước khi đưa ERNIE 5.1 vào production, cần ghi nhớ các giới hạn sau.

  • Không có đầu vào hình ảnh. ERNIE 5.1 chỉ xử lý văn bản. Nếu workflow cần thị giác, bạn cần ERNIE-VL hoặc model vision khác.
  • Không có audio input/output. Không hỗ trợ giọng nói tự nhiên hoặc realtime voice.
  • Chưa công bố context window. Với tài liệu dài, hãy chunk input và thêm bước retrieval thay vì gửi toàn bộ tài liệu.
  • Không có trọng số HuggingFace. Đây là model hosted-only. Nếu cần chạy tại chỗ, hãy xem DeepSeek V4 cục bộ hoặc một LLM cục bộ.

Khi nào nên chọn ERNIE 5.1

Nếu bạn đang so sánh ERNIE 5.1 với DeepSeek, Kimi, GLM hoặc Qwen, có thể dùng ma trận quyết định sau.

Chọn ERNIE 5.1 khi

Bạn cần:

  • Agent gọi công cụ ổn định
  • Trả lời có hỗ trợ tìm kiếm bằng tiếng Trung hoặc tiếng Anh
  • Model cloud Trung Quốc có tiềm năng chi phí thấp
  • API hosted thay vì self-host
  • Benchmark tốt trên tác vụ bảng tính và tool use

Chọn DeepSeek V4 khi

Bạn cần:

  • Trọng số mở
  • Triển khai tại chỗ
  • Kiểm soát hạ tầng
  • Suy luận toán học thuần túy mạnh
  • Tích hợp với stack đã dùng DeepSeek

Xem thêm: DeepSeek V4

Chọn Kimi K2.6 khi

Bạn cần:

  • Context window dài
  • Xử lý tài liệu lớn
  • Workflow phân tích văn bản nhiều trang
  • Tóm tắt hoặc truy vấn tài liệu dài

Xem thêm: Kimi K2.6

Chọn GLM 5.1 khi

Bạn cần:

  • Model tổng quát cân bằng
  • Tích hợp với hệ sinh thái Zhipu hoặc Z.ai
  • Một lựa chọn ổn định cho nhiều tác vụ không quá chuyên biệt

Xem thêm: GLM 5.1

Không nên chọn model chỉ dựa vào bảng xếp hạng. Hãy chạy một tập đánh giá 20–50 prompt đại diện cho workload thật của bạn.

Cách thử ERNIE 5.1 hôm nay

Có ba cách chính.

1. Dùng giao diện chat ERNIE

Truy cập ernie.baidu.com.

Phù hợp để kiểm tra nhanh:

  • Viết sáng tạo
  • Hỏi đáp tiếng Trung
  • Hỏi đáp tiếng Anh
  • Suy luận nhiều bước
  • Chất lượng trả lời tự nhiên

2. Dùng ERNIE 5.1 Playground trên Baidu AI Studio

Playground phù hợp hơn nếu bạn muốn thử:

  • Tool calling
  • Agent demo
  • Prompt nhiều lượt
  • So sánh hành vi với model khác trước khi viết code

3. Dùng API Qianfan

API Qianfan là đường triển khai cho developer. Theo mô tả của Baidu, request có định dạng tương thích OpenAI và xác thực bằng Bearer token. Hướng dẫn chi tiết nằm trong bài viết Cách sử dụng API ERNIE 5.1.

Một skeleton request có thể được tổ chức như sau:

curl "$QIANFAN_ENDPOINT" \
  -H "Authorization: Bearer $QIANFAN_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "ernie-5.1",
    "messages": [
      {
        "role": "system",
        "content": "Bạn là trợ lý kỹ thuật, trả lời ngắn gọn và chính xác."
      },
      {
        "role": "user",
        "content": "Tóm tắt log lỗi này và đề xuất bước debug tiếp theo."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Nếu bạn dùng nhiều nhà cung cấp model, Apidog giúp quản lý request template, biến môi trường, API key và so sánh response mà không cần viết script riêng cho từng provider.

Checklist đánh giá ERNIE 5.1 trước production

Thay vì chỉ test vài câu hỏi thủ công, hãy tạo một benchmark nhỏ theo workload thật.

Bước 1: Chọn 20–50 test case

Ví dụ:

  • 10 prompt hỏi đáp nghiệp vụ
  • 10 prompt cần gọi công cụ
  • 10 prompt có dữ liệu bảng
  • 10 prompt dài hoặc nhiều ngữ cảnh
  • 10 prompt gây nhiễu hoặc dễ hallucinate

Bước 2: Xác định tiêu chí chấm điểm

Nên đo ít nhất:

Tiêu chí Cách đo
Độ chính xác So với đáp án chuẩn hoặc review thủ công
Tool call đúng Tên tool, tham số, thứ tự gọi
Latency p50, p95, timeout
Chi phí Token input/output, retry
Tính ổn định Chạy lại cùng prompt nhiều lần
Khả năng từ chối Có từ chối đúng khi thiếu dữ liệu không

Bước 3: So sánh với model hiện tại

Chạy cùng bộ prompt trên:

  • ERNIE 5.1
  • Model production hiện tại
  • Một model fallback
  • Một model rẻ hơn nếu có

Bạn có thể dùng workflow trong Kiểm tra LLM dưới dạng API để chuẩn hóa request và response trong Apidog.

Bước 4: Test tool calling riêng

Với agent, đừng chỉ đọc final answer. Hãy log toàn bộ:

  • Tool nào được gọi
  • Tham số truyền vào tool
  • Tool có được gọi đúng thời điểm không
  • Model có tự sửa khi tool trả lỗi không
  • Model có gọi tool khi không cần không

Một case test đơn giản:

{
  "input": "Tìm đơn hàng gần nhất của khách hàng A và kiểm tra trạng thái giao hàng.",
  "expected_tool_sequence": [
    "search_customer",
    "list_orders",
    "get_shipping_status"
  ],
  "failure_conditions": [
    "bịa mã đơn hàng",
    "bỏ qua bước xác minh khách hàng",
    "trả lời mà không gọi tool"
  ]
}
Enter fullscreen mode Exit fullscreen mode

Giá cả và triển khai

Baidu cho biết ERNIE 5.1 sẽ được triển khai trên hơn 10 nền tảng sản xuất sáng tạo sau khi ra mắt. Tuy nhiên, bài công bố không đưa ra giá public theo token trên Qianfan.

Vì vậy, khi lập kế hoạch production:

  1. Kiểm tra giá trực tiếp trong dashboard Qianfan.
  2. Ước tính token input/output theo traffic thật.
  3. Thêm chi phí retry và fallback.
  4. Đo latency từ khu vực người dùng của bạn.
  5. Xác nhận yêu cầu pháp lý về lưu trữ dữ liệu.

Nếu chính sách dữ liệu của bạn không cho phép hạ tầng đặt tại Trung Quốc, ERNIE 5.1 có thể không phù hợp dù benchmark tốt.

Khuyến nghị triển khai cho developer

1. Không thay model production ngay

Hãy chạy ERNIE 5.1 ở chế độ shadow hoặc A/B test trước:

  • Gửi cùng request đến model hiện tại và ERNIE 5.1
  • Không hiển thị response ERNIE cho user ở giai đoạn đầu
  • Log output để review
  • Chỉ chuyển traffic khi metric ổn định

2. Dùng fallback model

Vì ERNIE 5.1 là hosted-only, nên luôn có fallback:

try:
    response = call_ernie_5_1(request)
except TimeoutError:
    response = call_fallback_model(request)
except ProviderError:
    response = call_fallback_model(request)
Enter fullscreen mode Exit fullscreen mode

Fallback nên được kích hoạt khi:

  • Timeout
  • Rate limit
  • Lỗi xác thực
  • Response không hợp lệ
  • Tool call thiếu tham số bắt buộc

3. Tách prompt theo loại tác vụ

Không dùng một system prompt cho mọi thứ. Tách theo:

  • QA
  • Tool calling
  • Tóm tắt
  • Viết dài
  • Phân tích bảng tính
  • Trích xuất dữ liệu

Điều này giúp bạn đo chính xác ERNIE 5.1 mạnh ở đâu và yếu ở đâu.

4. Giám sát output sau khi deploy

Các chỉ số nên log:

  • Model version
  • Prompt template version
  • Token input/output
  • Latency
  • Tool call trace
  • Error type
  • User feedback
  • Fallback rate

FAQ

ERNIE 5.1 có mã nguồn mở không?

Không. ERNIE 5.1 là model hosted-only, truy cập qua giao diện chat của Baidu, Baidu AI Studio và API Qianfan. Tại thời điểm viết bài, không có trọng số công khai trên HuggingFace.

ERNIE 5.1 có hỗ trợ hình ảnh không?

Không. ERNIE 5.1 chỉ xử lý văn bản khi ra mắt. Với tác vụ thị giác, bạn cần ERNIE-VL hoặc một model multimodal khác. Nếu cần một model multimodal Trung Quốc, có thể xem Qwen 3.5 Omni.

Context window của ERNIE 5.1 là bao nhiêu?

Baidu chưa công bố con số cụ thể. Cho đến khi có thông tin chính thức, nên thiết kế workflow tài liệu dài bằng chunking, retrieval và giới hạn input.

Có thể dùng ERNIE 5.1 bên ngoài Trung Quốc không?

Giao diện chat và API Qianfan có thể truy cập từ nhiều khu vực, nhưng độ trễ, xác minh tài khoản và tính năng doanh nghiệp có thể khác nhau. Một số tính năng có thể yêu cầu số điện thoại hoặc giấy phép kinh doanh tại Trung Quốc đại lục. Xem hướng dẫn Cách sử dụng API ERNIE 5.1 để biết quy trình truy cập.

ERNIE 5.1 có tốt hơn DeepSeek-V4-Pro không?

Theo Baidu, ERNIE 5.1 vượt DeepSeek-V4-Pro trên τ³-bench và SpreadsheetBench-Verified. Tuy nhiên, DeepSeek vẫn có lợi thế nếu bạn cần trọng số mở hoặc triển khai tại chỗ. Với suy luận toán học thuần túy không dùng công cụ, dữ liệu công khai chưa đủ để kết luận chắc chắn.

Kết luận

ERNIE 5.1 đáng chú ý nhất ở ba điểm: thiết kế MoE tiết kiệm chi phí, benchmark agent mạnh, và định hướng rõ ràng cho tool use. Nếu bạn đang xây dựng agent hoặc workflow gọi API, hãy thêm ERNIE 5.1 vào benchmark nội bộ thay vì chỉ đọc điểm số công khai.

Cách tiếp cận thực tế:

  1. Tạo bộ 20–50 prompt đại diện.
  2. Test ERNIE 5.1 qua Qianfan.
  3. So sánh với model hiện tại.
  4. Đo tool call, latency, chi phí và fallback rate.
  5. Chỉ deploy khi metric phù hợp với workload của bạn.

Sẵn sàng bắt đầu xây dựng? Tải Apidog và nhập OpenAPI spec của Qianfan để kiểm thử ERNIE 5.1 cùng các model hiện tại trong một workspace.

Top comments (0)