Baidu เปิดตัว ERNIE 5.1 เมื่อวันที่ 9 พฤษภาคม 2026 จุดเด่นคือโมเดล Mixture-of-Experts ที่มีพารามิเตอร์รวมประมาณหนึ่งในสามของ ERNIE 5.0 แต่ติดอันดับ 4 ของโลกใน Arena Search leaderboard และเป็นอันดับ 1 ในบรรดาโมเดลจีนด้วยคะแนน 1,223
นี่เป็น ERNIE ตระกูลแรกที่ Baidu เปิดเผยการแข่งขันด้านการใช้เครื่องมืออัตโนมัติ การเขียนเชิงสร้างสรรค์แบบยาว และการให้เหตุผลกับ Gemini 3.1 Pro และ DeepSeek-V4-Pro อย่างชัดเจน ไม่ได้จำกัดเฉพาะงานภาษาจีนอีกต่อไป หากคุณพัฒนาด้วย Apidog และกำลังมองหาโมเดลจีนสำหรับระบบเอเจนต์โดยไม่ต้องพึ่งโมเดลขนาด 70B การเปิดตัวนี้ควรถูกใส่ไว้ในชุดประเมินของคุณ
บทความนี้สรุปสิ่งที่นักพัฒนาควรรู้: ERNIE 5.1 คืออะไร มีอะไรเปลี่ยนในสถาปัตยกรรม ผล benchmark เทียบกับ DeepSeek-V4-Pro และ Gemini 3.1 Pro เป็นอย่างไร และควรวางโมเดลนี้ไว้ตรงไหนหากคุณใช้งาน DeepSeek V4 หรือ Kimi K2.6 อยู่แล้วในการผลิต
สรุปสั้นๆ: ERNIE 5.1 คืออะไร
ERNIE 5.1 เป็นโมเดล MoE แบบ text-only ที่ Baidu ระบุว่าใช้ต้นทุน pre-training ประมาณ 6% ของโมเดลแนวหน้าที่เทียบเคียงได้ มีพารามิเตอร์รวมประมาณหนึ่งในสามของ ERNIE 5.0 และพารามิเตอร์ที่ active ต่อหนึ่ง forward pass ประมาณครึ่งหนึ่ง ได้คะแนน 1,223 ใน Arena Search leaderboard อันดับ 4 ของโลก และอันดับ 1 ในจีน
ในงาน agentic tool use โมเดลนี้ชนะ DeepSeek-V4-Pro บน τ³-bench และ SpreadsheetBench-Verified และได้คะแนน 99.6 บน AIME26 เมื่อใช้เครื่องมือร่วมด้วย คุณสามารถลองได้ผ่าน ERNIE chat UI, ERNIE 5.1 Playground ของ Baidu AI Studio และ Qianfan API
ทำไมการเปิดตัวนี้จึงสำคัญกับนักพัฒนา
มี 3 ประเด็นที่ควรดูเป็นพิเศษ หากคุณกำลังเลือกโมเดลสำหรับระบบจริง
1. ต้นทุนต่อคุณภาพอาจเปลี่ยนสมการราคา API
Baidu ระบุว่าต้นทุน pre-training อยู่ที่ประมาณ 6% ของโมเดลที่เทียบเคียงได้ ตัวเลขนี้ยังไม่ใช่ราคา API โดยตรง แต่เป็นสัญญาณว่าราคา inference บน Qianfan อาจแข่งขันได้มากขึ้น
สิ่งที่ควรทำ:
- รอราคา Qianfan อย่างเป็นทางการ
- เทียบต้นทุนต่อ task ไม่ใช่แค่ราคาต่อ token
- วัด latency, retry rate และคุณภาพ output พร้อมกัน
ตัวอย่าง metric ที่ควรเก็บ:
cost_per_successful_task =
total_input_output_cost / number_of_tasks_that_pass_eval
2. MoE แบบยืดหยุ่น 3 แกน
โมเดล MoE ส่วนใหญ่มัก route ตามความกว้าง เช่น เลือก expert บางตัวต่อ token และบางระบบเพิ่มการ route ตามความลึก เช่น ข้ามบาง layer
Baidu ระบุว่า ERNIE 5.1 ใช้การ route ตาม:
- ความลึก
- ความกว้าง
- ความเบาบาง หรือ sparsity
แนวทางนี้ช่วยลดพารามิเตอร์ที่ active ต่อ request โดยยังคงความสามารถด้าน tool use ไว้ เหมาะกับ workload ที่ต้องเรียกโมเดลหลายรอบ เช่น agent, workflow automation และ API orchestration
3. ความสามารถด้านเอเจนต์ไม่ใช่ฟีเจอร์เสริม
ERNIE 5.0 ถูกวางตำแหน่งหนักไปทางความรู้และการเขียนเชิงสร้างสรรค์ แต่ ERNIE 5.1 ถูกโปรโมตว่าใกล้เคียงโมเดลชั้นนำระดับโลกด้าน agentic capability และมี playground สำหรับ demo tool calling โดยตรง
สำหรับนักพัฒนา นี่หมายความว่าคุณควรทดสอบโมเดลนี้ด้วยงานจริง เช่น:
- เลือก API endpoint ให้ถูกจาก schema
- สร้าง request body ตามเงื่อนไข
- แก้ error response แล้ว retry
- อ่านตารางหรือ spreadsheet แล้วเรียก tool ต่อ
- ทำ multi-step reasoning ก่อนตัดสินใจเรียก API
ผล benchmark ที่ Baidu เปิดเผย
ตารางนี้สรุป benchmark สำคัญและสิ่งที่ควรตีความจากมุมมองนักพัฒนา
| เกณฑ์มาตรฐาน | ERNIE 5.1 | สิ่งที่ทดสอบ | คู่แข่งที่ใกล้เคียงที่สุด |
|---|---|---|---|
| Arena Search leaderboard | 1,223 อันดับ 4 ของโลก, อันดับ 1 ในจีน | การตอบคำถามที่รับรู้การค้นหาและประเมินโดยมนุษย์ | Gemini 3.1 Pro, GPT-5.x |
| τ³-bench | ชนะ DeepSeek-V4-Pro | การใช้เครื่องมือแบบเอเจนต์หลายรอบ | DeepSeek-V4-Pro |
| SpreadsheetBench-Verified | ชนะ DeepSeek-V4-Pro | งาน spreadsheet ในโลกจริง | DeepSeek-V4-Pro |
| AIME26 พร้อมเครื่องมือ | 99.6 | คณิตศาสตร์แข่งขันพร้อม code interpreter | GPT-5.x, Gemini 3.1 Pro |
| GPQA | ใกล้เคียงกับโมเดลปิดชั้นนำ | คำถามวิทยาศาสตร์ระดับบัณฑิตศึกษา | Claude Sonnet 4.6 |
| MMLU-Pro | ใกล้เคียงกับโมเดลปิดชั้นนำ | ความรู้ทั่วไป | โมเดลแนวหน้าทั้งหมด |
ข้อควรระวัง:
- คะแนน Arena ขึ้นกับ prompt mix และกลุ่มผู้โหวต
- prompt ภาษาจีนอาจช่วยคะแนนในบางกรณี
- AIME26-with-tools ไม่ใช่คะแนน reasoning แบบไม่มีเครื่องมือ
- งานเขียนเชิงสร้างสรรค์ถูกอธิบายว่าใกล้เคียง Gemini 3.1 Pro ไม่ใช่เท่ากันทุกด้าน
อย่างไรก็ตาม τ³-bench และ SpreadsheetBench-Verified น่าสนใจเป็นพิเศษ เพราะใกล้กับงาน production มากกว่า benchmark แบบถามตอบทั่วไป
สิ่งที่รู้เกี่ยวกับสถาปัตยกรรม ERNIE 5.1
Baidu เปิดเผยรายละเอียดน้อยกว่า DeepSeek ในเอกสารซีรีส์ V3 แต่ข้อมูลที่ประกาศไว้มีดังนี้:
- พารามิเตอร์ทั้งหมด: ประมาณหนึ่งในสามของ ERNIE 5.0
- พารามิเตอร์ที่ active ต่อ token: ประมาณครึ่งหนึ่งของ ERNIE 5.0
- การ route: ยืดหยุ่นตามความลึก ความกว้าง และ sparsity
- ต้นทุน pre-training: ประมาณ 6% ของโมเดลที่เทียบเคียงได้
- รูปแบบ input/output: text-only ตอนเปิดตัว
- ภาษา: มีเวอร์ชันภาษาจีนและภาษาอังกฤษ
สิ่งที่ยังไม่เปิดเผย:
- context window
- จำนวนพารามิเตอร์ที่แน่นอน
- training token budget
- รายละเอียด latency และ throughput บน Qianfan
หากคุณเคยสร้างด้วยโมเดล MoE จีน เช่น GLM 5.1 มาก่อน ให้มอง ERNIE 5.1 เป็นอีกตัวเลือกในกลุ่มเดียวกัน แต่ควรประเมินจาก workload จริงของคุณ
สิ่งที่ยังทำไม่ได้กับ ERNIE 5.1
ก่อนออกแบบระบบ ควรรู้ข้อจำกัดเหล่านี้:
ไม่มี image input
ERNIE 5.1 รองรับเฉพาะข้อความ หากต้องการ vision workflow ของ Baidu ยังต้องใช้ ERNIE-VL หรือโมเดล vision ภายนอกไม่มี audio input/output
ยังไม่มี speech recognition หรือ real-time speech outputยังไม่เปิดเผย context window
หาก workload ของคุณเป็น long document QA ให้แบ่งเอกสารเป็น chunk และทดสอบ retrieval pipeline ก่อนไม่มี model weights บน HuggingFace
ERNIE 5.1 เป็น hosted model เท่านั้น หากต้องการ deploy on-premise ให้พิจารณา DeepSeek V4 แบบติดตั้งในองค์กร หรือ LLM ที่รันในองค์กร
ERNIE 5.1 เหมาะกับงานแบบไหน
ใช้ ERNIE 5.1 เป็น candidate หลักเมื่อ workload ของคุณมีลักษณะนี้:
- ต้องเรียก tool หรือ API หลายรอบ
- ต้องใช้ search-augmented answering
- ต้องประเมินคำตอบภาษาจีนและอังกฤษ
- ต้องการ hosted model บนคลาวด์จีน
- ต้องการทดสอบต้นทุนต่อ task เทียบกับ DeepSeek, Kimi, GLM หรือ Qwen
ตัวอย่าง use case:
User request
↓
LLM วิเคราะห์ intent
↓
เลือก API/tool ที่เหมาะสม
↓
สร้าง request payload
↓
เรียก API
↓
อ่านผลลัพธ์
↓
สรุปคำตอบหรือเรียก tool รอบถัดไป
สำหรับระบบลักษณะนี้ อย่าดูแค่คำตอบสุดท้าย ให้เก็บ log ทุกขั้นตอน เช่น tool ที่เลือก, argument ที่สร้าง, error ที่เจอ และจำนวนรอบที่ใช้ก่อนจบ task
เปรียบเทียบ ERNIE 5.1 กับโมเดลจีนอื่น
หากคุณกำลังเลือกระหว่าง DeepSeek, Kimi, GLM และ Qwen ให้ใช้แนวคิดนี้เป็นจุดเริ่มต้น
เลือก ERNIE 5.1 เมื่อ
คุณต้องการ agentic tool use ที่แข็งแรง พร้อม search-augmented QA ในภาษาจีนหรืออังกฤษ และต้องการทดสอบราคาบนคลาวด์จีน
เลือก DeepSeek V4 เมื่อ
คุณต้องการ open weights, on-premise deployment หรือ reasoning แบบไม่ใช้เครื่องมือที่แข็งแรงในงานคณิตศาสตร์ซับซ้อน
เลือก Kimi K2.6 เมื่อ
คุณต้องการ context window ยาวสำหรับงานเอกสาร เช่น contract review, long report QA หรือ codebase analysis
เลือก GLM 5.1 เมื่อ
คุณต้องการโมเดลทั่วไปที่สมดุล และมี Z.ai หรือ Zhipu อยู่แล้วในระบบ
นี่ไม่ใช่ ranking แบบตายตัว วิธีที่ปลอดภัยกว่าคือสร้าง eval set 50 เคสจากงานจริง แล้วรันเทียบทุกโมเดลด้วย prompt เดียวกัน
วิธีเริ่มทดสอบ ERNIE 5.1
มี 3 ช่องทาง เรียงจากง่ายไปจริงจัง
1. ทดลองผ่าน ERNIE Chat UI
ไปที่ ernie.baidu.com
เหมาะกับ:
- ทดสอบคุณภาพคำตอบทั่วไป
- ทดสอบการเขียน
- ทดสอบ reasoning แบบ manual
- สำรวจ behavior ก่อนเขียน integration
ข้อจำกัดคือไม่เหมาะกับ automated eval และยังไม่สะท้อน production API behavior ทั้งหมด
2. ทดลองผ่าน Baidu AI Studio ERNIE 5.1 Playground
เหมาะกับ:
- ทดสอบ tool calling demo
- ดู pattern การเรียกเครื่องมือ
- ทดลอง prompt สำหรับ agent workflow
- เตรียม spec ก่อนย้ายไป API
3. ใช้ Qianfan API
Qianfan API เป็นช่องทางสำหรับ developer และรองรับ request format ที่เข้ากันได้กับ OpenAI พร้อม Bearer token authentication รายละเอียดขั้นตอนอยู่ในคู่มือ วิธีใช้ ERNIE 5.1 API
ตัวอย่าง request แบบทั่วไป:
curl https://YOUR_QIANFAN_ENDPOINT/v1/chat/completions \
-H "Authorization: Bearer $QIANFAN_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "ernie-5.1",
"messages": [
{
"role": "system",
"content": "คุณเป็นผู้ช่วยสำหรับทดสอบ API workflow"
},
{
"role": "user",
"content": "ช่วยวิเคราะห์ว่า endpoint ใดควรถูกเรียกเพื่อสร้าง order ใหม่"
}
]
}'
เปลี่ยน endpoint, model name และ key ตามค่าที่ Qianfan console ให้จริง
วิธีประเมิน ERNIE 5.1 สำหรับ production
อย่าใช้ benchmark สาธารณะเป็นตัวตัดสินสุดท้าย ให้สร้าง eval ที่สะท้อนระบบของคุณเอง
ขั้นตอนที่แนะนำ
- เลือก task จริง 20-50 เคส
- ระบุ expected behavior ไม่ใช่แค่ expected text
- รันโมเดลปัจจุบันเป็น baseline
- รัน ERNIE 5.1 ด้วย prompt และ tool schema เดียวกัน
- เก็บผลลัพธ์เชิงปริมาณและเชิงคุณภาพ
- วัด cost, latency และ success rate ต่อ task
ตัวอย่าง eval case สำหรับ agent:
{
"case_id": "create_order_001",
"user_input": "สร้างคำสั่งซื้อให้ลูกค้า C102 ด้วยสินค้า SKU-778 จำนวน 3 ชิ้น",
"expected_tool": "create_order",
"expected_arguments": {
"customer_id": "C102",
"items": [
{
"sku": "SKU-778",
"quantity": 3
}
]
},
"pass_criteria": [
"เลือก tool ถูกต้อง",
"ไม่เติม field ที่ไม่มีข้อมูล",
"สร้าง quantity เป็นตัวเลข",
"ไม่เรียก API ซ้ำโดยไม่จำเป็น"
]
}
หากใช้ Apidog คุณสามารถจัดการ API spec, request body, environment variable และเปรียบเทียบ response ของหลาย provider ใน workspace เดียว แทนการเขียน script แยกสำหรับแต่ละโมเดล
ตัวอย่าง workflow ทดสอบด้วย Apidog
แนวทางที่ใช้งานได้จริง:
- นำเข้า OpenAPI spec ของ service ที่ agent จะเรียก
- สร้าง environment สำหรับแต่ละ provider เช่น Qianfan, DeepSeek, GLM
- เก็บ API key เป็น environment variable
- สร้าง request template สำหรับ chat completion
- ใช้ prompt และ tool schema เดียวกันกับทุกโมเดล
- บันทึก response และเปรียบเทียบผลลัพธ์
ตัวอย่าง environment variable:
QIANFAN_API_KEY=xxxx
DEEPSEEK_API_KEY=xxxx
BASE_URL=https://your-provider-endpoint
ตัวอย่างสิ่งที่ควรเปรียบเทียบ:
| Metric | ความหมาย |
|---|---|
| Tool selection accuracy | เลือก tool ถูกหรือไม่ |
| Argument correctness | สร้าง argument ครบและถูก type หรือไม่ |
| Recovery behavior | เจอ error แล้วแก้ได้หรือไม่ |
| Turns to completion | ใช้กี่รอบก่อนจบ task |
| Latency | เวลาตอบกลับรวม |
| Cost per task | ต้นทุนต่อ task ที่ผ่าน eval |
บทความ ทดสอบ LLM ในฐานะ API อธิบายแนวทางการประเมินลักษณะนี้ด้วย Apidog เพิ่มเติม
ราคาและการเปิดตัว
Baidu ประกาศว่า ERNIE 5.1 จะถูกนำไปใช้ใน แพลตฟอร์มการผลิตเชิงสร้างสรรค์กว่า 10 แห่ง ในช่วงไม่กี่สัปดาห์หลังเปิดตัว
อย่างไรก็ตาม ราคา public ต่อ token บน Qianfan ยังไม่ได้ระบุในโพสต์ประกาศ จากข้อมูลเรื่องต้นทุน pre-training ประมาณ 6% และรูปแบบราคาของ Qianfan ในอดีต มีเหตุผลให้คาดว่าราคาอาจอยู่ในระดับเดียวกับ ERNIE 4.5 Turbo หรือต่ำกว่า แต่ไม่ควรอ้างตัวเลขภายในองค์กรจนกว่าจะตรวจสอบจาก Qianfan console จริง
สิ่งที่ควรทำก่อนตัดสินใจ:
- ตรวจราคา input/output token ล่าสุด
- ทดสอบ latency จาก region ที่ผู้ใช้ของคุณอยู่
- ตรวจเงื่อนไข data residency
- คำนวณ cost ต่อ successful task
- ทดสอบ fallback model เผื่อ Qianfan มี rate limit หรือ downtime
ข้อควรพิจารณาด้าน compliance
ERNIE 5.1 ผ่าน Qianfan เป็น hosted model บนคลาวด์จีน ดังนั้นก่อนใช้ production ควรตรวจสอบ:
- ข้อมูลสามารถส่งไปยัง infrastructure ในจีนได้หรือไม่
- มีข้อกำหนด PII หรือข้อมูลลูกค้าที่ห้ามออกนอก region หรือไม่
- ต้องมี data processing agreement หรือเอกสารองค์กรเพิ่มเติมหรือไม่
- การยืนยันบัญชีต้องใช้หมายเลขโทรศัพท์หรือธุรกิจในจีนแผ่นดินใหญ่หรือไม่
หากนโยบายระบุว่าห้ามใช้ infrastructure ใน PRC โมเดลนี้อาจไม่เหมาะ ไม่ว่า benchmark จะดีเพียงใด
คำแนะนำสำหรับนักพัฒนา
1. ทดสอบด้วย agent eval ของคุณเอง
τ³-bench เป็นสัญญาณที่ดี แต่ไม่ใช่ workload ของคุณ สร้าง eval 20-50 เคสที่สะท้อนการเรียก tool จริง แล้วเทียบ ERNIE 5.1 กับโมเดลที่ใช้อยู่
2. อย่าทดสอบเฉพาะคำตอบสุดท้าย
สำหรับ agent system คำตอบสุดท้ายอาจดูถูกต้อง แต่ tool call อาจผิด ควรตรวจ:
- tool name
- argument
- number of turns
- retry behavior
- hallucinated fields
- error handling
3. ติดตามราคา API อย่างใกล้ชิด
จุดที่น่าสนใจที่สุดของ ERNIE 5.1 คือการอ้างต้นทุน pre-training ประมาณ 6% หาก Baidu ส่งผ่านข้อได้เปรียบนี้ไปยังราคา API จริง อาจทำให้ baseline ราคาของโมเดลจีนลดลง และบังคับให้ DeepSeek, Zhipu และ Moonshot ต้องตอบสนอง
คำถามที่พบบ่อย
ERNIE 5.1 เป็นโอเพนซอร์สหรือไม่?
ไม่ใช่ ERNIE 5.1 เป็น hosted model เท่านั้น เข้าถึงได้ผ่าน UI แชทของ Baidu, Baidu AI Studio และ Qianfan API ขณะเขียนนี้ยังไม่มี public weights บน HuggingFace
ERNIE 5.1 รองรับ image input หรือ vision หรือไม่?
ไม่รองรับ ERNIE 5.1 เป็น text-only ตอนเปิดตัว งานด้าน vision ของ Baidu อยู่ในตระกูล ERNIE-VL หากต้องการโมเดลจีนแบบ multimodal ตัวเดียว อาจพิจารณา Qwen 3.5 Omni
Context length ของ ERNIE 5.1 คือเท่าใด?
Baidu ยังไม่เปิดเผยตัวเลข context window ที่ชัดเจนในโพสต์ประกาศ จนกว่าจะมีข้อมูลยืนยัน ควรออกแบบ long-document workflow ด้วย chunking และ retrieval แทนการส่งเอกสารยาวทั้งหมดเข้าไปใน prompt เดียว
ใช้ ERNIE 5.1 จากนอกประเทศจีนได้หรือไม่?
UI แชทและ Qianfan API สามารถเข้าถึงได้จากหลาย region แต่ latency และขั้นตอนยืนยันบัญชีอาจแตกต่างกัน บางฟีเจอร์องค์กรอาจต้องใช้หมายเลขโทรศัพท์หรือใบอนุญาตธุรกิจในจีนแผ่นดินใหญ่ คู่มือ วิธีใช้ ERNIE 5.1 API อธิบายขั้นตอนการเข้าถึงโดยละเอียด
ERNIE 5.1 ดีกว่า DeepSeek-V4-Pro หรือไม่?
ขึ้นกับงานที่วัด Baidu ระบุว่า ERNIE 5.1 ชนะ DeepSeek-V4-Pro บน τ³-bench และ SpreadsheetBench-Verified แต่ DeepSeek ยังได้เปรียบด้าน open weights และ on-premise deployment ส่วน reasoning แบบไม่ใช้เครื่องมือยังไม่มีตัวเลขสาธารณะที่ชี้ขาด
ตำแหน่งที่ตรงไปตรงมาคือ ทั้งสองโมเดลเหมาะกับ deployment model ที่ต่างกันเล็กน้อย ERNIE 5.1 เหมาะกับ hosted agent workflow บน Qianfan ส่วน DeepSeek เหมาะกับกรณีที่ต้องการควบคุม deployment มากกว่า
สรุป
ERNIE 5.1 เป็นโมเดลที่ควรจับตา หากคุณกำลังสร้าง agent ที่ต้องเรียก API หรือเครื่องมือหลายรอบ จุดเด่นคือ benchmark ด้าน tool use, สถาปัตยกรรม MoE ที่ประหยัดกว่าเดิม และการเข้าถึงผ่าน Qianfan API
แนวทางที่ดีที่สุดคือไม่เชื่อ benchmark เพียงอย่างเดียว ให้สร้าง eval set จากงานจริงของคุณ นำเข้า Qianfan OpenAPI spec เข้า Apidog แล้วทดสอบ ERNIE 5.1 ควบคู่กับโมเดลปัจจุบันใน workspace เดียว



Top comments (0)