Thanawat Wongchai

Posted on May 14 • Originally published at apidog.com

ERNIE 5.1 คืออะไร โมเดล MoE ใหม่ล่าสุดจาก Baidu

Baidu เปิดตัว ERNIE 5.1 เมื่อวันที่ 9 พฤษภาคม 2026 จุดเด่นคือโมเดล Mixture-of-Experts ที่มีพารามิเตอร์รวมประมาณหนึ่งในสามของ ERNIE 5.0 แต่ติดอันดับ 4 ของโลกใน Arena Search leaderboard และเป็นอันดับ 1 ในบรรดาโมเดลจีนด้วยคะแนน 1,223

ลองใช้ Apidog วันนี้

นี่เป็น ERNIE ตระกูลแรกที่ Baidu เปิดเผยการแข่งขันด้านการใช้เครื่องมืออัตโนมัติ การเขียนเชิงสร้างสรรค์แบบยาว และการให้เหตุผลกับ Gemini 3.1 Pro และ DeepSeek-V4-Pro อย่างชัดเจน ไม่ได้จำกัดเฉพาะงานภาษาจีนอีกต่อไป หากคุณพัฒนาด้วย Apidog และกำลังมองหาโมเดลจีนสำหรับระบบเอเจนต์โดยไม่ต้องพึ่งโมเดลขนาด 70B การเปิดตัวนี้ควรถูกใส่ไว้ในชุดประเมินของคุณ

บทความนี้สรุปสิ่งที่นักพัฒนาควรรู้: ERNIE 5.1 คืออะไร มีอะไรเปลี่ยนในสถาปัตยกรรม ผล benchmark เทียบกับ DeepSeek-V4-Pro และ Gemini 3.1 Pro เป็นอย่างไร และควรวางโมเดลนี้ไว้ตรงไหนหากคุณใช้งาน DeepSeek V4 หรือ Kimi K2.6 อยู่แล้วในการผลิต

สรุปสั้นๆ: ERNIE 5.1 คืออะไร

ERNIE 5.1 เป็นโมเดล MoE แบบ text-only ที่ Baidu ระบุว่าใช้ต้นทุน pre-training ประมาณ 6% ของโมเดลแนวหน้าที่เทียบเคียงได้ มีพารามิเตอร์รวมประมาณหนึ่งในสามของ ERNIE 5.0 และพารามิเตอร์ที่ active ต่อหนึ่ง forward pass ประมาณครึ่งหนึ่ง ได้คะแนน 1,223 ใน Arena Search leaderboard อันดับ 4 ของโลก และอันดับ 1 ในจีน

ในงาน agentic tool use โมเดลนี้ชนะ DeepSeek-V4-Pro บน τ³-bench และ SpreadsheetBench-Verified และได้คะแนน 99.6 บน AIME26 เมื่อใช้เครื่องมือร่วมด้วย คุณสามารถลองได้ผ่าน ERNIE chat UI, ERNIE 5.1 Playground ของ Baidu AI Studio และ Qianfan API

ทำไมการเปิดตัวนี้จึงสำคัญกับนักพัฒนา

มี 3 ประเด็นที่ควรดูเป็นพิเศษ หากคุณกำลังเลือกโมเดลสำหรับระบบจริง

1. ต้นทุนต่อคุณภาพอาจเปลี่ยนสมการราคา API

Baidu ระบุว่าต้นทุน pre-training อยู่ที่ประมาณ 6% ของโมเดลที่เทียบเคียงได้ ตัวเลขนี้ยังไม่ใช่ราคา API โดยตรง แต่เป็นสัญญาณว่าราคา inference บน Qianfan อาจแข่งขันได้มากขึ้น

สิ่งที่ควรทำ:

รอราคา Qianfan อย่างเป็นทางการ
เทียบต้นทุนต่อ task ไม่ใช่แค่ราคาต่อ token
วัด latency, retry rate และคุณภาพ output พร้อมกัน

ตัวอย่าง metric ที่ควรเก็บ:

cost_per_successful_task =
  total_input_output_cost / number_of_tasks_that_pass_eval

2. MoE แบบยืดหยุ่น 3 แกน

โมเดล MoE ส่วนใหญ่มัก route ตามความกว้าง เช่น เลือก expert บางตัวต่อ token และบางระบบเพิ่มการ route ตามความลึก เช่น ข้ามบาง layer

Baidu ระบุว่า ERNIE 5.1 ใช้การ route ตาม:

ความลึก
ความกว้าง
ความเบาบาง หรือ sparsity

แนวทางนี้ช่วยลดพารามิเตอร์ที่ active ต่อ request โดยยังคงความสามารถด้าน tool use ไว้ เหมาะกับ workload ที่ต้องเรียกโมเดลหลายรอบ เช่น agent, workflow automation และ API orchestration

3. ความสามารถด้านเอเจนต์ไม่ใช่ฟีเจอร์เสริม

ERNIE 5.0 ถูกวางตำแหน่งหนักไปทางความรู้และการเขียนเชิงสร้างสรรค์ แต่ ERNIE 5.1 ถูกโปรโมตว่าใกล้เคียงโมเดลชั้นนำระดับโลกด้าน agentic capability และมี playground สำหรับ demo tool calling โดยตรง

สำหรับนักพัฒนา นี่หมายความว่าคุณควรทดสอบโมเดลนี้ด้วยงานจริง เช่น:

เลือก API endpoint ให้ถูกจาก schema
สร้าง request body ตามเงื่อนไข
แก้ error response แล้ว retry
อ่านตารางหรือ spreadsheet แล้วเรียก tool ต่อ
ทำ multi-step reasoning ก่อนตัดสินใจเรียก API

ผล benchmark ที่ Baidu เปิดเผย

ตารางนี้สรุป benchmark สำคัญและสิ่งที่ควรตีความจากมุมมองนักพัฒนา

เกณฑ์มาตรฐาน	ERNIE 5.1	สิ่งที่ทดสอบ	คู่แข่งที่ใกล้เคียงที่สุด
Arena Search leaderboard	1,223 อันดับ 4 ของโลก, อันดับ 1 ในจีน	การตอบคำถามที่รับรู้การค้นหาและประเมินโดยมนุษย์	Gemini 3.1 Pro, GPT-5.x
τ³-bench	ชนะ DeepSeek-V4-Pro	การใช้เครื่องมือแบบเอเจนต์หลายรอบ	DeepSeek-V4-Pro
SpreadsheetBench-Verified	ชนะ DeepSeek-V4-Pro	งาน spreadsheet ในโลกจริง	DeepSeek-V4-Pro
AIME26 พร้อมเครื่องมือ	99.6	คณิตศาสตร์แข่งขันพร้อม code interpreter	GPT-5.x, Gemini 3.1 Pro
GPQA	ใกล้เคียงกับโมเดลปิดชั้นนำ	คำถามวิทยาศาสตร์ระดับบัณฑิตศึกษา	Claude Sonnet 4.6
MMLU-Pro	ใกล้เคียงกับโมเดลปิดชั้นนำ	ความรู้ทั่วไป	โมเดลแนวหน้าทั้งหมด

ข้อควรระวัง:

คะแนน Arena ขึ้นกับ prompt mix และกลุ่มผู้โหวต
prompt ภาษาจีนอาจช่วยคะแนนในบางกรณี
AIME26-with-tools ไม่ใช่คะแนน reasoning แบบไม่มีเครื่องมือ
งานเขียนเชิงสร้างสรรค์ถูกอธิบายว่าใกล้เคียง Gemini 3.1 Pro ไม่ใช่เท่ากันทุกด้าน

อย่างไรก็ตาม τ³-bench และ SpreadsheetBench-Verified น่าสนใจเป็นพิเศษ เพราะใกล้กับงาน production มากกว่า benchmark แบบถามตอบทั่วไป

สิ่งที่รู้เกี่ยวกับสถาปัตยกรรม ERNIE 5.1

Baidu เปิดเผยรายละเอียดน้อยกว่า DeepSeek ในเอกสารซีรีส์ V3 แต่ข้อมูลที่ประกาศไว้มีดังนี้:

พารามิเตอร์ทั้งหมด: ประมาณหนึ่งในสามของ ERNIE 5.0
พารามิเตอร์ที่ active ต่อ token: ประมาณครึ่งหนึ่งของ ERNIE 5.0
การ route: ยืดหยุ่นตามความลึก ความกว้าง และ sparsity
ต้นทุน pre-training: ประมาณ 6% ของโมเดลที่เทียบเคียงได้
รูปแบบ input/output: text-only ตอนเปิดตัว
ภาษา: มีเวอร์ชันภาษาจีนและภาษาอังกฤษ

สิ่งที่ยังไม่เปิดเผย:

context window
จำนวนพารามิเตอร์ที่แน่นอน
training token budget
รายละเอียด latency และ throughput บน Qianfan

หากคุณเคยสร้างด้วยโมเดล MoE จีน เช่น GLM 5.1 มาก่อน ให้มอง ERNIE 5.1 เป็นอีกตัวเลือกในกลุ่มเดียวกัน แต่ควรประเมินจาก workload จริงของคุณ

สิ่งที่ยังทำไม่ได้กับ ERNIE 5.1

ก่อนออกแบบระบบ ควรรู้ข้อจำกัดเหล่านี้:

ไม่มี image input

ERNIE 5.1 รองรับเฉพาะข้อความ หากต้องการ vision workflow ของ Baidu ยังต้องใช้ ERNIE-VL หรือโมเดล vision ภายนอก
ไม่มี audio input/output

ยังไม่มี speech recognition หรือ real-time speech output
ยังไม่เปิดเผย context window

หาก workload ของคุณเป็น long document QA ให้แบ่งเอกสารเป็น chunk และทดสอบ retrieval pipeline ก่อน
ไม่มี model weights บน HuggingFace

ERNIE 5.1 เป็น hosted model เท่านั้น หากต้องการ deploy on-premise ให้พิจารณา DeepSeek V4 แบบติดตั้งในองค์กร หรือ LLM ที่รันในองค์กร

ERNIE 5.1 เหมาะกับงานแบบไหน

ใช้ ERNIE 5.1 เป็น candidate หลักเมื่อ workload ของคุณมีลักษณะนี้:

ต้องเรียก tool หรือ API หลายรอบ
ต้องใช้ search-augmented answering
ต้องประเมินคำตอบภาษาจีนและอังกฤษ
ต้องการ hosted model บนคลาวด์จีน
ต้องการทดสอบต้นทุนต่อ task เทียบกับ DeepSeek, Kimi, GLM หรือ Qwen

ตัวอย่าง use case:

User request
  ↓
LLM วิเคราะห์ intent
  ↓
เลือก API/tool ที่เหมาะสม
  ↓
สร้าง request payload
  ↓
เรียก API
  ↓
อ่านผลลัพธ์
  ↓
สรุปคำตอบหรือเรียก tool รอบถัดไป

สำหรับระบบลักษณะนี้ อย่าดูแค่คำตอบสุดท้าย ให้เก็บ log ทุกขั้นตอน เช่น tool ที่เลือก, argument ที่สร้าง, error ที่เจอ และจำนวนรอบที่ใช้ก่อนจบ task

เปรียบเทียบ ERNIE 5.1 กับโมเดลจีนอื่น

หากคุณกำลังเลือกระหว่าง DeepSeek, Kimi, GLM และ Qwen ให้ใช้แนวคิดนี้เป็นจุดเริ่มต้น

เลือก ERNIE 5.1 เมื่อ

คุณต้องการ agentic tool use ที่แข็งแรง พร้อม search-augmented QA ในภาษาจีนหรืออังกฤษ และต้องการทดสอบราคาบนคลาวด์จีน

เลือก DeepSeek V4 เมื่อ

คุณต้องการ open weights, on-premise deployment หรือ reasoning แบบไม่ใช้เครื่องมือที่แข็งแรงในงานคณิตศาสตร์ซับซ้อน

เลือก Kimi K2.6 เมื่อ

คุณต้องการ context window ยาวสำหรับงานเอกสาร เช่น contract review, long report QA หรือ codebase analysis

เลือก GLM 5.1 เมื่อ

คุณต้องการโมเดลทั่วไปที่สมดุล และมี Z.ai หรือ Zhipu อยู่แล้วในระบบ

นี่ไม่ใช่ ranking แบบตายตัว วิธีที่ปลอดภัยกว่าคือสร้าง eval set 50 เคสจากงานจริง แล้วรันเทียบทุกโมเดลด้วย prompt เดียวกัน

วิธีเริ่มทดสอบ ERNIE 5.1

มี 3 ช่องทาง เรียงจากง่ายไปจริงจัง

1. ทดลองผ่าน ERNIE Chat UI

ไปที่ ernie.baidu.com

เหมาะกับ:

ทดสอบคุณภาพคำตอบทั่วไป
ทดสอบการเขียน
ทดสอบ reasoning แบบ manual
สำรวจ behavior ก่อนเขียน integration

ข้อจำกัดคือไม่เหมาะกับ automated eval และยังไม่สะท้อน production API behavior ทั้งหมด

2. ทดลองผ่าน Baidu AI Studio ERNIE 5.1 Playground

เหมาะกับ:

ทดสอบ tool calling demo
ดู pattern การเรียกเครื่องมือ
ทดลอง prompt สำหรับ agent workflow
เตรียม spec ก่อนย้ายไป API

3. ใช้ Qianfan API

Qianfan API เป็นช่องทางสำหรับ developer และรองรับ request format ที่เข้ากันได้กับ OpenAI พร้อม Bearer token authentication รายละเอียดขั้นตอนอยู่ในคู่มือ วิธีใช้ ERNIE 5.1 API

ตัวอย่าง request แบบทั่วไป:

curl https://YOUR_QIANFAN_ENDPOINT/v1/chat/completions \
  -H "Authorization: Bearer $QIANFAN_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "ernie-5.1",
    "messages": [
      {
        "role": "system",
        "content": "คุณเป็นผู้ช่วยสำหรับทดสอบ API workflow"
      },
      {
        "role": "user",
        "content": "ช่วยวิเคราะห์ว่า endpoint ใดควรถูกเรียกเพื่อสร้าง order ใหม่"
      }
    ]
  }'

เปลี่ยน endpoint, model name และ key ตามค่าที่ Qianfan console ให้จริง

วิธีประเมิน ERNIE 5.1 สำหรับ production

อย่าใช้ benchmark สาธารณะเป็นตัวตัดสินสุดท้าย ให้สร้าง eval ที่สะท้อนระบบของคุณเอง

ขั้นตอนที่แนะนำ

เลือก task จริง 20-50 เคส
ระบุ expected behavior ไม่ใช่แค่ expected text
รันโมเดลปัจจุบันเป็น baseline
รัน ERNIE 5.1 ด้วย prompt และ tool schema เดียวกัน
เก็บผลลัพธ์เชิงปริมาณและเชิงคุณภาพ
วัด cost, latency และ success rate ต่อ task

ตัวอย่าง eval case สำหรับ agent:

{
  "case_id": "create_order_001",
  "user_input": "สร้างคำสั่งซื้อให้ลูกค้า C102 ด้วยสินค้า SKU-778 จำนวน 3 ชิ้น",
  "expected_tool": "create_order",
  "expected_arguments": {
    "customer_id": "C102",
    "items": [
      {
        "sku": "SKU-778",
        "quantity": 3
      }
    ]
  },
  "pass_criteria": [
    "เลือก tool ถูกต้อง",
    "ไม่เติม field ที่ไม่มีข้อมูล",
    "สร้าง quantity เป็นตัวเลข",
    "ไม่เรียก API ซ้ำโดยไม่จำเป็น"
  ]
}

หากใช้ Apidog คุณสามารถจัดการ API spec, request body, environment variable และเปรียบเทียบ response ของหลาย provider ใน workspace เดียว แทนการเขียน script แยกสำหรับแต่ละโมเดล

ตัวอย่าง workflow ทดสอบด้วย Apidog

แนวทางที่ใช้งานได้จริง:

นำเข้า OpenAPI spec ของ service ที่ agent จะเรียก
สร้าง environment สำหรับแต่ละ provider เช่น Qianfan, DeepSeek, GLM
เก็บ API key เป็น environment variable
สร้าง request template สำหรับ chat completion
ใช้ prompt และ tool schema เดียวกันกับทุกโมเดล
บันทึก response และเปรียบเทียบผลลัพธ์

ตัวอย่าง environment variable:

QIANFAN_API_KEY=xxxx
DEEPSEEK_API_KEY=xxxx
BASE_URL=https://your-provider-endpoint

ตัวอย่างสิ่งที่ควรเปรียบเทียบ:

Metric	ความหมาย
Tool selection accuracy	เลือก tool ถูกหรือไม่
Argument correctness	สร้าง argument ครบและถูก type หรือไม่
Recovery behavior	เจอ error แล้วแก้ได้หรือไม่
Turns to completion	ใช้กี่รอบก่อนจบ task
Latency	เวลาตอบกลับรวม
Cost per task	ต้นทุนต่อ task ที่ผ่าน eval

บทความ ทดสอบ LLM ในฐานะ API อธิบายแนวทางการประเมินลักษณะนี้ด้วย Apidog เพิ่มเติม

ราคาและการเปิดตัว

Baidu ประกาศว่า ERNIE 5.1 จะถูกนำไปใช้ใน แพลตฟอร์มการผลิตเชิงสร้างสรรค์กว่า 10 แห่ง ในช่วงไม่กี่สัปดาห์หลังเปิดตัว

อย่างไรก็ตาม ราคา public ต่อ token บน Qianfan ยังไม่ได้ระบุในโพสต์ประกาศ จากข้อมูลเรื่องต้นทุน pre-training ประมาณ 6% และรูปแบบราคาของ Qianfan ในอดีต มีเหตุผลให้คาดว่าราคาอาจอยู่ในระดับเดียวกับ ERNIE 4.5 Turbo หรือต่ำกว่า แต่ไม่ควรอ้างตัวเลขภายในองค์กรจนกว่าจะตรวจสอบจาก Qianfan console จริง

สิ่งที่ควรทำก่อนตัดสินใจ:

ตรวจราคา input/output token ล่าสุด
ทดสอบ latency จาก region ที่ผู้ใช้ของคุณอยู่
ตรวจเงื่อนไข data residency
คำนวณ cost ต่อ successful task
ทดสอบ fallback model เผื่อ Qianfan มี rate limit หรือ downtime

ข้อควรพิจารณาด้าน compliance

ERNIE 5.1 ผ่าน Qianfan เป็น hosted model บนคลาวด์จีน ดังนั้นก่อนใช้ production ควรตรวจสอบ:

ข้อมูลสามารถส่งไปยัง infrastructure ในจีนได้หรือไม่
มีข้อกำหนด PII หรือข้อมูลลูกค้าที่ห้ามออกนอก region หรือไม่
ต้องมี data processing agreement หรือเอกสารองค์กรเพิ่มเติมหรือไม่
การยืนยันบัญชีต้องใช้หมายเลขโทรศัพท์หรือธุรกิจในจีนแผ่นดินใหญ่หรือไม่

หากนโยบายระบุว่าห้ามใช้ infrastructure ใน PRC โมเดลนี้อาจไม่เหมาะ ไม่ว่า benchmark จะดีเพียงใด

คำแนะนำสำหรับนักพัฒนา

1. ทดสอบด้วย agent eval ของคุณเอง

τ³-bench เป็นสัญญาณที่ดี แต่ไม่ใช่ workload ของคุณ สร้าง eval 20-50 เคสที่สะท้อนการเรียก tool จริง แล้วเทียบ ERNIE 5.1 กับโมเดลที่ใช้อยู่

2. อย่าทดสอบเฉพาะคำตอบสุดท้าย

สำหรับ agent system คำตอบสุดท้ายอาจดูถูกต้อง แต่ tool call อาจผิด ควรตรวจ:

tool name
argument
number of turns
retry behavior
hallucinated fields
error handling

3. ติดตามราคา API อย่างใกล้ชิด

จุดที่น่าสนใจที่สุดของ ERNIE 5.1 คือการอ้างต้นทุน pre-training ประมาณ 6% หาก Baidu ส่งผ่านข้อได้เปรียบนี้ไปยังราคา API จริง อาจทำให้ baseline ราคาของโมเดลจีนลดลง และบังคับให้ DeepSeek, Zhipu และ Moonshot ต้องตอบสนอง

คำถามที่พบบ่อย

ERNIE 5.1 เป็นโอเพนซอร์สหรือไม่?

ไม่ใช่ ERNIE 5.1 เป็น hosted model เท่านั้น เข้าถึงได้ผ่าน UI แชทของ Baidu, Baidu AI Studio และ Qianfan API ขณะเขียนนี้ยังไม่มี public weights บน HuggingFace

ERNIE 5.1 รองรับ image input หรือ vision หรือไม่?

ไม่รองรับ ERNIE 5.1 เป็น text-only ตอนเปิดตัว งานด้าน vision ของ Baidu อยู่ในตระกูล ERNIE-VL หากต้องการโมเดลจีนแบบ multimodal ตัวเดียว อาจพิจารณา Qwen 3.5 Omni

Context length ของ ERNIE 5.1 คือเท่าใด?

Baidu ยังไม่เปิดเผยตัวเลข context window ที่ชัดเจนในโพสต์ประกาศ จนกว่าจะมีข้อมูลยืนยัน ควรออกแบบ long-document workflow ด้วย chunking และ retrieval แทนการส่งเอกสารยาวทั้งหมดเข้าไปใน prompt เดียว

ใช้ ERNIE 5.1 จากนอกประเทศจีนได้หรือไม่?

UI แชทและ Qianfan API สามารถเข้าถึงได้จากหลาย region แต่ latency และขั้นตอนยืนยันบัญชีอาจแตกต่างกัน บางฟีเจอร์องค์กรอาจต้องใช้หมายเลขโทรศัพท์หรือใบอนุญาตธุรกิจในจีนแผ่นดินใหญ่ คู่มือ วิธีใช้ ERNIE 5.1 API อธิบายขั้นตอนการเข้าถึงโดยละเอียด

ERNIE 5.1 ดีกว่า DeepSeek-V4-Pro หรือไม่?

ขึ้นกับงานที่วัด Baidu ระบุว่า ERNIE 5.1 ชนะ DeepSeek-V4-Pro บน τ³-bench และ SpreadsheetBench-Verified แต่ DeepSeek ยังได้เปรียบด้าน open weights และ on-premise deployment ส่วน reasoning แบบไม่ใช้เครื่องมือยังไม่มีตัวเลขสาธารณะที่ชี้ขาด

ตำแหน่งที่ตรงไปตรงมาคือ ทั้งสองโมเดลเหมาะกับ deployment model ที่ต่างกันเล็กน้อย ERNIE 5.1 เหมาะกับ hosted agent workflow บน Qianfan ส่วน DeepSeek เหมาะกับกรณีที่ต้องการควบคุม deployment มากกว่า

สรุป

ERNIE 5.1 เป็นโมเดลที่ควรจับตา หากคุณกำลังสร้าง agent ที่ต้องเรียก API หรือเครื่องมือหลายรอบ จุดเด่นคือ benchmark ด้าน tool use, สถาปัตยกรรม MoE ที่ประหยัดกว่าเดิม และการเข้าถึงผ่าน Qianfan API

แนวทางที่ดีที่สุดคือไม่เชื่อ benchmark เพียงอย่างเดียว ให้สร้าง eval set จากงานจริงของคุณ นำเข้า Qianfan OpenAPI spec เข้า Apidog แล้วทดสอบ ERNIE 5.1 ควบคู่กับโมเดลปัจจุบันใน workspace เดียว

DEV Community