Walse

Posted on May 14 • Originally published at apidog.com

Apa itu ERNIE 5.1? Model MoE Terbaru dari Baidu

Baidu merilis ERNIE 5.1 pada 9 Mei 2026. Poin utamanya: model Mixture-of-Experts dengan total parameter sekitar sepertiga dari ERNIE 5.0 ini menempati posisi ke-4 global di Arena Search dan posisi pertama di antara model Tiongkok dengan skor 1.223.

Coba Apidog hari ini

Rilis ini penting untuk developer karena ERNIE 5.1 tidak hanya diposisikan sebagai model chat. Baidu menekankan penggunaan alat agensi, penulisan kreatif bentuk panjang, dan penalaran yang dibandingkan dengan Gemini 3.1 Pro dan DeepSeek-V4-Pro. Jika Anda membangun workflow LLM dengan Apidog, ERNIE 5.1 layak diuji sebagai kandidat model cloud Tiongkok untuk agent stack tanpa footprint model 70B-parameter.

Panduan ini membahas apa itu ERNIE 5.1, apa yang berubah, benchmark yang dipublikasikan Baidu, batasannya, dan cara mulai mengevaluasinya melalui UI ERNIE, Baidu AI Studio, atau Qianfan API.

TL;DR: ERNIE 5.1 untuk developer

ERNIE 5.1 adalah model MoE khusus teks. Baidu menyebut biaya pra-pelatihannya sekitar 6% dari model perbatasan sebanding, dengan total parameter sekitar sepertiga dari ERNIE 5.0 dan parameter aktif per forward pass sekitar setengahnya. Model ini mencetak 1.223 di Arena Search, mengungguli DeepSeek-V4-Pro pada τ³-bench dan SpreadsheetBench-Verified, serta mencapai 99,6 pada AIME26 dengan penggunaan alat. Akses tersedia melalui UI obrolan ERNIE, ERNIE 5.1 Playground di Baidu AI Studio, dan Qianfan API.

Mengapa developer perlu memperhatikan ERNIE 5.1

1. Rasio biaya-kualitas bisa memengaruhi harga API

Klaim biaya pra-pelatihan sekitar 6% dari model sebanding adalah angka yang relevan untuk tim yang menjalankan LLM di produksi. Jika Baidu meneruskan efisiensi ini ke Qianfan API, biaya eksperimen dan serving model Tiongkok bisa menjadi lebih kompetitif.

Yang perlu Anda lakukan:

pantau harga resmi Qianfan, bukan hanya klaim rilis;
hitung biaya per use case, bukan per token saja;
bandingkan latency, kualitas output, dan retry rate dengan model yang sudah Anda pakai.

2. MoE elastis di kedalaman, lebar, dan sparsity

Baidu menyebut ERNIE 5.1 menggunakan routing elastis pada tiga sumbu:

kedalaman: lapisan mana yang digunakan;
lebar: pakar mana yang aktif;
sparsity: seberapa banyak jalur komputasi dipakai.

Implikasinya untuk developer: jangan hanya menilai ukuran parameter total. Untuk model MoE, parameter aktif, latency, routing, dan kualitas tool use lebih penting saat Anda mendesain agent workflow.

3. Tool use menjadi fitur inti

ERNIE 5.1 diposisikan untuk agentic workflow, bukan hanya chat biasa. Ini terlihat dari penekanan Baidu pada benchmark seperti τ³-bench dan demo tool calling di Baidu AI Studio.

Untuk evaluasi praktis, siapkan test case seperti:

model memilih tool yang benar;
model mengisi argumen tool sesuai schema;
model memperbaiki error setelah tool gagal;
model mempertahankan konteks multi-turn;
model tidak memanggil tool saat tidak diperlukan.

Benchmark ERNIE 5.1

Berikut ringkasan angka dan klaim yang dipublikasikan Baidu.

Tolok ukur	ERNIE 5.1	Yang diuji	Pembanding terdekat
Arena Search	1.223; ke-4 global, ke-1 Tiongkok	QA berbasis pencarian yang dinilai manusia	Gemini 3.1 Pro, GPT-5.x
τ³-bench	Mengalahkan DeepSeek-V4-Pro	Tool use agensi multi-turn	DeepSeek-V4-Pro
SpreadsheetBench-Verified	Mengalahkan DeepSeek-V4-Pro	Tugas spreadsheet dunia nyata	DeepSeek-V4-Pro
AIME26 dengan alat	99.6	Matematika kompetisi dengan code interpreter	GPT-5.x, Gemini 3.1 Pro
GPQA	“Mendekati sumber tertutup terkemuka”	QA sains tingkat pascasarjana	Claude Sonnet 4.6
MMLU-Pro	“Mendekati sumber tertutup terkemuka”	Pengetahuan umum tingkat lanjut	Model perbatasan lain

Catatan penting:

Skor Arena bergantung pada distribusi prompt dan pemilih.
AIME26 yang disebut adalah versi dengan alat, bukan pure reasoning tanpa tool.
Klaim creative writing disebut mendekati Gemini 3.1 Pro, bukan menyamai.
Hasil τ³-bench dan SpreadsheetBench-Verified paling relevan jika Anda membangun agent dengan tool calling.

Detail arsitektur yang diketahui

Baidu belum membuka detail sebanyak paper DeepSeek V3, tetapi beberapa poin sudah dikonfirmasi:

Total parameter: sekitar sepertiga dari ERNIE 5.0
Parameter aktif per token: sekitar setengah dari ERNIE 5.0
Routing: elastis pada kedalaman, lebar, dan sparsity
Biaya pra-pelatihan: sekitar 6% dari “model sebanding”
Modalitas: teks saja saat peluncuran
Bahasa: versi Mandarin dan Inggris tersedia

Yang belum dipublikasikan:

panjang konteks resmi;
jumlah parameter tepat;
ukuran dataset atau training token;
bobot model publik.

Jika Anda pernah membangun dengan model MoE Tiongkok seperti GLM 5.1, perlakukan ERNIE 5.1 sebagai model hosted dengan permukaan integrasi API serupa: kirim prompt, definisikan tool, uji stabilitas respons, lalu ukur biaya dan latency.

Batasan ERNIE 5.1 saat ini

Sebelum memasukkannya ke roadmap, perhatikan batasan berikut.

Tidak ada input gambar

ERNIE 5.1 hanya mendukung teks saat peluncuran. Untuk workflow multimodal, gunakan ERNIE-VL atau model visi lain.
Tidak ada input/output audio

Tidak ada speech native atau real-time voice.
Panjang konteks belum diumumkan

Untuk dokumen panjang, gunakan chunking, retrieval, atau summarization pipeline.
Tidak ada bobot HuggingFace

ERNIE 5.1 adalah model hosted. Jika Anda butuh deployment lokal, pertimbangkan DeepSeek V4 lokal atau LLM lokal.

Kapan memilih ERNIE 5.1, DeepSeek, Kimi, atau GLM

Gunakan model mental berikut saat memilih model untuk produksi.

Pilih ERNIE 5.1 jika

Anda membutuhkan:

tool use agensi yang kuat;
workflow pencarian dan QA dalam Mandarin atau Inggris;
model hosted melalui ekosistem cloud Tiongkok;
kandidat biaya API yang berpotensi kompetitif.

Pilih DeepSeek V4 jika

Anda membutuhkan:

bobot terbuka;
deployment on-premise;
kontrol infrastruktur;
evaluasi reasoning matematika tanpa tool.

Pilih Kimi K2.6 jika

Anda membutuhkan workflow dokumen panjang dan konteks besar.

Pilih GLM 5.1 jika

Anda membutuhkan generalis seimbang dan sudah memakai Z.ai atau Zhipu dalam stack Anda.

Rekomendasi praktis: jangan memilih berdasarkan leaderboard saja. Jalankan 20–50 prompt internal yang mencerminkan beban kerja Anda.

Cara mencoba ERNIE 5.1

Ada tiga jalur utama.

1. UI obrolan ERNIE

Buka ernie.baidu.com.

Cocok untuk:

menguji gaya jawaban;
mencoba reasoning sederhana;
mengevaluasi penulisan kreatif;
validasi awal tanpa API key.

Tidak cocok untuk:

automated evaluation;
regression testing;
integrasi agent produksi.

2. Baidu AI Studio ERNIE 5.1 Playground

Gunakan playground jika Anda ingin menguji tool calling sebelum menulis kode.

Checklist pengujian:

buat satu tool sederhana;
definisikan schema input;
berikan prompt multi-turn;
lihat apakah model memilih tool dengan benar;
uji skenario error dan retry.

Contoh schema tool sederhana:

{
  "name": "get_order_status",
  "description": "Mengambil status pesanan berdasarkan order_id.",
  "parameters": {
    "type": "object",
    "properties": {
      "order_id": {
        "type": "string",
        "description": "ID pesanan pengguna."
      }
    },
    "required": ["order_id"]
  }
}

Prompt uji:

Pengguna bertanya: "Pesanan ORD-92731 saya sudah sampai mana?"

Tentukan apakah perlu memanggil tool. Jika perlu, panggil tool yang sesuai dengan argumen yang valid.

3. Qianfan API

Qianfan API adalah jalur untuk integrasi developer. Baidu menyebut bentuk request kompatibel dengan OpenAI dan menggunakan Bearer token.

Gunakan pola request seperti ini, lalu sesuaikan endpoint dan nama model dari konsol Qianfan Anda:

curl -X POST "$QIANFAN_BASE_URL/chat/completions" \
  -H "Authorization: Bearer $QIANFAN_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "ERNIE-5.1",
    "messages": [
      {
        "role": "system",
        "content": "Anda adalah asisten teknis yang menjawab secara ringkas."
      },
      {
        "role": "user",
        "content": "Jelaskan cara mendesain evaluasi tool calling untuk LLM agent."
      }
    ]
  }'

Jika Anda butuh panduan detail, lihat Cara menggunakan API ERNIE 5.1.

Cara menguji ERNIE 5.1 dengan Apidog

Jika Anda membandingkan beberapa penyedia model Tiongkok, Apidog bisa dipakai untuk menyimpan request, environment, dan respons dalam satu workspace.

Langkah praktis:

Buat environment untuk setiap provider:
- qianfan
- deepseek
- kimi
- glm
Simpan variabel environment:
- base_url
- api_key
- model
Buat request POST /chat/completions.
Gunakan header:

Authorization: Bearer {{api_key}}
Content-Type: application/json

Buat body reusable:

{
  "model": "{{model}}",
  "messages": [
    {
      "role": "system",
      "content": "Anda adalah agent yang hanya memanggil tool jika diperlukan."
    },
    {
      "role": "user",
      "content": "Cek status pesanan ORD-92731."
    }
  ]
}

Duplikasi request untuk tiap provider.
Bandingkan:
- kualitas jawaban;
- format JSON;
- kepatuhan terhadap schema;
- latency;
- error rate;
- biaya per skenario.

Untuk pendekatan evaluasi API yang lebih umum, lihat Uji LLM sebagai API.

Template evaluasi agent untuk ERNIE 5.1

Gunakan tabel sederhana berikut untuk mengevaluasi sebelum produksi.

Kasus uji	Prompt	Tool yang diharapkan	Output valid?	Catatan
Status pesanan	“Pesanan ORD-92731 saya di mana?”	`get_order_status`	Ya/Tidak	Cek argumen `order_id`
Tidak perlu tool	“Apa itu ERNIE 5.1?”	Tidak ada	Ya/Tidak	Model tidak boleh hallucinate call
Error tool	Tool mengembalikan 500	Retry atau minta maaf	Ya/Tidak	Cek recovery
Multi-turn	User memberi ID di pesan kedua	`get_order_status`	Ya/Tidak	Cek memori konteks
Ambiguitas	“Cek pesanan saya” tanpa ID	Tanya klarifikasi	Ya/Tidak	Jangan panggil tool kosong

Contoh kriteria kelulusan:

Model dianggap lulus jika:
1. memilih tool yang benar;
2. mengisi argumen sesuai schema;
3. tidak memanggil tool saat tidak diperlukan;
4. bisa menangani error tool;
5. memberi jawaban akhir yang jelas setelah tool selesai.

Harga dan rollout

Baidu mengumumkan ERNIE 5.1 akan diluncurkan di 10+ platform produksi kreatif dalam beberapa minggu setelah peluncuran. Harga publik per token di Qianfan tidak tercantum dalam postingan rilis.

Yang sebaiknya dilakukan sebelum mengutip biaya internal:

cek konsol Qianfan terbaru;
hitung biaya input dan output secara terpisah;
uji token usage pada prompt nyata;
masukkan retry dan tool-call overhead;
bandingkan dengan model yang sudah Anda pakai.

Klaim biaya pra-pelatihan sekitar 6% menarik, tetapi harga produksi tetap harus diverifikasi dari billing resmi.

Rekomendasi implementasi

Jika Anda ingin mencoba ERNIE 5.1 secara serius, gunakan urutan berikut.

1. Mulai dari evaluasi kecil

Jangan langsung migrasi dari model lama. Buat 20–50 test case dari log internal atau skenario produk Anda.

Prioritaskan:

prompt berbahasa Mandarin dan Inggris;
kasus tool calling;
kasus long answer;
kasus format JSON;
kasus refusal atau safety;
kasus dokumen panjang jika relevan.

2. Uji dengan prompt dan schema yang sama

Agar perbandingan adil, gunakan prompt, tool schema, dan data input yang sama untuk ERNIE 5.1, DeepSeek, Kimi, atau GLM.

3. Pisahkan evaluasi kualitas dan biaya

Jangan hanya memilih model termurah. Ukur:

success rate;
jumlah retry;
latency p95;
output token;
stabilitas format;
biaya total per task selesai.

4. Perhatikan lokasi hosting

Qianfan dihosting di Tiongkok. Jika kebijakan data Anda melarang infrastruktur RRT, ERNIE 5.1 mungkin tidak cocok meskipun benchmark-nya bagus.

FAQ

Apakah ERNIE 5.1 open source?

Tidak. ERNIE 5.1 adalah model hosted yang dapat diakses melalui UI obrolan Baidu, Baidu AI Studio, dan Qianfan API. Tidak ada bobot publik di HuggingFace saat ini.

Apakah ERNIE 5.1 mendukung input gambar?

Tidak. ERNIE 5.1 hanya teks saat peluncuran. Untuk tugas visi, gunakan keluarga ERNIE-VL atau model multimodal lain. Jika Anda membutuhkan model multimodal Tiongkok, lihat Qwen 3.5 Omni.

Berapa panjang konteks ERNIE 5.1?

Baidu belum mempublikasikan angka jendela konteks spesifik dalam postingan rilis. Untuk sementara, desain workflow dokumen panjang secara defensif dengan chunking dan retrieval.

Bisakah ERNIE 5.1 digunakan dari luar Tiongkok?

UI obrolan dan Qianfan API dapat diakses dari banyak wilayah, tetapi latency, verifikasi akun, dan fitur enterprise dapat berbeda. Beberapa fitur mungkin memerlukan nomor telepon atau izin usaha daratan. Lihat Cara menggunakan API ERNIE 5.1 untuk detail akses.

Apakah ERNIE 5.1 lebih baik dari DeepSeek-V4-Pro?

Pada τ³-bench dan SpreadsheetBench-Verified, Baidu mengatakan ERNIE 5.1 mengungguli DeepSeek-V4-Pro. Namun, untuk bobot terbuka, deployment lokal, dan beberapa skenario reasoning tanpa tool, jawabannya belum sesederhana itu. Keduanya menargetkan kebutuhan deployment yang berbeda.

Kesimpulan

ERNIE 5.1 adalah rilis penting karena menggabungkan MoE yang lebih efisien, fokus pada tool use, dan performa benchmark yang kuat di area agentic workflow. Untuk developer, pendekatan terbaik adalah tidak langsung percaya leaderboard, tetapi menjalankan evaluasi API kecil dengan prompt dan tool schema milik sendiri.

Jika hasilnya stabil, ERNIE 5.1 bisa menjadi kandidat kuat untuk agent stack berbasis cloud Tiongkok, terutama untuk workflow pencarian, QA, dan tool calling.

DEV Community