Baidu merilis ERNIE 5.1 pada 9 Mei 2026. Poin utamanya: model Mixture-of-Experts dengan total parameter sekitar sepertiga dari ERNIE 5.0 ini menempati posisi ke-4 global di Arena Search dan posisi pertama di antara model Tiongkok dengan skor 1.223.
Rilis ini penting untuk developer karena ERNIE 5.1 tidak hanya diposisikan sebagai model chat. Baidu menekankan penggunaan alat agensi, penulisan kreatif bentuk panjang, dan penalaran yang dibandingkan dengan Gemini 3.1 Pro dan DeepSeek-V4-Pro. Jika Anda membangun workflow LLM dengan Apidog, ERNIE 5.1 layak diuji sebagai kandidat model cloud Tiongkok untuk agent stack tanpa footprint model 70B-parameter.
Panduan ini membahas apa itu ERNIE 5.1, apa yang berubah, benchmark yang dipublikasikan Baidu, batasannya, dan cara mulai mengevaluasinya melalui UI ERNIE, Baidu AI Studio, atau Qianfan API.
TL;DR: ERNIE 5.1 untuk developer
ERNIE 5.1 adalah model MoE khusus teks. Baidu menyebut biaya pra-pelatihannya sekitar 6% dari model perbatasan sebanding, dengan total parameter sekitar sepertiga dari ERNIE 5.0 dan parameter aktif per forward pass sekitar setengahnya. Model ini mencetak 1.223 di Arena Search, mengungguli DeepSeek-V4-Pro pada τ³-bench dan SpreadsheetBench-Verified, serta mencapai 99,6 pada AIME26 dengan penggunaan alat. Akses tersedia melalui UI obrolan ERNIE, ERNIE 5.1 Playground di Baidu AI Studio, dan Qianfan API.
Mengapa developer perlu memperhatikan ERNIE 5.1
1. Rasio biaya-kualitas bisa memengaruhi harga API
Klaim biaya pra-pelatihan sekitar 6% dari model sebanding adalah angka yang relevan untuk tim yang menjalankan LLM di produksi. Jika Baidu meneruskan efisiensi ini ke Qianfan API, biaya eksperimen dan serving model Tiongkok bisa menjadi lebih kompetitif.
Yang perlu Anda lakukan:
- pantau harga resmi Qianfan, bukan hanya klaim rilis;
- hitung biaya per use case, bukan per token saja;
- bandingkan latency, kualitas output, dan retry rate dengan model yang sudah Anda pakai.
2. MoE elastis di kedalaman, lebar, dan sparsity
Baidu menyebut ERNIE 5.1 menggunakan routing elastis pada tiga sumbu:
- kedalaman: lapisan mana yang digunakan;
- lebar: pakar mana yang aktif;
- sparsity: seberapa banyak jalur komputasi dipakai.
Implikasinya untuk developer: jangan hanya menilai ukuran parameter total. Untuk model MoE, parameter aktif, latency, routing, dan kualitas tool use lebih penting saat Anda mendesain agent workflow.
3. Tool use menjadi fitur inti
ERNIE 5.1 diposisikan untuk agentic workflow, bukan hanya chat biasa. Ini terlihat dari penekanan Baidu pada benchmark seperti τ³-bench dan demo tool calling di Baidu AI Studio.
Untuk evaluasi praktis, siapkan test case seperti:
- model memilih tool yang benar;
- model mengisi argumen tool sesuai schema;
- model memperbaiki error setelah tool gagal;
- model mempertahankan konteks multi-turn;
- model tidak memanggil tool saat tidak diperlukan.
Benchmark ERNIE 5.1
Berikut ringkasan angka dan klaim yang dipublikasikan Baidu.
| Tolok ukur | ERNIE 5.1 | Yang diuji | Pembanding terdekat |
|---|---|---|---|
| Arena Search | 1.223; ke-4 global, ke-1 Tiongkok | QA berbasis pencarian yang dinilai manusia | Gemini 3.1 Pro, GPT-5.x |
| τ³-bench | Mengalahkan DeepSeek-V4-Pro | Tool use agensi multi-turn | DeepSeek-V4-Pro |
| SpreadsheetBench-Verified | Mengalahkan DeepSeek-V4-Pro | Tugas spreadsheet dunia nyata | DeepSeek-V4-Pro |
| AIME26 dengan alat | 99.6 | Matematika kompetisi dengan code interpreter | GPT-5.x, Gemini 3.1 Pro |
| GPQA | “Mendekati sumber tertutup terkemuka” | QA sains tingkat pascasarjana | Claude Sonnet 4.6 |
| MMLU-Pro | “Mendekati sumber tertutup terkemuka” | Pengetahuan umum tingkat lanjut | Model perbatasan lain |
Catatan penting:
- Skor Arena bergantung pada distribusi prompt dan pemilih.
- AIME26 yang disebut adalah versi dengan alat, bukan pure reasoning tanpa tool.
- Klaim creative writing disebut mendekati Gemini 3.1 Pro, bukan menyamai.
- Hasil τ³-bench dan SpreadsheetBench-Verified paling relevan jika Anda membangun agent dengan tool calling.
Detail arsitektur yang diketahui
Baidu belum membuka detail sebanyak paper DeepSeek V3, tetapi beberapa poin sudah dikonfirmasi:
- Total parameter: sekitar sepertiga dari ERNIE 5.0
- Parameter aktif per token: sekitar setengah dari ERNIE 5.0
- Routing: elastis pada kedalaman, lebar, dan sparsity
- Biaya pra-pelatihan: sekitar 6% dari “model sebanding”
- Modalitas: teks saja saat peluncuran
- Bahasa: versi Mandarin dan Inggris tersedia
Yang belum dipublikasikan:
- panjang konteks resmi;
- jumlah parameter tepat;
- ukuran dataset atau training token;
- bobot model publik.
Jika Anda pernah membangun dengan model MoE Tiongkok seperti GLM 5.1, perlakukan ERNIE 5.1 sebagai model hosted dengan permukaan integrasi API serupa: kirim prompt, definisikan tool, uji stabilitas respons, lalu ukur biaya dan latency.
Batasan ERNIE 5.1 saat ini
Sebelum memasukkannya ke roadmap, perhatikan batasan berikut.
Tidak ada input gambar
ERNIE 5.1 hanya mendukung teks saat peluncuran. Untuk workflow multimodal, gunakan ERNIE-VL atau model visi lain.Tidak ada input/output audio
Tidak ada speech native atau real-time voice.Panjang konteks belum diumumkan
Untuk dokumen panjang, gunakan chunking, retrieval, atau summarization pipeline.Tidak ada bobot HuggingFace
ERNIE 5.1 adalah model hosted. Jika Anda butuh deployment lokal, pertimbangkan DeepSeek V4 lokal atau LLM lokal.
Kapan memilih ERNIE 5.1, DeepSeek, Kimi, atau GLM
Gunakan model mental berikut saat memilih model untuk produksi.
Pilih ERNIE 5.1 jika
Anda membutuhkan:
- tool use agensi yang kuat;
- workflow pencarian dan QA dalam Mandarin atau Inggris;
- model hosted melalui ekosistem cloud Tiongkok;
- kandidat biaya API yang berpotensi kompetitif.
Pilih DeepSeek V4 jika
Anda membutuhkan:
- bobot terbuka;
- deployment on-premise;
- kontrol infrastruktur;
- evaluasi reasoning matematika tanpa tool.
Pilih Kimi K2.6 jika
Anda membutuhkan workflow dokumen panjang dan konteks besar.
Pilih GLM 5.1 jika
Anda membutuhkan generalis seimbang dan sudah memakai Z.ai atau Zhipu dalam stack Anda.
Rekomendasi praktis: jangan memilih berdasarkan leaderboard saja. Jalankan 20–50 prompt internal yang mencerminkan beban kerja Anda.
Cara mencoba ERNIE 5.1
Ada tiga jalur utama.
1. UI obrolan ERNIE
Buka ernie.baidu.com.
Cocok untuk:
- menguji gaya jawaban;
- mencoba reasoning sederhana;
- mengevaluasi penulisan kreatif;
- validasi awal tanpa API key.
Tidak cocok untuk:
- automated evaluation;
- regression testing;
- integrasi agent produksi.
2. Baidu AI Studio ERNIE 5.1 Playground
Gunakan playground jika Anda ingin menguji tool calling sebelum menulis kode.
Checklist pengujian:
- buat satu tool sederhana;
- definisikan schema input;
- berikan prompt multi-turn;
- lihat apakah model memilih tool dengan benar;
- uji skenario error dan retry.
Contoh schema tool sederhana:
{
"name": "get_order_status",
"description": "Mengambil status pesanan berdasarkan order_id.",
"parameters": {
"type": "object",
"properties": {
"order_id": {
"type": "string",
"description": "ID pesanan pengguna."
}
},
"required": ["order_id"]
}
}
Prompt uji:
Pengguna bertanya: "Pesanan ORD-92731 saya sudah sampai mana?"
Tentukan apakah perlu memanggil tool. Jika perlu, panggil tool yang sesuai dengan argumen yang valid.
3. Qianfan API
Qianfan API adalah jalur untuk integrasi developer. Baidu menyebut bentuk request kompatibel dengan OpenAI dan menggunakan Bearer token.
Gunakan pola request seperti ini, lalu sesuaikan endpoint dan nama model dari konsol Qianfan Anda:
curl -X POST "$QIANFAN_BASE_URL/chat/completions" \
-H "Authorization: Bearer $QIANFAN_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "ERNIE-5.1",
"messages": [
{
"role": "system",
"content": "Anda adalah asisten teknis yang menjawab secara ringkas."
},
{
"role": "user",
"content": "Jelaskan cara mendesain evaluasi tool calling untuk LLM agent."
}
]
}'
Jika Anda butuh panduan detail, lihat Cara menggunakan API ERNIE 5.1.
Cara menguji ERNIE 5.1 dengan Apidog
Jika Anda membandingkan beberapa penyedia model Tiongkok, Apidog bisa dipakai untuk menyimpan request, environment, dan respons dalam satu workspace.
Langkah praktis:
-
Buat environment untuk setiap provider:
qianfandeepseekkimiglm
-
Simpan variabel environment:
base_urlapi_keymodel
Buat request
POST /chat/completions.Gunakan header:
Authorization: Bearer {{api_key}}
Content-Type: application/json
- Buat body reusable:
{
"model": "{{model}}",
"messages": [
{
"role": "system",
"content": "Anda adalah agent yang hanya memanggil tool jika diperlukan."
},
{
"role": "user",
"content": "Cek status pesanan ORD-92731."
}
]
}
Duplikasi request untuk tiap provider.
-
Bandingkan:
- kualitas jawaban;
- format JSON;
- kepatuhan terhadap schema;
- latency;
- error rate;
- biaya per skenario.
Untuk pendekatan evaluasi API yang lebih umum, lihat Uji LLM sebagai API.
Template evaluasi agent untuk ERNIE 5.1
Gunakan tabel sederhana berikut untuk mengevaluasi sebelum produksi.
| Kasus uji | Prompt | Tool yang diharapkan | Output valid? | Catatan |
|---|---|---|---|---|
| Status pesanan | “Pesanan ORD-92731 saya di mana?” | get_order_status |
Ya/Tidak | Cek argumen order_id
|
| Tidak perlu tool | “Apa itu ERNIE 5.1?” | Tidak ada | Ya/Tidak | Model tidak boleh hallucinate call |
| Error tool | Tool mengembalikan 500 | Retry atau minta maaf | Ya/Tidak | Cek recovery |
| Multi-turn | User memberi ID di pesan kedua | get_order_status |
Ya/Tidak | Cek memori konteks |
| Ambiguitas | “Cek pesanan saya” tanpa ID | Tanya klarifikasi | Ya/Tidak | Jangan panggil tool kosong |
Contoh kriteria kelulusan:
Model dianggap lulus jika:
1. memilih tool yang benar;
2. mengisi argumen sesuai schema;
3. tidak memanggil tool saat tidak diperlukan;
4. bisa menangani error tool;
5. memberi jawaban akhir yang jelas setelah tool selesai.
Harga dan rollout
Baidu mengumumkan ERNIE 5.1 akan diluncurkan di 10+ platform produksi kreatif dalam beberapa minggu setelah peluncuran. Harga publik per token di Qianfan tidak tercantum dalam postingan rilis.
Yang sebaiknya dilakukan sebelum mengutip biaya internal:
- cek konsol Qianfan terbaru;
- hitung biaya input dan output secara terpisah;
- uji token usage pada prompt nyata;
- masukkan retry dan tool-call overhead;
- bandingkan dengan model yang sudah Anda pakai.
Klaim biaya pra-pelatihan sekitar 6% menarik, tetapi harga produksi tetap harus diverifikasi dari billing resmi.
Rekomendasi implementasi
Jika Anda ingin mencoba ERNIE 5.1 secara serius, gunakan urutan berikut.
1. Mulai dari evaluasi kecil
Jangan langsung migrasi dari model lama. Buat 20–50 test case dari log internal atau skenario produk Anda.
Prioritaskan:
- prompt berbahasa Mandarin dan Inggris;
- kasus tool calling;
- kasus long answer;
- kasus format JSON;
- kasus refusal atau safety;
- kasus dokumen panjang jika relevan.
2. Uji dengan prompt dan schema yang sama
Agar perbandingan adil, gunakan prompt, tool schema, dan data input yang sama untuk ERNIE 5.1, DeepSeek, Kimi, atau GLM.
3. Pisahkan evaluasi kualitas dan biaya
Jangan hanya memilih model termurah. Ukur:
- success rate;
- jumlah retry;
- latency p95;
- output token;
- stabilitas format;
- biaya total per task selesai.
4. Perhatikan lokasi hosting
Qianfan dihosting di Tiongkok. Jika kebijakan data Anda melarang infrastruktur RRT, ERNIE 5.1 mungkin tidak cocok meskipun benchmark-nya bagus.
FAQ
Apakah ERNIE 5.1 open source?
Tidak. ERNIE 5.1 adalah model hosted yang dapat diakses melalui UI obrolan Baidu, Baidu AI Studio, dan Qianfan API. Tidak ada bobot publik di HuggingFace saat ini.
Apakah ERNIE 5.1 mendukung input gambar?
Tidak. ERNIE 5.1 hanya teks saat peluncuran. Untuk tugas visi, gunakan keluarga ERNIE-VL atau model multimodal lain. Jika Anda membutuhkan model multimodal Tiongkok, lihat Qwen 3.5 Omni.
Berapa panjang konteks ERNIE 5.1?
Baidu belum mempublikasikan angka jendela konteks spesifik dalam postingan rilis. Untuk sementara, desain workflow dokumen panjang secara defensif dengan chunking dan retrieval.
Bisakah ERNIE 5.1 digunakan dari luar Tiongkok?
UI obrolan dan Qianfan API dapat diakses dari banyak wilayah, tetapi latency, verifikasi akun, dan fitur enterprise dapat berbeda. Beberapa fitur mungkin memerlukan nomor telepon atau izin usaha daratan. Lihat Cara menggunakan API ERNIE 5.1 untuk detail akses.
Apakah ERNIE 5.1 lebih baik dari DeepSeek-V4-Pro?
Pada τ³-bench dan SpreadsheetBench-Verified, Baidu mengatakan ERNIE 5.1 mengungguli DeepSeek-V4-Pro. Namun, untuk bobot terbuka, deployment lokal, dan beberapa skenario reasoning tanpa tool, jawabannya belum sesederhana itu. Keduanya menargetkan kebutuhan deployment yang berbeda.
Kesimpulan
ERNIE 5.1 adalah rilis penting karena menggabungkan MoE yang lebih efisien, fokus pada tool use, dan performa benchmark yang kuat di area agentic workflow. Untuk developer, pendekatan terbaik adalah tidak langsung percaya leaderboard, tetapi menjalankan evaluasi API kecil dengan prompt dan tool schema milik sendiri.
Jika hasilnya stabil, ERNIE 5.1 bisa menjadi kandidat kuat untuk agent stack berbasis cloud Tiongkok, terutama untuk workflow pencarian, QA, dan tool calling.



Top comments (0)