Akira

Posted on May 14 • Originally published at apidog.com

ERNIE 5.1とは？百度の新しいMoEモデル

Baiduは2026年5月9日にERNIE 5.1をリリースしました。ERNIE 5.1は、ERNIE 5.0の総パラメータの約3分の1のMixture-of-Expertsモデルで、Arena Searchリーダーボードでは世界第4位、中国モデルでは1,223点で1位を獲得しています。

今すぐApidogを試す

このリリースで重要なのは、BaiduがGemini 3.1 ProやDeepSeek-V4-Proに対して、中国語タスクだけでなく、エージェント的なツール使用、長文のクリエイティブライティング、推論能力でも競争する姿勢を明確にした点です。ApidogでLLM APIを比較・検証している開発者にとって、700億パラメータ級のフットプリントなしにエージェントスタックへ組み込める中国発のフロンティアモデルとして、ERNIE 5.1は評価対象に入ります。

この記事では、ERNIE 5.1の概要、アーキテクチャ上の変更点、DeepSeek-V4-ProおよびGemini 3.1 Proとのベンチマーク比較、そして本番環境でDeepSeek V4やKimi K2.6を使っている場合の判断ポイントを整理します。

要約: ERNIE 5.1を1パラグラフで

ERNIE 5.1は、比較可能なフロンティアモデルの事前学習コストの約6%で学習されたテキスト専用MoEモデルです。総パラメータ数はERNIE 5.0の約3分の1、フォワードパスあたりのアクティブパラメータは約半分です。Arena Searchリーダーボードでは1,223点（世界4位、中国1位）を獲得し、τ³-benchおよびSpreadsheetBench-VerifiedのエージェントベンチマークではDeepSeek-V4-Proを上回ったとされています。ツール使用時のAIME26では99.6点を達成しています。アクセス方法はERNIEチャットUI、Baidu AI StudioのERNIE 5.1 Playground、Qianfan APIです。

このリリースが重要な理由

ERNIE 5.1を見るときは、単に「Baiduの新モデル」としてではなく、以下の3点を確認するのが実用的です。

1. 事前学習コスト

Baiduは、ERNIE 5.1の事前学習コストが比較可能なモデルの約6%だとしています。これがQianfan APIの価格に反映される場合、中国クラウド上でLLMを使う開発者にとって、推論コストの比較軸が変わります。

実装前に確認すべき項目は以下です。

入力トークン単価
出力トークン単価
レート制限
同時実行数
エンタープライズ契約時のデータ保持ポリシー

2. 3軸MoEルーティング

Baiduは、ERNIE 5.1が深さ、幅、疎性に対して柔軟にルーティングすると説明しています。

一般的なMoEモデルでは、主に「どのエキスパートを使うか」という幅方向のルーティングが中心です。ERNIE 5.1では、Baiduの説明上、深さと疎性も制御対象に含まれています。

開発者視点では、次の観点で評価してください。

レイテンシが安定しているか
長い会話で品質が落ちにくいか
ツール呼び出し時に不要なステップが増えないか
同じプロンプトで出力のばらつきが許容範囲か

3. エージェント機能が中心

ERNIE 5.0は知識とクリエイティブライティングの印象が強いモデルでした。一方、ERNIE 5.1では「世界トップモデルと同等のエージェント機能」が前面に出ています。

特に確認すべきユースケースは以下です。

検索結果を使った回答生成
関数呼び出し
表計算タスク
コードインタープリタ連携
複数ターンにまたがるツール選択

ベンチマークの比較

Baiduが公開した内容を、近い比較対象と並べると以下のようになります。

ベンチマーク	ERNIE 5.1	テスト内容	比較対象
Arena Search リーダーボード	1,223（世界4位、中国1位）	人間評価による検索対応QA	Gemini 3.1 Pro, GPT-5.x
τ³-bench	DeepSeek-V4-Proを上回る	エージェント的なツール使用、多ターン	DeepSeek-V4-Pro
SpreadsheetBench-Verified	DeepSeek-V4-Proを上回る	実世界の表計算タスク	DeepSeek-V4-Pro
AIME26（ツール使用時）	99.6	コードインタープリタによる競技数学	GPT-5.x, Gemini 3.1 Pro
GPQA	「主要なクローズドソースに匹敵」	大学院レベルの科学QA	Claude Sonnet 4.6
MMLU-Pro	「主要なクローズドソースに匹敵」	幅広い知識	フロンティアモデル全般

注意点もあります。

Arenaのスコアは、プロンプトの構成と評価者プールに依存します。
中国語に偏ったプロンプトが有利に働く可能性があります。
AIME26の99.6点はツール使用時のスコアです。
ツールなしの純粋推論によるAIMEスコアは公開されていません。
クリエイティブライティングでは、Gemini 3.1 Proに「匹敵する」ではなく、「近づいている」という表現にとどまっています。

一方で、τ³-benchとSpreadsheetBench-Verifiedの結果は実装上重要です。どちらもエージェント的な能力を測るベンチマークであり、外部で維持され、単純な知識暗記では対応しにくいからです。

アーキテクチャについて分かっていること

BaiduはDeepSeekがV3シリーズの論文で開示したほど詳細な仕様を出していません。現時点で確認できる内容は以下です。

総パラメータ数: ERNIE 5.0の約3分の1
トークンあたりのアクティブパラメータ数: ERNIE 5.0の約半分
ルーティング: 深さ、幅、疎性に対して柔軟
事前学習コスト: 比較可能なモデルの約6%
モダリティ: リリース時点ではテキストのみ
言語: 中国語版と英語版が利用可能

未公開の重要項目は以下です。

正確な総パラメータ数
コンテキスト長
学習トークン数
推論時の最大出力トークン数
価格体系の詳細

以前にGLM 5.1のような中国発MoEモデルを使ったことがある場合、Qianfan APIでも類似の開発者体験を想定できます。

ERNIE 5.1でまだできないこと

実装前に、制限事項を明確にしておきます。

画像入力は非対応。 ERNIE 5.1はテキスト専用です。画像理解が必要な場合は、ERNIE-VLまたは外部のビジョンモデルを組み合わせる必要があります。
音声入力・出力は非対応。 ネイティブな音声機能やリアルタイム音声APIはありません。
公開されたコンテキストウィンドウは未確認。 長文ドキュメント処理では、チャンク化と要約パイプラインを前提に設計してください。
HuggingFaceの重みはありません。 ホスト型専用モデルです。オンプレミス要件がある場合は、ローカルのDeepSeek V4またはローカルLLMを検討することになります。

ERNIE 5.1と中国のフロンティアモデルの選び方

すでにDeepSeek、Kimi、GLM、Qwenを比較している場合は、以下のように考えると選びやすくなります。

ERNIE 5.1を選ぶべきケース

中国語または英語で強いエージェント的ツール使用が必要
検索強化回答を重視する
中国クラウド上で低コストな推論を期待している
Qianfan APIを既に使っている、または導入できる

DeepSeek V4を選ぶべきケース

オープンウェイトが必要
オンプレミス展開が必要
ツールなしの純粋推論や数学性能を重視する

Kimi K2.6を選ぶべきケース

長いコンテキストウィンドウが必要
大量ドキュメントを一度に扱う
契約書、研究資料、ログ解析など長文ワークロードが中心

GLM 5.1を選ぶべきケース

バランスの取れた汎用モデルが必要
すでにZ.aiまたはZhipuをスタックに組み込んでいる

これは絶対的なランキングではありません。モデル選定では、公開ベンチマークよりも自社ワークロードでの再現性を優先してください。

今すぐERNIE 5.1を試す方法

ERNIE 5.1を試す方法は3つあります。実装に近い順ではなく、摩擦の少ない順に並べると以下です。

1. ernie.baidu.com

一般ユーザー向けのチャットUIです。

向いている用途:

クリエイティブライティングの確認
中国語QAの品質確認
推論傾向の把握
回答スタイルの確認

APIキーは不要です。ただし、本番導入判断にはAPIでの評価が必要です。

2. Baidu AI Studio ERNIE 5.1 Playground

Baidu AI Studioには、ERNIE 5.1向けのPlaygroundが用意されています。

向いている用途:

ツール呼び出しの確認
プロンプト調整
エージェント挙動の観察
API実装前のPoC

まずPlaygroundでプロンプトを固め、その後Qianfan APIへ移すのが効率的です。

3. Qianfan API

本番実装ではQianfan APIを使います。

特徴:

開発者向けエンドポイント
Bearerトークン認証
OpenAI互換に近いリクエスト形式
API経由でアプリケーションに統合可能

詳細な手順は、関連ガイドERNIE 5.1 APIの使用方法で解説されています。

複数の中国モデルプロバイダーを比較している場合、Apidogを使うと、APIキー、リクエストボディ、環境変数、レスポンス比較を1つのワークスペースで管理できます。

ApidogでERNIE 5.1を評価する基本フロー

ERNIE 5.1を検証する場合は、単発のcurlではなく、再利用できるAPIコレクションとして管理するのがおすすめです。

1. 環境変数を作る

例:

QIANFAN_API_KEY=your_api_key
QIANFAN_BASE_URL=https://your-qianfan-endpoint
MODEL=ernie-5.1

2. 共通ヘッダーを設定する

Authorization: Bearer {{QIANFAN_API_KEY}}
Content-Type: application/json

3. 評価用リクエストを作る

以下のようなケースを分けて保存します。

通常QA
検索結果を含むQA
関数呼び出し
表計算タスク
数学・推論
長文要約
JSON出力

4. JSON出力を固定する

アプリケーションで使う場合は、自然文ではなく構造化出力を評価してください。

例:

{
  "task": "次の問い合わせを分類してください",
  "input": "請求書APIのレスポンスが500になります",
  "output_schema": {
    "category": "billing | api_error | account | other",
    "priority": "low | medium | high",
    "summary": "string"
  }
}

確認すべき点:

JSONが壊れないか
enum以外の値を返さないか
不明な場合に推測しすぎないか
日本語・中国語・英語で同じ形式を維持できるか

5. 既存モデルと並べて比較する

ERNIE 5.1だけを評価しても意味がありません。現在使っているモデルと同じプロンプトで比較してください。

最低限見るべき指標:

正答率
ツール選択の正確性
レイテンシ
トークン使用量
JSON整合性
再試行率
人手修正の必要回数

価格と展開

Baiduは、ERNIE 5.1がリリース後数週間のうちに10以上のクリエイティブ制作プラットフォームへ展開されると発表しています。

Qianfanでのトークン単価はリリース投稿には記載されていません。Baiduは事前学習コストが約6%だと説明していますが、それがそのままAPI価格になるとは限りません。

導入前に必ず確認してください。

Qianfanコンソール上の最新価格
無料枠の有無
入出力トークン別の単価
キャッシュやバッチ処理の有無
SLA
データ保持設定
エンタープライズ契約の条件

社内向けにコスト試算を出す場合は、公開記事の数字ではなく、Qianfanコンソールの最新価格を基準にしてください。

開発者向けの導入判断

ERNIE 5.1を本番スタックに入れるか判断するなら、次の3ステップで進めるのが現実的です。

1. 自社タスクで20〜50件の評価セットを作る

公開ベンチマークは参考になりますが、あなたのワークロードそのものではありません。

評価セットには、実際に失敗しやすいケースを入れてください。

曖昧な問い合わせ
不完全な入力
長い文脈
ツール呼び出しが必要なケース
JSON形式を厳守するケース
誤回答が重大な影響を持つケース

APIとしてのLLMテストでは、Apidogを使った評価方法が解説されています。

2. 中国クラウド利用の可否を確認する

Qianfanは中国でホストされています。データレジデンシー要件で中国インフラが使えない場合、ベンチマークが良くても採用は難しくなります。

確認すべき項目:

個人情報を送信できるか
ログ保持ポリシー
データの保存場所
社内セキュリティレビュー
顧客契約上の制限

3. 価格発表を待ってから本番コストを見積もる

ERNIE 5.1で最も注目すべき数字は、事前学習コストが約6%という点です。ただし、API価格がどうなるかは別問題です。

本番導入前には、以下を使って見積もってください。

月間コスト =
  月間入力トークン数 × 入力単価
+ 月間出力トークン数 × 出力単価
+ 再試行分の追加コスト
+ 評価・監視用リクエストのコスト

エージェント用途では、ツール呼び出しや再試行によってトークン数が増えやすい点にも注意が必要です。

よくある質問

ERNIE 5.1はオープンソースですか？

いいえ。ERNIE 5.1は、BaiduのチャットUI、Baidu AI Studio、Qianfan APIを通じて利用するホスト型専用モデルです。執筆時点では、HuggingFaceに公開されている重みはありません。

ERNIE 5.1は画像入力をサポートしていますか？

いいえ。ERNIE 5.1はリリース時点ではテキスト専用です。Baiduの視覚タスクにはERNIE-VLファミリーを使う必要があります。単一のマルチモーダル中国モデルが必要な場合は、Qwen 3.5 Omniを検討してください。

コンテキスト長はどのくらいですか？

Baiduはリリース投稿で具体的なコンテキストウィンドウの数値を公開していません。確認されるまでは、長文ドキュメントを直接投入するのではなく、チャンク化、検索、要約を組み合わせて設計してください。

中国外からERNIE 5.1を使えますか？

チャットUIとQianfan APIは多くの地域からアクセス可能ですが、レイテンシ、アカウント認証、エンタープライズ機能の条件は異なります。一部の機能では、中国本土の電話番号または事業許可が必要になる場合があります。アクセス手順はERNIE 5.1 APIの使用方法で詳しく説明されています。

ERNIE 5.1はDeepSeek-V4-Proより優れていますか？

τ³-benchとSpreadsheetBench-Verifiedでは、BaiduはERNIE 5.1がDeepSeek-V4-Proを上回るとしています。一方、オープンウェイトやオンプレミス展開ではDeepSeek側に利点があります。ツールを使わない純粋な数学推論では、公開情報だけでは明確な結論は出せません。

まとめ

ERNIE 5.1は、Baiduがエージェント用途を明確に意識して投入したテキスト専用MoEモデルです。特に、ツール使用、検索強化回答、表計算タスク、中国語・英語の実用ワークロードで評価する価値があります。

導入前にやるべきことはシンプルです。

Qianfan APIでアクセスできるか確認する
自社タスクの評価セットを20〜50件作る
既存モデルと同じプロンプトで比較する
JSON整合性、ツール選択、レイテンシ、コストを測る
データレジデンシーと価格条件を確認する

開発を始める準備ができたら、ApidogでQianfan APIのリクエストを管理し、ERNIE 5.1を現在のモデルと並行して同じワークスペースでテストしてください。

DEV Community