Emre Demir

Posted on May 14 • Originally published at apidog.com

ERNIE 5.1: Baidus neues MoE Modell erklärt

Baidu veröffentlichte ERNIE 5.1 am 9. Mai 2026. Für Entwickler ist vor allem relevant: ERNIE 5.1 ist ein Mixture-of-Experts-Modell mit etwa einem Drittel der Gesamtparameter von ERNIE 5.0, erreichte den 4. Platz weltweit in der Arena Search-Bestenliste und belegte mit einem Score von 1.223 den 1. Platz unter den chinesischen Modellen.

Apidog noch heute ausprobieren

ERNIE 5.1 ist die erste Version der ERNIE-Familie, bei der Baidu Agent-Tool-Nutzung, Langform-Kreativschreiben und Reasoning explizit gegen Gemini 3.1 Pro und DeepSeek-V4-Pro positioniert. Wenn Sie mit Apidog API-Workflows testen und ein chinesisches Spitzenmodell für Agent-Stacks evaluieren möchten, ist ERNIE 5.1 ein Kandidat für einen praktischen Vergleich.

Dieser Leitfaden zeigt, was ERNIE 5.1 ist, welche Architekturänderungen bekannt sind, wie die Benchmarks im Vergleich zu DeepSeek-V4-Pro und Gemini 3.1 Pro aussehen und wie Sie das Modell sinnvoll gegen bestehende Setups mit DeepSeek V4 oder Kimi K2.6 bewerten.

TL;DR: ERNIE 5.1 in einem Absatz

ERNIE 5.1 ist ein reines Text-MoE-Modell, das laut Baidu mit etwa 6 % der Pre-Training-Kosten vergleichbarer Spitzenmodelle trainiert wurde. Die Gesamtparameterzahl beträgt etwa ein Drittel von ERNIE 5.0, die aktiven Parameter pro Forward-Pass etwa die Hälfte. Es erreicht 1.223 Punkte in der Arena Search-Bestenliste, schlägt DeepSeek-V4-Pro bei τ³-bench und SpreadsheetBench-Verified und erreicht 99,6 bei AIME26 mit Tool-Nutzung. Zugang gibt es über die ERNIE Chat-Oberfläche, den ERNIE 5.1 Playground von Baidu AI Studio und die Qianfan API.

Warum ERNIE 5.1 für Entwickler relevant ist

ERNIE 5.1 ist nicht nur ein weiteres Modell-Release. Für Implementierungen sind drei Punkte wichtig.

1. Kosten-Leistungs-Verhältnis

Baidu nennt Pre-Training-Kosten von etwa 6 % vergleichbarer Modelle. Das ist keine direkte API-Preisgarantie, aber ein starkes Signal: Wenn Baidu diese Effizienz über Qianfan weitergibt, kann ERNIE 5.1 für produktive Agent-Workloads preislich interessant werden.

Praktische Konsequenz:

Testen Sie nicht nur Qualität, sondern auch Kosten pro erfolgreichem Task.
Messen Sie Token-Verbrauch, Tool-Aufrufe und Wiederholungsversuche.
Vergleichen Sie ERNIE 5.1 gegen Ihr aktuelles Modell mit denselben Prompts und Tools.

2. Dreiachsiges MoE-Routing

Baidu beschreibt ERNIE 5.1 als elastisch über Tiefe, Breite und Sparsity. Das bedeutet: Das Modell soll nicht nur auswählen, welche Experten aktiv sind, sondern auch dynamischer mit Schichten und Aktivierungsdichte umgehen.

Bekannt ist:

Gesamtparameter: etwa ein Drittel von ERNIE 5.0
Aktive Parameter pro Token: etwa die Hälfte von ERNIE 5.0
Modalität: Text-only zum Start
Ziel: bessere Effizienz ohne deutlichen Verlust bei Agent-Aufgaben

Für Entwickler ist weniger die interne Architektur entscheidend, sondern ob das Modell bei Ihren Tool-Workflows stabil bleibt.

3. Agentenfähigkeit steht im Mittelpunkt

ERNIE 5.1 wird explizit für Agent-Tool-Nutzung positioniert. Das ist wichtig, weil viele Modelle in normalen Chat-Benchmarks gut wirken, aber bei mehrstufigen Tool-Aufrufen scheitern.

Testen Sie daher konkret:

Kann das Modell korrekte Tool-Parameter erzeugen?
Erkennt es, wann ein Tool-Aufruf nötig ist?
Verarbeitet es Tool-Ergebnisse zuverlässig?
Kann es nach einem fehlgeschlagenen Tool-Call korrigieren?
Bleibt es über mehrere Turns konsistent?

Benchmarks im Überblick

Baidu veröffentlichte folgende Vergleichspunkte:

Benchmark	ERNIE 5.1	Was getestet wird	Nächster Konkurrent
Arena Search-Bestenliste	1.223 4. global, 1. CN	Menschlich bewertete suchbewusste QA	Gemini 3.1 Pro, GPT-5.x
τ³-bench	Schlägt DeepSeek-V4-Pro	Agenten-Tool-Nutzung, Multi-Turn	DeepSeek-V4-Pro
SpreadsheetBench-Verified	Schlägt DeepSeek-V4-Pro	Praktische Tabellenkalkulationsaufgaben	DeepSeek-V4-Pro
AIME26 mit Tools	99.6	Wettbewerbsmathematik mit Code-Interpreter	GPT-5.x, Gemini 3.1 Pro
GPQA	„Nähert sich führenden Closed-Source-Modellen an“	Wissenschaftliche QA auf Graduiertenniveau	Claude Sonnet 4.6
MMLU-Pro	„Nähert sich führenden Closed-Source-Modellen an“	Breites Wissen	Spitzenmodelle allgemein

Einige Einschränkungen:

Arena-Scores hängen stark von Prompt-Mix und Wählerpool ab.
Chinesisch geprägte Prompts können ERNIE 5.1 begünstigen.
Der AIME26-Wert ist Tool-erweitert; eine reine Reasoning-Zahl wurde nicht genannt.
Kreatives Schreiben wird als Annäherung an Gemini 3.1 Pro beschrieben, nicht als klarer Sieg.

Für praktische Agent-Stacks sind besonders τ³-bench und SpreadsheetBench-Verified relevant, weil beide Tool-Nutzung und mehrstufige Aufgaben stärker abbilden als reine Wissensbenchmarks.

Was über die Architektur bekannt ist

Baidu veröffentlichte weniger Details als DeepSeek bei den V3-Serien-Papieren. Bestätigt sind jedoch folgende Punkte:

Gesamtparameter: etwa ein Drittel von ERNIE 5.0
Aktive Parameter pro Token: etwa die Hälfte von ERNIE 5.0
Routing: elastisch über Tiefe, Breite und Sparsity
Pre-Training-Kosten: etwa 6 % vergleichbarer Modelle
Modalität: Text-only zum Start
Sprachen: chinesische und englische Versionen verfügbar

Nicht veröffentlicht wurden:

genaue Parameterzahlen
Kontextfenster
Trainings-Token-Budget
detaillierte Tool-Calling-Spezifikation

Wenn Sie zuvor mit chinesischen MoE-Modellen wie GLM 5.1 gearbeitet haben, sollten Sie ERNIE 5.1 ähnlich evaluieren: API-Form prüfen, Tool-Calling-Verhalten testen, Latenz messen und Kosten pro Task berechnen.

Was Sie mit ERNIE 5.1 noch nicht tun können

Planen Sie diese Einschränkungen früh ein:

Keine Bildeingabe: ERNIE 5.1 ist textbasiert. Für Vision-Workflows benötigen Sie ERNIE-VL oder ein externes Vision-Modell.
Keine Audioeingabe oder -ausgabe: Es gibt keine native Spracheingabe oder Echtzeit-Sprachausgabe.
Kein veröffentlichtes Kontextfenster: Workflows mit langen Dokumenten sollten defensiv gebaut werden.
Keine HuggingFace-Gewichte: ERNIE 5.1 ist ein Cloud-Modell. Für On-Premise-Szenarien prüfen Sie eher DeepSeek V4 lokal oder ein lokales LLM.

ERNIE 5.1 vs. DeepSeek, Kimi, GLM und Qwen

Wenn Sie zwischen chinesischen Spitzenmodellen wählen, hilft diese Einordnung:

Wählen Sie ERNIE 5.1, wenn Sie starke Agent-Tool-Nutzung, suchbasierte Antworten und gute chinesisch-englische Leistung über eine Cloud-API benötigen.

Wählen Sie DeepSeek V4, wenn offene Gewichte, On-Premise-Bereitstellung oder reine mathematische Reasoning-Leistung ohne Tools wichtiger sind.

Wählen Sie Kimi K2.6, wenn lange Kontextfenster für dokumentenintensive Workflows entscheidend sind.

Wählen Sie GLM 5.1, wenn Sie einen ausgewogenen Generalisten benötigen und Z.ai oder Zhipu bereits in Ihrem Stack nutzen.

Das ist keine feste Rangliste. Entscheidend ist, welches Modell Ihre produktiven Workloads am zuverlässigsten und günstigsten löst.

ERNIE 5.1 praktisch evaluieren

Bevor Sie ERNIE 5.1 in Produktion bringen, bauen Sie eine kleine, wiederholbare Evaluation.

Schritt 1: 20 bis 50 reale Testfälle sammeln

Nutzen Sie keine generischen Prompts. Verwenden Sie echte Fälle aus Ihrem Produkt:

Support-Tickets
Suchanfragen
interne Agent-Aufgaben
Tabellenoperationen
API-Tool-Aufrufe
mehrstufige Workflows

Beispielstruktur:

{
  "id": "ticket-routing-014",
  "input": "Der Kunde meldet, dass die Rechnung doppelt berechnet wurde...",
  "expected_tool": "billing.lookup_invoice",
  "expected_result_type": "refund_or_escalation",
  "must_not_do": ["keine erfundenen Rechnungsnummern", "keine direkte Rückerstattung ohne Prüfung"]
}

Schritt 2: Tool-Calling separat bewerten

Wenn Ihr Agent APIs aufruft, prüfen Sie nicht nur die finale Antwort. Prüfen Sie auch die Tool-Aufrufe.

Beispiel für ein erwartetes Tool-Call-Schema:

{
  "tool": "search_knowledge_base",
  "arguments": {
    "query": "refund duplicate charge invoice",
    "locale": "de-DE",
    "limit": 5
  }
}

Bewerten Sie:

Ist das richtige Tool gewählt?
Sind alle Pflichtfelder gesetzt?
Sind Datentypen korrekt?
Werden unnötige Tool-Aufrufe vermieden?
Kann das Modell mit Fehlerantworten umgehen?

Schritt 3: Kosten pro erfolgreichem Task messen

Ein Modell mit niedrigerem Tokenpreis ist nicht automatisch günstiger, wenn es mehr Wiederholungen braucht.

Messen Sie pro Testfall:

Kosten pro erfolgreichem Task =
  Eingabetokens
+ Ausgabetokens
+ Tool-Aufrufkosten
+ Retry-Kosten

Vergleichen Sie ERNIE 5.1 mit Ihrem aktuellen Modell auf derselben Testmenge.

Wo Sie ERNIE 5.1 ausprobieren können

Es gibt drei Zugangswege:

ernie.baidu.com

Consumer-Chat-Oberfläche. Geeignet für schnelle Tests zu Kreativschreiben, Reasoning und chinesisch-englischen Antworten.
Baidu AI Studio ERNIE 5.1 Playground

Gehosteter Playground mit Tool-Calling-Demos. Geeignet, um Agentenverhalten zu prüfen, bevor Sie API-Code schreiben.
Qianfan API

Entwickler-Endpunkt mit Bearer-Token-Authentifizierung und OpenAI-kompatibler Anforderungsform. Eine praktische Anleitung finden Sie im begleitenden Beitrag So verwenden Sie die ERNIE 5.1 API.

Wenn Sie mehrere Anbieter parallel testen, können Sie mit Apidog API-Schlüssel verwalten, Request-Bodies pro Anbieter speichern und Antworten nebeneinander vergleichen, ohne für jedes Modell eigene Wegwerf-Skripte zu schreiben.

Beispiel: Modellvergleich als API-Test planen

Für eine saubere Evaluation können Sie dieselbe Anfrage gegen mehrere Modell-Endpunkte ausführen.

Beispielhafter Request-Body:

{
  "model": "ernie-5.1",
  "messages": [
    {
      "role": "system",
      "content": "Du bist ein API-Agent. Nutze Tools nur, wenn sie für die Aufgabe erforderlich sind."
    },
    {
      "role": "user",
      "content": "Prüfe, ob Bestellung A-1042 erstattet werden kann, und gib eine kurze Begründung."
    }
  ],
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "get_order",
        "description": "Liest Bestelldetails anhand einer Bestell-ID.",
        "parameters": {
          "type": "object",
          "properties": {
            "order_id": {
              "type": "string"
            }
          },
          "required": ["order_id"]
        }
      }
    }
  ]
}

Bewerten Sie anschließend die Antwort mit festen Kriterien:

{
  "tool_selected_correctly": true,
  "arguments_valid": true,
  "final_answer_grounded": true,
  "hallucinated_fields": false,
  "needs_retry": false
}

So vermeiden Sie rein subjektive Modellvergleiche.

Preise und Einführung

Baidu gab bekannt, dass ERNIE 5.1 in den Wochen nach dem Start auf über 10 kreativen Produktionsplattformen ausgerollt wird. Öffentliche Pro-Token-Preise auf Qianfan wurden im Release-Beitrag nicht genannt.

Die genannte Pre-Training-Effizienz von etwa 6 % vergleichbarer Modelle ist relevant, aber nicht automatisch identisch mit API-Preisen. Prüfen Sie daher vor internen Kalkulationen immer die aktuelle Qianfan-Konsole.

Empfehlungen für die Integration

Wenn Sie ERNIE 5.1 in Ihren Stack aufnehmen möchten, starten Sie mit diesen Schritten.

1. Gegen eigene Agent-Aufgaben testen

Öffentliche Benchmarks sind nur ein Signal. Erstellen Sie eine Evaluation mit 20 bis 50 realen Fällen und vergleichen Sie ERNIE 5.1 mit Ihrem aktuellen Modell. Der Beitrag LLMs als APIs testen zeigt einen möglichen Workflow mit Apidog.

2. Datenresidenz prüfen

Qianfan wird in China gehostet. Wenn Ihre Compliance-Regeln PRC-Infrastruktur ausschließen, ist ERNIE 5.1 unabhängig von Benchmarkwerten keine passende Option.

3. Preisentwicklung beobachten

Die interessanteste Zahl im Release ist die Behauptung zu den Pre-Training-Kosten. Wenn Baidu diese Effizienz in API-Preise übersetzt, kann das den Preisrahmen für chinesische Cloud-Modelle senken und Wettbewerber wie DeepSeek, Zhipu und Moonshot unter Druck setzen.

Häufig gestellte Fragen

Ist ERNIE 5.1 Open-Source?

Nein. ERNIE 5.1 ist ein Cloud-Modell, das über Baidus Chat-Oberfläche, Baidu AI Studio und die Qianfan API zugänglich ist. Zum Zeitpunkt des Schreibens gibt es keine öffentlichen Gewichte auf HuggingFace.

Unterstützt ERNIE 5.1 Bild- oder Vision-Eingabe?

Nein. ERNIE 5.1 ist zum Start textbasiert. Für Vision-Aufgaben verweist Baidu auf die ERNIE-VL-Familie. Wenn Sie ein einzelnes multimodales chinesisches Modell benötigen, prüfen Sie stattdessen Qwen 3.5 Omni.

Was ist die Kontextlänge?

Baidu hat im Release-Beitrag keine konkrete Kontextfenstergröße veröffentlicht. Bis diese Zahl bestätigt ist, sollten Sie lange Dokumente chunking-basiert verarbeiten und Retrieval oder Zusammenfassungsstufen einplanen.

Kann ich ERNIE 5.1 außerhalb Chinas verwenden?

Die Chat-Oberfläche und die Qianfan API sind aus vielen Regionen erreichbar. Latenz, Kontoverifizierung und Unternehmensfunktionen können sich jedoch unterscheiden. Einige Funktionen können eine Festland-Telefonnummer oder Geschäftslizenz erfordern. Der Leitfaden So verwenden Sie die ERNIE 5.1 API behandelt den Zugriff im Detail.

Ist ERNIE 5.1 besser als DeepSeek-V4-Pro?

Bei τ³-bench und SpreadsheetBench-Verified sagt Baidu ja. Beim Zugang zu offenen Gewichten ist DeepSeek im Vorteil. Bei reiner mathematischer Reasoning-Leistung ohne Tool-Nutzung geben die öffentlichen Zahlen keine eindeutige Antwort. Die Modelle zielen auf unterschiedliche Bereitstellungs- und Nutzungsszenarien.

Fazit

ERNIE 5.1 ist vor allem für Entwickler interessant, die chinesische Cloud-Modelle für Agent-Workflows evaluieren. Die wichtigsten Fragen sind nicht „Ist es das beste Modell?“, sondern:

Löst es Ihre realen Tool-Aufgaben zuverlässiger?
Ist es günstiger pro erfolgreichem Task?
Passt Qianfan zu Ihren Compliance-Anforderungen?
Funktioniert das Modell stabil mit Ihren APIs?

Wenn Sie mit der Entwicklung beginnen möchten, importieren Sie die Qianfan OpenAPI-Spezifikation in Apidog und testen Sie ERNIE 5.1 neben Ihrem aktuellen Modell in einem gemeinsamen Workspace.

DEV Community