Emre Demir

Posted on Jun 1 • Originally published at apidog.com

MiniMax M3: Das erste Open-Weight Frontier Coding Modell

MiniMax M3 ist ein KI-Modell mit offenen Gewichten, das MiniMax am 1. Juni 2026 veröffentlicht hat. Es kombiniert drei Eigenschaften in einem System: Kodierung auf Frontier-Niveau, ein Kontextfenster von bis zu 1.000.000 Tokens und native Multimodalität für Bild- und Videoeingaben, inklusive der Fähigkeit, einen Desktop-Computer zu bedienen.

Teste Apidog noch heute

Viele Modelle beherrschen ein oder zwei dieser Punkte gut. M3 ist relevant, weil Sie es perspektivisch mit eigenen Gewichten ausführen können und es auf alle drei Anforderungen gleichzeitig zielt. MiniMax hat angekündigt, die offenen Gewichte und einen vollständigen technischen Bericht innerhalb von etwa 10 Tagen nach dem Start zu veröffentlichen. Wenn Sie das Rennen um offene Gewichte über Veröffentlichungen wie Qwen 3.7 verfolgen, ist M3 der nächste große Eintrag. Die Startdetails stammen direkt aus der MiniMax M3 Ankündigung.

In diesem Artikel geht es darum, was M3 technisch ausmacht, welche Benchmarks MiniMax gemeldet hat, wie die Architektur lange Kontexte günstiger macht, was Sie damit bauen können und wie Sie die API praktisch testen.

💡 Wenn Sie M3 in eine Anwendung integrieren, sollten Sie API-Antworten und Tool-Aufrufe früh validieren. Tools wie Apidog helfen dabei, Schemas, Argumente und Fehlerfälle vor dem produktiven Einsatz zu prüfen.

Was M3 anders macht

Viele Frontier-Modelle erzwingen einen Kompromiss: starke Kodierung, großes Kontextfenster oder multimodale Eingaben. M3s zentrale Aussage ist, dass diese drei Punkte in einem offenen Modell zusammenkommen.

Die drei Kernpunkte:

Frontier-Kodierung: M3 zielt auf hohe Leistung bei Coding- und Agenten-Software-Benchmarks, nicht nur im Open-Weight-Vergleich.
1M-Token-Kontext: Sie können bis zu 1.000.000 Tokens in eine Anfrage geben. Das reicht für große Codebasen, umfangreiche Dokumentensammlungen oder lange Chatverläufe ohne aggressives Kürzen.
Native Multimodalität: M3 akzeptiert Bilder und Videos als Eingabe und kann Desktop-Anwendungen bedienen. MiniMax zeigte unter anderem, wie das Modell einen lokalen ERP-Client öffnet und Rechnungen stapelweise eingibt.

Der Open-Weight-Aspekt ist für Entwickler besonders wichtig. Sobald die Gewichte verfügbar sind, können Sie datensensible Workloads selbst hosten, domänenspezifisch feinabstimmen und Anbieterbindung pro API-Aufruf reduzieren. Wie stark der Wettbewerbsdruck im Open-Weight-Bereich inzwischen ist, zeigt auch der Überblick zum chinesischen LLM-Preiskampf von 2026.

Die Zahlen, die zählen

MiniMax veröffentlichte zum Start mehrere Benchmark-Ergebnisse. Wichtig: Das sind Herstellerangaben, keine unabhängigen Drittanbieter-Messungen.

Das auffälligste Ergebnis ist SWE-Bench Pro mit 59,0 %. SWE-Bench Pro ist eine anspruchsvolle Suite realer Software-Engineering-Aufgaben. Details zur Methodik finden Sie auf der SWE-Bench Projektseite.

MiniMax berichtet, dass M3 in diesem Benchmark GPT-5.5 und Gemini 3.1 Pro übertrifft und nahe an Claude Opus 4.7 heranreicht. Für ein Open-Weight-Modell ist das eine starke Positionierung.

M3 führt aber nicht überall. Auf PostTrainBench erreicht es laut MiniMax 0,37 Punkte und liegt damit hinter Opus 4.7 mit 0,42 und GPT-5.5 mit 0,39.

Noch offen sind:

Parameteranzahl
aktive Parameter
unabhängige Benchmark-Ergebnisse
tatsächliche Inferenzkosten beim Self-Hosting

Diese Daten werden voraussichtlich mit dem technischen Bericht klarer. Für einen direkten Vergleich mit geschlossenen Frontier-Modellen siehe MiniMax M3 vs. Opus 4.7 vs. GPT-5.5.

MSA-Architektur einfach erklärt

Die Effizienz von M3 basiert auf MSA, kurz für MiniMax Sparse Attention.

Bei klassischer Attention vergleicht jedes Token jedes andere Token. Dadurch steigen die Kosten stark, je länger der Kontext wird. Ein 1M-Token-Fenster wäre mit Standard-Ansätzen entsprechend teuer.

Sparse Attention reduziert diese Kosten, indem jedes Token nur auf eine ausgewählte Teilmenge der Sequenz achtet. MiniMax berichtet, dass MSA die Berechnung pro Token auf etwa 1/20 des Modells der vorherigen Generation reduziert.

Praktische Effekte laut MiniMax:

Prefill: mehr als 9-mal schneller
Decode: mehr als 15-mal schneller

Für Entwickler ist das relevant, weil lange Kontextfenster sonst schnell zu einem Architekturproblem werden. Typische Workarounds sind Chunking, Retrieval-Pipelines und aggressive Zusammenfassungen. Wenn die Token-Kosten deutlich sinken, können Sie häufiger direkt mit großen Eingaben arbeiten, zum Beispiel:

komplettes Repository analysieren
mehrere Spezifikationen gemeinsam prüfen
lange Support-Verläufe auswerten
Agenten mit viel Arbeitskontext ausführen

Das ersetzt Retrieval nicht immer, verschiebt aber die Grenze, ab der RAG zwingend nötig wird.

Was Sie damit bauen können

M3 ist besonders interessant für länger laufende Agenten-Workflows, bei denen das Modell nicht nur antwortet, sondern über mehrere Schritte konkrete Arbeit erledigt.

MiniMax zeigte unter anderem:

24-stündige CUDA-Kernel-Optimierung: M3 arbeitete autonom an einem Kernel und erreichte eine 9,4-fache Beschleunigung.
Reproduktion von Forschungsarbeiten: Das Modell reproduzierte eine Forschungsarbeit über 18 Commits hinweg und generierte 23 experimentelle Abbildungen.
Computernutzung: M3 kann Desktop-Anwendungen bedienen, etwa einen lokalen ERP-Client öffnen und Rechnungen stapelweise eingeben.

Der Produkt-Wrapper dafür ist MiniMax Code. Er ergänzt Agent Team, also mehrstufige, gleichzeitige und dynamisch anpassbare Workflows.

Ein nützliches Muster ist die Producer-plus-Verifier-Schleife:

Ein Agent generiert Code, Daten oder Aktionen.
Ein zweiter Agent prüft das Ergebnis.
Nur validierte Ergebnisse werden übernommen.
Fehlerhafte Ergebnisse gehen zurück in die Überarbeitung.

Dieses Prüfer-im-Kreislauf-Design reduziert stille Fehler, die bei Single-Pass-Agenten häufig auftreten.

Tool-Aufrufe praktisch testen

Wenn Sie Agenten auf M3 bauen, liegt das Risiko oft nicht im Modell selbst, sondern in der Verbindung zu Ihren Tools:

Funktionsargumente haben falsche Typen.
Pflichtfelder fehlen.
JSON-Strukturen ändern sich.
Ein Agent ruft ein Tool mit ungültigen Parametern auf.
Ein Fehlerfall wird nicht abgefangen.

Ein einfacher Testablauf sieht so aus:

Definieren Sie Ihr Tool-Schema.
Senden Sie eine Beispielanfrage an M3.
Erfassen Sie die Tool-Call-Antwort.
Validieren Sie Struktur und Datentypen.
Testen Sie Fehlerfälle mit ungültigen oder fehlenden Feldern.
Erst danach verbinden Sie den Workflow mit produktiven Systemen.

Beispiel für eine Tool-Call-Struktur, die Sie validieren sollten:

{
  "tool_name": "create_invoice",
  "arguments": {
    "customer_id": "CUST-123",
    "amount": 149.99,
    "currency": "EUR",
    "due_date": "2026-06-30"
  }
}

In Apidog können Sie solche Antworten als API-Contracts oder Testfälle abbilden und prüfen, bevor ein Agent echte Aktionen ausführt. Für die Designseite solcher Workflows siehe agentic workflow tool wiring: patterns and pitfalls.

Wie man auf M3 zugreift

MiniMax bietet derzeit zwei Zugriffswege:

Abonnement-Token-Pläne
API-Zugriff

Die Abonnement-Pläne enthalten ein monatliches Token-Kontingent.

Für programmatischen Zugriff nutzt die API eine OpenAI-ähnliche Chat-Completions-Schnittstelle:

Basis-URL: https://api.minimax.io/v1
Endpoint: POST /chat/completions
Modell-ID: MiniMax-M3
Authentifizierung: Bearer Token

Minimaler HTTP-Aufruf:

POST https://api.minimax.io/v1/chat/completions
Authorization: Bearer $API_KEY
Content-Type: application/json

Beispiel-Request:

{
  "model": "MiniMax-M3",
  "messages": [
    {
      "role": "user",
      "content": "Analysiere diese Funktion und schlage Verbesserungen vor."
    }
  ]
}

Sie können die API über rohes HTTP, über das Anthropic SDK oder über das OpenAI SDK aufrufen. MiniMax empfiehlt laut Artikel den Anthropic-SDK-Weg. Das vollständige Schema steht in der offiziellen MiniMax API-Referenz.

Kosten beachten

MiniMax nennt zwei wichtige Preisdetails:

Eingaben bis 512K Tokens werden zum Standardtarif abgerechnet.
Eingaben über 512K Tokens fallen unter einen höheren Langkontext-Tarif.
Es gibt zwei Service-Stufen: Standard und Priorität.

Da MiniMax noch keinen exakten Preis pro Token veröffentlicht hat, sollten Sie die aktuellen Tarife in der Dokumentation prüfen, bevor Sie Budget oder Architektur festlegen.

Für eine Schritt-für-Schritt-Einrichtung mit funktionierenden Requests siehe wie man die MiniMax M3 API verwendet. Wenn Sie kostenlose Optionen prüfen möchten, lesen Sie wie man MiniMax M3 kostenlos nutzt.

Sobald Sie einen API-Schlüssel haben, können Sie Apidog herunterladen, eine erste Anfrage senden und die Antwortstruktur validieren, bevor Sie Anwendungscode schreiben.

Wie es sich im Vergleich zu anderen Open-Weight-Modellen schlägt

M3 tritt in einem starken Open-Weight-Feld an. Zu den aktuellen Konkurrenten gehören:

DeepSeek V4-pro
Qwen 3.7
Kimi k2.6
GLM-5.1

Viele dieser Modelle haben eigene Stärken bei Coding, Reasoning oder mehrsprachigen Aufgaben.

M3s Alleinstellungsmerkmal ist nicht ein einzelner Benchmark, sondern die Kombination aus:

Frontier-Coding
1M-Token-Kontext
nativer Multimodalität
Computernutzung
geplanten offenen Gewichten

Trotzdem bleibt die wichtigste Einschränkung: Der technische Bericht und die Gewichte waren zum Zeitpunkt des Schreibens noch nicht veröffentlicht. Unabhängige Benchmarks werden entscheiden, wie stark M3 im praktischen Einsatz wirklich ist.

Wenn Sie bereits mit anderen offenen Modellen arbeiten, ist der Qwen 3.7 Überblick ein sinnvoller Vergleichspunkt.

FAQ

Ist MiniMax M3 Open Source?

M3 ist Open-Weight. MiniMax hat angekündigt, die Modellgewichte und einen technischen Bericht innerhalb von etwa 10 Tagen nach dem Start am 1. Juni 2026 zu veröffentlichen. Zum Zeitpunkt des Schreibens sind die Gewichte noch nicht verfügbar.

Was ist das Kontextfenster?

M3 unterstützt bis zu 1.000.000 Tokens. Die MSA-Architektur soll dieses große Fenster effizienter machen, indem sie die Berechnung pro Token auf etwa 1/20 des Vorgängermodells reduziert.

Ist MiniMax M3 kostenlos?

Nicht direkt. MiniMax verkauft Abonnement-Token-Pläne ab 20 $/Monat für Plus sowie API-Zugriff mit tokenbasierter Abrechnung. Eine von MiniMax selbst veröffentlichte kostenlose Stufe wird nicht genannt. Der Artikel wie man MiniMax M3 kostenlos nutzt beschreibt verfügbare kostenlose Wege.

Wie schlägt sich M3 im Vergleich zu Claude Opus 4.7?

In den von MiniMax gemeldeten Benchmarks nähert sich M3 Opus 4.7 bei SWE-Bench Pro mit 59,0 % und übertrifft es bei SVG-Bench. Bei PostTrainBench liegt M3 mit 0,37 hinter Opus 4.7 mit 0,42. Da es sich um Herstellerangaben handelt, sind unabhängige Tests wichtig.

Wann werden die Gewichte veröffentlicht?

MiniMax hat zugesagt, die offenen Gewichte und den technischen Bericht innerhalb von etwa 10 Tagen nach dem Start am 1. Juni 2026 zu veröffentlichen. Der technische Bericht sollte auch die bisher nicht genannte Parameteranzahl enthalten.

Kann M3 Bilder und Videos verarbeiten?

Ja. M3 ist nativ multimodal und akzeptiert Bild- und Videoeingaben. Zusätzlich kann es Desktop-Anwendungen bedienen, statt nur Bildschirminhalte zu beschreiben.

Die Kurzfassung

MiniMax M3 ist ein Open-Weight-Modell, das Frontier-Kodierung, ein 1M-Token-Kontextfenster und native Multimodalität kombiniert. Die MSA-Architektur soll lange Kontexte günstiger und schneller machen. Die von MiniMax gemeldeten Benchmarks positionieren M3 nahe an geschlossenen Frontier-Modellen, aber unabhängige Tests und der technische Bericht stehen noch aus.

Wenn Sie damit bauen möchten: API-Schlüssel holen, kleine Requests testen, Tool-Aufrufe validieren und erst danach Agenten-Workflows skalieren. Für API-Tests und Response-Validierung können Sie Apidog verwenden.

DEV Community