Die Frage „Was ist das beste Codierungsmodell?“ hatte lange eine westliche Standardantwort: GPT, Claude oder Gemini nutzen, Token bezahlen und akzeptieren, dass die Gewichte in einem fremden Rechenzentrum bleiben. Das ist nicht mehr die einzige Option. Chinesische Labore liefern inzwischen Modelle, die bei Codierungs- und Agentenaufgaben mithalten, offene Gewichte ankündigen oder veröffentlichen und API-Preise anbieten, die Ihre Agenten-Kalkulation deutlich verändern.
MiniMax M3 ist dafür das deutlichste aktuelle Signal. Das Modell wurde am 1. Juni 2026 vorgestellt, ist für Codierungs- und Agentenarbeit ausgelegt, bietet ein Kontextfenster von 1.000.000 Tokens und unterstützt native Multimodalität. Zusammen mit DeepSeeks V4-Familie und Alibabas Qwen 3.7 ergibt sich erstmals eine echte Auswahlliste für Teams, die niedrige Kosten, offene Gewichte oder weniger Anbieterbindung priorisieren.
Die drei Anwärter
MiniMax M3
MiniMax M3 ist der Neuzugang. MiniMax positioniert es als Spitzenmodell für Codierung mit:
- 1M-Token-Kontextfenster
- nativer Multimodalität für Bild- und Videoeingaben
- Unterstützung für computergestützte Aufgaben
- neuer MSA-Architektur
- angekündigten offenen Gewichten und technischem Bericht innerhalb von etwa zehn Tagen nach Start
Die Parameteranzahl wurde nicht offengelegt. Eine vollständige Aufschlüsselung finden Sie unter was ist MiniMax M3.
DeepSeek V4-Pro
DeepSeek V4-Pro ist das Reasoning- und Codierungsmodell in diesem Vergleich. Es gibt vor der finalen Antwort reasoning_content zurück und kann dadurch Abhängigkeiten über mehrere Dateien hinweg erkennen, die einfache Completion-Modelle leicht übersehen.
Relevant für Entwickler:
- geeignet für komplexere Refactorings
- stark bei Multi-Datei-Abhängigkeiten
- niedrige API-Kosten
- günstigere V4-Flash-Variante ohne Denkmodus
- DeepSeek hat bereits bei R1 und V3 offene Gewichte veröffentlicht
DeepSeek betreibt seine offizielle Seite und API unter deepseek.com.
Qwen 3.7
Qwen 3.7 ist Alibabas Flaggschiff-Familie, angeführt von Qwen3.7-Max-Preview. Es ist ein Reasoning-Modell mit 1M-Token-Kontextfenster und Fokus auf Langzeit-Agentenarbeit.
Wichtiger Vorbehalt: Qwen3.7-Max ist seit dem Start Mitte Mai 2026 proprietär und Closed-Weight. Alibaba hat eine starke Open-Source-Historie für Modelle unterhalb der Flaggschiff-Stufe, aber offene 3.7-Gewichte sind noch nicht ausgeliefert.
Details finden Sie unter was ist Qwen 3.7. Alibabas Open-Source-Repos liegen unter github.com/QwenLM.
Spezifikationstabelle
| Spezifikation | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| Anbieter | MiniMax | DeepSeek | Alibaba (Qwen) |
| Veröffentlichung | 1. Juni 2026 | 2026 | Mai 2026 (Vorschau) |
| Offene Gewichte | Ja, Gewichte innerhalb von ca. 10 Tagen angekündigt | Ja, basierend auf DeepSeeks R1/V3-Erfolgsbilanz | Noch nicht, Flaggschiff ist Closed-Weight |
| Kontextfenster | 1.000.000 Tokens | Hier nicht angegeben | 1.000.000 Tokens |
| Multimodal | Ja, Bild + Video, Computernutzung | Nein, Text + Reasoning | Text-fokussiertes Reasoning |
| Reasoning / Denkmodus | Ja | Ja, reasoning_content
|
Ja, erweitertes Denken |
| Parameteranzahl | Nicht offengelegt | Hier nicht offengelegt | Hier nicht offengelegt |
| Architektur | MSA | Hier nicht angegeben | Hier nicht angegeben |
Wenn offene Gewichte zwingend sind, reduziert sich Ihre Auswahl sofort: MiniMax M3 und DeepSeek sind die relevanten Kandidaten. Qwen3.7-Max ist aktuell nur über eine gehostete API nutzbar.
Codierungs- und Agentenstärke
Die Datenlage ist nicht gleichmäßig. Deshalb sollten Sie zwischen veröffentlichten Herstellerzahlen, Drittvergleichen und eigenen Tests unterscheiden.
MiniMax M3 wurde mit einer Reihe von vom Anbieter gemeldeten Codierungs- und Agenten-Benchmarks vorgestellt. Behandeln Sie diese Werte als Herstellerangaben, bis unabhängige Reproduktionen vorliegen.
| Benchmark, vom Anbieter gemeldet | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59,0% |
| Terminal-Bench 2.1 | 66,0% |
| SWE-fficiency | 34,8% |
| KernelBench Hard | 28,8% |
| MCP Atlas | 74,2% |
| PostTrainBench | 0,37 |
| SVG-Bench | Berichtet über Opus 4.7 |
| OmniDocBench | Berichtet über Gemini 3.1 Pro |
| Claw-Eval | Als höchstes im Set gemeldet |
SWE-Bench Pro und Terminal-Bench messen reale Software-Engineering-Aufgaben: GitHub-Issues lösen, Code ändern, im Terminal arbeiten. MCP Atlas misst Werkzeugeinsatz und Agenten-Orchestrierung. Diese Kombination ist besonders relevant, wenn Sie nicht nur Autocomplete, sondern echte Coding-Agenten bauen. Das SWE-Bench-Feld können Sie auf der SWE-Bench-Bestenliste prüfen.
Für DeepSeek V4-Pro und Qwen 3.7 liegen die vergleichbaren agentenbasierten Codierungszahlen nicht im selben Format vor. Ein direkter Tabellenvergleich wäre daher nicht belastbar.
Was dokumentiert ist:
- DeepSeek V4-Pro liegt laut Drittvergleichen bei Codierung innerhalb weniger Benchmark-Punkte von GPT-5.5, kostet aber nur einen Bruchteil. Der praktische Vorteil ist die Reasoning-Kette: Bei Multi-Datei-Refactorings, Umbenennungen und Signaturänderungen erkennt das Modell Abhängigkeiten häufig in einem Durchlauf. Einrichtung und Kostenrechnung finden Sie unter wie man DeepSeek V4-Pro mit Cursor verwendet.
- Qwen 3.7 erreichte 57 Punkte im Artificial Analysis Intelligence Index, einem Verbund aus Reasoning, Wissen, Mathematik und Codierung, und wurde beim Start als Ergebnis Nr. 1 auf dieser Bestenliste gemeldet. Zusätzlich wurden etwa 1.475 Elo auf LM Arena und eine Top-Ten-Platzierung in der Codierungskategorie berichtet. Alibabas Fokus liegt auf Langzeit-Agentenarbeit und intensiver Werkzeugnutzung über viele Schritte.
Praktische Einordnung:
| Wenn Sie optimieren für | Prüfen Sie zuerst |
|---|---|
| veröffentlichte Agenten-Benchmarks | MiniMax M3 |
| günstige Reasoning-Codierung | DeepSeek V4-Pro |
| lange Agentenketten und hohe Gesamtwertung | Qwen3.7-Max |
| Self-Hosting | MiniMax M3 oder DeepSeek V4-Pro |
| multimodale Agenten | MiniMax M3 |
Ein breiterer Vergleich an der Spitze für Qwen findet sich in Qwen 3.7 vs GPT-5.5 vs Opus 4.7.
Kontextfenster und Kosten für langen Kontext
MiniMax M3 und Qwen3.7-Max werben beide mit einem Kontextfenster von 1.000.000 Tokens. Der Kontext von DeepSeek V4-Pro wird hier nicht angegeben.
Eine Million Tokens entsprechen grob 700.000 bis 750.000 Wörtern. Das reicht theoretisch für:
- ein mittelgroßes Repository
- mehrere lange PDFs
- umfangreiche Spezifikationen
- lange Chat- oder Agentenverläufe
- Cross-Repository- oder Multi-Datei-Analysen
Aber: Ein großes Kontextfenster ist eine Obergrenze, keine Qualitätsgarantie. Je voller das Fenster, desto wichtiger werden Abrufgenauigkeit, Prompt-Struktur und Kostenkontrolle.
Praktische Prompt-Strategie für 1M-Kontext
Nutzen Sie das volle Fenster nur, wenn es nötig ist.
Statt ein komplettes Repository blind einzufügen:
Ziel:
Refactore die Authentifizierungslogik von Session-basiert auf Token-basiert.
Kontext:
1. Relevante Dateien:
- src/auth/session.ts
- src/auth/middleware.ts
- src/api/login.ts
- src/api/logout.ts
2. Architekturhinweise:
- Express API
- PostgreSQL
- bestehende Tests unter tests/auth
Aufgabe:
1. Analysiere die Abhängigkeiten.
2. Schlage einen minimalen Änderungsplan vor.
3. Gib danach konkrete Patches pro Datei aus.
Wenn das Modell zusätzliche Dateien benötigt, lassen Sie es diese explizit anfordern:
Wenn dir Kontext fehlt, antworte nur mit einer JSON-Liste der benötigten Dateien:
{
"needed_files": ["path/to/file.ts"]
}
So vermeiden Sie unnötige Tokenkosten.
MiniMax M3 verwendet laut Beschreibung einen Standard-API-Tarif bis 512K Eingabe-Tokens und einen separaten Langkontext-Tarif darüber. Das zeigt die wirtschaftliche Realität: Langer Kontext ist eine Premium-Stufe. Konkrete Taktiken zur Reduzierung der Agenten-Kontextkosten finden Sie unter wie man Agenten-Token-Kosten reduziert.
Preis und Zugang
Der Preis ist einer der Hauptgründe für diesen Vergleich. Die gleiche Agenten- oder Coding-Workload, die bei einem westlichen Flaggschiff teuer ist, läuft hier oft zu einem Bruchteil der Kosten. Diese Dynamik ist Teil des chinesischen LLM-Preiskriegs 2026.
DeepSeek V4-Pro veröffentlicht die klarsten Pro-Token-Zahlen der drei Modelle. Standardtarife, dauerhaft ab Mai 2026:
| Token-Typ | DeepSeek V4-Pro-Rate pro 1M Tokens |
|---|---|
| Eingabe, Cache-Fehler | $0.435 |
| Eingabe, Cache-Treffer | $0.003625 |
| Ausgabe | $0.87 |
Diese Ausgaberate beträgt etwa 1/34 der Kosten für GPT-5.5-Ausgabe. Die nicht-denkende V4-Flash-Variante ist mit 0,14 $ / 0,28 $ pro Million Eingabe-/Ausgabe-Tokens noch günstiger. Ein intensiver Tag mit einem Codierungsassistenten kann damit etwa 1 $ kosten.
MiniMax M3 verkauft Token-Pläne statt eines einzelnen veröffentlichten Pro-Token-Preises:
- Plus: 20 $
- Max: 50 $
- Ultra: 120 $
Die API verwendet einen Standardtarif für Eingaben bis 512K Tokens und einen Langkontext-Tarif darüber. Da MiniMax keine exakte Pro-Token-Zahl veröffentlicht hat, sollte sie nicht geschätzt werden. Die Planstruktur passt zu Teams, die planbare monatliche Kosten bevorzugen. Verdrahtungsdetails finden Sie unter wie man die MiniMax M3 API verwendet.
Qwen 3.7 wird pro Token über Alibaba Cloud abgerechnet. Da sich Vorschaupreise ändern können, sollten Sie vor produktiver Nutzung die aktuellen Alibaba-Cloud-Modelldokumente prüfen.
Beim Zugang ist der Open-Weight-Aspekt entscheidend:
| Modell | API | Self-Hosting |
|---|---|---|
| MiniMax M3 | Ja | Ja, offene Gewichte angekündigt |
| DeepSeek V4-Pro | Ja | Ja, basierend auf DeepSeeks offenen Veröffentlichungen |
| Qwen3.7-Max | Ja, Alibaba Cloud | Nein, Flaggschiff aktuell Closed-Weight |
Wenn Anbieterbindung ein Ausschlusskriterium ist, sind MiniMax M3 und DeepSeek V4-Pro die relevanten Optionen.
Welches Modell wählen?
Ordnen Sie Ihre Priorität direkt einem Modell zu.
| Ihre Priorität | Beste Wahl | Warum |
|---|---|---|
| Agentenbasierte Codierung mit veröffentlichten Benchmarks | MiniMax M3 | SWE-Bench Pro, Terminal-Bench und MCP Atlas beim Start veröffentlicht, aber vom Anbieter gemeldet |
| Multimodale Eingabe | MiniMax M3 | Einziges der drei Modelle mit nativer Multimodalität |
| Niedrigste Kosten bei hohem API-Verkehr | DeepSeek V4-Pro | $0.87/1M Ausgabe, günstigere Flash-Variante und Cache-Hit-Preise |
| Reasoning-gesteuerte Codequalität bei schwierigen Refactorings | DeepSeek V4-Pro | Denkprozess erkennt Abhängigkeiten über mehrere Dateien |
| Höchster zusammengesetzter Intelligenzwert auf öffentlicher Bestenliste | Qwen3.7-Max | AA Intelligence Index 57, als Nr. 1 beim Start gemeldet |
| Langfristige autonome Agentenläufe | Qwen3.7-Max oder MiniMax M3 | Beide zielen auf Ausdauer und Werkzeugnutzung; M3 veröffentlicht zusätzlich MCP-Atlas-Zahlen |
| Self-Hosting / keine Anbieterbindung | MiniMax M3 oder DeepSeek V4-Pro | Offene Gewichte bzw. starke Open-Weight-Erfolgsbilanz |
Kurz gesagt:
- Wählen Sie MiniMax M3, wenn Sie veröffentlichte Agenten-Benchmarks, 1M-Kontext und Multimodalität möchten.
- Wählen Sie DeepSeek V4-Pro, wenn niedrige Kosten und Reasoning für Codeänderungen wichtiger sind.
- Wählen Sie Qwen3.7-Max, wenn Sie hohe Gesamtintelligenz und lange Agentenläufe testen möchten und eine gehostete API akzeptieren.
Testen Sie sie selbst
Benchmarks zeigen, wie ein Modell bei Aufgaben anderer abschneidet. Entscheidend ist aber Ihre eigene Workload: Ihr Repository, Ihre Coding-Standards, Ihre Tests, Ihre Agenten-Tools.
Ein praktischer Vergleich besteht aus drei Schritten.
1. Definieren Sie einen festen Prompt-Satz
Beispiel für Coding-Aufgaben:
Du bist ein Senior TypeScript Engineer.
Aufgabe:
Analysiere die folgenden Dateien und schlage einen minimalen Patch vor, um das Login-Handling robuster zu machen.
Anforderungen:
- Keine Breaking Changes
- Bestehende Tests dürfen nicht entfernt werden
- Neue Tests für Edge Cases hinzufügen
- Antwortformat:
1. Analyse
2. Änderungsplan
3. Patch pro Datei
4. Testbefehle
Nutzen Sie denselben Prompt für alle Modelle.
2. Vergleichen Sie strukturierte Ausgaben
Wenn Sie Agenten bauen, validieren Sie nicht nur Textqualität, sondern auch maschinenlesbare Strukturen:
{
"tool_calls": [
{
"name": "read_file",
"arguments": {
"path": "src/auth/session.ts"
}
}
]
}
Für DeepSeek sollten Sie zusätzlich prüfen, ob reasoning_content korrekt geliefert und in Ihrer Anwendung richtig behandelt wird.
3. Messen Sie Kosten und Wiederholbarkeit
Erfassen Sie pro Modell:
- Eingabe-Tokens
- Ausgabe-Tokens
- Cache-Treffer
- Latenz
- Erfolgsrate
- manuelle Nacharbeit
- Testdurchläufe bis grün
Das ist eine Aufgabe für Apidog. Richten Sie ein Apidog-Projekt mit drei Umgebungen ein, eine pro Modell-API, und importieren Sie das OpenAI-kompatible Chat-Completion-Schema, das jedes dieser Modelle verwendet.
Dann können Sie:
- denselben Prompt-Batch an M3, V4-Pro und Qwen3.7-Max senden
- Antworten nebeneinander vergleichen
- Goldene Antworten speichern und bei Prompt-Änderungen erneut ausführen
-
tool_callsundreasoning_contentper JSON-Schema-Assertion validieren - Regressionen in Agenten-Prompts früh erkennen
Laden Sie Apidog herunter, richten Sie drei Umgebungen für die Modell-Endpunkte ein, und Sie haben in wenigen Minuten eine funktionierende Vergleichsbank. Die spezifischen API-Einrichtungsdetails für das neueste Modell finden Sie unter wie man die MiniMax M3 API verwendet.
Häufig gestellte Fragen
Welches ist derzeit das beste Open-Weight-Codierungsmodell im Jahr 2026?
Für veröffentlichte Nachweise agentenbasierter Codierung beim Start führt MiniMax M3, da es Aufgaben-Benchmarks wie SWE-Bench Pro 59,0% und Terminal-Bench 2.1 66,0% gemeldet hat. DeepSeek V4-Pro ist die kostengünstige Wahl mit starker Reasoning-Codierung. Qwen3.7-Max führt eine zusammengesetzte Bestenliste an, ist aber aktuell nicht Open-Weight.
Die faire Antwort: Führen Sie Ihre eigene Workload über alle drei Modelle aus, bevor Sie sich festlegen.
Sind alle drei wirklich Open-Weight?
Nein. MiniMax M3 ist als Open-Weight angekündigt, mit Gewichten und technischem Bericht innerhalb von etwa zehn Tagen nach dem Start am 1. Juni 2026. DeepSeek hat eine lange Erfolgsbilanz offener Gewichte für R1 und V3. Qwen3.7-Max-Preview ist seit Mitte Mai 2026 proprietär und Closed-Weight.
Details finden Sie unter was ist Qwen 3.7.
Welches Modell hat das größte Kontextfenster?
MiniMax M3 und Qwen3.7-Max werben beide mit 1.000.000 Tokens, ungefähr 700.000 bis 750.000 Wörtern. Der Kontext von DeepSeek V4-Pro wird hier nicht angegeben.
Wichtig: Ein großes Fenster garantiert keine perfekte Erinnerung und verursacht direkte Tokenkosten.
Welches Modell ist am günstigsten im Betrieb?
Bei veröffentlichten Pro-Token-Preisen ist DeepSeek V4-Pro der klare Spitzenreiter: etwa 0,87 $ pro Million Ausgabe-Tokens, mit einer günstigeren V4-Flash-Variante zu 0,14 $ / 0,28 $ pro Million Eingabe-/Ausgabe-Tokens.
MiniMax M3 nutzt monatliche Token-Pläne. Qwen3.7-Max wird über Alibaba Cloud pro Token abgerechnet. Wenn Sie selbst hosten können, reduzieren Open-Weight-Modelle Ihre Grenzkosten auf Hardware und Betrieb.
Das umfassendere Preisbild finden Sie im chinesischen LLM-Preiskrieg 2026.
Ist MiniMax M3 besser als DeepSeek V4-Pro beim Codieren?
Die Zahlen sind noch nicht direkt vergleichbar. M3 veröffentlichte SWE-Bench-Pro- und Terminal-Bench-Ergebnisse zum Start. DeepSeek hat diese Aufgaben nicht im selben Format berichtet.
M3s Vorteil: veröffentlichte Agenten-Benchmarks und Multimodalität.
DeepSeeks Vorteil: Preis und Reasoning-Kette für Multi-Datei-Refactorings.
Der beste Test ist identisch: dieselben Prompts, dasselbe Repository, dieselben Akzeptanzkriterien.
Die Kurzfassung
Drei Modelle konkurrieren jetzt ernsthaft um Codierungs- und Agenten-Workloads:
- MiniMax M3: beste Wahl für veröffentlichte agentenbasierte Codierungs-Benchmarks, 1M-Kontext und Multimodalität.
- DeepSeek V4-Pro: beste Wahl für niedrige Kosten und Reasoning-gesteuerte Codequalität.
- Qwen3.7-Max: interessant für hohe öffentliche Gesamtwerte und lange Agentenläufe, aber aktuell Closed-Weight.
Die Benchmark-Lage wird sich weiterentwickeln, und mehrere M3-Zahlen sind noch Herstellerangaben. Der belastbarste Weg bleibt: Führen Sie dieselben Prompts gegen alle drei APIs in einem Apidog-Projekt aus, vergleichen Sie Ausgaben und Rechnungen, und lassen Sie Ihre eigene Workload entscheiden.
Top comments (0)