Emre Demir

Posted on Jun 1 • Originally published at apidog.com

MiniMax M3, DeepSeek V4-pro, Qwen 3.7: Bestes Open-Source-Coding-Modell 2026

Die Frage „Was ist das beste Codierungsmodell?“ hatte lange eine westliche Standardantwort: GPT, Claude oder Gemini nutzen, Token bezahlen und akzeptieren, dass die Gewichte in einem fremden Rechenzentrum bleiben. Das ist nicht mehr die einzige Option. Chinesische Labore liefern inzwischen Modelle, die bei Codierungs- und Agentenaufgaben mithalten, offene Gewichte ankündigen oder veröffentlichen und API-Preise anbieten, die Ihre Agenten-Kalkulation deutlich verändern.

Testen Sie Apidog noch heute

MiniMax M3 ist dafür das deutlichste aktuelle Signal. Das Modell wurde am 1. Juni 2026 vorgestellt, ist für Codierungs- und Agentenarbeit ausgelegt, bietet ein Kontextfenster von 1.000.000 Tokens und unterstützt native Multimodalität. Zusammen mit DeepSeeks V4-Familie und Alibabas Qwen 3.7 ergibt sich erstmals eine echte Auswahlliste für Teams, die niedrige Kosten, offene Gewichte oder weniger Anbieterbindung priorisieren.

Die drei Anwärter

MiniMax M3

MiniMax M3 ist der Neuzugang. MiniMax positioniert es als Spitzenmodell für Codierung mit:

1M-Token-Kontextfenster
nativer Multimodalität für Bild- und Videoeingaben
Unterstützung für computergestützte Aufgaben
neuer MSA-Architektur
angekündigten offenen Gewichten und technischem Bericht innerhalb von etwa zehn Tagen nach Start

Die Parameteranzahl wurde nicht offengelegt. Eine vollständige Aufschlüsselung finden Sie unter was ist MiniMax M3.

DeepSeek V4-Pro

DeepSeek V4-Pro ist das Reasoning- und Codierungsmodell in diesem Vergleich. Es gibt vor der finalen Antwort reasoning_content zurück und kann dadurch Abhängigkeiten über mehrere Dateien hinweg erkennen, die einfache Completion-Modelle leicht übersehen.

Relevant für Entwickler:

geeignet für komplexere Refactorings
stark bei Multi-Datei-Abhängigkeiten
niedrige API-Kosten
günstigere V4-Flash-Variante ohne Denkmodus
DeepSeek hat bereits bei R1 und V3 offene Gewichte veröffentlicht

DeepSeek betreibt seine offizielle Seite und API unter deepseek.com.

Qwen 3.7

Qwen 3.7 ist Alibabas Flaggschiff-Familie, angeführt von Qwen3.7-Max-Preview. Es ist ein Reasoning-Modell mit 1M-Token-Kontextfenster und Fokus auf Langzeit-Agentenarbeit.

Wichtiger Vorbehalt: Qwen3.7-Max ist seit dem Start Mitte Mai 2026 proprietär und Closed-Weight. Alibaba hat eine starke Open-Source-Historie für Modelle unterhalb der Flaggschiff-Stufe, aber offene 3.7-Gewichte sind noch nicht ausgeliefert.

Details finden Sie unter was ist Qwen 3.7. Alibabas Open-Source-Repos liegen unter github.com/QwenLM.

Spezifikationstabelle

Spezifikation	MiniMax M3	DeepSeek V4-Pro	Qwen3.7-Max-Preview
Anbieter	MiniMax	DeepSeek	Alibaba (Qwen)
Veröffentlichung	1. Juni 2026	2026	Mai 2026 (Vorschau)
Offene Gewichte	Ja, Gewichte innerhalb von ca. 10 Tagen angekündigt	Ja, basierend auf DeepSeeks R1/V3-Erfolgsbilanz	Noch nicht, Flaggschiff ist Closed-Weight
Kontextfenster	1.000.000 Tokens	Hier nicht angegeben	1.000.000 Tokens
Multimodal	Ja, Bild + Video, Computernutzung	Nein, Text + Reasoning	Text-fokussiertes Reasoning
Reasoning / Denkmodus	Ja	Ja, `reasoning_content`	Ja, erweitertes Denken
Parameteranzahl	Nicht offengelegt	Hier nicht offengelegt	Hier nicht offengelegt
Architektur	MSA	Hier nicht angegeben	Hier nicht angegeben

Wenn offene Gewichte zwingend sind, reduziert sich Ihre Auswahl sofort: MiniMax M3 und DeepSeek sind die relevanten Kandidaten. Qwen3.7-Max ist aktuell nur über eine gehostete API nutzbar.

Codierungs- und Agentenstärke

Die Datenlage ist nicht gleichmäßig. Deshalb sollten Sie zwischen veröffentlichten Herstellerzahlen, Drittvergleichen und eigenen Tests unterscheiden.

MiniMax M3 wurde mit einer Reihe von vom Anbieter gemeldeten Codierungs- und Agenten-Benchmarks vorgestellt. Behandeln Sie diese Werte als Herstellerangaben, bis unabhängige Reproduktionen vorliegen.

Benchmark, vom Anbieter gemeldet	MiniMax M3
SWE-Bench Pro	59,0%
Terminal-Bench 2.1	66,0%
SWE-fficiency	34,8%
KernelBench Hard	28,8%
MCP Atlas	74,2%
PostTrainBench	0,37
SVG-Bench	Berichtet über Opus 4.7
OmniDocBench	Berichtet über Gemini 3.1 Pro
Claw-Eval	Als höchstes im Set gemeldet

SWE-Bench Pro und Terminal-Bench messen reale Software-Engineering-Aufgaben: GitHub-Issues lösen, Code ändern, im Terminal arbeiten. MCP Atlas misst Werkzeugeinsatz und Agenten-Orchestrierung. Diese Kombination ist besonders relevant, wenn Sie nicht nur Autocomplete, sondern echte Coding-Agenten bauen. Das SWE-Bench-Feld können Sie auf der SWE-Bench-Bestenliste prüfen.

Für DeepSeek V4-Pro und Qwen 3.7 liegen die vergleichbaren agentenbasierten Codierungszahlen nicht im selben Format vor. Ein direkter Tabellenvergleich wäre daher nicht belastbar.

Was dokumentiert ist:

DeepSeek V4-Pro liegt laut Drittvergleichen bei Codierung innerhalb weniger Benchmark-Punkte von GPT-5.5, kostet aber nur einen Bruchteil. Der praktische Vorteil ist die Reasoning-Kette: Bei Multi-Datei-Refactorings, Umbenennungen und Signaturänderungen erkennt das Modell Abhängigkeiten häufig in einem Durchlauf. Einrichtung und Kostenrechnung finden Sie unter wie man DeepSeek V4-Pro mit Cursor verwendet.
Qwen 3.7 erreichte 57 Punkte im Artificial Analysis Intelligence Index, einem Verbund aus Reasoning, Wissen, Mathematik und Codierung, und wurde beim Start als Ergebnis Nr. 1 auf dieser Bestenliste gemeldet. Zusätzlich wurden etwa 1.475 Elo auf LM Arena und eine Top-Ten-Platzierung in der Codierungskategorie berichtet. Alibabas Fokus liegt auf Langzeit-Agentenarbeit und intensiver Werkzeugnutzung über viele Schritte.

Praktische Einordnung:

Wenn Sie optimieren für	Prüfen Sie zuerst
veröffentlichte Agenten-Benchmarks	MiniMax M3
günstige Reasoning-Codierung	DeepSeek V4-Pro
lange Agentenketten und hohe Gesamtwertung	Qwen3.7-Max
Self-Hosting	MiniMax M3 oder DeepSeek V4-Pro
multimodale Agenten	MiniMax M3

Ein breiterer Vergleich an der Spitze für Qwen findet sich in Qwen 3.7 vs GPT-5.5 vs Opus 4.7.

Kontextfenster und Kosten für langen Kontext

MiniMax M3 und Qwen3.7-Max werben beide mit einem Kontextfenster von 1.000.000 Tokens. Der Kontext von DeepSeek V4-Pro wird hier nicht angegeben.

Eine Million Tokens entsprechen grob 700.000 bis 750.000 Wörtern. Das reicht theoretisch für:

ein mittelgroßes Repository
mehrere lange PDFs
umfangreiche Spezifikationen
lange Chat- oder Agentenverläufe
Cross-Repository- oder Multi-Datei-Analysen

Aber: Ein großes Kontextfenster ist eine Obergrenze, keine Qualitätsgarantie. Je voller das Fenster, desto wichtiger werden Abrufgenauigkeit, Prompt-Struktur und Kostenkontrolle.

Praktische Prompt-Strategie für 1M-Kontext

Nutzen Sie das volle Fenster nur, wenn es nötig ist.

Statt ein komplettes Repository blind einzufügen:

Ziel:
Refactore die Authentifizierungslogik von Session-basiert auf Token-basiert.

Kontext:
1. Relevante Dateien:
- src/auth/session.ts
- src/auth/middleware.ts
- src/api/login.ts
- src/api/logout.ts

2. Architekturhinweise:
- Express API
- PostgreSQL
- bestehende Tests unter tests/auth

Aufgabe:
1. Analysiere die Abhängigkeiten.
2. Schlage einen minimalen Änderungsplan vor.
3. Gib danach konkrete Patches pro Datei aus.

Wenn das Modell zusätzliche Dateien benötigt, lassen Sie es diese explizit anfordern:

Wenn dir Kontext fehlt, antworte nur mit einer JSON-Liste der benötigten Dateien:
{
  "needed_files": ["path/to/file.ts"]
}

So vermeiden Sie unnötige Tokenkosten.

MiniMax M3 verwendet laut Beschreibung einen Standard-API-Tarif bis 512K Eingabe-Tokens und einen separaten Langkontext-Tarif darüber. Das zeigt die wirtschaftliche Realität: Langer Kontext ist eine Premium-Stufe. Konkrete Taktiken zur Reduzierung der Agenten-Kontextkosten finden Sie unter wie man Agenten-Token-Kosten reduziert.

Preis und Zugang

Der Preis ist einer der Hauptgründe für diesen Vergleich. Die gleiche Agenten- oder Coding-Workload, die bei einem westlichen Flaggschiff teuer ist, läuft hier oft zu einem Bruchteil der Kosten. Diese Dynamik ist Teil des chinesischen LLM-Preiskriegs 2026.

DeepSeek V4-Pro veröffentlicht die klarsten Pro-Token-Zahlen der drei Modelle. Standardtarife, dauerhaft ab Mai 2026:

Token-Typ	DeepSeek V4-Pro-Rate pro 1M Tokens
Eingabe, Cache-Fehler	$0.435
Eingabe, Cache-Treffer	$0.003625
Ausgabe	$0.87

Diese Ausgaberate beträgt etwa 1/34 der Kosten für GPT-5.5-Ausgabe. Die nicht-denkende V4-Flash-Variante ist mit 0,14 $ / 0,28 $ pro Million Eingabe-/Ausgabe-Tokens noch günstiger. Ein intensiver Tag mit einem Codierungsassistenten kann damit etwa 1 $ kosten.

MiniMax M3 verkauft Token-Pläne statt eines einzelnen veröffentlichten Pro-Token-Preises:

Plus: 20 $
Max: 50 $
Ultra: 120 $

Die API verwendet einen Standardtarif für Eingaben bis 512K Tokens und einen Langkontext-Tarif darüber. Da MiniMax keine exakte Pro-Token-Zahl veröffentlicht hat, sollte sie nicht geschätzt werden. Die Planstruktur passt zu Teams, die planbare monatliche Kosten bevorzugen. Verdrahtungsdetails finden Sie unter wie man die MiniMax M3 API verwendet.

Qwen 3.7 wird pro Token über Alibaba Cloud abgerechnet. Da sich Vorschaupreise ändern können, sollten Sie vor produktiver Nutzung die aktuellen Alibaba-Cloud-Modelldokumente prüfen.

Beim Zugang ist der Open-Weight-Aspekt entscheidend:

Modell	API	Self-Hosting
MiniMax M3	Ja	Ja, offene Gewichte angekündigt
DeepSeek V4-Pro	Ja	Ja, basierend auf DeepSeeks offenen Veröffentlichungen
Qwen3.7-Max	Ja, Alibaba Cloud	Nein, Flaggschiff aktuell Closed-Weight

Wenn Anbieterbindung ein Ausschlusskriterium ist, sind MiniMax M3 und DeepSeek V4-Pro die relevanten Optionen.

Welches Modell wählen?

Ordnen Sie Ihre Priorität direkt einem Modell zu.

Ihre Priorität	Beste Wahl	Warum
Agentenbasierte Codierung mit veröffentlichten Benchmarks	MiniMax M3	SWE-Bench Pro, Terminal-Bench und MCP Atlas beim Start veröffentlicht, aber vom Anbieter gemeldet
Multimodale Eingabe	MiniMax M3	Einziges der drei Modelle mit nativer Multimodalität
Niedrigste Kosten bei hohem API-Verkehr	DeepSeek V4-Pro	$0.87/1M Ausgabe, günstigere Flash-Variante und Cache-Hit-Preise
Reasoning-gesteuerte Codequalität bei schwierigen Refactorings	DeepSeek V4-Pro	Denkprozess erkennt Abhängigkeiten über mehrere Dateien
Höchster zusammengesetzter Intelligenzwert auf öffentlicher Bestenliste	Qwen3.7-Max	AA Intelligence Index 57, als Nr. 1 beim Start gemeldet
Langfristige autonome Agentenläufe	Qwen3.7-Max oder MiniMax M3	Beide zielen auf Ausdauer und Werkzeugnutzung; M3 veröffentlicht zusätzlich MCP-Atlas-Zahlen
Self-Hosting / keine Anbieterbindung	MiniMax M3 oder DeepSeek V4-Pro	Offene Gewichte bzw. starke Open-Weight-Erfolgsbilanz

Kurz gesagt:

Wählen Sie MiniMax M3, wenn Sie veröffentlichte Agenten-Benchmarks, 1M-Kontext und Multimodalität möchten.
Wählen Sie DeepSeek V4-Pro, wenn niedrige Kosten und Reasoning für Codeänderungen wichtiger sind.
Wählen Sie Qwen3.7-Max, wenn Sie hohe Gesamtintelligenz und lange Agentenläufe testen möchten und eine gehostete API akzeptieren.

Testen Sie sie selbst

Benchmarks zeigen, wie ein Modell bei Aufgaben anderer abschneidet. Entscheidend ist aber Ihre eigene Workload: Ihr Repository, Ihre Coding-Standards, Ihre Tests, Ihre Agenten-Tools.

Ein praktischer Vergleich besteht aus drei Schritten.

1. Definieren Sie einen festen Prompt-Satz

Beispiel für Coding-Aufgaben:

Du bist ein Senior TypeScript Engineer.

Aufgabe:
Analysiere die folgenden Dateien und schlage einen minimalen Patch vor, um das Login-Handling robuster zu machen.

Anforderungen:
- Keine Breaking Changes
- Bestehende Tests dürfen nicht entfernt werden
- Neue Tests für Edge Cases hinzufügen
- Antwortformat:
  1. Analyse
  2. Änderungsplan
  3. Patch pro Datei
  4. Testbefehle

Nutzen Sie denselben Prompt für alle Modelle.

2. Vergleichen Sie strukturierte Ausgaben

Wenn Sie Agenten bauen, validieren Sie nicht nur Textqualität, sondern auch maschinenlesbare Strukturen:

{
  "tool_calls": [
    {
      "name": "read_file",
      "arguments": {
        "path": "src/auth/session.ts"
      }
    }
  ]
}

Für DeepSeek sollten Sie zusätzlich prüfen, ob reasoning_content korrekt geliefert und in Ihrer Anwendung richtig behandelt wird.

3. Messen Sie Kosten und Wiederholbarkeit

Erfassen Sie pro Modell:

Eingabe-Tokens
Ausgabe-Tokens
Cache-Treffer
Latenz
Erfolgsrate
manuelle Nacharbeit
Testdurchläufe bis grün

Das ist eine Aufgabe für Apidog. Richten Sie ein Apidog-Projekt mit drei Umgebungen ein, eine pro Modell-API, und importieren Sie das OpenAI-kompatible Chat-Completion-Schema, das jedes dieser Modelle verwendet.

Dann können Sie:

denselben Prompt-Batch an M3, V4-Pro und Qwen3.7-Max senden
Antworten nebeneinander vergleichen
Goldene Antworten speichern und bei Prompt-Änderungen erneut ausführen
tool_calls und reasoning_content per JSON-Schema-Assertion validieren
Regressionen in Agenten-Prompts früh erkennen

Laden Sie Apidog herunter, richten Sie drei Umgebungen für die Modell-Endpunkte ein, und Sie haben in wenigen Minuten eine funktionierende Vergleichsbank. Die spezifischen API-Einrichtungsdetails für das neueste Modell finden Sie unter wie man die MiniMax M3 API verwendet.

Häufig gestellte Fragen

Welches ist derzeit das beste Open-Weight-Codierungsmodell im Jahr 2026?

Für veröffentlichte Nachweise agentenbasierter Codierung beim Start führt MiniMax M3, da es Aufgaben-Benchmarks wie SWE-Bench Pro 59,0% und Terminal-Bench 2.1 66,0% gemeldet hat. DeepSeek V4-Pro ist die kostengünstige Wahl mit starker Reasoning-Codierung. Qwen3.7-Max führt eine zusammengesetzte Bestenliste an, ist aber aktuell nicht Open-Weight.

Die faire Antwort: Führen Sie Ihre eigene Workload über alle drei Modelle aus, bevor Sie sich festlegen.

Sind alle drei wirklich Open-Weight?

Nein. MiniMax M3 ist als Open-Weight angekündigt, mit Gewichten und technischem Bericht innerhalb von etwa zehn Tagen nach dem Start am 1. Juni 2026. DeepSeek hat eine lange Erfolgsbilanz offener Gewichte für R1 und V3. Qwen3.7-Max-Preview ist seit Mitte Mai 2026 proprietär und Closed-Weight.

Details finden Sie unter was ist Qwen 3.7.

Welches Modell hat das größte Kontextfenster?

MiniMax M3 und Qwen3.7-Max werben beide mit 1.000.000 Tokens, ungefähr 700.000 bis 750.000 Wörtern. Der Kontext von DeepSeek V4-Pro wird hier nicht angegeben.

Wichtig: Ein großes Fenster garantiert keine perfekte Erinnerung und verursacht direkte Tokenkosten.

Welches Modell ist am günstigsten im Betrieb?

Bei veröffentlichten Pro-Token-Preisen ist DeepSeek V4-Pro der klare Spitzenreiter: etwa 0,87 $ pro Million Ausgabe-Tokens, mit einer günstigeren V4-Flash-Variante zu 0,14 $ / 0,28 $ pro Million Eingabe-/Ausgabe-Tokens.

MiniMax M3 nutzt monatliche Token-Pläne. Qwen3.7-Max wird über Alibaba Cloud pro Token abgerechnet. Wenn Sie selbst hosten können, reduzieren Open-Weight-Modelle Ihre Grenzkosten auf Hardware und Betrieb.

Das umfassendere Preisbild finden Sie im chinesischen LLM-Preiskrieg 2026.

Ist MiniMax M3 besser als DeepSeek V4-Pro beim Codieren?

Die Zahlen sind noch nicht direkt vergleichbar. M3 veröffentlichte SWE-Bench-Pro- und Terminal-Bench-Ergebnisse zum Start. DeepSeek hat diese Aufgaben nicht im selben Format berichtet.

M3s Vorteil: veröffentlichte Agenten-Benchmarks und Multimodalität.

DeepSeeks Vorteil: Preis und Reasoning-Kette für Multi-Datei-Refactorings.

Der beste Test ist identisch: dieselben Prompts, dasselbe Repository, dieselben Akzeptanzkriterien.

Die Kurzfassung

Drei Modelle konkurrieren jetzt ernsthaft um Codierungs- und Agenten-Workloads:

MiniMax M3: beste Wahl für veröffentlichte agentenbasierte Codierungs-Benchmarks, 1M-Kontext und Multimodalität.
DeepSeek V4-Pro: beste Wahl für niedrige Kosten und Reasoning-gesteuerte Codequalität.
Qwen3.7-Max: interessant für hohe öffentliche Gesamtwerte und lange Agentenläufe, aber aktuell Closed-Weight.

Die Benchmark-Lage wird sich weiterentwickeln, und mehrere M3-Zahlen sind noch Herstellerangaben. Der belastbarste Weg bleibt: Führen Sie dieselben Prompts gegen alle drei APIs in einem Apidog-Projekt aus, vergleichen Sie Ausgaben und Rechnungen, und lassen Sie Ihre eigene Workload entscheiden.

DEV Community