Emre Demir

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus vs. Max: Welches Qwen 3.7 Modell sollten Sie verwenden?

Alibaba lieferte innerhalb von zwei Wochen zwei Flaggschiffe der Qwen 3.7-Reihe aus: Qwen3.7-Max als reines Text-Reasoning-Modell und Qwen3.7-Plus als multimodale Version mit Vision. Beide teilen sich 1M Token Kontext und eine autonome Obergrenze von 35 Stunden. Die praktische Frage lautet deshalb: Welches Modell sollten Sie in Ihrer API-Integration verwenden?

Probieren Sie Apidog noch heute aus

Dieser Leitfaden vergleicht Qwen3.7-Plus und Qwen3.7-Max anhand von Benchmarks, Preis, Geschwindigkeit und typischen Entwickler-Workloads. Wenn Sie zuerst den Hintergrund zu jedem Modell lesen möchten, nutzen Sie die Qwen 3.7 Plus Übersicht und den Leitfaden Was ist Qwen 3.7. Für den API-Test, Response-Vergleich und das Debugging eignet sich Apidog.

Die kurze Antwort

Wählen Sie standardmäßig Qwen 3.7 Plus.

Plus ist bei Tool-Nutzung gleichauf mit Max, gewinnt leicht bei Terminal-Aufgaben, unterstützt Bild- und Videoeingaben und kostet deutlich weniger. Für die meisten produktiven Workloads ist das die bessere Default-Option.

Wählen Sie Qwen 3.7 Max nur, wenn Ihre Anwendung ausschließlich Text verarbeitet und Sie den kleinen Vorteil bei reinen Text-Benchmarks oder Kaltstart-Latenz wirklich brauchen. Sobald Screenshots, Dokumentbilder, PDFs oder Videos ins Spiel kommen, ist Plus die relevante Wahl.

Der Kernunterschied

Qwen 3.7 Max ist das reine Text-Flaggschiff. Es verarbeitet Texteingaben, argumentiert, schreibt Code und kann lange Agentenketten ausführen.

Qwen 3.7 Plus nutzt dieselbe Grundlage, ergänzt aber Vision. Es akzeptiert Bilder und Videos und kann GUIs so verankern, dass es aus einem Screenshot konkrete Klickpositionen ableitet. Gleichzeitig ist es günstiger.

Der praktische Trade-off:

Mit Max erhalten Sie einen kleinen Vorteil bei Textqualität und Nur-Text-Latenz.
Mit Plus erhalten Sie Vision, ähnliche Coding- und Tool-Leistung und deutlich niedrigere Kosten.

Benchmarks

Die Benchmark-Daten zeigen ein klares Muster: Plus liegt bei reinem Text leicht hinter Max, ist bei Tool-Nutzung gleichauf und gewinnt, sobald Vision benötigt wird.

Benchmark	Qwen 3.7 Plus	Qwen 3.7 Max
LM Arena (Text)	#15	#13
LM Arena (Codierung)	#12	#10
Vision Arena	#16	Nicht zutreffend
SWE-Bench Pro	~60%	60.6%
Terminal-Bench (2.0 Terminus)	70.3	69.7
ScreenSpot Pro (GUI-Verankerung)	79.0	Keine
MCP-Atlas (Tool-Nutzung)	76.4	76.4

Daraus ergeben sich drei konkrete Schlussfolgerungen.

1. SWE-Bench Pro ist praktisch ein Unentschieden

Plus erreicht etwa 60%, Max 60,6%. Für reale Softwareaufgaben verlieren Sie durch Vision bei Plus keine nennenswerte Coding-Fähigkeit. Der Vergleich Qwen 3.7 vs. GPT-5.5 vs. Opus 4.7 ordnet diese Werte gegenüber westlichen Flaggschiffen ein.

2. Plus gewinnt knapp im Terminal-Bench

Plus erreicht 70,3 gegenüber 69,7 bei Max. Für Agenten-Workloads mit Shell-Kommandos ist das günstigere Modell also mindestens konkurrenzfähig.

3. GUI-Verankerung ist der große Unterschied

ScreenSpot Pro 79.0 ist relevant, wenn Ihr Agent mit Benutzeroberflächen arbeitet. Max kann diesen Benchmark nicht ausführen, weil es keine visuellen Eingaben verarbeitet.

Behandeln Sie Anbieter-Benchmarks trotzdem als Orientierung, nicht als Garantie. Die SWE-bench-Website erklärt, was die jeweilige Suite misst.

Preise

Hier ist der Unterschied am deutlichsten.

Preis	Qwen 3.7 Plus	Qwen 3.7 Max
Eingabe / 1M Token	$0.40	$2.50
Ausgabe / 1M Token	$1.60	$7.50
Gecachte Eingabe / 1M Token	$0.08	$0.25

Plus ist bei Eingaben etwa sechsmal günstiger und bei Ausgaben fast fünfmal günstiger. Für Agenten mit hohem Volumen, langen Kontexten oder wiederholten API-Aufrufen wirkt sich das direkt auf die Kosten aus.

Wichtig bei Plus: Bilder und Videos werden ebenfalls tokenisiert und teilen sich das 1M-Kontextbudget. Eine screenshot-lastige oder video-lastige Workload kann deshalb pro Anfrage mehr kosten, als der reine Textpreis vermuten lässt.

Praktische Maßnahmen:

Screenshots vor dem Senden verkleinern.
Nur relevante Bildbereiche senden.
Videos sparsam samplen.
Lange Kontexte cachen, wenn möglich.
Für reine Text-Bulk-Jobs beide Modelle mit denselben Prompts benchmarken.

Mehr dazu: Agenten-Token-Kosten reduzieren und chinesischer LLM-Preiskrieg 2026. Die offiziellen Preise stehen auf der Model Studio Preisgestaltungsseite.

Spezifikationen und Geschwindigkeit

Spezifikation	Qwen 3.7 Plus	Qwen 3.7 Max
Eingabemodalitäten	Text, Bild, Video	Nur Text
Kontextfenster	1M, geteilt mit Vision	1M
Autonome Laufzeit-Obergrenze	35 Stunden	35 Stunden
Nur-Text-Latenz	Basislinie	~7–15% schneller bei Kaltstarts
Gewichte	Proprietär, nur über API	Proprietär, nur über API

Max hat einen Vorteil bei reiner Textlatenz. Bei Chat-Produkten, in denen die Zeit bis zum ersten Token sichtbar ist, kann das relevant sein. Eine unabhängige Analyse verfolgt den Kompromiss zwischen Geschwindigkeit und Intelligenz.

Beide Modelle sind closed-weight und laufen nur über Alibaba Cloud Model Studio. Wenn Sie selbst hosten müssen, ist keines der beiden Modelle eine Option.

Entscheidungsmatrix: Welches Modell sollten Sie wählen?

Wählen Sie Qwen 3.7 Plus, wenn:

Ihre Anwendung Bilder, Screenshots, PDFs oder Videos verarbeitet.
Sie Computer-Use- oder GUI-Agenten entwickeln.
Kosten eine wichtige Rolle spielen.
Sie Coding-, Terminal- oder Tool-Workloads mit gutem Preis-Leistungs-Verhältnis brauchen.
Sie ein Default-Modell für gemischte Aufgaben suchen.

Wählen Sie Qwen 3.7 Max, wenn:

Ihre Anwendung ausschließlich Text verarbeitet.
Sie auf reine Text-Benchmarks optimieren.
Sie die schnellste Textantwort in einem latenzsensitiven Produkt brauchen.
Sie niemals visuelle Eingaben senden.
Der Preisunterschied für Ihren Use Case akzeptabel ist.

Für die meisten Teams ist Plus die Standardwahl und Max der Spezialist.

Workload	Wahl	Warum
Screenshot-QA oder visueller Regressionsagent	Plus	Nur Plus kann den Bildschirm sehen
Rechnungs-, Quittungs- oder gescannte PDF-Extraktion	Plus	Dokumentbilder benötigen Vision
Textklassifizierung mit hohem Volumen	Plus	Ausreichende Textqualität bei deutlich niedrigeren Kosten
Latenzarmer Kundensupport-Chatbot	Max	Schnellere Nur-Text-Kaltstarts können relevant sein
Langer autonomer Coding-Lauf	Beide testen	SWE-Bench Pro ist nahezu gleichauf; Kosten entscheiden
GUI-Agent mit Klickaktionen	Plus	GUI-Verankerung ist nur mit Vision möglich

Beide Modelle per API vergleichen

Beide Modelle verwenden denselben OpenAI-kompatiblen Model-Studio-Pfad. In der Praxis wechseln Sie nur die Modell-ID.

Beispielhafte Struktur für einen direkten A/B-Test:

MODEL="qwen3.7-plus"

curl "$MODEL_STUDIO_BASE_URL/chat/completions" \
  -H "Authorization: Bearer $MODEL_STUDIO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "'"$MODEL"'",
    "messages": [
      {
        "role": "user",
        "content": "Analysiere diesen Bug-Report und schlage eine Lösung vor."
      }
    ]
  }'

Danach führen Sie denselben Request mit Max aus:

MODEL="qwen3.7-max"

Vergleichen Sie anschließend:

Antwortqualität
Latenz
Tokenverbrauch
Fehlerverhalten
Tool-Call-Struktur
Kosten pro erfolgreichem Task

Für Plus können Sie zusätzlich visuelle Eingaben testen. Nutzen Sie dafür dieselbe Aufgabe einmal mit und einmal ohne Screenshot oder Dokumentbild, um zu prüfen, ob Vision die Antwort verbessert.

Beide mit Apidog testen

Beide Modelle lassen sich in Apidog als API-Requests abbilden. Der Workflow:

Legen Sie eine Umgebung für Alibaba Cloud Model Studio an.
Speichern Sie den API-Key als Environment Variable.
Erstellen Sie einen Request für qwen3.7-plus.
Duplizieren Sie den Request und ändern Sie nur die Modell-ID auf qwen3.7-max.
Senden Sie identische Prompts.
Vergleichen Sie rohes JSON, Latenz und Response-Struktur.
Speichern Sie erfolgreiche Requests als wiederverwendbare Testfälle.

Für multimodale Plus-Anfragen zeigt der Qwen 3.7 Plus API-Leitfaden das Bild- und Video-Payload-Format. Der grundlegende Qwen 3.7 API-Leitfaden behandelt den Textpfad. Wenn ein Modell Tool-Aufrufe in einem Agentenlauf verkettet, hilft Apidogs AI-Agent-Debugger, die komplette Sequenz zu prüfen.

Laden Sie Apidog herunter, um beide Qwen-3.7-Modelle vor der Produktion zu testen.

FAQ

Ist Qwen 3.7 Plus besser als Max?

Für die meisten Workloads ja. Plus ergänzt Vision, kostet deutlich weniger und ist bei Coding und Tool-Nutzung nah an Max. Max hat Vorteile bei reinen Text-Benchmarks und Nur-Text-Latenz.

Wie viel günstiger ist Plus?

Plus kostet etwa $0.40 pro Million Eingabetoken gegenüber $2.50 bei Max. Bei Ausgaben kostet Plus $1.60 pro Million Token gegenüber $7.50 bei Max.

Haben beide dasselbe Kontextfenster?

Ja. Beide unterstützen 1M Token Kontext. Bei Plus verbrauchen Bilder und Videos Token aus demselben Budget.

Kann Max Bilder verarbeiten?

Nein. Qwen 3.7 Max ist nur für Text gedacht. Für Bild- oder Videoeingaben benötigen Sie Qwen 3.7 Plus.

Sind die Modelle Open Source?

Nein. Beide sind proprietär und laufen nur über Alibaba Cloud Model Studio. Sie können die Gewichte nicht herunterladen oder selbst hosten.

Welches Modell ist schneller?

Max ist bei reinen Text-Kaltstarts etwa 7 bis 15% schneller. Für gemischte oder visuelle Workloads ist Plus trotzdem die relevante Option.

Fazit

Qwen 3.7 Max und Qwen 3.7 Plus lösen nicht exakt dieselbe Aufgabe. Max ist der Text-Spezialist mit leichtem Vorteil bei Geschwindigkeit und Textqualität. Plus ist der günstigere multimodale Generalist und für die meisten API-Workloads die bessere Standardwahl.

Beginnen Sie mit Qwen 3.7 Plus. Wechseln Sie zu Qwen 3.7 Max nur dann, wenn Ihre Anwendung rein textbasiert, latenzsensitiv und bereit ist, den höheren Preis zu tragen. Testen Sie beide Modelle mit denselben Requests in Apidog, bevor Sie eines davon in Produktion einsetzen.

DEV Community