Alibaba lieferte innerhalb von zwei Wochen zwei Flaggschiffe der Qwen 3.7-Reihe aus: Qwen3.7-Max als reines Text-Reasoning-Modell und Qwen3.7-Plus als multimodale Version mit Vision. Beide teilen sich 1M Token Kontext und eine autonome Obergrenze von 35 Stunden. Die praktische Frage lautet deshalb: Welches Modell sollten Sie in Ihrer API-Integration verwenden?
Probieren Sie Apidog noch heute aus
Dieser Leitfaden vergleicht Qwen3.7-Plus und Qwen3.7-Max anhand von Benchmarks, Preis, Geschwindigkeit und typischen Entwickler-Workloads. Wenn Sie zuerst den Hintergrund zu jedem Modell lesen möchten, nutzen Sie die Qwen 3.7 Plus Übersicht und den Leitfaden Was ist Qwen 3.7. Für den API-Test, Response-Vergleich und das Debugging eignet sich Apidog.
Die kurze Antwort
Wählen Sie standardmäßig Qwen 3.7 Plus.
Plus ist bei Tool-Nutzung gleichauf mit Max, gewinnt leicht bei Terminal-Aufgaben, unterstützt Bild- und Videoeingaben und kostet deutlich weniger. Für die meisten produktiven Workloads ist das die bessere Default-Option.
Wählen Sie Qwen 3.7 Max nur, wenn Ihre Anwendung ausschließlich Text verarbeitet und Sie den kleinen Vorteil bei reinen Text-Benchmarks oder Kaltstart-Latenz wirklich brauchen. Sobald Screenshots, Dokumentbilder, PDFs oder Videos ins Spiel kommen, ist Plus die relevante Wahl.
Der Kernunterschied
Qwen 3.7 Max ist das reine Text-Flaggschiff. Es verarbeitet Texteingaben, argumentiert, schreibt Code und kann lange Agentenketten ausführen.
Qwen 3.7 Plus nutzt dieselbe Grundlage, ergänzt aber Vision. Es akzeptiert Bilder und Videos und kann GUIs so verankern, dass es aus einem Screenshot konkrete Klickpositionen ableitet. Gleichzeitig ist es günstiger.
Der praktische Trade-off:
- Mit Max erhalten Sie einen kleinen Vorteil bei Textqualität und Nur-Text-Latenz.
- Mit Plus erhalten Sie Vision, ähnliche Coding- und Tool-Leistung und deutlich niedrigere Kosten.
Benchmarks
Die Benchmark-Daten zeigen ein klares Muster: Plus liegt bei reinem Text leicht hinter Max, ist bei Tool-Nutzung gleichauf und gewinnt, sobald Vision benötigt wird.
| Benchmark | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| LM Arena (Text) | #15 | #13 |
| LM Arena (Codierung) | #12 | #10 |
| Vision Arena | #16 | Nicht zutreffend |
| SWE-Bench Pro | ~60% | 60.6% |
| Terminal-Bench (2.0 Terminus) | 70.3 | 69.7 |
| ScreenSpot Pro (GUI-Verankerung) | 79.0 | Keine |
| MCP-Atlas (Tool-Nutzung) | 76.4 | 76.4 |
Daraus ergeben sich drei konkrete Schlussfolgerungen.
1. SWE-Bench Pro ist praktisch ein Unentschieden
Plus erreicht etwa 60%, Max 60,6%. Für reale Softwareaufgaben verlieren Sie durch Vision bei Plus keine nennenswerte Coding-Fähigkeit. Der Vergleich Qwen 3.7 vs. GPT-5.5 vs. Opus 4.7 ordnet diese Werte gegenüber westlichen Flaggschiffen ein.
2. Plus gewinnt knapp im Terminal-Bench
Plus erreicht 70,3 gegenüber 69,7 bei Max. Für Agenten-Workloads mit Shell-Kommandos ist das günstigere Modell also mindestens konkurrenzfähig.
3. GUI-Verankerung ist der große Unterschied
ScreenSpot Pro 79.0 ist relevant, wenn Ihr Agent mit Benutzeroberflächen arbeitet. Max kann diesen Benchmark nicht ausführen, weil es keine visuellen Eingaben verarbeitet.
Behandeln Sie Anbieter-Benchmarks trotzdem als Orientierung, nicht als Garantie. Die SWE-bench-Website erklärt, was die jeweilige Suite misst.
Preise
Hier ist der Unterschied am deutlichsten.
| Preis | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Eingabe / 1M Token | $0.40 | $2.50 |
| Ausgabe / 1M Token | $1.60 | $7.50 |
| Gecachte Eingabe / 1M Token | $0.08 | $0.25 |
Plus ist bei Eingaben etwa sechsmal günstiger und bei Ausgaben fast fünfmal günstiger. Für Agenten mit hohem Volumen, langen Kontexten oder wiederholten API-Aufrufen wirkt sich das direkt auf die Kosten aus.
Wichtig bei Plus: Bilder und Videos werden ebenfalls tokenisiert und teilen sich das 1M-Kontextbudget. Eine screenshot-lastige oder video-lastige Workload kann deshalb pro Anfrage mehr kosten, als der reine Textpreis vermuten lässt.
Praktische Maßnahmen:
- Screenshots vor dem Senden verkleinern.
- Nur relevante Bildbereiche senden.
- Videos sparsam samplen.
- Lange Kontexte cachen, wenn möglich.
- Für reine Text-Bulk-Jobs beide Modelle mit denselben Prompts benchmarken.
Mehr dazu: Agenten-Token-Kosten reduzieren und chinesischer LLM-Preiskrieg 2026. Die offiziellen Preise stehen auf der Model Studio Preisgestaltungsseite.
Spezifikationen und Geschwindigkeit
| Spezifikation | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Eingabemodalitäten | Text, Bild, Video | Nur Text |
| Kontextfenster | 1M, geteilt mit Vision | 1M |
| Autonome Laufzeit-Obergrenze | 35 Stunden | 35 Stunden |
| Nur-Text-Latenz | Basislinie | ~7–15% schneller bei Kaltstarts |
| Gewichte | Proprietär, nur über API | Proprietär, nur über API |
Max hat einen Vorteil bei reiner Textlatenz. Bei Chat-Produkten, in denen die Zeit bis zum ersten Token sichtbar ist, kann das relevant sein. Eine unabhängige Analyse verfolgt den Kompromiss zwischen Geschwindigkeit und Intelligenz.
Beide Modelle sind closed-weight und laufen nur über Alibaba Cloud Model Studio. Wenn Sie selbst hosten müssen, ist keines der beiden Modelle eine Option.
Entscheidungsmatrix: Welches Modell sollten Sie wählen?
Wählen Sie Qwen 3.7 Plus, wenn:
- Ihre Anwendung Bilder, Screenshots, PDFs oder Videos verarbeitet.
- Sie Computer-Use- oder GUI-Agenten entwickeln.
- Kosten eine wichtige Rolle spielen.
- Sie Coding-, Terminal- oder Tool-Workloads mit gutem Preis-Leistungs-Verhältnis brauchen.
- Sie ein Default-Modell für gemischte Aufgaben suchen.
Wählen Sie Qwen 3.7 Max, wenn:
- Ihre Anwendung ausschließlich Text verarbeitet.
- Sie auf reine Text-Benchmarks optimieren.
- Sie die schnellste Textantwort in einem latenzsensitiven Produkt brauchen.
- Sie niemals visuelle Eingaben senden.
- Der Preisunterschied für Ihren Use Case akzeptabel ist.
Für die meisten Teams ist Plus die Standardwahl und Max der Spezialist.
| Workload | Wahl | Warum |
|---|---|---|
| Screenshot-QA oder visueller Regressionsagent | Plus | Nur Plus kann den Bildschirm sehen |
| Rechnungs-, Quittungs- oder gescannte PDF-Extraktion | Plus | Dokumentbilder benötigen Vision |
| Textklassifizierung mit hohem Volumen | Plus | Ausreichende Textqualität bei deutlich niedrigeren Kosten |
| Latenzarmer Kundensupport-Chatbot | Max | Schnellere Nur-Text-Kaltstarts können relevant sein |
| Langer autonomer Coding-Lauf | Beide testen | SWE-Bench Pro ist nahezu gleichauf; Kosten entscheiden |
| GUI-Agent mit Klickaktionen | Plus | GUI-Verankerung ist nur mit Vision möglich |
Beide Modelle per API vergleichen
Beide Modelle verwenden denselben OpenAI-kompatiblen Model-Studio-Pfad. In der Praxis wechseln Sie nur die Modell-ID.
Beispielhafte Struktur für einen direkten A/B-Test:
MODEL="qwen3.7-plus"
curl "$MODEL_STUDIO_BASE_URL/chat/completions" \
-H "Authorization: Bearer $MODEL_STUDIO_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "'"$MODEL"'",
"messages": [
{
"role": "user",
"content": "Analysiere diesen Bug-Report und schlage eine Lösung vor."
}
]
}'
Danach führen Sie denselben Request mit Max aus:
MODEL="qwen3.7-max"
Vergleichen Sie anschließend:
- Antwortqualität
- Latenz
- Tokenverbrauch
- Fehlerverhalten
- Tool-Call-Struktur
- Kosten pro erfolgreichem Task
Für Plus können Sie zusätzlich visuelle Eingaben testen. Nutzen Sie dafür dieselbe Aufgabe einmal mit und einmal ohne Screenshot oder Dokumentbild, um zu prüfen, ob Vision die Antwort verbessert.
Beide mit Apidog testen
Beide Modelle lassen sich in Apidog als API-Requests abbilden. Der Workflow:
- Legen Sie eine Umgebung für Alibaba Cloud Model Studio an.
- Speichern Sie den API-Key als Environment Variable.
- Erstellen Sie einen Request für
qwen3.7-plus. - Duplizieren Sie den Request und ändern Sie nur die Modell-ID auf
qwen3.7-max. - Senden Sie identische Prompts.
- Vergleichen Sie rohes JSON, Latenz und Response-Struktur.
- Speichern Sie erfolgreiche Requests als wiederverwendbare Testfälle.
Für multimodale Plus-Anfragen zeigt der Qwen 3.7 Plus API-Leitfaden das Bild- und Video-Payload-Format. Der grundlegende Qwen 3.7 API-Leitfaden behandelt den Textpfad. Wenn ein Modell Tool-Aufrufe in einem Agentenlauf verkettet, hilft Apidogs AI-Agent-Debugger, die komplette Sequenz zu prüfen.
Laden Sie Apidog herunter, um beide Qwen-3.7-Modelle vor der Produktion zu testen.
FAQ
Ist Qwen 3.7 Plus besser als Max?
Für die meisten Workloads ja. Plus ergänzt Vision, kostet deutlich weniger und ist bei Coding und Tool-Nutzung nah an Max. Max hat Vorteile bei reinen Text-Benchmarks und Nur-Text-Latenz.
Wie viel günstiger ist Plus?
Plus kostet etwa $0.40 pro Million Eingabetoken gegenüber $2.50 bei Max. Bei Ausgaben kostet Plus $1.60 pro Million Token gegenüber $7.50 bei Max.
Haben beide dasselbe Kontextfenster?
Ja. Beide unterstützen 1M Token Kontext. Bei Plus verbrauchen Bilder und Videos Token aus demselben Budget.
Kann Max Bilder verarbeiten?
Nein. Qwen 3.7 Max ist nur für Text gedacht. Für Bild- oder Videoeingaben benötigen Sie Qwen 3.7 Plus.
Sind die Modelle Open Source?
Nein. Beide sind proprietär und laufen nur über Alibaba Cloud Model Studio. Sie können die Gewichte nicht herunterladen oder selbst hosten.
Welches Modell ist schneller?
Max ist bei reinen Text-Kaltstarts etwa 7 bis 15% schneller. Für gemischte oder visuelle Workloads ist Plus trotzdem die relevante Option.
Fazit
Qwen 3.7 Max und Qwen 3.7 Plus lösen nicht exakt dieselbe Aufgabe. Max ist der Text-Spezialist mit leichtem Vorteil bei Geschwindigkeit und Textqualität. Plus ist der günstigere multimodale Generalist und für die meisten API-Workloads die bessere Standardwahl.
Beginnen Sie mit Qwen 3.7 Plus. Wechseln Sie zu Qwen 3.7 Max nur dann, wenn Ihre Anwendung rein textbasiert, latenzsensitiv und bereit ist, den höheren Preis zu tragen. Testen Sie beide Modelle mit denselben Requests in Apidog, bevor Sie eines davon in Produktion einsetzen.



Top comments (0)