Emre Demir

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus: Alibabas multimodales KI-Agentenmodell, Benchmarks und Preise

Alibaba hat Qwen 3.7 Plus nur wenige Tage nach Qwen3.7-Max veröffentlicht. Kurz gesagt: Plus ist Max mit Augen. Es behält denselben 1M-Token-Kontext und dasselbe agentische Grundgerüst bei, ergänzt Bild- und Videoeingaben und kostet etwa ein Sechstel des Preises von Max. Wenn Sie die Familie verfolgt haben, behandelt unser Leitfaden zu Qwen 3.7 das Text-Flaggschiff; dieser Beitrag zeigt, was die Plus-Variante praktisch hinzufügt und wie Sie sie per API nutzen.

Testen Sie Apidog noch heute

Wichtig für die Implementierung: Qwen 3.7 Plus ist nur über API verfügbar und proprietär. Es gibt keine offenen Gewichte. Sie können das Modell also nicht selbst hosten, sondern müssen es über Alibaba Cloud Model Studio aufrufen, testen und debuggen. Für API-Workflows, multimodale Payloads und Agenten-Debugging ist Apidog entsprechend relevant.

Die kurze Antwort

Qwen 3.7 Plus ist das multimodale, preisgünstige Geschwistermodell von Qwen3.7-Max. Sie können ihm Screenshots, Design-Mockups, Dokumente oder Videos geben. Das Modell verarbeitet diese Inputs zusammen mit Text und eignet sich besonders für Agenten, die grafische Benutzeroberflächen steuern.

Beispiel: Ein GUI-Agent kann einen App-Screenshot analysieren und konkrete Koordinaten zurückgeben, etwa:

{
  "action": "click",
  "x": 487,
  "y": 232,
  "reason": "Submit-Button erkannt"
}

Bei reinem Text liegt Max weiterhin leicht vorne. Sobald ein visuelles Signal beteiligt ist, ist Plus in der Praxis die bessere Wahl: günstiger, multimodal und auf GUI-Verankerung ausgelegt. Der zentrale Nachteil bleibt: geschlossene Gewichte.

Was ist neu im Vergleich zu Qwen 3.7 Max?

Drei Änderungen sind für Entwickler entscheidend.

1. Plus akzeptiert Text, Bilder und Videos

Qwen 3.7 Max ist textbasiert. Qwen 3.7 Plus verarbeitet zusätzlich Bilder und Videos. Damit können Sie Workflows bauen wie:

Screenshot analysieren und UI-Aktion ableiten
PDF oder Dokumentseite lesen
Diagramm oder Mockup in Code übersetzen
Video-Frames interpretieren
Bild plus Textprompt gemeinsam auswerten

2. Plus ist für GUI-Agenten gebaut

Plus wird als multimodaler interaktiver Agent positioniert. Typische Einsatzfälle:

Browser-Automatisierung
GUI-Navigation
Desktop- oder Web-App-Steuerung
hybride GUI-plus-CLI-Workflows
strukturierte Aktionspläne mit Koordinaten

Für Computer-Use-Agenten ist genau diese Fähigkeit wichtig: Das Modell muss nicht nur Text verstehen, sondern sehen, wo ein Button, Menü oder Eingabefeld auf dem Bildschirm liegt.

3. Plus ist deutlich günstiger

Plus läuft zu einem niedrigeren Preispunkt als Max und bringt trotzdem Vision-Fähigkeiten mit. Für Workloads mit vielen API-Aufrufen, langen Kontexten oder Agentenschleifen kann das einen großen Unterschied machen.

	Qwen 3.7 Plus	Qwen 3.7 Max
Eingabemodalitäten	Text, Bild, Video	Nur Text
Kontextfenster	1M Tokens, geteilt mit Vision	1M Tokens
Input / Output pro 1M	$0.40 / $1.60	$2.50 / $7.50
Gecachter Input pro 1M	$0.08	$0.25
GUI-Verankerung, ScreenSpot Pro	79.0	Keine
Terminal-Bench	70.3	69.7
Autonome Laufzeit, Obergrenze	35 Stunden	35 Stunden

Benchmarks

Die Einführungszahlen und frühe praktische Tests zeigen ein klares Muster: Plus ist bei Text nah an Max und übernimmt den Vorsprung, sobald Vision relevant wird.

Wichtige Werte:

ScreenSpot Pro: 79.0

Testet GUI-Verankerung: Kann das Modell einen Screenshot analysieren und exakte Pixelkoordinaten liefern? Plus erreicht hier einen starken Wert. Max kann diesen Test nicht ausführen, da es kein Vision-Modell ist.
Terminal-Bench: 70.3

Leicht vor Max mit 69.7.
SWE-Bench Pro: etwa 60 %

Im Wesentlichen gleichauf mit Max bei 60.6 %.
MCP-Atlas: 76.4

Gleichstand mit Max bei Werkzeug-Orchestrierung.
LM Arena

Plus liegt bei Text und Coding etwas hinter Max. Für reine Textaufgaben bleibt Max leicht stärker.

Praktische Regel:

Nur Text?          Max prüfen.
Screenshot/PDF/UI? Plus wählen.
Video oder Mockup? Plus wählen.
Kostenkritisch?    Plus prüfen.

Für einen direkten Textvergleich behandelt unser Qwen 3.7 vs. GPT-5.5 vs. Opus 4.7 Vergleich, wo die Familie im Vergleich zu westlichen Flaggschiffen steht. Benchmark-Zahlen stammen vom Anbieter und frühen Testern. Verwenden Sie sie als Orientierung, nicht als Produktionsgarantie.

Preise: das preisgünstige multimodale Segment

Qwen 3.7 Plus kostet:

Kategorie	Preis
Input	$0.40 pro 1M Tokens
Output	$1.60 pro 1M Tokens
Gecachter Input	$0.08 pro 1M Tokens

Damit ist Plus etwa sechsmal günstiger als Max beim Input und fast fünfmal günstiger beim Output.

Für die Kostenplanung ist wichtig: Bilder und Videos teilen sich das 1M-Token-Kontextbudget mit Text. Ein hochauflösender Screenshot kann Tausende Tokens verbrauchen. Video-Frames summieren sich schnell.

Planen Sie deshalb:

Bilder vor dem Senden skalieren, wenn volle Auflösung nicht nötig ist.
Bei Videos nur relevante Frames oder Segmente extrahieren.
Lange Systemprompts cachen, wenn möglich.
Tokenverbrauch für visuelle Inputs separat messen.
Kosten pro Agentenlauf statt nur pro Einzelaufruf kalkulieren.

Für den breiteren Kontext, warum chinesische Labore weiterhin stark über den Preis konkurrieren, lesen Sie unsere Analyse des chinesischen LLM-Preiskriegs 2026.

Der Haken: proprietär und nur über API

Qwen war für viele Teams attraktiv, weil frühere Modelle mit offenen Gewichten unter Apache-2.0- oder Open-Use-Lizenzen verfügbar waren. Dadurch konnten Unternehmen Modelle herunterladen, feinabstimmen und in isolierten Umgebungen betreiben.

Qwen 3.7 Plus funktioniert anders:

keine herunterladbaren Gewichte
kein Self-Hosting
kein Offline-Betrieb
nur als verwaltete kommerzielle API über Alibaba Cloud Model Studio

Für regulierte Umgebungen oder Air-Gapped-Systeme kann das ein Ausschlusskriterium sein. Eine Open-Weight-Plus-Variante wurde für Q3 2026 ins Gespräch gebracht, ist aber nicht bestätigt. Wenn offene Gewichte heute Pflicht sind, ist Qwen 3.7 Plus nicht die richtige Wahl.

So greifen Sie auf Qwen 3.7 Plus zu

Es gibt zwei praktische Wege.

Option 1: API über Alibaba Cloud Model Studio

Rufen Sie das Modell über Alibaba Cloud Model Studio auf. Der Endpunkt ist OpenAI-kompatibel. Sie können also mit dem bekannten Chat-Completions-Muster arbeiten.

Unser Leitfaden zur Nutzung der Qwen 3.7 API zeigt Authentifizierung und erste Requests. Für Plus ergänzen Sie Bild- oder Videoteile in der Message-Payload.

Option 2: Browser-Test über Qwen Chat

Sie können das Modell vor dem Coding unter chat.qwen.ai testen. Wenn Sie die Familie kostenlos ausprobieren möchten, zeigt unser Qwen 3.7 kostenloser Leitfaden die verfügbaren Wege.

Minimaler API-Aufruf mit Bild

Ein einfacher multimodaler Request nutzt das OpenAI-kompatible Nachrichtenformat. Der Unterschied: content ist eine Liste aus Text- und Bildteilen.

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Which button submits this form? Give pixel coordinates."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/screenshot.png"
                    }
                },
            ],
        }
    ],
)

print(resp.choices[0].message.content)

Prüfen Sie in der Model-Studio-Dokumentation den genauen Modellidentifikator und die passende regionale Base-URL. Diese können zwischen internationalen und chinesischen Endpunkten variieren.

Beispiel: strukturierte GUI-Aktion anfordern

Für Agenten ist Freitext oft unpraktisch. Fordern Sie stattdessen JSON an:

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {
            "role": "system",
            "content": (
                "You are a GUI automation agent. "
                "Return only valid JSON with action, x, y, and reason."
            ),
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Find the submit button and return the click coordinates."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/form-screenshot.png"
                    },
                },
            ],
        },
    ],
)

print(resp.choices[0].message.content)

Erwartetes Antwortformat:

{
  "action": "click",
  "x": 487,
  "y": 232,
  "reason": "The submit button is located at the bottom-right of the form."
}

Validieren Sie diese Ausgabe vor der Ausführung. Ein Agent sollte niemals ungeprüfte Koordinaten blind klicken.

Implementierungs-Checkliste für produktive Nutzung

Bevor Sie Qwen 3.7 Plus in einen Agenten einbauen, prüfen Sie:

Input-Größe: Bilder komprimieren oder skalieren.
Tokenbudget: Text-, Bild- und Video-Tokens gemeinsam kalkulieren.
Antwortformat: JSON oder ein anderes maschinenlesbares Format erzwingen.
Validierung: Koordinaten und Aktionen vor Ausführung prüfen.
Retries: Netzwerk- und Modellfehler sauber behandeln.
Logging: Request, Response, Latenz und Tokenverbrauch speichern.
Umgebungen: Separate API-Keys für Dev, Staging und Produktion nutzen.
Fallback: Für reine Textaufgaben optional Max oder ein günstigeres Textmodell prüfen.

Wer sollte Qwen 3.7 Plus verwenden?

Qwen 3.7 Plus passt gut, wenn Ihre Anwendung visuelle Informationen verarbeiten muss.

Typische Use Cases:

Computer-Use- und GUI-Agenten

Agenten klicken sich anhand echter Screenshots durch Oberflächen.
Screenshot-zu-Code und Mockup-zu-UI

Das Modell liest ein Design und erzeugt Frontend-Code oder UI-Strukturen.
Dokumenten-, PDF- und Video-Verständnis

Visuelle Inputs werden zu niedrigen Kosten pro Token verarbeitet.
Lange agentische Läufe

Workflows mit vielen sequenziellen Werkzeugaufrufen bis zur 35-Stunden-Grenze.

Bleiben Sie bei Max, wenn Sie ausschließlich auf Text-SWE-Bench-Pro-Ergebnisse oder niedrigste Textlatenz optimieren. Für gemischte Workloads ist Plus meist die vernünftigere Standardeinstellung.

Wenn Sie Plus gegen andere offene und preisgünstige Modelle abwägen, ist unser MiniMax M3 vs. DeepSeek V4 vs. Qwen 3.7 Vergleich eine nützliche Orientierung.

Qwen 3.7 Plus mit Apidog testen

Da Plus nur über API verfügbar ist, findet die eigentliche Arbeit in Requests, Payloads, Responses und Debugging-Sessions statt. Multimodale Anfragen sind fehleranfälliger als reine Textprompts:

Bilder müssen korrekt übergeben werden.
Video-Payloads können groß werden.
Agenten geben strukturierte Aktionen zurück.
Werkzeugaufrufe laufen oft in Schleifen.
Fehler können erst nach mehreren Schritten sichtbar werden.

Apidog hilft dabei, diese API-Workflows sichtbar zu machen. Sie können Qwen-3.7-Plus-Requests mit Bild- und Video-Payloads senden, Rohantworten inspizieren, Model-Studio-Keys über Umgebungen verwalten und Endpunkte mocken, während Sie Prompts und Agentenlogik weiterentwickeln.

Für agentische Workflows zeigt Apidogs AI-Agenten-Debugger die gesamte Aufrufsequenz. So erkennen Sie, an welchem Schritt ein Lauf falsche Koordinaten, falsche Tool-Parameter oder unerwartete Antworten erzeugt.

Laden Sie Apidog herunter, um die Qwen 3.7 Plus API zu testen, zu debuggen und zu mocken, bevor sie in Produktion geht.

FAQ

Ist Qwen 3.7 Plus Open Source?

Nein. Qwen 3.7 Plus ist proprietär und nur als verwaltete API über Alibaba Cloud Model Studio verfügbar. Sie können die Gewichte nicht herunterladen oder selbst hosten. Eine Open-Weight-Variante wurde für Q3 2026 vorgeschlagen, ist aber nicht bestätigt.

Qwen 3.7 Plus oder Max: welches Modell sollte ich verwenden?

Verwenden Sie Plus, wenn Sie Vision benötigen, also Screenshots, PDFs, Bilder oder Videos. Verwenden Sie Max, wenn Sie auf reine Text-SWE-Bench-Pro-Ergebnisse oder minimale Textlatenz optimieren.

Wie viel kostet Qwen 3.7 Plus?

Qwen 3.7 Plus kostet 0,40 $ pro Million Input-Tokens, 1,60 $ pro Million Output-Tokens und 0,08 $ pro Million gecachter Input-Tokens. Damit ist es etwa sechsmal günstiger als Qwen3.7-Max beim Input.

Verarbeitet Qwen 3.7 Plus Videos?

Ja. Qwen 3.7 Plus akzeptiert Text, Bilder und Videos als Input. Beachten Sie, dass visuelle Tokens das 1M-Token-Kontextbudget mit Text teilen. Große Medien-Payloads reduzieren also den verfügbaren Textspielraum.

Was ist das Kontextfenster?

Das Kontextfenster beträgt 1M Tokens. Dieses Budget wird auf Text-, Bild- und Video-Tokens aufgeteilt.

Wie greife ich auf Qwen 3.7 Plus zu?

Über die Alibaba Cloud Model Studio API oder zum Testen im Browser unter chat.qwen.ai.

Das Fazit

Qwen 3.7 Plus nimmt Alibabas agentisches Flaggschiff, ergänzt Vision und senkt den Preis deutlich. Für Entwickler, die Computer-Use-Agenten, screenshot-gesteuertes Coding, Dokumentenverständnis oder Videoanalyse bauen, ist es eine der günstigeren multimodalen Optionen der Spitzenklasse.

Der Kompromiss: geschlossene Gewichte und Abhängigkeit von Alibabas Cloud.

Wenn dieser Trade-off für Ihren Use Case passt, starten Sie mit der API: Testen Sie Requests, debuggen Sie multimodale Payloads und mocken Sie Antworten in Apidog, bevor Ihr Agent unter realem Traffic laufen muss.

DEV Community