DEV Community

Cover image for Qwen3.6-Plus API: Besser als Claude bei Terminal Benchmarks
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

Qwen3.6-Plus API: Besser als Claude bei Terminal Benchmarks

Kurz gesagt

Qwen3.6-Plus wurde offiziell veröffentlicht. Es erreicht 78,8 % auf SWE-bench Verified und 61,6 % auf Terminal-Bench 2.0, womit es Claude Opus 4.5 übertrifft. Es verfügt über ein Kontextfenster von 1 Million Tokens, einen neuen preserve_thinking Parameter für Agenten-Loops und arbeitet direkt mit Claude Code, OpenClaw und Qwen Code über eine OpenAI-kompatible API.

Probiere Apidog noch heute aus

Von der Vorschau zur Veröffentlichung

Wenn Sie unseren früheren Leitfaden zur Qwen 3.6 Plus Vorschau auf OpenRouter gelesen haben, kennen Sie bereits die Fähigkeiten des Modells. Die Vorschau wurde am 30. März ohne Warteliste und kostenlos über OpenRouter veröffentlicht. In den ersten zwei Tagen wurden über 400 Millionen Completion-Tokens in ca. 400.000 Anfragen verarbeitet.

Mit der offiziellen Veröffentlichung steht jetzt die Produktionsversion bereit. Qwen3.6-Plus ist über das Alibaba Cloud Model Studio mit stabiler API, SLA-gestützter Betriebszeit und einem neuen API-Parameter für komplexe Agentenaufgaben verfügbar.

In diesem Leitfaden erfahren Sie, was sich geändert hat, wie Sie die API korrekt aufrufen und wie Sie Ihre Integration mit Apidog vor der Bereitstellung testen.

Was Qwen3.6-Plus ist

Qwen3.6-Plus ist ein gehostetes Mixture-of-Experts-Modell des Qwen-Teams von Alibaba. Wie Qwen3.5 nutzt es dünne Aktivierung – pro Token wird nur ein Teil der Parameter aktiviert. Das sorgt für starke Leistung bei geringeren Rechenkosten verglichen mit ähnlich starken dichten Modellen.

Wichtige Spezifikationen:

  • 1M Token Kontextfenster (Standard)
  • Obligatorische Chain-of-Thought-Argumentation
  • Neuer preserve_thinking Parameter für Agentenaufgaben
  • Native multimodale Unterstützung (Vision, Video, Dokumente)
  • OpenAI-kompatible API, Anthropic-kompatible API und OpenAI Responses API

Open-Source-Varianten erscheinen in Kürze. Wer Gewichte für Self-Hosting benötigt, kann diese bald erwarten.

Benchmark-Ergebnisse

Coding-Agenten

Qwen3.6-Plus liegt bei SWE-bench-Aufgaben knapp hinter Claude Opus 4.5, übertrifft aber alle Modelle bei Terminaloperationen.

Qwen3.6-Plus Benchmark

Terminal-Bench 2.0 testet echte Shell-Operationen: Dateimanagement, Prozesskontrolle, mehrstufige Workflows (3h Timeout, 32 CPUs, 48 GB RAM). Qwen3.6-Plus erreicht 61,6 % (Claude Opus 4.5: 59,3 %) – ein klarer Vorteil bei Entwickleraufgaben.

Allgemeine Agenten und Werkzeugnutzung

Benchmark Claude Opus 4.5 Qwen3.6-Plus
TAU3-Bench 70.2% 70.7%
DeepPlanning 33.9% 41.5%
MCPMark 42.3% 48.2%
MCP-Atlas 71.8% 74.1%
WideSearch 76.4% 74.3%

MCPMark prüft GitHub MCP Tool-Aufrufe. Qwen3.6-Plus führt mit 48,2 %, DeepPlanning mit 41,5 % (Claude: 33,9 %) zeigt die Stärke bei langfristigen Planungsaufgaben.

Argumentation und Wissen

Benchmark Claude Opus 4.5 Qwen3.6-Plus
GPQA 87.0% 90.4%
LiveCodeBench v6 84.8% 87.1%
IFEval strict 90.9% 94.3%
MMLU-Pro 89.5% 88.5%

GPQA testet wissenschaftliche Argumentation. IFEval strict misst, wie präzise Formatierungen befolgt werden. Qwen3.6-Plus führt in beiden – entscheidend für strukturierte Ausgaben und komplexe Agentenaufgaben.

Multimodal

Qwen3.6-Plus ist von Haus aus multimodal und führt bei Benchmarks für Dokumente, räumliche und Objekterkennung.

Benchmark Qwen3.6-Plus Anmerkungen
OmniDocBench 1.5 91.2% Spitzenwert in Tabelle
RefCOCO avg 93.5% Spitzenwert in Tabelle
We-Math 89.0% Spitzenwert in Tabelle
CountBench 97.6% Spitzenwert in Tabelle
OSWorld-Verified 62.5% Hinter Claude (66,3 %)

Bei Dokumentenverständnis und räumlicher Verankerung ist Qwen3.6-Plus führend.

Wie man die API aufruft

Qwen3.6-Plus ist im Alibaba Cloud Model Studio verfügbar. Ihren API-Schlüssel erhalten Sie unter modelstudio.alibabacloud.com.

Drei regionale Basis-URLs:

  • Singapur: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • Peking: https://dashscope.aliyuncs.com/compatible-mode/v1
  • US Virginia: https://dashscope-us.aliyuncs.com/compatible-mode/v1

Grundlegender Aufruf mit Streaming

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
    extra_body={"enable_thinking": True},
    stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        if not is_answering:
            reasoning += delta.reasoning_content
    if delta.content:
        if not is_answering:
            is_answering = True
        answer += delta.content
        print(delta.content, end="", flush=True)
Enter fullscreen mode Exit fullscreen mode

Der preserve_thinking Parameter

Mit der offiziellen Version steht preserve_thinking zur Verfügung.

Setzen Sie preserve_thinking: true, um die komplette Chain-of-Thought aus allen bisherigen Zügen in der Konversation zu erhalten. Besonders für mehrstufige Agententasks empfohlen. Standardmäßig deaktiviert (spart Tokens). Für Agenten-Loops aktivieren:

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=conversation_history,
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True, # reasoning über alle Züge hinweg behalten
    },
    stream=True
)
Enter fullscreen mode Exit fullscreen mode

Qwen3.6-Plus mit Claude Code verwenden

Die Qwen API unterstützt das Anthropic-Protokoll. Claude Code kann direkt gegen Qwen3.6-Plus laufen, nur Umgebungsvariablen anpassen:

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude
Enter fullscreen mode Exit fullscreen mode

Qwen3.6-Plus mit OpenClaw verwenden

OpenClaw (früher Moltbot / Clawdbot) ist ein quelloffener, selbst gehosteter Coding-Agent. Installation und Konfiguration:

# Install (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard
Enter fullscreen mode Exit fullscreen mode

Bearbeite ~/.openclaw/openclaw.json und ergänze:

{
  "models": {
    "providers": [{
      "name": "alibaba-coding-plan",
      "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
      "apiKey": "${DASHSCOPE_API_KEY}",
      "models": [{"id": "qwen3.6-plus", "reasoning": true}]
    }]
  },
  "agents": {
    "defaults": {"models": ["qwen3.6-plus"]}
  }
}
Enter fullscreen mode Exit fullscreen mode

Qwen3.6-Plus mit Qwen Code verwenden

Qwen Code ist Alibabas Open-Source-Terminal-Agent, speziell für Qwen-Modelle. Mit OAuth gibt es 1.000 kostenlose API-Calls/Tag.

npm install -g @qwen-code/qwen-code@latest
qwen
# Tippe /auth für Login und Freischaltung der Free-Tier
Enter fullscreen mode Exit fullscreen mode

Warum preserve_thinking das Agentenverhalten ändert

Ohne preserve_thinking behandelt die LLM-API jeden Zug isoliert – nützlich für einfache Q&A, aber nicht für mehrschrittige Agenten. Mit preserve_thinking bleibt die gesamte Argumentationskette sichtbar. Ein Agent kann in Schritt 8 noch auf die Analyse aus Schritt 2 referenzieren.

Alibabas Benchmarks zeigen: Weniger redundante Argumentation, geringerer Tokenverbrauch pro Zug bei komplexen Workflows.

Beispiel für Agenten-Loops:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Beispiel: Multi-Step Code Review Agent
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")
Enter fullscreen mode Exit fullscreen mode

Ohne preserve_thinking weiß das Modell in Schritt 3 nicht mehr, welche 3 Probleme es in Schritt 1 gefunden hat. Mit Parameter bleibt der Kontext erhalten.

Wofür es am besten geeignet ist

  • Fehlerbehebung auf Repository-Ebene: SWE-bench Verified (78,8 %) und SWE-bench Pro (56,6 %) sind konkurrenzfähig. Für automatisierte Code-Review- und Repair-Pipelines empfiehlt sich ein Benchmark gegen Ihr aktuelles Setup.
  • Terminal-Automatisierung: Führend bei Terminal-Bench 2.0, optimal für Shell-intensive Workflows, Dateioperationen, Prozessmanagement, Build-Pipelines.
  • MCP-Tool-Aufruf: MCPMark 48,2 % – Best-in-Class für MCP-basierte Integrationen.
  • Dokumentenanalyse mit langem Kontext: 1M Token-Fenster mit starken LongBench v2-Ergebnissen, geeignet für große Codebases und Spezifikationsdokumente.
  • Frontend-Code-Generierung: QwenWebBench (Elo-Rating: 1501,7 vs. 1517,9 für Claude Opus 4.5), praktisch gleichauf in der Frontend-Generierung.
  • Mehrsprachigkeit: WMT24++ 84,3 %, MAXIFE 88,2 % (23 Sprachen) – stark für nicht-englische Anwendungen.

Testen von Qwen3.6-Plus API-Aufrufen mit Apidog

Der Endpunkt ist OpenAI-kompatibel und lässt sich direkt in Apidog importieren und testen.

Apidog Test

Richten Sie eine POST-Anfrage an https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions ein. Den API-Key setzen Sie als Umgebungsvariable: Authorization: Bearer {{DASHSCOPE_API_KEY}}.

Beispiel-Assertions für die Antwort-Validierung:

pm.test("Response contains choices", () => {
    const body = pm.response.json();
    pm.expect(body).to.have.property("choices");
    pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
    const choice = pm.response.json().choices[0];
    if (choice.message.reasoning_content !== undefined) {
        pm.expect(choice.message.reasoning_content).to.not.be.empty;
    }
});
Enter fullscreen mode Exit fullscreen mode

Verwenden Sie Apidogs Smart Mock, um Testantworten während der Entwicklung zu generieren. So testen Sie Ihren Agenten-Code, ohne ständig die Live-API zu belasten – spart Tokens und beschleunigt die Testzyklen.

Für Multi-Turn-Agenten: Erstellen Sie ein Testszenario in Apidog, das mehrere Requests verknüpft. Überprüfen Sie, ob preserve_thinking die Argumentation über mehrere Züge hinweg beibehält, indem Sie bei jedem Schritt die Antwortstruktur validieren, bevor Sie das System in Produktion nehmen.

Apidog kostenlos herunterladen, um diese Tests direkt einzurichten.

Was kommt als Nächstes

Das Qwen-Team liefert Open-Source-Varianten in Kürze aus – nach Qwen3.5-Muster als spärliche MoE-Modelle mit Apache 2.0 Lizenzen.

Die Roadmap umfasst:

  • Noch komplexere Aufgaben auf Repository-Ebene und Dateiproblemlösung
  • Weitere Entwicklung multimodaler Agenten (GUI-Agenten, visuelles Coding als Kernfunktionalität)

Die Open-Source-Varianten von Qwen3.5 wurden schnell zu Standardmodellen für selbst gehostete Coding-Agenten. Das gleiche wird für Qwen3.6-Varianten erwartet.

Fazit

Qwen3.6-Plus schließt zu Claude Opus 4.5 bei Coding-Aufgaben auf und führt bei Terminal-Operationen, MCP-Tool-Aufrufen und langfristiger Planung. Das 1M Token-Kontextfenster, Anthropic-Kompatibilität und preserve_thinking für Agenten-Loops machen es für produktive Agentensysteme attraktiv.

Die kostenlose Vorschau auf OpenRouter war hilfreich zum Testen, die offizielle API bringt Stabilität, SLA und agentenoptimierte Features für zuverlässige Workflows.

Apidog übernimmt den Testpart: OpenAI-kompatiblen Endpunkt importieren, Assertions schreiben, Entwicklung simulieren und Regressionstests durchführen, wann immer Sie Modell oder API-Version aktualisieren.

FAQ

Was ist der Unterschied zwischen Qwen3.6-Plus und der Vorschau?

Die Vorschau (qwen/qwen3.6-plus-preview) startete am 30. März 2026 auf OpenRouter. Die offizielle Version bringt preserve_thinking, SLA-Betriebszeit und Model Studio-Unterstützung. Open-Source-Varianten folgen.

Was ist preserve_thinking und wann sollte ich es verwenden?

Standardmäßig wird nur die Argumentation des aktuellen Zuges beibehalten. Mit preserve_thinking: true bleibt die Chain-of-Thought aus allen bisherigen Zügen erhalten. Für mehrstufige Agenten-Loops nutzen.

Wie verhält sich Qwen3.6-Plus im Vergleich zu Claude Opus 4.5?

Claude Opus 4.5 liegt bei SWE-bench Verified (80,9 % vs. 78,8 %) und OSWorld-Verified (66,3 % vs. 62,5 %) vorn. Qwen3.6-Plus führt bei Terminal-Bench 2.0 (61,6 % vs. 59,3 %), MCPMark (48,2 % vs. 42,3 %), DeepPlanning (41,5 % vs. 33,9 %) und GPQA (90,4 % vs. 87,0 %).

Kann ich Qwen3.6-Plus mit Claude Code verwenden?

Ja. Setzen Sie ANTHROPIC_BASE_URL auf den Dashscope Anthropic-kompatiblen Endpunkt, ANTHROPIC_MODEL auf qwen3.6-plus, ANTHROPIC_AUTH_TOKEN auf Ihren Dashscope API-Key.

Ist Qwen3.6-Plus Open Source?

Das gehostete API-Modell ist nicht Open-Weight. Kleinere Varianten mit öffentlichen Gewichten erscheinen in Kürze.

Wie erhalte ich kostenlosen Zugang?

Installieren Sie Qwen Code (npm install -g @qwen-code/qwen-code@latest), starten Sie qwen, dann /auth. Nach OAuth erhalten Sie 1.000 kostenlose API-Aufrufe/Tag.

Welches Kontextfenster unterstützt es?

Standardmäßig 1M Tokens. Einige Benchmarks nutzten 256K für den Vergleich, aber der API-Standard ist 1M.

Wie teste ich die API-Integration vor der Bereitstellung?

Endpunkt in Apidog importieren, API-Key als Variable, Assertions schreiben, Entwicklung simulieren und Regressionstests beim Modell-/API-Update durchführen.

Top comments (0)