Kurz gesagt
Qwen3.6-Plus wurde offiziell veröffentlicht. Es erreicht 78,8 % auf SWE-bench Verified und 61,6 % auf Terminal-Bench 2.0, womit es Claude Opus 4.5 übertrifft. Es verfügt über ein Kontextfenster von 1 Million Tokens, einen neuen preserve_thinking Parameter für Agenten-Loops und arbeitet direkt mit Claude Code, OpenClaw und Qwen Code über eine OpenAI-kompatible API.
Probiere Apidog noch heute aus
Von der Vorschau zur Veröffentlichung
Wenn Sie unseren früheren Leitfaden zur Qwen 3.6 Plus Vorschau auf OpenRouter gelesen haben, kennen Sie bereits die Fähigkeiten des Modells. Die Vorschau wurde am 30. März ohne Warteliste und kostenlos über OpenRouter veröffentlicht. In den ersten zwei Tagen wurden über 400 Millionen Completion-Tokens in ca. 400.000 Anfragen verarbeitet.
Mit der offiziellen Veröffentlichung steht jetzt die Produktionsversion bereit. Qwen3.6-Plus ist über das Alibaba Cloud Model Studio mit stabiler API, SLA-gestützter Betriebszeit und einem neuen API-Parameter für komplexe Agentenaufgaben verfügbar.
In diesem Leitfaden erfahren Sie, was sich geändert hat, wie Sie die API korrekt aufrufen und wie Sie Ihre Integration mit Apidog vor der Bereitstellung testen.
Was Qwen3.6-Plus ist
Qwen3.6-Plus ist ein gehostetes Mixture-of-Experts-Modell des Qwen-Teams von Alibaba. Wie Qwen3.5 nutzt es dünne Aktivierung – pro Token wird nur ein Teil der Parameter aktiviert. Das sorgt für starke Leistung bei geringeren Rechenkosten verglichen mit ähnlich starken dichten Modellen.
Wichtige Spezifikationen:
- 1M Token Kontextfenster (Standard)
- Obligatorische Chain-of-Thought-Argumentation
- Neuer
preserve_thinkingParameter für Agentenaufgaben - Native multimodale Unterstützung (Vision, Video, Dokumente)
- OpenAI-kompatible API, Anthropic-kompatible API und OpenAI Responses API
Open-Source-Varianten erscheinen in Kürze. Wer Gewichte für Self-Hosting benötigt, kann diese bald erwarten.
Benchmark-Ergebnisse
Coding-Agenten
Qwen3.6-Plus liegt bei SWE-bench-Aufgaben knapp hinter Claude Opus 4.5, übertrifft aber alle Modelle bei Terminaloperationen.
Terminal-Bench 2.0 testet echte Shell-Operationen: Dateimanagement, Prozesskontrolle, mehrstufige Workflows (3h Timeout, 32 CPUs, 48 GB RAM). Qwen3.6-Plus erreicht 61,6 % (Claude Opus 4.5: 59,3 %) – ein klarer Vorteil bei Entwickleraufgaben.
Allgemeine Agenten und Werkzeugnutzung
| Benchmark | Claude Opus 4.5 | Qwen3.6-Plus |
|---|---|---|
| TAU3-Bench | 70.2% | 70.7% |
| DeepPlanning | 33.9% | 41.5% |
| MCPMark | 42.3% | 48.2% |
| MCP-Atlas | 71.8% | 74.1% |
| WideSearch | 76.4% | 74.3% |
MCPMark prüft GitHub MCP Tool-Aufrufe. Qwen3.6-Plus führt mit 48,2 %, DeepPlanning mit 41,5 % (Claude: 33,9 %) zeigt die Stärke bei langfristigen Planungsaufgaben.
Argumentation und Wissen
| Benchmark | Claude Opus 4.5 | Qwen3.6-Plus |
|---|---|---|
| GPQA | 87.0% | 90.4% |
| LiveCodeBench v6 | 84.8% | 87.1% |
| IFEval strict | 90.9% | 94.3% |
| MMLU-Pro | 89.5% | 88.5% |
GPQA testet wissenschaftliche Argumentation. IFEval strict misst, wie präzise Formatierungen befolgt werden. Qwen3.6-Plus führt in beiden – entscheidend für strukturierte Ausgaben und komplexe Agentenaufgaben.
Multimodal
Qwen3.6-Plus ist von Haus aus multimodal und führt bei Benchmarks für Dokumente, räumliche und Objekterkennung.
| Benchmark | Qwen3.6-Plus | Anmerkungen |
|---|---|---|
| OmniDocBench 1.5 | 91.2% | Spitzenwert in Tabelle |
| RefCOCO avg | 93.5% | Spitzenwert in Tabelle |
| We-Math | 89.0% | Spitzenwert in Tabelle |
| CountBench | 97.6% | Spitzenwert in Tabelle |
| OSWorld-Verified | 62.5% | Hinter Claude (66,3 %) |
Bei Dokumentenverständnis und räumlicher Verankerung ist Qwen3.6-Plus führend.
Wie man die API aufruft
Qwen3.6-Plus ist im Alibaba Cloud Model Studio verfügbar. Ihren API-Schlüssel erhalten Sie unter modelstudio.alibabacloud.com.
Drei regionale Basis-URLs:
- Singapur:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1 - Peking:
https://dashscope.aliyuncs.com/compatible-mode/v1 - US Virginia:
https://dashscope-us.aliyuncs.com/compatible-mode/v1
Grundlegender Aufruf mit Streaming
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3.6-plus",
messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
extra_body={"enable_thinking": True},
stream=True
)
reasoning = ""
answer = ""
is_answering = False
for chunk in completion:
if not chunk.choices:
continue
delta = chunk.choices[0].delta
if hasattr(delta, "reasoning_content") and delta.reasoning_content:
if not is_answering:
reasoning += delta.reasoning_content
if delta.content:
if not is_answering:
is_answering = True
answer += delta.content
print(delta.content, end="", flush=True)
Der preserve_thinking Parameter
Mit der offiziellen Version steht preserve_thinking zur Verfügung.
Setzen Sie preserve_thinking: true, um die komplette Chain-of-Thought aus allen bisherigen Zügen in der Konversation zu erhalten. Besonders für mehrstufige Agententasks empfohlen. Standardmäßig deaktiviert (spart Tokens). Für Agenten-Loops aktivieren:
completion = client.chat.completions.create(
model="qwen3.6-plus",
messages=conversation_history,
extra_body={
"enable_thinking": True,
"preserve_thinking": True, # reasoning über alle Züge hinweg behalten
},
stream=True
)
Qwen3.6-Plus mit Claude Code verwenden
Die Qwen API unterstützt das Anthropic-Protokoll. Claude Code kann direkt gegen Qwen3.6-Plus laufen, nur Umgebungsvariablen anpassen:
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key
claude
Qwen3.6-Plus mit OpenClaw verwenden
OpenClaw (früher Moltbot / Clawdbot) ist ein quelloffener, selbst gehosteter Coding-Agent. Installation und Konfiguration:
# Install (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=your_key
openclaw dashboard
Bearbeite ~/.openclaw/openclaw.json und ergänze:
{
"models": {
"providers": [{
"name": "alibaba-coding-plan",
"baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
"apiKey": "${DASHSCOPE_API_KEY}",
"models": [{"id": "qwen3.6-plus", "reasoning": true}]
}]
},
"agents": {
"defaults": {"models": ["qwen3.6-plus"]}
}
}
Qwen3.6-Plus mit Qwen Code verwenden
Qwen Code ist Alibabas Open-Source-Terminal-Agent, speziell für Qwen-Modelle. Mit OAuth gibt es 1.000 kostenlose API-Calls/Tag.
npm install -g @qwen-code/qwen-code@latest
qwen
# Tippe /auth für Login und Freischaltung der Free-Tier
Warum preserve_thinking das Agentenverhalten ändert
Ohne preserve_thinking behandelt die LLM-API jeden Zug isoliert – nützlich für einfache Q&A, aber nicht für mehrschrittige Agenten. Mit preserve_thinking bleibt die gesamte Argumentationskette sichtbar. Ein Agent kann in Schritt 8 noch auf die Analyse aus Schritt 2 referenzieren.
Alibabas Benchmarks zeigen: Weniger redundante Argumentation, geringerer Tokenverbrauch pro Zug bei komplexen Workflows.
Beispiel für Agenten-Loops:
conversation = []
def agent_step(user_message, preserve=True):
conversation.append({"role": "user", "content": user_message})
response = client.chat.completions.create(
model="qwen3.6-plus",
messages=conversation,
extra_body={
"enable_thinking": True,
"preserve_thinking": preserve,
},
stream=False
)
message = response.choices[0].message
conversation.append({"role": "assistant", "content": message.content})
return message.content
# Beispiel: Multi-Step Code Review Agent
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")
Ohne preserve_thinking weiß das Modell in Schritt 3 nicht mehr, welche 3 Probleme es in Schritt 1 gefunden hat. Mit Parameter bleibt der Kontext erhalten.
Wofür es am besten geeignet ist
- Fehlerbehebung auf Repository-Ebene: SWE-bench Verified (78,8 %) und SWE-bench Pro (56,6 %) sind konkurrenzfähig. Für automatisierte Code-Review- und Repair-Pipelines empfiehlt sich ein Benchmark gegen Ihr aktuelles Setup.
- Terminal-Automatisierung: Führend bei Terminal-Bench 2.0, optimal für Shell-intensive Workflows, Dateioperationen, Prozessmanagement, Build-Pipelines.
- MCP-Tool-Aufruf: MCPMark 48,2 % – Best-in-Class für MCP-basierte Integrationen.
- Dokumentenanalyse mit langem Kontext: 1M Token-Fenster mit starken LongBench v2-Ergebnissen, geeignet für große Codebases und Spezifikationsdokumente.
- Frontend-Code-Generierung: QwenWebBench (Elo-Rating: 1501,7 vs. 1517,9 für Claude Opus 4.5), praktisch gleichauf in der Frontend-Generierung.
- Mehrsprachigkeit: WMT24++ 84,3 %, MAXIFE 88,2 % (23 Sprachen) – stark für nicht-englische Anwendungen.
Testen von Qwen3.6-Plus API-Aufrufen mit Apidog
Der Endpunkt ist OpenAI-kompatibel und lässt sich direkt in Apidog importieren und testen.
Richten Sie eine POST-Anfrage an https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions ein. Den API-Key setzen Sie als Umgebungsvariable: Authorization: Bearer {{DASHSCOPE_API_KEY}}.
Beispiel-Assertions für die Antwort-Validierung:
pm.test("Response contains choices", () => {
const body = pm.response.json();
pm.expect(body).to.have.property("choices");
pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});
pm.test("No empty reasoning when thinking enabled", () => {
const choice = pm.response.json().choices[0];
if (choice.message.reasoning_content !== undefined) {
pm.expect(choice.message.reasoning_content).to.not.be.empty;
}
});
Verwenden Sie Apidogs Smart Mock, um Testantworten während der Entwicklung zu generieren. So testen Sie Ihren Agenten-Code, ohne ständig die Live-API zu belasten – spart Tokens und beschleunigt die Testzyklen.
Für Multi-Turn-Agenten: Erstellen Sie ein Testszenario in Apidog, das mehrere Requests verknüpft. Überprüfen Sie, ob preserve_thinking die Argumentation über mehrere Züge hinweg beibehält, indem Sie bei jedem Schritt die Antwortstruktur validieren, bevor Sie das System in Produktion nehmen.
Apidog kostenlos herunterladen, um diese Tests direkt einzurichten.
Was kommt als Nächstes
Das Qwen-Team liefert Open-Source-Varianten in Kürze aus – nach Qwen3.5-Muster als spärliche MoE-Modelle mit Apache 2.0 Lizenzen.
Die Roadmap umfasst:
- Noch komplexere Aufgaben auf Repository-Ebene und Dateiproblemlösung
- Weitere Entwicklung multimodaler Agenten (GUI-Agenten, visuelles Coding als Kernfunktionalität)
Die Open-Source-Varianten von Qwen3.5 wurden schnell zu Standardmodellen für selbst gehostete Coding-Agenten. Das gleiche wird für Qwen3.6-Varianten erwartet.
Fazit
Qwen3.6-Plus schließt zu Claude Opus 4.5 bei Coding-Aufgaben auf und führt bei Terminal-Operationen, MCP-Tool-Aufrufen und langfristiger Planung. Das 1M Token-Kontextfenster, Anthropic-Kompatibilität und preserve_thinking für Agenten-Loops machen es für produktive Agentensysteme attraktiv.
Die kostenlose Vorschau auf OpenRouter war hilfreich zum Testen, die offizielle API bringt Stabilität, SLA und agentenoptimierte Features für zuverlässige Workflows.
Apidog übernimmt den Testpart: OpenAI-kompatiblen Endpunkt importieren, Assertions schreiben, Entwicklung simulieren und Regressionstests durchführen, wann immer Sie Modell oder API-Version aktualisieren.
FAQ
Was ist der Unterschied zwischen Qwen3.6-Plus und der Vorschau?
Die Vorschau (qwen/qwen3.6-plus-preview) startete am 30. März 2026 auf OpenRouter. Die offizielle Version bringt preserve_thinking, SLA-Betriebszeit und Model Studio-Unterstützung. Open-Source-Varianten folgen.
Was ist preserve_thinking und wann sollte ich es verwenden?
Standardmäßig wird nur die Argumentation des aktuellen Zuges beibehalten. Mit preserve_thinking: true bleibt die Chain-of-Thought aus allen bisherigen Zügen erhalten. Für mehrstufige Agenten-Loops nutzen.
Wie verhält sich Qwen3.6-Plus im Vergleich zu Claude Opus 4.5?
Claude Opus 4.5 liegt bei SWE-bench Verified (80,9 % vs. 78,8 %) und OSWorld-Verified (66,3 % vs. 62,5 %) vorn. Qwen3.6-Plus führt bei Terminal-Bench 2.0 (61,6 % vs. 59,3 %), MCPMark (48,2 % vs. 42,3 %), DeepPlanning (41,5 % vs. 33,9 %) und GPQA (90,4 % vs. 87,0 %).
Kann ich Qwen3.6-Plus mit Claude Code verwenden?
Ja. Setzen Sie ANTHROPIC_BASE_URL auf den Dashscope Anthropic-kompatiblen Endpunkt, ANTHROPIC_MODEL auf qwen3.6-plus, ANTHROPIC_AUTH_TOKEN auf Ihren Dashscope API-Key.
Ist Qwen3.6-Plus Open Source?
Das gehostete API-Modell ist nicht Open-Weight. Kleinere Varianten mit öffentlichen Gewichten erscheinen in Kürze.
Wie erhalte ich kostenlosen Zugang?
Installieren Sie Qwen Code (npm install -g @qwen-code/qwen-code@latest), starten Sie qwen, dann /auth. Nach OAuth erhalten Sie 1.000 kostenlose API-Aufrufe/Tag.
Welches Kontextfenster unterstützt es?
Standardmäßig 1M Tokens. Einige Benchmarks nutzten 256K für den Vergleich, aber der API-Standard ist 1M.
Wie teste ich die API-Integration vor der Bereitstellung?
Endpunkt in Apidog importieren, API-Key als Variable, Assertions schreiben, Entwicklung simulieren und Regressionstests beim Modell-/API-Update durchführen.


Top comments (0)