요약
Qwen3.6-Plus가 공식 출시되었습니다. SWE-bench Verified에서 78.8%, Terminal-Bench 2.0에서 61.6%를 기록해 Claude Opus 4.5를 능가합니다. 1M 토큰 컨텍스트 윈도우, 에이전트 루프를 위한 새로운 preserve_thinking 매개변수를 제공하며, OpenAI 호환 API로 Claude Code, OpenClaw, Qwen Code와 바로 연동됩니다.
미리보기에서 정식 출시까지
OpenRouter의 Qwen 3.6 Plus 미리보기를 경험했다면, 이 모델의 성능을 이미 확인하셨을 겁니다. 미리보기는 3월 30일에 대기 없이 무료로 공개되어 이틀간 40만 건 요청, 4억 토큰을 처리했습니다.
정식 출시는 프로덕션 수준의 안정성, SLA 기반 가동 시간, API 매개변수 확장(특히 에이전트 작업을 위한 기능 강화)을 제공합니다. 본 가이드에서는 주요 변경점, API 호출법, Apidog를 통한 통합 테스트 방법을 실전 위주로 다룹니다.
Qwen3.6-Plus란 무엇인가
Qwen3.6-Plus는 Alibaba Qwen팀이 제공하는 Mixture-of-Experts(MoE) 모델입니다. Qwen3.5 시리즈처럼 희소 활성화(sparse activation) 구조로, 밀집 모델 대비 낮은 연산 비용에 동급 이상의 성능을 제공합니다.
주요 스펙:
- 1백만 토큰 컨텍스트 윈도우(기본)
- 연쇄 사고 추론 (CoT) 지원
- 에이전트 작업용
preserve_thinking매개변수 - 네이티브 멀티모달(이미지, 비디오, 문서) 지원
- OpenAI/Anthropic 호환 API
곧 오픈소스 소형 변형 모델(가중치 공개)도 출시 예정입니다.
벤치마크 결과
코딩 에이전트
Qwen3.6-Plus는 SWE-bench 작업에선 Claude Opus 4.5에 근소하게 뒤지지만, 터미널 작업에서는 모든 모델을 앞섭니다.
Terminal-Bench 2.0은 32코어, 48GB RAM 환경에서 3시간 내 실전 셸 작업을 평가합니다. Qwen3.6-Plus가 61.6%, Claude Opus 4.5가 59.3%로 실제 개발 시나리오에서 의미 있는 차이를 보입니다.
일반 에이전트 및 도구 사용
| 벤치마크 | Claude Opus 4.5 | Qwen3.6-Plus |
|---|---|---|
| TAU3-Bench | 70.2% | 70.7% |
| DeepPlanning | 33.9% | 41.5% |
| MCPMark | 42.3% | 48.2% |
| MCP-Atlas | 71.8% | 74.1% |
| WideSearch | 76.4% | 74.3% |
MCPMark는 GitHub MCP v0.30.3 도구 호출을 평가합니다. Qwen3.6-Plus의 DeepPlanning/ MCPMark 우위는 장기 플래닝 및 툴 통합 시 강점입니다.
추론 및 지식
| 벤치마크 | Claude Opus 4.5 | Qwen3.6-Plus |
|---|---|---|
| GPQA | 87.0% | 90.4% |
| LiveCodeBench v6 | 84.8% | 87.1% |
| IFEval strict | 90.9% | 94.3% |
| MMLU-Pro | 89.5% | 88.5% |
GPQA(대학원 수준 과학 추론), IFEval strict(출력 형식/제약 준수) 부문에서 Qwen3.6-Plus가 앞섭니다.
멀티모달
| 벤치마크 | Qwen3.6-Plus | 참고 |
|---|---|---|
| OmniDocBench 1.5 | 91.2% | 표에서 1위 |
| RefCOCO avg | 93.5% | 표에서 1위 |
| We-Math | 89.0% | 표에서 1위 |
| CountBench | 97.6% | 표에서 1위 |
| OSWorld-Verified | 62.5% | Claude(66.3%)에 뒤짐 |
OSWorld-Verified(데스크탑 사용)는 Claude가 우위, 공간/문서 이해는 Qwen3.6-Plus가 선두입니다.
API 호출 방법
Qwen3.6-Plus는 Alibaba Cloud Model Studio에서 사용 가능합니다. API 키는 modelstudio.alibabacloud.com에서 발급받으세요.
기본 API 엔드포인트:
- 싱가포르:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1 - 베이징:
https://dashscope.aliyuncs.com/compatible-mode/v1 - 미국 버지니아:
https://dashscope-us.aliyuncs.com/compatible-mode/v1
스트리밍을 사용한 기본 호출
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3.6-plus",
messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
extra_body={"enable_thinking": True},
stream=True
)
reasoning = ""
answer = ""
is_answering = False
for chunk in completion:
if not chunk.choices:
continue
delta = chunk.choices[0].delta
if hasattr(delta, "reasoning_content") and delta.reasoning_content:
if not is_answering:
reasoning += delta.reasoning_content
if delta.content:
if not is_answering:
is_answering = True
answer += delta.content
print(delta.content, end="", flush=True)
preserve_thinking 매개변수
정식 버전에서는 preserve_thinking 옵션이 추가되었습니다.
-
preserve_thinking: true로 설정하면, 이전 대화 모든 턴의 연쇄 추론 내용이 보존됩니다. - 다단계 에이전트/오케스트레이션에서는 반드시 활성화하세요.
- 기본값은 비활성화(토큰 절약 목적)입니다.
completion = client.chat.completions.create(
model="qwen3.6-plus",
messages=conversation_history,
extra_body={
"enable_thinking": True,
"preserve_thinking": True, # 턴 전체 추론 체인 유지
},
stream=True
)
Qwen3.6-Plus를 Claude Code와 함께 사용
Qwen API는 Anthropic 프로토콜을 지원합니다. 환경 변수 세팅만으로 Claude Code에서 바로 사용 가능합니다.
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key
claude
Qwen3.6-Plus를 OpenClaw와 함께 사용
OpenClaw(구 Moltbot/Clawdbot) 오픈소스 코딩 에이전트를 설치하고 Model Studio 엔드포인트로 설정하세요.
# Node.js 22+ 필요
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=your_key
openclaw dashboard
~/.openclaw/openclaw.json에 아래 설정을 병합하세요.
{
"models": {
"providers": [{
"name": "alibaba-coding-plan",
"baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
"apiKey": "${DASHSCOPE_API_KEY}",
"models": [{"id": "qwen3.6-plus", "reasoning": true}]
}]
},
"agents": {
"defaults": {"models": ["qwen3.6-plus"]}
}
}
Qwen3.6-Plus를 Qwen Code와 함께 사용
Qwen Code는 Qwen 전용 오픈소스 터미널 에이전트입니다. OAuth 로그인 시 하루 1,000회 무료 호출이 제공됩니다.
npm install -g @qwen-code/qwen-code@latest
qwen
# /auth 입력 후 무료 티어 활성화
preserve_thinking이 에이전트 동작을 변경하는 이유
대부분의 LLM API는 각 턴을 독립적으로 처리합니다. 단일 Q&A는 문제 없지만, 다단계 에이전트에서는 이전 추론을 잃어버려 일관성이 깨집니다.
preserve_thinking을 활성화하면, 모든 턴의 연쇄 추론이 다음 응답 생성 시 반영됩니다. 즉, 8단계 에이전트가 2, 4, 6단계의 분석까지 파악, 더 일관된 결정을 내릴 수 있습니다.
Alibaba 벤치마크에 따르면, 중복 추론도 줄어들고, 장기 워크플로우에서 토큰 소모도 감소합니다.
에이전트 루프 예시:
conversation = []
def agent_step(user_message, preserve=True):
conversation.append({"role": "user", "content": user_message})
response = client.chat.completions.create(
model="qwen3.6-plus",
messages=conversation,
extra_body={
"enable_thinking": True,
"preserve_thinking": preserve,
},
stream=False
)
message = response.choices[0].message
conversation.append({"role": "assistant", "content": message.content})
return message.content
# 다단계 코드 리뷰 에이전트 예시
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")
preserve_thinking이 없으면 3단계에서 1단계의 결과를 모델이 모릅니다. 이 기능으로 연쇄 추론이 온전히 유지됩니다.
무엇에 가장 적합한가
- 리포지토리 수준 버그 수정: SWE-bench Verified 78.8%, Pro 56.6%. 자동 코드 수정/검토 파이프라인에 적합.
- 터미널 자동화: Terminal-Bench 2.0 1위. 셸 기반 다단계 파일/프로세스 작업, 빌드 파이프라인.
- MCP 도구 호출: MCPMark 48.2%(최고). MCP 연동 자동화에 최적.
- 장문 컨텍스트 문서 분석: 1M 토큰 윈도우로 코드베이스 전체/대규모 문서 분석에 유리.
- 프론트엔드 코드 생성: QwenWebBench 기준 Claude와 동급(1501.7 vs 1517.9 Elo).
- 다국어: WMT24++ 84.3%(최고), 23개 언어 MAXIFE 88.2%. 비영어권 사용에 강함.
Apidog로 Qwen3.6-Plus API 호출 테스트하기
Qwen3.6-Plus 엔드포인트는 OpenAI와 호환되므로 Apidog에서 바로 테스트할 수 있습니다.
- POST 엔드포인트:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions - 환경변수로 API 키 추가:
Authorization: Bearer {{DASHSCOPE_API_KEY}}
응답 어설션 예시:
pm.test("Response contains choices", () => {
const body = pm.response.json();
pm.expect(body).to.have.property("choices");
pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});
pm.test("No empty reasoning when thinking enabled", () => {
const choice = pm.response.json().choices[0];
if (choice.message.reasoning_content !== undefined) {
pm.expect(choice.message.reasoning_content).to.not.be.empty;
}
});
팁:
- 개발 중에는 Smart Mock으로 응답을 시뮬레이션해 토큰 소모 없이 에이전트 로직을 빠르게 검증할 수 있습니다.
- 다단계 에이전트라면 여러 요청을 테스트 시나리오로 연결해 각 단계의 응답 구조와
preserve_thinking유지 여부를 확인하세요.
Apidog를 무료로 다운로드하여 바로 시작하세요.
다음은 무엇인가
Qwen팀은 수일 내 오픈소스 소형 변형 모델(희소 MoE, Apache 2.0 가중치)을 출시할 예정입니다.
로드맵 주요 목표:
- 복잡한 다중 파일 문제 해결을 위한 장기 리포지토리 작업
- GUI 에이전트 및 시각적 코딩이 부가가치가 아닌 기본 기능으로 자리잡는 멀티모달 에이전트
Qwen3.5 오픈소스 모델은 출시 즉시 많이 배포된 자체호스팅 모델이 되었습니다. Qwen3.6도 이 패턴을 따를 가능성이 높습니다.
결론
Qwen3.6-Plus는 Claude Opus 4.5와의 격차를 좁혔으며, 터미널 자동화, MCP 도구 호출, 장기 플래닝에선 확실한 우위를 점합니다. 1M 토큰 컨텍스트, Anthropic 프로토콜 지원, preserve_thinking 옵션은 실제 프로덕션 에이전트 구축에 실질적인 장점입니다.
OpenRouter의 무료 미리보기는 모델 평가에 적합했고, 공식 API는 안정성 및 에이전트 중심 기능을 강화했습니다.
- OpenAI 호환 엔드포인트 테스트
- 응답 어설션 작성
- Smart Mock으로 오프라인 개발
- 모델/버전 교체 시 회귀 테스트
등 API 통합 품질 확보에 적합합니다.
자주 묻는 질문
Qwen3.6-Plus와 미리보기 버전의 차이점은?
미리보기(qwen/qwen3.6-plus-preview)는 2026년 3월 30일 OpenRouter에 출시. 정식 출시는 preserve_thinking 매개변수, SLA 기반 가동 시간, Model Studio 지원 추가. 소형 오픈소스 모델도 곧 출시.
preserve_thinking은 언제 써야 하나요?
기본은 현재 턴 추론만 보존. preserve_thinking: true로 설정 시 모든 이전 턴의 연쇄 추론을 유지. 다단계 에이전트 루프 등 과거 추론이 행동에 영향을 미치는 경우 반드시 사용.
Qwen3.6-Plus와 Claude Opus 4.5 비교?
Claude Opus 4.5가 SWE-bench Verified(80.9% vs 78.8%), OSWorld-Verified(66.3% vs 62.5%)에서 우위. Qwen3.6-Plus는 Terminal-Bench 2.0(61.6% vs 59.3%), MCPMark(48.2% vs 42.3%), DeepPlanning(41.5% vs 33.9%), GPQA(90.4% vs 87.0%)에서 앞섬.
Qwen3.6-Plus를 Claude Code와 함께 쓸 수 있나요?
가능. ANTHROPIC_BASE_URL을 Dashscope Anthropic 호환 엔드포인트로, ANTHROPIC_MODEL을 qwen3.6-plus로, ANTHROPIC_AUTH_TOKEN을 Dashscope API 키로 설정.
Qwen3.6-Plus는 오픈소스인가요?
호스팅 API 모델은 오픈 웨이트가 아님. 곧 오픈소스 소형 변형 모델이 공개됩니다.
무료 액세스는 어떻게?
Qwen Code 설치(npm install -g @qwen-code/qwen-code@latest), 실행 후 /auth 입력, OAuth 로그인 시 하루 1,000건 무료 API 호출 제공.
컨텍스트 윈도우 크기는?
기본 1백만 토큰. 공식 벤치 일부는 256K 기준이지만, API 기본값은 1M.
배포 전 API 통합 테스트 방법은?
엔드포인트를 Apidog로 가져오고, 환경 변수로 API 키 추가, 응답 어설션 작성, 오프라인 개발 시 Smart Mock 사용. 여러 요청을 시나리오로 연결해 다단계 에이전트 동작을 엔드 투 엔드로 검증.


Top comments (0)