DEV Community

Cover image for Qwen3.6-Plus API: 터미널 벤치마크에서 Claude 능가
Rihpig
Rihpig

Posted on • Originally published at apidog.com

Qwen3.6-Plus API: 터미널 벤치마크에서 Claude 능가

요약

Qwen3.6-Plus가 공식 출시되었습니다. SWE-bench Verified에서 78.8%, Terminal-Bench 2.0에서 61.6%를 기록해 Claude Opus 4.5를 능가합니다. 1M 토큰 컨텍스트 윈도우, 에이전트 루프를 위한 새로운 preserve_thinking 매개변수를 제공하며, OpenAI 호환 API로 Claude Code, OpenClaw, Qwen Code와 바로 연동됩니다.

Apidog를 지금 사용해보세요

미리보기에서 정식 출시까지

OpenRouter의 Qwen 3.6 Plus 미리보기를 경험했다면, 이 모델의 성능을 이미 확인하셨을 겁니다. 미리보기는 3월 30일에 대기 없이 무료로 공개되어 이틀간 40만 건 요청, 4억 토큰을 처리했습니다.

정식 출시는 프로덕션 수준의 안정성, SLA 기반 가동 시간, API 매개변수 확장(특히 에이전트 작업을 위한 기능 강화)을 제공합니다. 본 가이드에서는 주요 변경점, API 호출법, Apidog를 통한 통합 테스트 방법을 실전 위주로 다룹니다.

Qwen3.6-Plus란 무엇인가

Qwen3.6-Plus는 Alibaba Qwen팀이 제공하는 Mixture-of-Experts(MoE) 모델입니다. Qwen3.5 시리즈처럼 희소 활성화(sparse activation) 구조로, 밀집 모델 대비 낮은 연산 비용에 동급 이상의 성능을 제공합니다.

주요 스펙:

  • 1백만 토큰 컨텍스트 윈도우(기본)
  • 연쇄 사고 추론 (CoT) 지원
  • 에이전트 작업용 preserve_thinking 매개변수
  • 네이티브 멀티모달(이미지, 비디오, 문서) 지원
  • OpenAI/Anthropic 호환 API

곧 오픈소스 소형 변형 모델(가중치 공개)도 출시 예정입니다.

벤치마크 결과

코딩 에이전트

Qwen3.6-Plus는 SWE-bench 작업에선 Claude Opus 4.5에 근소하게 뒤지지만, 터미널 작업에서는 모든 모델을 앞섭니다.

Terminal-Bench 2.0 결과

Terminal-Bench 2.0은 32코어, 48GB RAM 환경에서 3시간 내 실전 셸 작업을 평가합니다. Qwen3.6-Plus가 61.6%, Claude Opus 4.5가 59.3%로 실제 개발 시나리오에서 의미 있는 차이를 보입니다.

일반 에이전트 및 도구 사용

벤치마크 Claude Opus 4.5 Qwen3.6-Plus
TAU3-Bench 70.2% 70.7%
DeepPlanning 33.9% 41.5%
MCPMark 42.3% 48.2%
MCP-Atlas 71.8% 74.1%
WideSearch 76.4% 74.3%

MCPMark는 GitHub MCP v0.30.3 도구 호출을 평가합니다. Qwen3.6-Plus의 DeepPlanning/ MCPMark 우위는 장기 플래닝 및 툴 통합 시 강점입니다.

추론 및 지식

벤치마크 Claude Opus 4.5 Qwen3.6-Plus
GPQA 87.0% 90.4%
LiveCodeBench v6 84.8% 87.1%
IFEval strict 90.9% 94.3%
MMLU-Pro 89.5% 88.5%

GPQA(대학원 수준 과학 추론), IFEval strict(출력 형식/제약 준수) 부문에서 Qwen3.6-Plus가 앞섭니다.

멀티모달

벤치마크 Qwen3.6-Plus 참고
OmniDocBench 1.5 91.2% 표에서 1위
RefCOCO avg 93.5% 표에서 1위
We-Math 89.0% 표에서 1위
CountBench 97.6% 표에서 1위
OSWorld-Verified 62.5% Claude(66.3%)에 뒤짐

OSWorld-Verified(데스크탑 사용)는 Claude가 우위, 공간/문서 이해는 Qwen3.6-Plus가 선두입니다.

API 호출 방법

Qwen3.6-Plus는 Alibaba Cloud Model Studio에서 사용 가능합니다. API 키는 modelstudio.alibabacloud.com에서 발급받으세요.

기본 API 엔드포인트:

  • 싱가포르: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • 베이징: https://dashscope.aliyuncs.com/compatible-mode/v1
  • 미국 버지니아: https://dashscope-us.aliyuncs.com/compatible-mode/v1

스트리밍을 사용한 기본 호출

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
    extra_body={"enable_thinking": True},
    stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        if not is_answering:
            reasoning += delta.reasoning_content
    if delta.content:
        if not is_answering:
            is_answering = True
        answer += delta.content
        print(delta.content, end="", flush=True)
Enter fullscreen mode Exit fullscreen mode

preserve_thinking 매개변수

정식 버전에서는 preserve_thinking 옵션이 추가되었습니다.

  • preserve_thinking: true로 설정하면, 이전 대화 모든 턴의 연쇄 추론 내용이 보존됩니다.
  • 다단계 에이전트/오케스트레이션에서는 반드시 활성화하세요.
  • 기본값은 비활성화(토큰 절약 목적)입니다.
completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=conversation_history,
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True, # 턴 전체 추론 체인 유지
    },
    stream=True
)
Enter fullscreen mode Exit fullscreen mode

Qwen3.6-Plus를 Claude Code와 함께 사용

Qwen API는 Anthropic 프로토콜을 지원합니다. 환경 변수 세팅만으로 Claude Code에서 바로 사용 가능합니다.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude
Enter fullscreen mode Exit fullscreen mode

Qwen3.6-Plus를 OpenClaw와 함께 사용

OpenClaw(구 Moltbot/Clawdbot) 오픈소스 코딩 에이전트를 설치하고 Model Studio 엔드포인트로 설정하세요.

# Node.js 22+ 필요
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard
Enter fullscreen mode Exit fullscreen mode

~/.openclaw/openclaw.json에 아래 설정을 병합하세요.

{
  "models": {
    "providers": [{
      "name": "alibaba-coding-plan",
      "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
      "apiKey": "${DASHSCOPE_API_KEY}",
      "models": [{"id": "qwen3.6-plus", "reasoning": true}]
    }]
  },
  "agents": {
    "defaults": {"models": ["qwen3.6-plus"]}
  }
}
Enter fullscreen mode Exit fullscreen mode

Qwen3.6-Plus를 Qwen Code와 함께 사용

Qwen Code는 Qwen 전용 오픈소스 터미널 에이전트입니다. OAuth 로그인 시 하루 1,000회 무료 호출이 제공됩니다.

npm install -g @qwen-code/qwen-code@latest
qwen
# /auth 입력 후 무료 티어 활성화
Enter fullscreen mode Exit fullscreen mode

preserve_thinking이 에이전트 동작을 변경하는 이유

대부분의 LLM API는 각 턴을 독립적으로 처리합니다. 단일 Q&A는 문제 없지만, 다단계 에이전트에서는 이전 추론을 잃어버려 일관성이 깨집니다.

preserve_thinking을 활성화하면, 모든 턴의 연쇄 추론이 다음 응답 생성 시 반영됩니다. 즉, 8단계 에이전트가 2, 4, 6단계의 분석까지 파악, 더 일관된 결정을 내릴 수 있습니다.

Alibaba 벤치마크에 따르면, 중복 추론도 줄어들고, 장기 워크플로우에서 토큰 소모도 감소합니다.

에이전트 루프 예시:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# 다단계 코드 리뷰 에이전트 예시
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")
Enter fullscreen mode Exit fullscreen mode

preserve_thinking이 없으면 3단계에서 1단계의 결과를 모델이 모릅니다. 이 기능으로 연쇄 추론이 온전히 유지됩니다.

무엇에 가장 적합한가

  • 리포지토리 수준 버그 수정: SWE-bench Verified 78.8%, Pro 56.6%. 자동 코드 수정/검토 파이프라인에 적합.
  • 터미널 자동화: Terminal-Bench 2.0 1위. 셸 기반 다단계 파일/프로세스 작업, 빌드 파이프라인.
  • MCP 도구 호출: MCPMark 48.2%(최고). MCP 연동 자동화에 최적.
  • 장문 컨텍스트 문서 분석: 1M 토큰 윈도우로 코드베이스 전체/대규모 문서 분석에 유리.
  • 프론트엔드 코드 생성: QwenWebBench 기준 Claude와 동급(1501.7 vs 1517.9 Elo).
  • 다국어: WMT24++ 84.3%(최고), 23개 언어 MAXIFE 88.2%. 비영어권 사용에 강함.

Apidog로 Qwen3.6-Plus API 호출 테스트하기

Qwen3.6-Plus 엔드포인트는 OpenAI와 호환되므로 Apidog에서 바로 테스트할 수 있습니다.

Apidog 테스트 예시

  1. POST 엔드포인트: https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
  2. 환경변수로 API 키 추가: Authorization: Bearer {{DASHSCOPE_API_KEY}}

응답 어설션 예시:

pm.test("Response contains choices", () => {
  const body = pm.response.json();
  pm.expect(body).to.have.property("choices");
  pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
  const choice = pm.response.json().choices[0];
  if (choice.message.reasoning_content !== undefined) {
    pm.expect(choice.message.reasoning_content).to.not.be.empty;
  }
});
Enter fullscreen mode Exit fullscreen mode

팁:

  • 개발 중에는 Smart Mock으로 응답을 시뮬레이션해 토큰 소모 없이 에이전트 로직을 빠르게 검증할 수 있습니다.
  • 다단계 에이전트라면 여러 요청을 테스트 시나리오로 연결해 각 단계의 응답 구조와 preserve_thinking 유지 여부를 확인하세요.

Apidog를 무료로 다운로드하여 바로 시작하세요.

다음은 무엇인가

Qwen팀은 수일 내 오픈소스 소형 변형 모델(희소 MoE, Apache 2.0 가중치)을 출시할 예정입니다.

로드맵 주요 목표:

  • 복잡한 다중 파일 문제 해결을 위한 장기 리포지토리 작업
  • GUI 에이전트 및 시각적 코딩이 부가가치가 아닌 기본 기능으로 자리잡는 멀티모달 에이전트

Qwen3.5 오픈소스 모델은 출시 즉시 많이 배포된 자체호스팅 모델이 되었습니다. Qwen3.6도 이 패턴을 따를 가능성이 높습니다.

결론

Qwen3.6-Plus는 Claude Opus 4.5와의 격차를 좁혔으며, 터미널 자동화, MCP 도구 호출, 장기 플래닝에선 확실한 우위를 점합니다. 1M 토큰 컨텍스트, Anthropic 프로토콜 지원, preserve_thinking 옵션은 실제 프로덕션 에이전트 구축에 실질적인 장점입니다.

OpenRouter의 무료 미리보기는 모델 평가에 적합했고, 공식 API는 안정성 및 에이전트 중심 기능을 강화했습니다.

Apidog

  • OpenAI 호환 엔드포인트 테스트
  • 응답 어설션 작성
  • Smart Mock으로 오프라인 개발
  • 모델/버전 교체 시 회귀 테스트

등 API 통합 품질 확보에 적합합니다.

자주 묻는 질문

Qwen3.6-Plus와 미리보기 버전의 차이점은?

미리보기(qwen/qwen3.6-plus-preview)는 2026년 3월 30일 OpenRouter에 출시. 정식 출시는 preserve_thinking 매개변수, SLA 기반 가동 시간, Model Studio 지원 추가. 소형 오픈소스 모델도 곧 출시.

preserve_thinking은 언제 써야 하나요?

기본은 현재 턴 추론만 보존. preserve_thinking: true로 설정 시 모든 이전 턴의 연쇄 추론을 유지. 다단계 에이전트 루프 등 과거 추론이 행동에 영향을 미치는 경우 반드시 사용.

Qwen3.6-Plus와 Claude Opus 4.5 비교?

Claude Opus 4.5가 SWE-bench Verified(80.9% vs 78.8%), OSWorld-Verified(66.3% vs 62.5%)에서 우위. Qwen3.6-Plus는 Terminal-Bench 2.0(61.6% vs 59.3%), MCPMark(48.2% vs 42.3%), DeepPlanning(41.5% vs 33.9%), GPQA(90.4% vs 87.0%)에서 앞섬.

Qwen3.6-Plus를 Claude Code와 함께 쓸 수 있나요?

가능. ANTHROPIC_BASE_URL을 Dashscope Anthropic 호환 엔드포인트로, ANTHROPIC_MODELqwen3.6-plus로, ANTHROPIC_AUTH_TOKEN을 Dashscope API 키로 설정.

Qwen3.6-Plus는 오픈소스인가요?

호스팅 API 모델은 오픈 웨이트가 아님. 곧 오픈소스 소형 변형 모델이 공개됩니다.

무료 액세스는 어떻게?

Qwen Code 설치(npm install -g @qwen-code/qwen-code@latest), 실행 후 /auth 입력, OAuth 로그인 시 하루 1,000건 무료 API 호출 제공.

컨텍스트 윈도우 크기는?

기본 1백만 토큰. 공식 벤치 일부는 256K 기준이지만, API 기본값은 1M.

배포 전 API 통합 테스트 방법은?

엔드포인트를 Apidog로 가져오고, 환경 변수로 API 키 추가, 응답 어설션 작성, 오프라인 개발 시 Smart Mock 사용. 여러 요청을 시나리오로 연결해 다단계 에이전트 동작을 엔드 투 엔드로 검증.

Top comments (0)