DEV Community

Cover image for Qwen3.6-Plus API: Supera a Claude en Pruebas de Rendimiento Terminal
Roobia
Roobia

Posted on • Originally published at apidog.com

Qwen3.6-Plus API: Supera a Claude en Pruebas de Rendimiento Terminal

En resumen

Qwen3.6-Plus ha sido lanzado oficialmente. Obtiene un 78.8% en SWE-bench Verified y un 61.6% en Terminal-Bench 2.0, superando a Claude Opus 4.5. Cuenta con una ventana de contexto de 1M de tokens, un nuevo parámetro preserve_thinking para bucles de agente, y funciona directamente con Claude Code, OpenClaw y Qwen Code a través de una API compatible con OpenAI.

Prueba Apidog hoy

De la versión preliminar al lanzamiento

Si ya viste nuestra guía anterior sobre Qwen 3.6 Plus Preview en OpenRouter, ya conoces el potencial de este modelo. La versión preliminar se lanzó el 30 de marzo, sin lista de espera y con acceso gratuito por OpenRouter. En dos días, procesó más de 400 millones de tokens de finalización en aproximadamente 400,000 solicitudes.

El lanzamiento oficial trae la versión de producción completa: disponible en Alibaba Cloud Model Studio, con API estable, SLA y el nuevo parámetro de API para tareas de agente de varios pasos.

Esta guía cubre los cambios, cómo llamar a la API correctamente y cómo probar tu integración con Apidog antes de implementarla.

Qué es Qwen3.6-Plus

Qwen3.6-Plus es un modelo de mezcla de expertos alojado por el equipo Qwen de Alibaba. Usa activación dispersa (solo una fracción de los parámetros se activa por token), logrando alto rendimiento con menor costo computacional.

Características principales al lanzamiento:

  • Ventana de contexto de 1 millón de tokens
  • Razonamiento obligatorio de cadena de pensamiento
  • Nuevo parámetro preserve_thinking para agentes
  • Soporte multimodal (visión, video, documentos)
  • API compatible con OpenAI y Anthropic

En los próximos días se lanzarán variantes más pequeñas y open source. Si necesitas pesos para autoalojar, estarán disponibles pronto.

Resultados de los benchmarks

Agentes de codificación

Qwen3.6-Plus queda ligeramente por detrás de Claude Opus 4.5 en SWE-bench, pero lidera en operaciones de terminal.

imagen

Terminal-Bench 2.0 prueba operaciones reales de shell bajo un entorno exigente. Qwen3.6-Plus obtiene 61.6% frente a 59.3% de Claude Opus 4.5, una diferencia relevante para flujos reales de desarrollo.

Agentes generales y uso de herramientas

Benchmark Claude Opus 4.5 Qwen3.6-Plus
TAU3-Bench 70.2% 70.7%
DeepPlanning 33.9% 41.5%
MCPMark 42.3% 48.2%
MCP-Atlas 71.8% 74.1%
WideSearch 76.4% 74.3%

MCPMark prueba llamadas a herramientas GitHub MCP v0.30.3. Liderar con 48.2% es clave para quienes desarrollan integraciones MCP. En DeepPlanning, Qwen3.6-Plus muestra ventaja significativa en planificación a largo plazo.

Razonamiento y conocimiento

Benchmark Claude Opus 4.5 Qwen3.6-Plus
GPQA 87.0% 90.4%
LiveCodeBench v6 84.8% 87.1%
IFEval strict 90.9% 94.3%
MMLU-Pro 89.5% 88.5%

GPQA mide razonamiento científico avanzado. IFEval strict evalúa cumplimiento de formato y restricciones. Qwen3.6-Plus lidera en ambos, útil para tareas estructuradas y agentes complejos.

Multimodal

Qwen3.6-Plus es nativamente multimodal y lidera en benchmarks de visión y documentos.

Benchmark Qwen3.6-Plus Notas
OmniDocBench 1.5 91.2% Mejor en la tabla
RefCOCO avg 93.5% Mejor en la tabla
We-Math 89.0% Mejor en la tabla
CountBench 97.6% Mejor en la tabla
OSWorld-Verified 62.5% Detrás de Claude (66.3%)

Para tareas de comprensión de documentos y razonamiento espacial, Qwen3.6-Plus es líder.

Cómo llamar a la API

Qwen3.6-Plus está disponible en Alibaba Cloud Model Studio. Obtén tu clave de API en modelstudio.alibabacloud.com.

URLs base regionales:

  • Singapur: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • Pekín: https://dashscope.aliyuncs.com/compatible-mode/v1
  • Virginia, EE. UU.: https://dashscope-us.aliyuncs.com/compatible-mode/v1

Llamada básica con streaming

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "Revisa esta función de Python y encuentra errores."}],
    extra_body={"enable_thinking": True},
    stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        if not is_answering:
            reasoning += delta.reasoning_content
    if delta.content:
        if not is_answering:
            is_answering = True
        answer += delta.content
        print(delta.content, end="", flush=True)
Enter fullscreen mode Exit fullscreen mode

El parámetro preserve_thinking

La versión oficial añade preserve_thinking, que conserva la cadena de pensamiento de todos los turnos anteriores. Actívalo para agentes que ejecutan tareas de varios pasos.

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=conversation_history,
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True, # conserva el razonamiento en todos los turnos
    },
    stream=True
)
Enter fullscreen mode Exit fullscreen mode

Usar Qwen3.6-Plus con Claude Code

La API es compatible con Anthropic. Solo modifica las variables de entorno para usar Qwen3.6-Plus con Claude Code:

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude
Enter fullscreen mode Exit fullscreen mode

Usar Qwen3.6-Plus con OpenClaw

OpenClaw es un agente de codificación autoalojado. Instálalo y apunta a Model Studio:

# Instalar (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard
Enter fullscreen mode Exit fullscreen mode

Edita ~/.openclaw/openclaw.json:

{
  "models": {
    "providers": [{
      "name": "alibaba-coding-plan",
      "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
      "apiKey": "${DASHSCOPE_API_KEY}",
      "models": [{"id": "qwen3.6-plus", "reasoning": true}]
    }]
  },
  "agents": {
    "defaults": {"models": ["qwen3.6-plus"]}
  }
}
Enter fullscreen mode Exit fullscreen mode

Usar Qwen3.6-Plus con Qwen Code

Qwen Code es el agente de terminal open source de Alibaba. Incluye 1,000 llamadas API gratuitas/día con OAuth.

npm install -g @qwen-code/qwen-code@latest
qwen
# Escribe /auth para iniciar sesión y activar el nivel gratuito
Enter fullscreen mode Exit fullscreen mode

Por qué preserve_thinking cambia el comportamiento del agente

Por defecto, la mayoría de APIs LLM tratan cada turno como independiente. El razonamiento se descarta tras cada respuesta, lo que limita agentes de varios pasos.

Con preserve_thinking, la cadena de razonamiento completo de todos los turnos anteriores se mantiene visible. Así, un agente puede consultar sus propias decisiones pasadas, tomar mejores decisiones y evitar contradicciones.

También reduce razonamiento redundante y uso de tokens en workflows complejos.

Patrón recomendado para bucles de agente:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Ejemplo de agente de revisión de código multi-paso
result = agent_step("Analiza el módulo de autenticación en busca de problemas de seguridad.")
result = agent_step("Ahora sugiere soluciones para los 3 principales problemas que encontraste.")
result = agent_step("Escribe pruebas que validen cada solución.")
Enter fullscreen mode Exit fullscreen mode

Sin preserve_thinking, el modelo no recuerda los problemas identificados en pasos anteriores. Con este parámetro, la cadena de pensamiento permanece intacta.

Para qué es mejor

  • Corrección de errores a nivel de repositorio: SWE-bench Verified 78.8%, SWE-bench Pro 56.6%. Útil para pipelines automatizados de reparación o revisión de código.
  • Automatización de terminal: Lidera Terminal-Bench 2.0. Ideal para flujos shell, gestión de procesos y pipelines de construcción.
  • Llamada a herramientas MCP: MCPMark 48.2% (top). Mejor opción para integraciones MCP.
  • Análisis de documentos de contexto largo: 1M tokens y altos puntajes en LongBench v2. Para revisiones de códigobase y documentos largos.
  • Generación de código frontend: QwenWebBench 1501.7 vs 1517.9 de Claude Opus 4.5. Calidad similar en generación frontend.
  • Multilingüe: WMT24++ 84.3%, MAXIFE 88.2% en 23 idiomas. Potente fuera del inglés.

Probando llamadas a la API de Qwen3.6-Plus con Apidog

El endpoint es compatible con OpenAI, así que impórtalo directamente en Apidog y pruébalo como cualquier API.

imagen

  1. Configura una solicitud POST a https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions.
  2. Añade tu clave API como variable de entorno: Authorization: Bearer {{DASHSCOPE_API_KEY}}.
  3. Escribe aserciones de respuesta para validar estructura y contenido:
pm.test("La respuesta contiene opciones", () => {
  const body = pm.response.json();
  pm.expect(body).to.have.property("choices");
  pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No hay razonamiento vacío cuando el pensamiento está habilitado", () => {
  const choice = pm.response.json().choices[0];
  if (choice.message.reasoning_content !== undefined) {
    pm.expect(choice.message.reasoning_content).to.not.be.empty;
  }
});
Enter fullscreen mode Exit fullscreen mode

Usa Smart Mock de Apidog para mockear respuestas durante el desarrollo y evitar gasto de tokens. Para agentes multi-turno, crea escenarios de prueba que encadenen varias solicitudes y valida que preserve_thinking transfiera el razonamiento correctamente en cada paso.

Descarga Apidog gratis para configurar estos tests.

Lo que viene a continuación

El equipo de Qwen confirmó variantes más pequeñas open source en días, siguiendo el patrón de Qwen3.5 (MoE dispersos, pesos Apache 2.0).

Próximos pasos en la hoja de ruta:

  • Tareas a nivel de repositorio aún más largas y complejas
  • Agentes multimodales avanzados: GUI y codificación visual como capacidades principales

Las variantes open source de Qwen3.5 fueron de las más desplegadas. Si Qwen3.6 sigue el mismo ritmo, serán una opción por defecto para agentes autoalojados.

Conclusión

Qwen3.6-Plus cierra la brecha con Claude Opus 4.5 en codificación y abre ventaja en terminal, llamadas MCP y planificación a largo plazo. Ventana de 1M tokens, protocolo Anthropic y preserve_thinking lo hacen ideal para sistemas de agentes en producción.

El periodo de vista previa gratuita en OpenRouter sirvió para evaluación. La API oficial aporta estabilidad y un nuevo parámetro vital para flujos multi-turno.

Apidog facilita las pruebas: importa el endpoint compatible con OpenAI, escribe aserciones, simula y lanza pruebas de regresión cada vez que actualices modelo o API.

Preguntas frecuentes

¿Cuál es la diferencia entre Qwen3.6-Plus y la versión preliminar?

La versión preliminar (qwen/qwen3.6-plus-preview) se lanzó en OpenRouter el 30 de marzo de 2026. La versión oficial añade preserve_thinking, SLA y soporte completo de Model Studio. Variantes open source llegarán pronto.

¿Qué es preserve_thinking y cuándo debo usarlo?

Por defecto, solo se conserva el razonamiento del turno actual. Si configuras preserve_thinking: true, el modelo retiene la cadena de pensamiento de todos los turnos. Úsalo en agentes multi-paso que requieran contexto de razonamiento previo.

¿Cómo se compara Qwen3.6-Plus con Claude Opus 4.5?

Claude Opus 4.5 lidera en SWE-bench Verified (80.9% vs 78.8%) y OSWorld-Verified (66.3% vs 62.5%). Qwen3.6-Plus lidera en Terminal-Bench 2.0 (61.6% vs 59.3%), MCPMark (48.2% vs 42.3%), DeepPlanning (41.5% vs 33.9%) y GPQA (90.4% vs 87.0%).

¿Puedo usar Qwen3.6-Plus con Claude Code?

Sí. Configura ANTHROPIC_BASE_URL al endpoint Anthropic de Dashscope, ANTHROPIC_MODEL a qwen3.6-plus, y ANTHROPIC_AUTH_TOKEN con tu clave de API de Dashscope.

¿Es Qwen3.6-Plus open source?

El modelo alojado no lo es, pero variantes más pequeñas con pesos públicos se lanzarán en días.

¿Cómo obtengo acceso gratuito?

Instala Qwen Code (npm install -g @qwen-code/qwen-code@latest), ejecuta qwen y luego /auth. Inicia sesión con Qwen Code OAuth para 1,000 llamadas gratuitas/día a Qwen3.6-Plus.

¿Qué ventana de contexto soporta?

1 millón de tokens por defecto. Algunos benchmarks usaron 256K por estandarización, pero la API da 1M.

¿Cómo pruebo la integración de la API antes de la implementación?

Importa el endpoint en Apidog, agrega tu clave API como variable de entorno, escribe aserciones, simula con mocks y ejecuta tests de regresión al actualizar modelo o API.

Top comments (0)