DEV Community

Cover image for Cómo Usar la API de Qwen 3.7
Roobia
Roobia

Posted on • Originally published at apidog.com

Cómo Usar la API de Qwen 3.7

El equipo Qwen de Alibaba lanzó Qwen3.7-Max-Preview a mediados de mayo de 2026, y la pregunta práctica para desarrolladores fue inmediata: ¿cómo llamarlo desde una aplicación real? El modelo apunta a casos de razonamiento avanzado, análisis de documentos largos, backends de agentes y generación de código, con una ventana de contexto de 1M de tokens y rastros explícitos de pensamiento. La parte difícil no es el patrón de API, sino el estado de “preview”: acceso restringido, identificadores que pueden cambiar y documentación distribuida entre Qwen y Alibaba Cloud.

Prueba Apidog hoy

En resumen

Qwen3.7-Max-Preview es el modelo de razonamiento insignia de Alibaba, lanzado en vista previa el 14 de mayo de 2026, con una ventana de contexto de 1M de tokens. Para probarlo rápido, use Qwen Chat (chat.qwen.ai). Para integrarlo en código, el camino de producción es Alibaba Cloud Model Studio, también conocido como DashScope, mediante un endpoint compatible con OpenAI.

El flujo de implementación es:

  1. Crear una cuenta de Alibaba Cloud.
  2. Activar Model Studio en la región correcta.
  3. Generar una API key.
  4. Configurar el cliente OpenAI con la URL base de DashScope.
  5. Llamar a /chat/completions.
  6. Confirmar el ID exacto del modelo en la documentación oficial antes de desplegar.

Como Qwen3.7-Max-Preview está en vista previa, valide siempre el ID del modelo y la disponibilidad regional antes de usarlo en producción. Para probar, documentar y simular el endpoint mientras el acceso se estabiliza, puede usar Apidog.

Cómo acceder a Qwen 3.7 ahora mismo

Qwen se distribuye por varios canales. No todos exponen la misma capacidad ni se activan al mismo tiempo.

1. Qwen Chat

Qwen Chat es la forma más rápida de probar Qwen3.7-Max-Preview.

Úselo así:

  1. Entre en chat.qwen.ai.
  2. Inicie sesión con una cuenta Qwen.
  3. Seleccione qwen3.7-max-preview en el selector de modelos, si está disponible.
  4. Active el modo de pensamiento si quiere ver el razonamiento.
  5. Pruebe prompts antes de llevarlos a código.

Este canal sirve para evaluación y diseño de prompts. No es una API para integrar en una aplicación.

2. Alibaba Cloud Model Studio / DashScope

Alibaba Cloud Model Studio es el canal para usar Qwen desde código. Expone modelos Qwen a través de un endpoint compatible con OpenAI, lo que permite reutilizar SDKs y clientes existentes.

Modelos anteriores como qwen3.6-max-preview y la familia qwen-max ya siguen este patrón. Qwen3.7-Max-Preview puede no estar disponible públicamente en la API cuando lea esto, así que confirme la disponibilidad en la consola de Model Studio.

Captura de pantalla de la consola DashScope mostrando una lista de modelos.

3. Patrón compatible con OpenAI

El patrón de integración es estable:

  • URL base de DashScope según región.
  • Autenticación con Authorization: Bearer <API_KEY>.
  • Endpoint /chat/completions.
  • Cuerpo JSON con model y messages.

El valor que puede cambiar durante la vista previa es el identificador del modelo. Verifique siempre la documentación oficial de Qwen y la lista de modelos de Model Studio.

Si solo quiere probar el modelo sin coste mientras espera acceso a la API, consulte la guía para usar Qwen 3.7 gratis.

Métodos de acceso de un vistazo

Método Acceso a la API Costo Mejor para
Qwen Chat (chat.qwen.ai) No Gratis, con límite de tasa Evaluación rápida y prueba de prompts
Alibaba Cloud Model Studio / DashScope Sí, compatible con OpenAI Pago por token Integración en aplicaciones
Qwen en Hugging Face Pesos, cuando se publiquen Gratis si se autoaloja Modelos abiertos, no Max-Preview
Pasarelas de terceros Varía Varía Enrutamiento entre modelos

Importante: los modelos Qwen de pesos abiertos pueden llegar a Hugging Face, pero qwen3.7-max-preview es una versión propietaria. No espere pesos descargables para ese modelo.

Cómo obtener una clave de API de Qwen 3.7

El acceso a la API se gestiona desde Alibaba Cloud.

Pasos:

  1. Cree una cuenta de Alibaba Cloud.
  2. Abra la consola de Model Studio: modelstudio.console.alibabacloud.com.
  3. Active Model Studio para su cuenta y región.
  4. Genere una API key desde la sección de claves.
  5. Copie la clave y guárdela como un secreto.
  6. Use la URL base que corresponda a la región de la clave.

Las claves son regionales. Una clave de Singapur no autenticará contra el endpoint de Pekín.

Región URL base
Singapur https://dashscope-intl.aliyuncs.com/compatible-mode/v1
EE. UU. / Virginia https://dashscope-us.aliyuncs.com/compatible-mode/v1
Pekín / China https://dashscope.aliyuncs.com/compatible-mode/v1

No suba la clave al repositorio. Guárdela en una variable de entorno.

# macOS / Linux
export DASHSCOPE_API_KEY="sk-your-key-here"

# Windows PowerShell
setx DASHSCOPE_API_KEY "sk-your-key-here"
Enter fullscreen mode Exit fullscreen mode

Después, su aplicación debe leer DASHSCOPE_API_KEY en tiempo de ejecución. Este mismo patrón aplica a otras APIs de modelos, como se muestra en la guía de la API de Gemini 3.5.

Primera solicitud con Python, curl y JavaScript

El endpoint de DashScope es compatible con OpenAI. Puede usar el SDK oficial de OpenAI o enviar HTTP directo.

Antes de copiar el código, confirme el ID del modelo. qwen3.7-max-preview es el identificador asociado al modelo de vista previa en Qwen Chat, pero la API puede requerir otro nombre durante el periodo preview. Si qwen3.7-max-preview no funciona, revise la lista de modelos de Model Studio.

Python con el SDK de OpenAI

Instale el SDK:

pip install openai
Enter fullscreen mode Exit fullscreen mode

Código mínimo:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

response = client.chat.completions.create(
    model="qwen3.7-max-preview",  # Confirme este ID en Model Studio
    messages=[
        {
            "role": "system",
            "content": "Eres un asistente de codificación preciso."
        },
        {
            "role": "user",
            "content": "Escribe una función en Python que invierta una lista enlazada."
        },
    ],
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

La estructura es la misma que en OpenAI:

  • system: define comportamiento.
  • user: contiene la instrucción del usuario.
  • choices[0].message.content: contiene la respuesta generada.

curl

Use curl para validar rápidamente la clave, la región y el modelo.

curl 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions' \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "qwen3.7-max-preview",
    "messages": [
      {
        "role": "user",
        "content": "Explica la idempotencia en las APIs REST en dos oraciones."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Si todo está correcto, recibirá una respuesta JSON con la finalización. Si falla, revise el código HTTP y el mensaje de error.

JavaScript / Node.js

Instale el SDK:

npm install openai
Enter fullscreen mode Exit fullscreen mode

Ejemplo:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
});

const response = await client.chat.completions.create({
  model: "qwen3.7-max-preview", // Confirme este ID en Model Studio
  messages: [
    {
      role: "user",
      content: "Enumera tres compensaciones de GraphQL frente a REST.",
    },
  ],
});

console.log(response.choices[0].message.content);
Enter fullscreen mode Exit fullscreen mode

La ventaja del endpoint compatible con OpenAI es que puede cambiar proveedor, URL base y modelo sin reescribir toda la capa de cliente.

Respuestas en streaming

Para aplicaciones interactivas, active streaming. Así no espera a que termine toda la generación antes de mostrar salida.

Python

stream = client.chat.completions.create(
    model="qwen3.7-max-preview",
    messages=[
        {
            "role": "user",
            "content": "Resume el teorema CAP."
        },
    ],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)
Enter fullscreen mode Exit fullscreen mode

Node.js

const stream = await client.chat.completions.create({
  model: "qwen3.7-max-preview",
  messages: [
    {
      role: "user",
      content: "Resume el teorema CAP.",
    },
  ],
  stream: true,
});

for await (const chunk of stream) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}
Enter fullscreen mode Exit fullscreen mode

El streaming es especialmente útil con modelos de razonamiento. Si el modelo tarda en planificar la respuesta, puede mostrar progreso, tokens parciales o un indicador de escritura en lugar de dejar la interfaz bloqueada.

Razonamiento y modo pensamiento

Qwen3.7-Max-Preview es un modelo de razonamiento. Puede producir trazas explícitas dentro de bloques como <think> antes de la respuesta final.

En modelos Qwen recientes servidos por DashScope, el comportamiento de pensamiento se ha controlado con un flag como enable_thinking. Confirme el nombre exacto del parámetro en la referencia actual de Model Studio antes de depender de él, porque estos controles pueden cambiar entre versiones.

Ejemplo conceptual:

response = client.chat.completions.create(
    model="qwen3.7-max-preview",
    messages=[
        {
            "role": "user",
            "content": (
                "Un tren sale a las 2 p.m. promediando 60 mph. "
                "Un segundo tren sale a las 3 p.m. a 75 mph por la misma ruta. "
                "¿Cuándo alcanza el segundo al primero?"
            ),
        },
    ],
    extra_body={
        "enable_thinking": True
    },
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Recomendaciones prácticas:

  • Active pensamiento para problemas difíciles: matemáticas, análisis, planificación y código con casos límite.
  • Desactívelo para tareas simples: reformateo, clasificación, extracción directa o respuestas cortas.
  • Mida latencia y tokens: el razonamiento añade salida y coste.
  • Decida si mostrará el rastro: algunas apps exponen <think>, otras lo eliminan antes de responder al usuario.

Si está comparando calidad y coste de razonamiento, revise la comparación de Qwen 3.7 vs GPT-5.5 vs Opus 4.7. Para agentes que consumen muchos tokens, también son relevantes las técnicas para reducir los costos de tokens de agente.

Manejo de errores y límites de tasa

Los errores más comunes son predecibles. Manéjelos explícitamente.

Estado HTTP Significado Qué hacer
400 JSON inválido o parámetro incorrecto Revise el cuerpo, el ID del modelo y los nombres de campos
401 API key inválida o faltante Verifique la clave y la variable de entorno
403 Sin acceso al modelo Confirme que su cuenta tenga acceso a la vista previa
404 Modelo no encontrado Revise el ID del modelo y la región
429 Límite de tasa o cuota excedida Reintente con retroceso exponencial
500 / 503 Error del servidor Reintente con backoff

En modelos preview, 403 y 404 son frecuentes porque el acceso está restringido o el identificador aún no está activo en una región.

Ejemplo de reintentos en Python:

import os
import time
from openai import OpenAI, RateLimitError, APIStatusError

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

def ask_qwen(prompt, max_retries=4):
    for attempt in range(max_retries):
        try:
            response = client.chat.completions.create(
                model="qwen3.7-max-preview",
                messages=[
                    {
                        "role": "user",
                        "content": prompt,
                    }
                ],
            )
            return response.choices[0].message.content

        except RateLimitError:
            wait = 2 ** attempt
            print(f"Límite de tasa excedido. Reintentando en {wait}s...")
            time.sleep(wait)

        except APIStatusError as e:
            print(f"Error de API {e.status_code}: {e.message}")

            # 400, 401, 403 y 404 normalmente no se solucionan con retry
            if 400 <= e.status_code < 500:
                raise

            wait = 2 ** attempt
            time.sleep(wait)

    raise RuntimeError("Fallo después de varios reintentos")
Enter fullscreen mode Exit fullscreen mode

Regla práctica:

  • Reintente 429 y 5xx.
  • Falle rápido en 400, 401, 403 y 404.
  • Registre el cuerpo del error para depurar modelo, región y permisos.

Probando y simulando la API de Qwen con Apidog

Durante una vista previa, no conviene probar siempre ejecutando toda la aplicación. Es mejor aislar la llamada HTTP, inspeccionar la respuesta y guardar escenarios reutilizables. Apidog encaja en ese flujo.

Captura de pantalla de la interfaz de Apidog para probar solicitudes de API.

Un flujo práctico sería:

  1. Crear una nueva request en Apidog.
  2. Configurar el método POST.
  3. Usar la URL:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode
  1. Añadir headers:
Authorization: Bearer {{DASHSCOPE_API_KEY}}
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode
  1. Añadir el body:
{
  "model": "qwen3.7-max-preview",
  "messages": [
    {
      "role": "user",
      "content": "Explica la idempotencia en APIs REST."
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode
  1. Guardar la request como caso reutilizable.
  2. Probar variantes de prompts, modelos y parámetros.
  3. Documentar la estructura para el equipo.
  4. Simular el endpoint si todavía no tiene acceso estable a la API real.

La simulación es útil cuando el modelo preview aún no está habilitado para su cuenta. Puede definir el esquema esperado y hacer que frontend, backend o agentes trabajen contra un endpoint falso que responde de forma consistente. Cuando la API real esté disponible, cambia la URL base a DashScope y mantiene el mismo contrato.

Para flujos basados en contrato, vea el tutorial del modo spec-first.

El mismo patrón aplica a otras APIs de modelos, incluida la API de ERNIE 5.1: primero defina y pruebe la request, después automatice la integración.

Conclusión

Llamar a Qwen 3.7 desde código es directo si ya conoce el patrón de OpenAI: configure la URL base de DashScope, pase la clave como Bearer token y envíe una solicitud a /chat/completions.

La parte que requiere cuidado es la vista previa:

  • Confirme el ID real del modelo.
  • Verifique región y permisos.
  • Maneje 403, 404 y 429.
  • Use streaming para mejorar UX.
  • Active razonamiento solo cuando aporte valor.
  • Pruebe y simule el endpoint antes de acoplarlo a toda su aplicación.

Para diseñar, probar, guardar y simular llamadas a Qwen, puede descargar Apidog y trabajar contra el endpoint real o uno simulado mientras la disponibilidad de Qwen3.7-Max-Preview se estabiliza.

Top comments (0)