DEV Community

Cover image for Qwen 3.7 Plus: Modelo de agente multimodal de Alibaba, benchmarks y precios
Roobia
Roobia

Posted on • Originally published at apidog.com

Qwen 3.7 Plus: Modelo de agente multimodal de Alibaba, benchmarks y precios

Alibaba lanzó Qwen 3.7 Plus pocos días después de Qwen3.7-Max. La versión corta: Plus es Max con ojos. Mantiene el mismo contexto de 1M de tokens y la columna vertebral de agente, añade entrada de imagen y video, y aterriza en aproximadamente una sexta parte del precio de Max. Si has estado siguiendo la familia, nuestra guía sobre qué es Qwen 3.7 cubre el buque insignia de texto; esta publicación trata sobre lo que la nueva variante Plus añade.

Prueba Apidog hoy

Una cosa a señalar de antemano, porque cambia a quién debería importarle: Qwen 3.7 Plus es solo API y propietario. No hay pesos abiertos, lo que rompe con el hábito de código abierto de Qwen. Veremos lo que eso significa a continuación. Dado que Plus se envía solo como una API, pasarás tu tiempo llamándola y depurándola; ahí es donde entra Apidog, cubierto al final.

La respuesta corta

Qwen 3.7 Plus es el hermano multimodal y de bajo precio de Qwen3.7-Max. Entrégale una captura de pantalla, un prototipo de diseño o un video, y razona sobre ellos como una entrada de primera clase.

Está diseñado para agentes que manejan interfaces gráficas: puede mirar una captura de pantalla de una aplicación y devolver coordenadas de píxeles exactas para hacer clic.

Gráfico comparativo de Qwen 3.7 Plus vs Max y las puntuaciones de ScreenSpot Pro, Terminal-Bench y Autonomous Run Ceiling.

En texto puro, Max todavía lo supera ligeramente. En cualquier cosa con una señal visual, Plus es el que quieres, y cuesta una fracción de Max de cualquier manera. La única desventaja real son los pesos cerrados.

Novedades frente a Qwen 3.7 Max

Tres cambios importan.

1. Entrada multimodal

Max es solo texto. Plus acepta:

  • Texto
  • Imágenes
  • Video

Esto desbloquea casos de uso como percepción de capturas de pantalla, lectura de documentos y PDF, y comprensión de video desde un único modelo.

2. Fundamentación para GUIs

Plus se posiciona como un agente interactivo multimodal para:

  • Automatización del navegador
  • Navegación GUI
  • Flujos de trabajo híbridos GUI + CLI

Puede producir planes de acción estructurados, por ejemplo:

{
  "action": "click",
  "x": 487,
  "y": 232
}
Enter fullscreen mode Exit fullscreen mode

Ese tipo de salida es lo que hace que los agentes de uso de computadora funcionen sobre interfaces reales.

3. Precio más bajo

Plus funciona a un nivel de presupuesto muy por debajo de Max.

Característica Qwen 3.7 Plus Qwen 3.7 Max
Modalidades de entrada Texto, imagen, video Solo texto
Ventana de contexto 1M de tokens, compartida con visión 1M de tokens
Entrada / salida por 1M $0.40 / $1.60 $2.50 / $7.50
Entrada en caché por 1M $0.08 $0.25
Fundamentación GUI, ScreenSpot Pro 79.0 Ninguna
Terminal-Bench 70.3 69.7
Límite de ejecución autónoma 35 horas 35 horas

Benchmarks

Los números de lanzamiento, respaldados por reseñas prácticas tempranas, cuentan una historia consistente: Plus iguala o supera ligeramente a Max en texto, y luego toma la delantera en el momento en que la visión entra en juego.

Gráfico de barras que compara Qwen 3.7 Plus y Qwen 3.7 Max en varios benchmarks, incluyendo ScreenSpot Pro, Terminal-Bench, SWE-Bench Pro, MCP-Atlas y LM Arena.

Resultados clave:

  • ScreenSpot Pro: 79.0. Esta prueba mide fundamentación GUI: la capacidad del modelo para mirar una captura de pantalla y producir coordenadas de píxeles exactas. Max no puede ejecutarla porque no acepta visión.
  • Terminal-Bench: 70.3. Ligeramente por delante del 69.7 de Max, incluso con los parámetros de visión añadidos.
  • SWE-Bench Pro: alrededor del 60%. En el mismo rango que el 60.6% de Max.
  • MCP-Atlas: 76.4. Empate con Max en orquestación de uso de herramientas.
  • LM Arena. Plus queda un poco por detrás de Max en texto, #15 vs #13, y codificación, #12 vs #10.

Regla práctica:

  • Usa Plus cuando la tarea incluya una señal visual: captura de pantalla, prototipo, gráfico, PDF o video.
  • Usa Max cuando el trabajo sea solo texto y estés optimizando por la pequeña ventaja en benchmarks textuales.

Para una comparación directa en texto, nuestra comparación de Qwen 3.7 vs GPT-5.5 vs Opus 4.7 cubre dónde se sitúa la familia frente a los buques insignia occidentales.

Como siempre, los números de referencia provienen del proveedor y de los primeros revisores, así que trátalos como una dirección más que como una garantía.

Precios: el nivel multimodal de presupuesto

Aquí es donde Plus se vuelve interesante.

Tipo de uso Precio
Entrada $0.40 por 1M tokens
Salida $1.60 por 1M tokens
Entrada en caché $0.08 por 1M tokens

Eso lo hace aproximadamente:

  • 6 veces más barato que Max en entrada
  • Casi 5 veces más barato que Max en salida

Obtienes visión y contexto de 1M por menos de lo que cobran muchos modelos solo de texto.

Presupuesto de tokens visuales

Las imágenes y el video comparten el presupuesto de 1M de tokens.

Eso significa que:

  • Una captura de pantalla de alta resolución puede consumir miles de tokens.
  • Un video con muchos fotogramas puede reducir rápidamente el margen disponible para texto.
  • Las ejecuciones largas de agentes necesitan control de costos por llamada.

Antes de enviar cargas visuales grandes, reduce resolución, recorta regiones irrelevantes o envía solo los fotogramas necesarios.

Para un contexto más amplio sobre por qué los laboratorios chinos siguen rebajando los precios, consulta nuestro desglose de la guerra de precios de LLM chinos de 2026.

La desventaja: propietario y solo API

Qwen construyó su tracción empresarial con pesos abiertos. Gran parte de la línea Qwen anterior se envió bajo licencias Apache 2.0 o de uso abierto, por lo que los equipos podían descargar, ajustar y ejecutar modelos dentro de centros de datos aislados.

Qwen 3.7 Plus no hace eso.

Plus se entrega estrictamente como una API comercial gestionada a través de Alibaba Cloud Model Studio. No puedes:

  • Descargar los pesos
  • Autoalojarlo
  • Ejecutarlo sin conexión

Para entornos regulados o aislados, eso puede ser un bloqueo.

Una variante Plus de pesos abiertos ha sido sugerida para el tercer trimestre de 2026, pero no está confirmada, y el nivel propietario puede permanecer cerrado. Si los pesos abiertos son un requisito, este modelo no es tu elección hoy; rivales como Step 3.7 Flash se envían bajo Apache 2.0 y lo superan en precio.

Cómo acceder a Qwen 3.7 Plus

Tienes dos caminos.

Opción 1: API

Llámalo a través de Alibaba Cloud Model Studio.

El endpoint es compatible con OpenAI, por lo que los patrones base de solicitud se mantienen. Nuestra guía sobre cómo usar la API de Qwen 3.7 detalla la autenticación y la primera llamada.

Para solicitudes multimodales, añade partes de imagen o video a la carga útil del mensaje.

Opción 2: Chat

Pruébalo en el navegador en chat.qwen.ai antes de escribir código.

Si quieres probar la familia sin una factura, nuestra guía de Qwen 3.7 gratis muestra las rutas gratuitas.

Ejemplo: llamada multimodal mínima con Python

Una llamada multimodal usa el formato de mensaje estándar compatible con OpenAI, con una parte de imagen junto al texto.

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Which button submits this form? Give pixel coordinates."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/screenshot.png"
                    }
                },
            ],
        }
    ],
)

print(resp.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Consulta la documentación de Model Studio para confirmar:

  • Identificador exacto del modelo
  • URL base regional
  • Diferencias entre endpoints internacionales y de China

Patrón práctico para agentes GUI

Si estás creando un agente que hace clic sobre una interfaz real, estructura tu flujo así:

  1. Captura la pantalla actual.
  2. Envía la captura a Qwen 3.7 Plus con una instrucción concreta.
  3. Pide una salida estructurada con acción y coordenadas.
  4. Valida la respuesta antes de ejecutarla.
  5. Ejecuta la acción con tu controlador de navegador o entorno GUI.
  6. Repite con una nueva captura.

Ejemplo de prompt:

Observa la captura de pantalla.

Objetivo: enviar el formulario.

Devuelve solo JSON válido con esta forma:
{
  "action": "click",
  "target": "nombre del elemento",
  "x": número,
  "y": número,
  "confidence": número entre 0 y 1
}
Enter fullscreen mode Exit fullscreen mode

Ejemplo de respuesta esperada:

{
  "action": "click",
  "target": "Submit button",
  "x": 487,
  "y": 232,
  "confidence": 0.91
}
Enter fullscreen mode Exit fullscreen mode

Antes de automatizar el clic, valida que confidence supere tu umbral y que las coordenadas estén dentro del tamaño de la pantalla.

Quién debería usarlo

Usa Qwen 3.7 Plus cuando tu trabajo se parezca a esto:

  • Agentes de uso de computadora y GUI que hacen clic en interfaces reales a partir de capturas de pantalla.
  • De captura de pantalla a código y de maqueta a UI, donde el modelo lee un diseño y escribe el front-end.
  • Comprensión de documentos, PDF y video a bajo costo por token.
  • Ejecuciones largas de agentes, hasta el límite de 35 horas con miles de llamadas de herramientas secuenciales.

Quédate con Max si:

  • Estás optimizando puramente para puntuaciones de texto SWE-Bench Pro.
  • Necesitas la latencia más rápida en rutas solo de texto.
  • No necesitas visión.

Para la mayoría de las cargas mixtas, la opción multimodal más económica es la predeterminada razonable.

Si estás comparando Plus con otros modelos abiertos y económicos, nuestra comparación de MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 es un mapa útil.

Probando Qwen 3.7 Plus con Apidog

Dado que Plus es solo API, vives en la API.

Las solicitudes multimodales son más difíciles de depurar que una llamada de texto normal. Estás:

  • Codificando imágenes
  • Adjuntando videos
  • Revisando respuestas estructuradas
  • Encadenando llamadas de herramientas
  • Ejecutando bucles que pueden durar minutos u horas

Necesitas ver exactamente qué envía cada solicitud y qué devuelve el modelo.

Apidog está diseñado para eso. Puedes usarlo para:

  • Enviar solicitudes a Qwen 3.7 Plus con cargas útiles de imagen y video
  • Inspeccionar respuestas sin procesar
  • Gestionar claves de Model Studio por entorno
  • Simular endpoints mientras tu aplicación sigue en desarrollo
  • Depurar secuencias de llamadas en flujos de agentes

Para el lado de los agentes, donde Plus encadena llamadas de herramientas a través de un flujo de trabajo GUI y CLI, el depurador de agentes de IA de Apidog muestra la secuencia completa de llamadas para que puedas encontrar dónde falló una ejecución.

Descarga Apidog para probar, depurar y simular la API de Qwen 3.7 Plus antes de que llegue a producción.

Preguntas frecuentes

¿Es Qwen 3.7 Plus de código abierto?

No. Es propietario y solo está disponible como una API gestionada a través de Alibaba Cloud Model Studio. No puedes descargar ni autoalojar los pesos.

Se ha sugerido una variante de pesos abiertos para el tercer trimestre de 2026, pero no está confirmada.

Qwen 3.7 Plus o Max, ¿cuál debo usar?

Usa Plus si necesitas visión, capturas de pantalla, PDF o video, o si quieres un precio más bajo.

Usa Max si estás optimizando para puntuaciones de texto puro SWE-Bench Pro o necesitas la latencia más rápida en tareas solo de texto.

¿Cuánto cuesta Qwen 3.7 Plus?

Qwen 3.7 Plus cuesta:

  • $0.40 por millón de tokens de entrada
  • $1.60 por millón de tokens de salida
  • $0.08 por millón de tokens de entrada en caché

Eso es aproximadamente seis veces más barato que Qwen3.7-Max en entrada.

¿Qwen 3.7 Plus maneja video?

Sí. Acepta texto, imágenes y video como entrada.

Recuerda que los tokens visuales comparten el presupuesto de contexto de 1M de tokens, por lo que las grandes cargas de medios reducen tu margen de texto.

¿Cuál es la ventana de contexto?

1M de tokens, heredados de la estructura Max, compartidos entre tokens de texto, imagen y video.

¿Cómo accedo a Qwen 3.7 Plus?

A través de la API de Alibaba Cloud Model Studio, o probándolo en el navegador en chat.qwen.ai.

Conclusión

Qwen 3.7 Plus toma el buque insignia de agentes de Alibaba, le añade visión y reduce el precio a un nivel económico.

Para desarrolladores que crean agentes de uso de computadoras, codificación basada en capturas de pantalla o comprensión de video, es una de las opciones multimodales de nivel de frontera más baratas disponibles.

La contrapartida: pesos cerrados y dependencia estricta de la nube de Alibaba.

Si esa contrapartida te funciona, el siguiente paso es la API. Pruébala, depura las llamadas multimodales y simula las respuestas en Apidog para que lo que envíes se mantenga estable bajo tráfico real.

Top comments (0)