Alibaba lanzó Qwen 3.7 Plus pocos días después de Qwen3.7-Max. La versión corta: Plus es Max con ojos. Mantiene el mismo contexto de 1M de tokens y la columna vertebral de agente, añade entrada de imagen y video, y aterriza en aproximadamente una sexta parte del precio de Max. Si has estado siguiendo la familia, nuestra guía sobre qué es Qwen 3.7 cubre el buque insignia de texto; esta publicación trata sobre lo que la nueva variante Plus añade.
Una cosa a señalar de antemano, porque cambia a quién debería importarle: Qwen 3.7 Plus es solo API y propietario. No hay pesos abiertos, lo que rompe con el hábito de código abierto de Qwen. Veremos lo que eso significa a continuación. Dado que Plus se envía solo como una API, pasarás tu tiempo llamándola y depurándola; ahí es donde entra Apidog, cubierto al final.
La respuesta corta
Qwen 3.7 Plus es el hermano multimodal y de bajo precio de Qwen3.7-Max. Entrégale una captura de pantalla, un prototipo de diseño o un video, y razona sobre ellos como una entrada de primera clase.
Está diseñado para agentes que manejan interfaces gráficas: puede mirar una captura de pantalla de una aplicación y devolver coordenadas de píxeles exactas para hacer clic.
En texto puro, Max todavía lo supera ligeramente. En cualquier cosa con una señal visual, Plus es el que quieres, y cuesta una fracción de Max de cualquier manera. La única desventaja real son los pesos cerrados.
Novedades frente a Qwen 3.7 Max
Tres cambios importan.
1. Entrada multimodal
Max es solo texto. Plus acepta:
- Texto
- Imágenes
- Video
Esto desbloquea casos de uso como percepción de capturas de pantalla, lectura de documentos y PDF, y comprensión de video desde un único modelo.
2. Fundamentación para GUIs
Plus se posiciona como un agente interactivo multimodal para:
- Automatización del navegador
- Navegación GUI
- Flujos de trabajo híbridos GUI + CLI
Puede producir planes de acción estructurados, por ejemplo:
{
"action": "click",
"x": 487,
"y": 232
}
Ese tipo de salida es lo que hace que los agentes de uso de computadora funcionen sobre interfaces reales.
3. Precio más bajo
Plus funciona a un nivel de presupuesto muy por debajo de Max.
| Característica | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Modalidades de entrada | Texto, imagen, video | Solo texto |
| Ventana de contexto | 1M de tokens, compartida con visión | 1M de tokens |
| Entrada / salida por 1M | $0.40 / $1.60 | $2.50 / $7.50 |
| Entrada en caché por 1M | $0.08 | $0.25 |
| Fundamentación GUI, ScreenSpot Pro | 79.0 | Ninguna |
| Terminal-Bench | 70.3 | 69.7 |
| Límite de ejecución autónoma | 35 horas | 35 horas |
Benchmarks
Los números de lanzamiento, respaldados por reseñas prácticas tempranas, cuentan una historia consistente: Plus iguala o supera ligeramente a Max en texto, y luego toma la delantera en el momento en que la visión entra en juego.
Resultados clave:
- ScreenSpot Pro: 79.0. Esta prueba mide fundamentación GUI: la capacidad del modelo para mirar una captura de pantalla y producir coordenadas de píxeles exactas. Max no puede ejecutarla porque no acepta visión.
- Terminal-Bench: 70.3. Ligeramente por delante del 69.7 de Max, incluso con los parámetros de visión añadidos.
- SWE-Bench Pro: alrededor del 60%. En el mismo rango que el 60.6% de Max.
- MCP-Atlas: 76.4. Empate con Max en orquestación de uso de herramientas.
- LM Arena. Plus queda un poco por detrás de Max en texto, #15 vs #13, y codificación, #12 vs #10.
Regla práctica:
- Usa Plus cuando la tarea incluya una señal visual: captura de pantalla, prototipo, gráfico, PDF o video.
- Usa Max cuando el trabajo sea solo texto y estés optimizando por la pequeña ventaja en benchmarks textuales.
Para una comparación directa en texto, nuestra comparación de Qwen 3.7 vs GPT-5.5 vs Opus 4.7 cubre dónde se sitúa la familia frente a los buques insignia occidentales.
Como siempre, los números de referencia provienen del proveedor y de los primeros revisores, así que trátalos como una dirección más que como una garantía.
Precios: el nivel multimodal de presupuesto
Aquí es donde Plus se vuelve interesante.
| Tipo de uso | Precio |
|---|---|
| Entrada | $0.40 por 1M tokens |
| Salida | $1.60 por 1M tokens |
| Entrada en caché | $0.08 por 1M tokens |
Eso lo hace aproximadamente:
- 6 veces más barato que Max en entrada
- Casi 5 veces más barato que Max en salida
Obtienes visión y contexto de 1M por menos de lo que cobran muchos modelos solo de texto.
Presupuesto de tokens visuales
Las imágenes y el video comparten el presupuesto de 1M de tokens.
Eso significa que:
- Una captura de pantalla de alta resolución puede consumir miles de tokens.
- Un video con muchos fotogramas puede reducir rápidamente el margen disponible para texto.
- Las ejecuciones largas de agentes necesitan control de costos por llamada.
Antes de enviar cargas visuales grandes, reduce resolución, recorta regiones irrelevantes o envía solo los fotogramas necesarios.
Para un contexto más amplio sobre por qué los laboratorios chinos siguen rebajando los precios, consulta nuestro desglose de la guerra de precios de LLM chinos de 2026.
La desventaja: propietario y solo API
Qwen construyó su tracción empresarial con pesos abiertos. Gran parte de la línea Qwen anterior se envió bajo licencias Apache 2.0 o de uso abierto, por lo que los equipos podían descargar, ajustar y ejecutar modelos dentro de centros de datos aislados.
Qwen 3.7 Plus no hace eso.
Plus se entrega estrictamente como una API comercial gestionada a través de Alibaba Cloud Model Studio. No puedes:
- Descargar los pesos
- Autoalojarlo
- Ejecutarlo sin conexión
Para entornos regulados o aislados, eso puede ser un bloqueo.
Una variante Plus de pesos abiertos ha sido sugerida para el tercer trimestre de 2026, pero no está confirmada, y el nivel propietario puede permanecer cerrado. Si los pesos abiertos son un requisito, este modelo no es tu elección hoy; rivales como Step 3.7 Flash se envían bajo Apache 2.0 y lo superan en precio.
Cómo acceder a Qwen 3.7 Plus
Tienes dos caminos.
Opción 1: API
Llámalo a través de Alibaba Cloud Model Studio.
El endpoint es compatible con OpenAI, por lo que los patrones base de solicitud se mantienen. Nuestra guía sobre cómo usar la API de Qwen 3.7 detalla la autenticación y la primera llamada.
Para solicitudes multimodales, añade partes de imagen o video a la carga útil del mensaje.
Opción 2: Chat
Pruébalo en el navegador en chat.qwen.ai antes de escribir código.
Si quieres probar la familia sin una factura, nuestra guía de Qwen 3.7 gratis muestra las rutas gratuitas.
Ejemplo: llamada multimodal mínima con Python
Una llamada multimodal usa el formato de mensaje estándar compatible con OpenAI, con una parte de imagen junto al texto.
from openai import OpenAI
client = OpenAI(
api_key="YOUR_MODEL_STUDIO_KEY",
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
resp = client.chat.completions.create(
model="qwen3.7-plus",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Which button submits this form? Give pixel coordinates."
},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/screenshot.png"
}
},
],
}
],
)
print(resp.choices[0].message.content)
Consulta la documentación de Model Studio para confirmar:
- Identificador exacto del modelo
- URL base regional
- Diferencias entre endpoints internacionales y de China
Patrón práctico para agentes GUI
Si estás creando un agente que hace clic sobre una interfaz real, estructura tu flujo así:
- Captura la pantalla actual.
- Envía la captura a Qwen 3.7 Plus con una instrucción concreta.
- Pide una salida estructurada con acción y coordenadas.
- Valida la respuesta antes de ejecutarla.
- Ejecuta la acción con tu controlador de navegador o entorno GUI.
- Repite con una nueva captura.
Ejemplo de prompt:
Observa la captura de pantalla.
Objetivo: enviar el formulario.
Devuelve solo JSON válido con esta forma:
{
"action": "click",
"target": "nombre del elemento",
"x": número,
"y": número,
"confidence": número entre 0 y 1
}
Ejemplo de respuesta esperada:
{
"action": "click",
"target": "Submit button",
"x": 487,
"y": 232,
"confidence": 0.91
}
Antes de automatizar el clic, valida que confidence supere tu umbral y que las coordenadas estén dentro del tamaño de la pantalla.
Quién debería usarlo
Usa Qwen 3.7 Plus cuando tu trabajo se parezca a esto:
- Agentes de uso de computadora y GUI que hacen clic en interfaces reales a partir de capturas de pantalla.
- De captura de pantalla a código y de maqueta a UI, donde el modelo lee un diseño y escribe el front-end.
- Comprensión de documentos, PDF y video a bajo costo por token.
- Ejecuciones largas de agentes, hasta el límite de 35 horas con miles de llamadas de herramientas secuenciales.
Quédate con Max si:
- Estás optimizando puramente para puntuaciones de texto SWE-Bench Pro.
- Necesitas la latencia más rápida en rutas solo de texto.
- No necesitas visión.
Para la mayoría de las cargas mixtas, la opción multimodal más económica es la predeterminada razonable.
Si estás comparando Plus con otros modelos abiertos y económicos, nuestra comparación de MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 es un mapa útil.
Probando Qwen 3.7 Plus con Apidog
Dado que Plus es solo API, vives en la API.
Las solicitudes multimodales son más difíciles de depurar que una llamada de texto normal. Estás:
- Codificando imágenes
- Adjuntando videos
- Revisando respuestas estructuradas
- Encadenando llamadas de herramientas
- Ejecutando bucles que pueden durar minutos u horas
Necesitas ver exactamente qué envía cada solicitud y qué devuelve el modelo.
Apidog está diseñado para eso. Puedes usarlo para:
- Enviar solicitudes a Qwen 3.7 Plus con cargas útiles de imagen y video
- Inspeccionar respuestas sin procesar
- Gestionar claves de Model Studio por entorno
- Simular endpoints mientras tu aplicación sigue en desarrollo
- Depurar secuencias de llamadas en flujos de agentes
Para el lado de los agentes, donde Plus encadena llamadas de herramientas a través de un flujo de trabajo GUI y CLI, el depurador de agentes de IA de Apidog muestra la secuencia completa de llamadas para que puedas encontrar dónde falló una ejecución.
Descarga Apidog para probar, depurar y simular la API de Qwen 3.7 Plus antes de que llegue a producción.
Preguntas frecuentes
¿Es Qwen 3.7 Plus de código abierto?
No. Es propietario y solo está disponible como una API gestionada a través de Alibaba Cloud Model Studio. No puedes descargar ni autoalojar los pesos.
Se ha sugerido una variante de pesos abiertos para el tercer trimestre de 2026, pero no está confirmada.
Qwen 3.7 Plus o Max, ¿cuál debo usar?
Usa Plus si necesitas visión, capturas de pantalla, PDF o video, o si quieres un precio más bajo.
Usa Max si estás optimizando para puntuaciones de texto puro SWE-Bench Pro o necesitas la latencia más rápida en tareas solo de texto.
¿Cuánto cuesta Qwen 3.7 Plus?
Qwen 3.7 Plus cuesta:
- $0.40 por millón de tokens de entrada
- $1.60 por millón de tokens de salida
- $0.08 por millón de tokens de entrada en caché
Eso es aproximadamente seis veces más barato que Qwen3.7-Max en entrada.
¿Qwen 3.7 Plus maneja video?
Sí. Acepta texto, imágenes y video como entrada.
Recuerda que los tokens visuales comparten el presupuesto de contexto de 1M de tokens, por lo que las grandes cargas de medios reducen tu margen de texto.
¿Cuál es la ventana de contexto?
1M de tokens, heredados de la estructura Max, compartidos entre tokens de texto, imagen y video.
¿Cómo accedo a Qwen 3.7 Plus?
A través de la API de Alibaba Cloud Model Studio, o probándolo en el navegador en chat.qwen.ai.
Conclusión
Qwen 3.7 Plus toma el buque insignia de agentes de Alibaba, le añade visión y reduce el precio a un nivel económico.
Para desarrolladores que crean agentes de uso de computadoras, codificación basada en capturas de pantalla o comprensión de video, es una de las opciones multimodales de nivel de frontera más baratas disponibles.
La contrapartida: pesos cerrados y dependencia estricta de la nube de Alibaba.
Si esa contrapartida te funciona, el siguiente paso es la API. Pruébala, depura las llamadas multimodales y simula las respuestas en Apidog para que lo que envíes se mantenga estable bajo tráfico real.


Top comments (0)