Alibaba lanzó dos modelos insignia de la línea Qwen 3.7 en dos semanas: Qwen3.7-Max, orientado a razonamiento solo con texto, y Qwen3.7-Plus, la variante multimodal con visión y un precio mucho menor. Ambos ofrecen contexto de 1M de tokens y un techo de ejecución autónoma de 35 horas, así que la elección práctica depende de modalidad, costo y latencia.
Esta guía compara benchmarks, precios, velocidad y casos de uso para decidir cuál integrar. Si necesita contexto previo, revise la descripción general de Qwen 3.7 Plus y la guía qué es Qwen 3.7. En cualquier caso, los probará vía API; para inspeccionar requests, comparar respuestas y depurar flujos, puede usar Apidog.
Respuesta rápida
Use Qwen 3.7 Plus por defecto si:
- necesita imágenes, capturas de pantalla, PDFs escaneados o video;
- quiere minimizar costos por token;
- está construyendo agentes que interactúan con interfaces gráficas;
- necesita calidad similar en codificación y uso de herramientas.
Use Qwen 3.7 Max solo si:
- su carga es 100% texto;
- la latencia de texto en frío es crítica;
- quiere exprimir la pequeña ventaja en rankings de texto.
En la mayoría de implementaciones, Plus gana por costo y versatilidad. Max es una opción especializada para texto puro.
Diferencia principal
Qwen 3.7 Max es el modelo insignia de solo texto. Sirve para razonamiento, código y agentes largos basados únicamente en prompts textuales.
Qwen 3.7 Plus parte de una base comparable, pero añade entrada multimodal: texto, imagen y video. También puede hacer GUI grounding, es decir, analizar una captura de pantalla y devolver coordenadas de interacción.
La compensación es concreta:
- Max: ligera ventaja en texto y latencia.
- Plus: visión, video, GUI grounding y precio mucho menor.
Benchmarks
Los resultados muestran un patrón claro: Plus queda ligeramente por detrás en texto puro, empata en uso de herramientas y gana cuando entra la visión.
| Benchmark | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| LM Arena texto | #15 | #13 |
| LM Arena codificación | #12 | #10 |
| Vision Arena | #16 | No aplica |
| SWE-Bench Pro | ~60% | 60.6% |
| Terminal-Bench 2.0 Terminus | 70.3 | 69.7 |
| ScreenSpot Pro GUI grounding | 79.0 | Ninguno |
| MCP-Atlas uso de herramientas | 76.4 | 76.4 |
Qué significan estos números para una implementación
1. Codificación: empate práctico
En SWE-Bench Pro, Plus ronda el 60% y Max alcanza 60.6%. Para tareas reales de desarrollo, la diferencia es mínima. Si está construyendo un agente de coding, el costo puede pesar más que ese margen. Para contexto adicional, vea la comparación de Qwen 3.7 vs GPT-5.5 vs Opus 4.7.
2. Terminal: Plus gana ligeramente
En Terminal-Bench, Plus obtiene 70.3 frente a 69.7 de Max. Si su agente ejecuta comandos de shell, lee logs o corrige errores en CLI, Plus no solo es más barato: también puntúa ligeramente mejor.
3. GUI grounding: solo Plus califica
ScreenSpot Pro 79.0 es el diferenciador real. Max no procesa imágenes, así que no puede usarse para agentes que miran una pantalla, detectan botones o trabajan con capturas. Como siempre, trate los benchmarks del proveedor como orientación, no como garantía. El sitio de SWE-bench explica qué mide cada suite.
Precios
Aquí la diferencia es decisiva.
| Precio | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Entrada / 1M tokens | $0.40 | $2.50 |
| Salida / 1M tokens | $1.60 | $7.50 |
| Entrada en caché / 1M tokens | $0.08 | $0.25 |
Plus es aproximadamente:
- 6 veces más barato en entrada;
- casi 5 veces más barato en salida;
- más barato también en entrada cacheada.
Para agentes de alto volumen, pipelines de análisis o ejecuciones largas, esta diferencia cambia el presupuesto.
Recomendación práctica de costos
Si usa Plus con imágenes o video:
- reduzca resolución cuando no necesite detalle fino;
- recorte capturas a la región relevante;
- evite enviar frames de video innecesarios;
- use caché cuando el proveedor y el flujo lo permitan;
- mida tokens reales por request antes de escalar.
Las imágenes y el video consumen el mismo presupuesto de contexto de 1M tokens. Una carga con muchas capturas puede costar más por llamada de lo que sugiere la tarifa base por token.
Para optimización de costos, revise estas guías: cómo reducir los costos de tokens del agente y la guerra de precios de LLM chinos de 2026. Las tarifas oficiales están en la página de precios de Model Studio.
Especificaciones y velocidad
| Característica | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Modalidades de entrada | Texto, imagen, video | Solo texto |
| Ventana de contexto | 1M, compartida con visión | 1M |
| Ejecución autónoma | 35 horas | 35 horas |
| Latencia solo texto | Línea base | ~7–15% más rápido en rutas en frío |
| Pesos | Propietario, solo API | Propietario, solo API |
La ventaja silenciosa de Max es la latencia. En rutas de texto con arranque en frío, puede responder más rápido. Esto importa en productos tipo chat, asistentes internos o soporte al cliente donde el tiempo hasta el primer token es visible.
El análisis independiente sigue esta compensación entre velocidad e inteligencia.
Ambos modelos son propietarios y solo están disponibles vía Alibaba Cloud Model Studio. Ninguno sirve si necesita descargar pesos o autoalojar.
Cómo elegir según la carga de trabajo
| Carga de trabajo | Modelo recomendado | Motivo |
|---|---|---|
| QA visual con capturas de pantalla | Plus | Necesita visión y GUI grounding |
| Regresión visual de UI | Plus | Solo Plus puede analizar la pantalla |
| Extracción de facturas, recibos o PDFs escaneados | Plus | Requiere entrada visual |
| Clasificación de texto de alto volumen | Plus | Calidad similar con menor costo |
| Agente de shell o DevOps | Plus | Buen resultado en Terminal-Bench y menor precio |
| Chatbot de baja latencia solo texto | Max | Mejor latencia en texto frío |
| Agente de coding autónomo largo | Cualquiera | Empate práctico; deje que el costo decida |
| Análisis de documentos con imágenes | Plus | Max no procesa imágenes |
Regla simple:
¿La tarea usa imágenes, video, PDFs escaneados o capturas?
Sí -> Qwen 3.7 Plus
No -> ¿la latencia de texto es crítica?
Sí -> Qwen 3.7 Max
No -> Qwen 3.7 Plus
Probar ambos modelos con Apidog
Ambos modelos usan el endpoint compatible con OpenAI de Alibaba Cloud Model Studio. En la práctica, cambiar entre ellos debería ser un cambio de ID de modelo.
Ejemplo conceptual:
{
"model": "qwen3.7-plus",
"messages": [
{
"role": "user",
"content": "Analiza este error y propone una solución."
}
]
}
Para comparar con Max:
{
"model": "qwen3.7-max",
"messages": [
{
"role": "user",
"content": "Analiza este error y propone una solución."
}
]
}
La prueba útil no es solo “cuál responde mejor”, sino:
- calidad de la respuesta;
- latencia;
- tokens de entrada y salida;
- estabilidad del formato JSON;
- comportamiento con herramientas;
- costo estimado por ejecución;
- capacidad de seguir instrucciones del sistema.
Con Apidog, puede crear requests para ambos modelos, inspeccionar JSON sin procesar, guardar claves por entorno y simular endpoints mientras su aplicación se desarrolla.
Para Plus multimodal, la guía de la API de Qwen 3.7 Plus muestra el formato de carga útil con imagen y video. Para texto, la guía de la API base de Qwen 3.7 cubre la ruta estándar. Si su agente encadena llamadas de herramientas, el depurador de agentes de IA de Apidog permite ver la secuencia completa.
Descargue Apidog para probar y comparar ambos modelos Qwen 3.7 antes de integrarlos en producción.
Checklist de evaluación antes de producción
Antes de elegir, ejecute la misma batería de pruebas con ambos modelos:
- [ ] 20–50 prompts representativos de su caso real.
- [ ] Casos fáciles, difíciles y ambiguos.
- [ ] Medición de latencia p50, p95 y p99.
- [ ] Conteo de tokens por request.
- [ ] Validación de JSON o esquema esperado.
- [ ] Pruebas con herramientas si usa function calling.
- [ ] Evaluación de errores recuperables.
- [ ] Comparación de costo por tarea completada, no solo por token.
- [ ] Pruebas multimodales si considera Plus.
- [ ] Revisión de logs y trazas de agente.
Si Plus cumple los criterios de calidad, normalmente será la opción más rentable. Si Max reduce latencia de forma visible en una carga solo texto, entonces puede justificar el costo adicional.
Preguntas frecuentes
¿Qwen 3.7 Plus es mejor que Max?
Para la mayoría de cargas de trabajo, sí. Añade visión, cuesta mucho menos e iguala a Max en codificación y uso de herramientas. Max conserva una pequeña ventaja en rankings de texto y latencia solo texto.
¿Cuánto más barato es Plus?
Aproximadamente seis veces más barato en entrada: $0.40 frente a $2.50 por millón de tokens. En salida, cuesta $1.60 frente a $7.50, casi cinco veces menos.
¿Comparten la misma ventana de contexto?
Sí. Ambos tienen una ventana de 1M de tokens. En Plus, las imágenes y el video consumen tokens dentro de ese mismo presupuesto.
¿Puede Max procesar imágenes?
No. Max es solo texto. Si necesita imágenes, video, capturas de pantalla o GUI grounding, use Plus.
¿Alguno es de código abierto?
No. Ambos son propietarios y se ejecutan mediante Alibaba Cloud Model Studio. No puede descargar ni autoalojar los pesos.
¿Cuál es más rápido?
Max es aproximadamente entre 7% y 15% más rápido en rutas de texto con arranque en frío. Para flujos multimodales, Plus es la única opción.
Resumen
Qwen 3.7 Max y Qwen 3.7 Plus no resuelven exactamente el mismo problema. Max es el especialista en texto con mejor latencia y una ligera ventaja de calidad textual. Plus es el modelo multimodal más barato que cubre texto, imagen, video y GUI grounding.
Empiece con Qwen 3.7 Plus. Cambie a Qwen 3.7 Max solo si su carga es estrictamente textual y la latencia justifica pagar más. En ambos casos, pruebe la API en Apidog antes de enviar a producción.



Top comments (0)