Antoine Laurent

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus : Modèle d'agent multimodal d'Alibaba, benchmarks et tarifs

Alibaba a lancé Qwen 3.7 Plus quelques jours seulement après Qwen3.7-Max. En bref : Plus est Max avec des capacités visuelles. Il conserve le contexte de 1M de tokens et l’architecture agentique, ajoute l’entrée image et vidéo, et coûte environ un sixième du prix de Max. Si vous avez suivi la famille, notre guide sur ce qu’est Qwen 3.7 couvre le fleuron textuel ; ici, nous nous concentrons sur ce que la variante Plus change concrètement pour les développeurs.

Essayez Apidog aujourd’hui

Point important avant d’aller plus loin : Qwen 3.7 Plus est uniquement disponible via API et reste propriétaire. Il n’y a pas de poids ouverts, ce qui rompt avec l’habitude open source de Qwen. En pratique, cela signifie que votre travail consistera à intégrer, tester et déboguer des appels API multimodaux. C’est précisément le type de flux où Apidog devient utile.

La réponse courte

Qwen 3.7 Plus est le jumeau multimodal et économique de Qwen3.7-Max. Vous pouvez lui envoyer une capture d’écran, une maquette, un document visuel ou une vidéo, et il les traite comme des entrées de première classe.

Son cas d’usage le plus intéressant : les agents qui pilotent des interfaces graphiques. Par exemple, il peut analyser une capture d’écran d’application et renvoyer les coordonnées de pixels à cliquer.

Pour du texte pur, Max garde un léger avantage. Dès que la tâche contient un signal visuel — capture d’écran, PDF, graphique, vidéo — Plus devient le choix le plus logique, surtout avec son prix plus bas. Le compromis principal reste l’absence de poids ouverts.

Ce qui change par rapport à Qwen 3.7 Max

Trois différences comptent pour l’implémentation.

1. Plus accepte texte, image et vidéo

Max est uniquement textuel. Plus accepte :

texte ;
images ;
vidéos.

Cela ouvre des scénarios comme :

analyser une capture d’écran ;
lire un document ou un PDF ;
comprendre une séquence vidéo ;
transformer une maquette en code frontend ;
guider un agent dans une interface utilisateur.

2. Plus peut ancrer des actions dans une GUI

Qwen 3.7 Plus est positionné comme un agent interactif multimodal. Il peut produire des actions structurées du type :

{
  "action": "click",
  "x": 487,
  "y": 232
}

C’est utile si vous construisez :

un agent de navigation navigateur ;
un agent GUI ;
un workflow hybride GUI + CLI ;
un système de test automatisé basé sur des captures d’écran.

3. Plus est beaucoup moins cher

Plus fonctionne à un niveau de prix nettement inférieur à Max, tout en ajoutant la vision.

	Qwen 3.7 Plus	Qwen 3.7 Max
Modalités d’entrée	Texte, image, vidéo	Texte uniquement
Fenêtre de contexte	1M de tokens, partagé avec la vision	1M de tokens
Entrée / sortie par 1M	0,40 $ / 1,60 $	2,50 $ / 7,50 $
Entrée en cache par 1M	0,08 $	0,25 $
Ancrage GUI, ScreenSpot Pro	79,0	Aucun
Terminal-Bench	70,3	69,7
Plafond d’exécution autonome	35 heures	35 heures

Benchmarks

Les chiffres de lancement, confirmés par les premiers tests pratiques, montrent une tendance simple : Plus est très proche de Max sur le texte, puis prend l’avantage dès que la vision entre dans la tâche.

Points à retenir :

ScreenSpot Pro : 79,0

Ce benchmark mesure l’ancrage GUI : regarder une capture d’écran et produire des coordonnées de pixels exactes. Max ne peut pas exécuter ce test.
Terminal-Bench : 70,3

Plus passe légèrement devant Max, qui atteint 69,7.
SWE-Bench Pro : environ 60 %

Il reste au niveau de Max, qui atteint 60,6 %.
MCP-Atlas : 76,4

Égalité avec Max sur l’orchestration d’outils.
LM Arena

Plus est légèrement derrière Max sur le texte, n°15 contre n°13, et sur le codage, n°12 contre n°10.

La règle pratique est simple :

tâche textuelle pure → Max peut rester légèrement meilleur ;
tâche avec image, vidéo, capture d’écran ou interface → Plus est plus adapté.

Pour une comparaison côté texte avec d’autres modèles, consultez notre comparaison Qwen 3.7 vs GPT-5.5 vs Opus 4.7.

Comme toujours, les benchmarks viennent du fournisseur et des premiers testeurs. Utilisez-les comme orientation, pas comme garantie de performance en production.

Tarification : un niveau multimodal économique

Qwen 3.7 Plus coûte :

0,40 $ par million de tokens en entrée ;
1,60 $ par million de tokens en sortie ;
0,08 $ par million de tokens en entrée cachée.

C’est environ six fois moins cher que Max en entrée et presque cinq fois moins cher en sortie.

À intégrer dans votre estimation de coût : les images et les vidéos partagent la fenêtre de contexte de 1M de tokens. Une capture d’écran haute résolution peut consommer des milliers de tokens. Une vidéo peut faire grimper rapidement le volume traité.

En pratique, prévoyez :

coût total ≈ tokens texte + tokens image + tokens vidéo + tokens sortie

Donc, pour des workflows vidéo ou GUI, optimisez :

la résolution des images ;
le nombre de frames envoyées ;
la taille des captures ;
la longueur du prompt ;
le volume d’historique conservé.

Pour comprendre le contexte plus large de cette baisse de prix, lisez notre analyse de la guerre des prix des LLM chinois de 2026.

Le piège : propriétaire et uniquement via API

Qwen a gagné beaucoup de traction grâce aux poids ouverts. Plusieurs modèles précédents étaient disponibles sous licence Apache 2.0 ou dans des conditions d’utilisation ouvertes, ce qui permettait aux équipes de :

télécharger les poids ;
les affiner ;
les exécuter en local ;
les déployer dans des environnements isolés.

Qwen 3.7 Plus ne suit pas ce modèle.

Il est fourni uniquement comme API commerciale gérée via Alibaba Cloud Model Studio. Vous ne pouvez pas :

télécharger les poids ;
auto-héberger le modèle ;
l’exécuter hors ligne.

Pour les environnements réglementés, isolés ou fortement contraints en souveraineté, cela peut être bloquant.

Une variante Plus à poids ouverts a été évoquée pour le T3 2026, mais elle n’est pas confirmée. Si les poids ouverts sont une exigence stricte aujourd’hui, Qwen 3.7 Plus n’est pas le bon choix.

Comment accéder à Qwen 3.7 Plus

Vous avez deux options.

1. Utiliser l’API

Passez par Alibaba Cloud Model Studio.

Le point d’accès est compatible OpenAI, donc vous pouvez réutiliser une structure de requête proche des appels chat.completions. Notre guide sur l’utilisation de l’API Qwen 3.7 détaille l’authentification et le premier appel.

Pour une requête multimodale, ajoutez simplement une partie image ou vidéo au contenu du message.

Exemple minimal avec image :

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Which button submits this form? Give pixel coordinates."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/screenshot.png"
                    }
                },
            ],
        }
    ],
)

print(resp.choices[0].message.content)

Consultez la documentation Model Studio pour vérifier :

l’identifiant exact du modèle ;
l’URL de base selon votre région ;
les différences entre les endpoints internationaux et chinois.

2. Tester dans le navigateur

Vous pouvez l’essayer via chat.qwen.ai avant d’écrire du code.

Si vous voulez tester la famille sans facturation, notre guide Qwen 3.7 gratuit montre les options disponibles.

Exemple : demander des coordonnées de clic

Un cas courant consiste à envoyer une capture d’écran et à demander une action exploitable par un agent.

Prompt possible :

Analyse cette capture d’écran.
Trouve le bouton qui valide le formulaire.
Réponds uniquement en JSON avec :
- action
- x
- y
- confidence

Réponse attendue :

{
  "action": "click",
  "x": 487,
  "y": 232,
  "confidence": 0.91
}

Ensuite, votre agent peut consommer cette sortie :

import json

result = json.loads(resp.choices[0].message.content)

if result["action"] == "click" and result["confidence"] > 0.8:
    click(result["x"], result["y"])

Pour un workflow réel, ajoutez aussi :

validation du JSON ;
limites de coordonnées ;
seuil de confiance ;
capture d’écran après action ;
nouvelle boucle d’appel si l’état de l’interface change.

Qui devrait utiliser Qwen 3.7 Plus

Utilisez Qwen 3.7 Plus si vous construisez :

des agents GUI qui cliquent dans des interfaces réelles ;
des workflows capture d’écran vers code ;
des pipelines maquette vers UI ;
de la compréhension de documents, PDF ou vidéos ;
des agents longue durée avec appels d’outils séquentiels ;
des systèmes hybrides GUI + CLI.

Restez plutôt avec Max si :

votre workload est uniquement textuel ;
vous optimisez les scores SWE-Bench Pro ;
vous avez besoin de la meilleure latence sur texte pur.

Pour la plupart des charges mixtes, Plus est le choix par défaut le plus rationnel : il ajoute la vision et baisse fortement le coût.

Si vous comparez Plus à d’autres modèles économiques ou ouverts, notre comparaison MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 donne une carte utile.

Tester Qwen 3.7 Plus avec Apidog

Comme Qwen 3.7 Plus est uniquement accessible via API, la qualité de votre intégration dépend de votre capacité à inspecter les requêtes et les réponses.

Les appels multimodaux peuvent vite devenir complexes :

images encodées ;
vidéos jointes ;
prompts longs ;
réponses structurées ;
appels d’outils en chaîne ;
exécutions qui durent plusieurs minutes ou heures.

Avec Apidog, vous pouvez :

envoyer des requêtes Qwen 3.7 Plus avec charges utiles image ou vidéo ;
inspecter les réponses brutes ;
gérer vos clés Model Studio par environnement ;
simuler un endpoint pendant le développement ;
documenter vos appels API ;
déboguer les payloads avant mise en production.

Pour les workflows agentiques, le débogueur d’agents IA d’Apidog permet de visualiser la séquence complète des appels et d’identifier où une exécution échoue.

Téléchargez Apidog pour tester, déboguer et simuler l’API Qwen 3.7 Plus avant la production.

FAQ

Qwen 3.7 Plus est-il open source ?

Non. Qwen 3.7 Plus est propriétaire et disponible uniquement via l’API Alibaba Cloud Model Studio. Vous ne pouvez pas télécharger ni auto-héberger les poids.

Qwen 3.7 Plus ou Max : lequel utiliser ?

Utilisez Plus si vous avez besoin de vision : captures d’écran, PDF, images ou vidéo. Utilisez Max si votre workload est purement textuel et que vous optimisez les performances texte ou la latence.

Combien coûte Qwen 3.7 Plus ?

Le prix annoncé est de 0,40 $ par million de tokens en entrée, 1,60 $ par million de tokens en sortie, et 0,08 $ par million de tokens en entrée cachée.

Qwen 3.7 Plus gère-t-il la vidéo ?

Oui. Il accepte le texte, les images et les vidéos en entrée. Les tokens visuels partagent toutefois la fenêtre de contexte de 1M de tokens.

Quelle est la fenêtre de contexte ?

Qwen 3.7 Plus dispose d’une fenêtre de contexte de 1M de tokens, partagée entre texte, images et vidéos.

Comment accéder à Qwen 3.7 Plus ?

Via l’API Alibaba Cloud Model Studio, ou dans le navigateur sur chat.qwen.ai.

En résumé

Qwen 3.7 Plus reprend l’architecture agentique de Qwen 3.7 Max, ajoute la vision et réduit fortement le coût. Pour les développeurs qui créent des agents GUI, des outils de codage à partir de captures d’écran ou des workflows de compréhension vidéo, c’est une option multimodale économique et performante.

Le compromis est clair : pas de poids ouverts, pas d’auto-hébergement, forte dépendance au cloud Alibaba.

Si ce compromis vous convient, commencez par tester l’API. Envoyez vos premiers appels multimodaux, inspectez les payloads et simulez les réponses dans Apidog avant de passer en production.

DEV Community