Pendant deux ans, choisir un modèle de codage revenait souvent à choisir entre GPT, Claude ou Gemini, payer au jeton et accepter des poids fermés. Ce n’est plus la seule option. Plusieurs laboratoires chinois proposent désormais des modèles compétitifs pour le codage, avec des poids ouverts ou des API très peu chères. Pour un agent de développement, un assistant CLI ou un workflow de refactorisation, cela change directement le coût, l’hébergement et le risque de dépendance fournisseur.
MiniMax M3, lancé le 1er juin 2026, est le signal le plus clair de ce changement. Le modèle est annoncé à poids ouverts, orienté codage et tâches agentiques, avec une fenêtre de contexte d’un million de jetons et une multimodalité native. Il arrive aux côtés de DeepSeek V4-Pro et Qwen 3.7, deux autres options importantes pour les développeurs qui veulent réduire les coûts ou éviter le verrouillage fournisseur.
Les trois concurrents
MiniMax M3
MiniMax M3 est le nouveau venu. MiniMax le positionne comme un modèle de codage de pointe avec :
- une fenêtre de contexte de 1M de jetons ;
- une multimodalité native : image, vidéo et utilisation d’ordinateur ;
- un mode raisonnement ;
- une architecture MSA ;
- des poids ouverts annoncés environ dix jours après le lancement.
Le nombre de paramètres n’a pas été divulgué. L’analyse complète est disponible ici : qu’est-ce que MiniMax M3.
DeepSeek V4-Pro
DeepSeek V4-Pro est le choix orienté raisonnement et coût. C’est un modèle de réflexion : il renvoie un champ reasoning_content avant la réponse finale, ce qui aide sur les tâches multi-fichiers comme :
- refactoriser une API interne ;
- modifier une signature utilisée dans plusieurs modules ;
- détecter les dépendances cassées ;
- raisonner sur plusieurs fichiers avant de produire un patch.
DeepSeek a déjà publié des poids ouverts pour ses gammes R1 et V3. V4-Pro est aussi accompagné d’une variante V4-Flash moins chère et non réflexive. Le site officiel et l’API sont sur deepseek.com.
Qwen 3.7
Qwen 3.7, mené par Qwen3.7-Max-Preview, est le modèle phare d’Alibaba. Il vise les tâches d’agent à long terme, avec une fenêtre de contexte de 1M de jetons.
Point important : au lancement mi-mai 2026, Qwen3.7-Max est propriétaire et à poids fermés. Alibaba publie régulièrement des modèles open source dans la famille Qwen, mais les poids du fleuron Qwen3.7-Max ne sont pas disponibles aujourd’hui.
Détails : qu’est-ce que Qwen 3.7.
Dépôts open source : github.com/QwenLM.
Tableau des spécifications
| Spécification | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| Fournisseur | MiniMax | DeepSeek | Alibaba, Qwen |
| Lancé le | 1er juin 2026 | 2026 | Mai 2026, préversion |
| Poids ouverts | Oui, poids annoncés dans ~10 jours | Oui, selon l’historique DeepSeek R1/V3 | Pas encore, fleuron à poids fermés |
| Fenêtre de contexte | 1 000 000 jetons | Non spécifié ici | 1 000 000 jetons |
| Multimodal | Oui, image + vidéo + utilisation ordinateur | Non, texte + raisonnement | Raisonnement axé texte |
| Mode raisonnement | Oui | Oui, reasoning_content
|
Oui, pensée étendue |
| Nombre de paramètres | Non divulgué | Non divulgué ici | Non divulgué ici |
| Architecture | MSA | Non spécifié ici | Non spécifié ici |
Si les poids ouverts sont une exigence stricte pour votre architecture, filtrez d’abord sur ce critère. Aujourd’hui, MiniMax M3 et DeepSeek sont les options les plus pertinentes pour l’auto-hébergement. Qwen3.7-Max reste une API hébergée.
Capacités de codage et d’agent
Les données publiées ne sont pas homogènes entre les trois modèles. Il faut donc distinguer :
- les benchmarks fournis par les fournisseurs ;
- les comparaisons tierces ;
- vos propres tests sur votre dépôt.
MiniMax M3 a été lancé avec plusieurs benchmarks de codage et d’agent rapportés par MiniMax. À traiter comme des chiffres fournisseur jusqu’à reproduction indépendante.
| Benchmark, rapporté par MiniMax | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59,0% |
| Terminal-Bench 2.1 | 66,0% |
| SWE-fficiency | 34,8% |
| KernelBench Hard | 28,8% |
| MCP Atlas | 74,2% |
| PostTrainBench | 0,37 |
| SVG-Bench | Rapporté au-dessus d’Opus 4.7 |
| OmniDocBench | Rapporté au-dessus de Gemini 3.1 Pro |
| Claw-Eval | Rapporté comme le plus élevé de sa catégorie |
SWE-Bench Pro et Terminal-Bench mesurent des tâches proches du développement réel : résoudre des issues GitHub, manipuler un terminal, modifier du code existant. MCP Atlas mesure l’utilisation d’outils et l’orchestration d’agents. Vous pouvez consulter le domaine SWE-Bench sur le classement SWE-Bench.
Pour DeepSeek V4-Pro et Qwen 3.7, les chiffres directement comparables ne sont pas publiés dans le même format. Une comparaison cellule par cellule serait donc trompeuse.
Ce qui est documenté :
- DeepSeek V4-Pro atteint une capacité de codage proche des modèles occidentaux haut de gamme selon des comparaisons tierces, avec un coût beaucoup plus bas. Son avantage pratique est le raisonnement explicite via
reasoning_content, utile sur les changements multi-fichiers. Configuration et coûts : comment utiliser DeepSeek V4-Pro avec Cursor. - Qwen 3.7 a obtenu un score de 57 sur l’indice d’intelligence Artificial Analysis, combinant raisonnement, connaissances, mathématiques et codage. Il est aussi signalé autour de 1 475 Elo sur LM Arena, avec un placement top dix en codage.
Lecture pratique :
- choisissez MiniMax M3 si vous voulez des benchmarks agentiques publiés au lancement ;
- choisissez DeepSeek V4-Pro si vous voulez du raisonnement solide à coût minimal ;
- choisissez Qwen3.7-Max si vous voulez un fort score composite et acceptez une API hébergée.
Une comparaison plus large est disponible ici : Qwen 3.7 vs GPT-5.5 vs Opus 4.7.
Fenêtre de contexte et coût du contexte long
MiniMax M3 et Qwen3.7-Max annoncent chacun une fenêtre de contexte de 1 000 000 de jetons. Le contexte de DeepSeek V4-Pro n’est pas précisé ici.
Un million de jetons représente environ 700 000 à 750 000 mots. C’est suffisant pour envoyer :
- un dépôt de taille moyenne ;
- plusieurs longs documents ;
- un historique de conversation complet ;
- un ensemble de specs produit + code + logs.
Mais une grande fenêtre ne remplace pas une bonne stratégie de contexte.
Deux limites restent importantes :
- La fenêtre est un plafond, pas une garantie de rappel parfait. Plus le contexte est grand, plus la récupération d’information peut devenir fragile.
- Chaque jeton coûte de l’argent. Envoyer 1M de jetons à chaque requête peut rendre un agent inutilisable économiquement.
Bonnes pratiques :
1. Envoyer uniquement les fichiers nécessaires.
2. Résumer les historiques longs.
3. Garder les logs bruts seulement quand ils sont utiles.
4. Séparer les requêtes de diagnostic, génération et validation.
5. Mesurer le coût par tâche, pas seulement le coût par million de jetons.
MiniMax présente son architecture MSA comme conçue pour l’efficacité sur les contextes longs, avec un tarif standard jusqu’à 512K jetons d’entrée et un tarif distinct au-delà. Cela confirme une réalité simple : le contexte long est un niveau premium.
Pour réduire le coût d’un agent, consultez : comment réduire les coûts de jetons d’agent.
Prix et accès
Le prix est le cœur de cette comparaison. Ces modèles rendent possibles des workloads agentiques moins chers, notamment pour :
- assistants de codage internes ;
- agents CI/CD ;
- génération de tests ;
- analyse de logs ;
- migration de code ;
- revue automatique de pull requests.
Contexte plus large : guerre des prix des LLM chinois 2026.
DeepSeek V4-Pro
DeepSeek publie les tarifs par jeton les plus clairs.
| Type de jeton | Taux DeepSeek V4-Pro par 1M de jetons |
|---|---|
| Entrée, cache miss | 0,435 $ |
| Entrée, cache hit | 0,003625 $ |
| Sortie | 0,87 $ |
La variante V4-Flash, non réflexive, est encore moins chère : 0,14 $ / 0,28 $ par million d’entrées/sorties.
Pour un trafic d’agents à volume élevé, ce prix est le principal argument de DeepSeek.
MiniMax M3
MiniMax M3 vend des forfaits de jetons :
- Plus : 20 $ ;
- Max : 50 $ ;
- Ultra : 120 $.
Son API utilise un tarif standard jusqu’à 512K jetons d’entrée, puis un tarif de contexte long au-delà. MiniMax n’a pas publié de prix exact par jeton ici, donc il ne faut pas en inventer.
Les forfaits sont intéressants si votre équipe préfère une dépense mensuelle prévisible. Détails de configuration : comment utiliser l’API MiniMax M3.
Qwen 3.7
Qwen 3.7 est facturé par jeton via Alibaba Cloud. Les tarifs exacts d’un modèle en préversion peuvent varier. Vérifiez donc la documentation actuelle d’Alibaba Cloud avant de l’intégrer en production.
API ou auto-hébergement ?
Le choix API vs auto-hébergement dépend de votre contrainte principale.
| Besoin | Option pratique |
|---|---|
| Démarrer rapidement | API hébergée |
| Réduire la latence réseau | Auto-hébergement possible si poids disponibles |
| Éviter le verrouillage fournisseur | Poids ouverts |
| Contrôler les données sensibles | Auto-hébergement ou environnement isolé |
| Minimiser l’ops | API hébergée |
| Maîtriser le coût à très grand volume | Auto-hébergement à évaluer |
MiniMax M3 et DeepSeek sont les options les plus pertinentes si les poids ouverts sont nécessaires. Qwen3.7-Max passe aujourd’hui par l’API d’Alibaba.
Lequel choisir ?
| Votre priorité | Meilleur choix | Pourquoi |
|---|---|---|
| Codage agentique avec benchmarks publiés | MiniMax M3 | Chiffres SWE-Bench Pro, Terminal-Bench et MCP Atlas publiés au lancement, rapportés par le fournisseur |
| Entrée multimodale : image, vidéo, utilisation ordinateur | MiniMax M3 | Seul des trois avec multimodalité native |
| Coût API minimal à fort volume | DeepSeek V4-Pro | Prix de sortie autour de 0,87 $/1M, variante Flash moins chère, tarification cache-hit |
| Refactorisations multi-fichiers | DeepSeek V4-Pro |
reasoning_content aide à identifier les dépendances |
| Meilleur score composite public | Qwen3.7-Max | Score AA 57, signalé n°1 au lancement |
| Agents autonomes longs | Qwen3.7-Max ou MiniMax M3 | Les deux visent l’endurance et l’utilisation intensive d’outils |
| Auto-hébergement / pas de dépendance fournisseur | MiniMax M3 ou DeepSeek V4-Pro | Poids ouverts annoncés ou historique fort de publication |
Recommandation rapide :
Si vous voulez poids ouverts + benchmarks agentiques :
testez MiniMax M3.
Si vous voulez le coût API le plus bas :
testez DeepSeek V4-Pro.
Si vous voulez le meilleur score composite public :
testez Qwen3.7-Max, mais acceptez l’API hébergée.
Si vous avez un dépôt critique :
testez les trois sur vos propres tâches avant de choisir.
Tester les trois modèles sur votre propre workload
Un benchmark public mesure le comportement d’un modèle sur les tâches de quelqu’un d’autre. Pour choisir un modèle de codage, vous devez tester sur vos propres cas :
- une issue réelle de votre backlog ;
- une refactorisation multi-fichiers ;
- une génération de tests ;
- une migration de framework ;
- une correction de bug avec logs ;
- une analyse de pull request.
Un protocole simple :
1. Sélectionnez 10 tâches représentatives.
2. Préparez le même prompt pour chaque modèle.
3. Utilisez la même température et les mêmes limites de sortie.
4. Mesurez :
- exactitude du patch ;
- nombre d’allers-retours ;
- coût total ;
- latence ;
- stabilité du format JSON/tool_calls ;
- capacité à suivre les contraintes.
5. Rejouez le test après chaque changement de prompt système.
Exemple de prompt de test :
Tu es un assistant de maintenance logicielle.
Objectif :
Refactoriser la fonction `createInvoice` pour accepter un objet `BillingContext`
au lieu de trois paramètres séparés.
Contraintes :
- Ne change pas le comportement métier.
- Mets à jour tous les appels.
- Ajoute ou adapte les tests existants.
- Retourne une liste de fichiers modifiés.
- Explique les risques de régression.
Code :
[coller les fichiers pertinents ici]
Comparer les API avec Apidog
C’est un cas d’usage adapté à Apidog.
Créez un projet Apidog avec trois environnements :
env_minimax_m3
env_deepseek_v4_pro
env_qwen_3_7_max
Pour chaque environnement, configurez :
BASE_URL
API_KEY
MODEL_NAME
Ensuite, importez ou définissez un schéma de complétion de chat compatible OpenAI.
Exemple de corps de requête générique :
{
"model": "{{MODEL_NAME}}",
"messages": [
{
"role": "system",
"content": "Tu es un assistant de codage. Réponds avec un plan court, puis le patch."
},
{
"role": "user",
"content": "{{TASK_PROMPT}}"
}
],
"temperature": 0.2
}
Vous pouvez ensuite :
- envoyer le même lot d’invites à M3, V4-Pro et Qwen3.7-Max ;
- comparer les sorties côte à côte ;
- sauvegarder des réponses de référence ;
- rejouer les tests après modification du prompt ;
- valider les champs
tool_callsetreasoning_contentavec des assertions JSON Schema.
Téléchargez Apidog ici : Téléchargez Apidog.
Pour le modèle le plus récent : comment utiliser l’API MiniMax M3.
Questions fréquentes
Quel est le meilleur modèle de codage à poids ouverts en 2026 ?
Pour les preuves de codage agentique publiées au lancement, MiniMax M3 est le plus visible grâce à ses chiffres SWE-Bench Pro et Terminal-Bench, rapportés par le fournisseur. DeepSeek V4-Pro est le choix économique, avec un coût API très bas et un bon raisonnement multi-fichiers. Qwen3.7-Max a un fort score composite, mais son fleuron n’est pas à poids ouverts aujourd’hui.
La réponse pratique : testez les trois sur votre dépôt.
Les trois sont-ils vraiment à poids ouverts ?
Non.
- MiniMax M3 est annoncé à poids ouverts, avec poids et rapport technique attendus environ dix jours après le lancement.
- DeepSeek a un historique solide de publication de poids ouverts pour R1 et V3.
- Qwen3.7-Max-Preview est propriétaire et à poids fermés depuis son lancement.
Détails : qu’est-ce que Qwen 3.7.
Lequel a la plus grande fenêtre de contexte ?
MiniMax M3 et Qwen3.7-Max annoncent chacun 1 000 000 de jetons. Cela représente environ 700 000 à 750 000 mots. Le contexte de DeepSeek V4-Pro n’est pas précisé ici.
Gardez en tête que la fenêtre maximale n’est pas une garantie de rappel parfait, et que chaque jeton envoyé est facturé.
Lequel est le moins cher ?
Sur les tarifs par jeton publiés, DeepSeek V4-Pro est le plus clair et le moins cher parmi les chiffres disponibles : environ 0,87 $ par million de jetons de sortie. V4-Flash descend encore plus bas.
MiniMax M3 fonctionne avec des forfaits mensuels de jetons. Qwen3.7-Max est facturé via Alibaba Cloud.
Pour le contexte global : guerre des prix des LLM chinois 2026.
MiniMax M3 est-il meilleur que DeepSeek V4-Pro en codage ?
Les benchmarks ne sont pas directement comparables aujourd’hui. MiniMax M3 publie des résultats SWE-Bench Pro et Terminal-Bench au lancement. DeepSeek V4-Pro met surtout en avant le coût et le raisonnement via reasoning_content.
Le test équitable consiste à exécuter les mêmes prompts sur votre propre dépôt et à comparer :
- qualité du patch ;
- erreurs de compilation ;
- tests passants ;
- nombre d’itérations ;
- coût total ;
- stabilité du format de sortie.
Version courte
Choisissez MiniMax M3 si vous voulez des benchmarks de codage agentique publiés, un contexte de 1M et la multimodalité, avec la réserve que plusieurs chiffres sont rapportés par le fournisseur.
Choisissez DeepSeek V4-Pro si votre priorité est le coût API et le raisonnement multi-fichiers.
Choisissez Qwen3.7-Max si vous voulez un fort score composite public et que l’API hébergée d’Alibaba vous convient.
Le meilleur choix ne vient pas d’un tableau unique. Exécutez les mêmes prompts sur les trois API dans un projet Apidog, mesurez les sorties et les coûts, puis laissez votre workload décider.
Top comments (0)