Moonshot AI a lancé Kimi K2.6 avec des performances impressionnantes : 80,2 % sur SWE-Bench Verified, 96,4 % sur AIME 2026, 90,5 % sur GPQA-Diamond, et 73,1 % sur OSWorld-Verified. Ces résultats proviennent directement de l'annonce officielle sur kimi. Cet article détaille Kimi K2.6, son architecture Agent Swarm, ses benchmarks comparés à GPT-5.4 et Claude 4.6, et donne toutes les instructions pour le tester immédiatement.
Essayez Apidog dès aujourd'hui
💡Vous voulez tester Kimi K2.6 avec vos propres charges de travail API ? Apidog préconfigure le point de terminaison compatible OpenAI de Moonshot/Kimi dans un espace de travail visuel. Importez une fois, enregistrez votre jeton Bearer et exécutez des conversations en streaming, des appels d'outils et des requêtes de vision avec l'historique complet. Téléchargez Apidog gratuitement.
En bref
- Lancement : Moonshot AI, avril 2026, open source (poids sur Hugging Face, API sur platform.kimi.ai).
- Architecture : MoE (Mixture of Experts) 1T de paramètres, 32B actifs par jeton, contexte 262 144 jetons (256K).
- Sortie maximale : jusqu’à 98 304 jetons pour le raisonnement.
- Essaim d’agents : jusqu’à 300 sous-agents, >4 000 étapes coordonnées par tâche (3x K2.5).
- Benchmarks : SWE-Bench Verified 80,2 %, Terminal-Bench 2.0 66,7 %, AIME 2026 96,4 %, HLE-Full (outils) 54,0 %, OSWorld-Verified 73,1 %.
- Plateformes : Chat kimi.com, Kimi App, Kimi Code, API, poids ouverts.
Kimi K2.6 en un paragraphe
Kimi K2.6 est un modèle open-source nouvelle génération centré sur le codage avancé, l’exécution longue durée et les essaims d’agents. Disponible sur kimi.com, l’application Kimi, Kimi Code et l’API (platform.kimi.ai), il pousse Agent Swarm à 300 sous-agents et >4 000 étapes simultanées, permettant des sessions autonomes de plusieurs jours. Si vous avez déjà intégré Qwen 3.6 (guide OpenRouter) ou Qwen3.5-Omni dans un workflow API, Kimi K2.6 s’inscrit dans la même logique, avec une focalisation plus marquée sur l’agentisation.
Moonshot a publié les benchmarks complets dans l’annonce de Kimi K2.6. Résumé pratique :
Codage
| Benchmark | Kimi K2.6 |
|---|---|
| SWE-Bench Verified | 80.2% |
| SWE-Bench Multilingual | 76.7% |
| SWE-Bench Pro | 58.6% |
| Terminal-Bench 2.0 | 66.7% |
Kimi K2.6 atteint 80,2 % sur SWE-Bench Verified, égalant ou dépassant Claude 4.6, avec des poids ouverts téléchargeables. Terminal-Bench 2.0 à 66,7 % (+15,9 points vs K2.5) illustre la progression sur l’automatisation shell/fichiers.
Utilisation d’agents et d’outils
| Benchmark | Kimi K2.6 |
|---|---|
| HLE-Full (avec outils) | 54.0% |
| BrowseComp | 83.2% (86.3% avec Agent Swarm) |
| DeepSearchQA (F1) | 92.5% |
| Toolathlon | 50.0% |
| Claw Eval (pass@3) | 80.9% |
| OSWorld-Verified | 73.1% |
HLE-Full à 54 % place K2.6 devant GPT-5.4 (52,1 %) et Claude 4.6 (53,0 %) sur l’utilisation d’outils. OSWorld-Verified à 73,1 % : K2.6 peut piloter un environnement OS réel, comme Claude Code sur ce domaine.
Raisonnement et connaissances
| Benchmark | Kimi K2.6 |
|---|---|
| AIME 2026 | 96.4% |
| HMMT 2026 (Fév) | 92.7% |
| GPQA-Diamond | 90.5% |
| IMO-AnswerBench | 86.0% |
AIME 2026 à 96,4 % : presque parfait sur un benchmark de mathématiques de compétition.
Vision
| Benchmark | Kimi K2.6 |
|---|---|
| MathVision (avec Python) | 93.2% |
| V* (avec Python) | 96.9% |
| MMMU-Pro | 79.4% |
| CharXiv (RQ, avec Python) | 86.7% |
Les scores « avec Python » montrent l’intégration directe de la vision et de l’exécution d’outils dans les trajectoires agents.
Agent Swarm : le saut structurel
Agent Swarm est la nouveauté clé de K2.6. Jusqu’à 300 sous-agents et plus de 4 000 étapes coordonnées (contre 100 agents et 1 500 étapes pour K2.5).
Trois axes techniques :
- Décomposition hétérogène des tâches : le modèle segmente la tâche en sous-tâches spécialisées (code, recherche, vision, planification).
- Intelligence compositionnelle : sous-agents collaborant via un état partagé, générant fichiers, docs, sites en une même session, comme les architectures Hermes.
- Conversion document-compétence : ingestion de documents structurés et transformation en « compétence » exploitable.
Exemples d’exécution
- Optimisation d’inférence Qwen3.5-0.8B sur Mac : +12h, +4 000 appels d’outils, +14 itérations, débit x13.
- Réglage Exchange-core : 13h, +1 000 appels d’outils, +4 000 lignes modifiées, gain de débit >100 %.
- Infrastructure autonome 5 jours : gestion multi-thread et réponse incident sans surveillance.
Ces performances montrent la différence : ici, la « scalabilité » n’est pas tant liée au nombre de paramètres qu’aux heures-agents cumulées.
Architecture : points techniques essentiels
Mélange d’experts (MoE)
K2.6 : MoE 1T, 32B actifs par jeton. Capacité de pointe à coût d’inférence d’un modèle dense 32B. Comme pour GLM-5V Turbo, toute la difficulté tient dans le routage.
Contexte long : 262 144 jetons
Fenêtre : 262 144 jetons (256K). Génération max : 98 304 jetons. Suffisant pour :
- Une base de code entière + contexte agent
- Un document juridique/recherche complet + Q/R multi-tours
- Un historique d’outils sur plusieurs jours
Moonshot a réécrit la pile d’attention pour stabiliser l’inférence sur de longs contextes (point faible de K2.5).
Échantillonnage par défaut
Température 1.0 et top-p 1.0 recommandés, plus élevés que la norme OpenAI/Anthropic. Ajustez ces paramètres pour tirer parti de la stabilité de K2.6 aux températures élevées.
Claw Groups : orchestration multi-agents
Claw Groups : couche collaborative où plusieurs agents/humains travaillent sur la même tâche (desktop, mobile, cloud). Capacités :
- Affectation dynamique des tâches (par boîte à outils)
- Détection et réaffectation automatique en cas de panne
- Déploiement multi-appareils
- Points de contrôle pour intervention humaine
Score Claw Eval : 80,9 % (pass@3). Pour concevoir des équipes d’agents autonomes façon Paperclip AI, Claw Groups est une brique prête à l’emploi.
Développement orienté design et agents proactifs
K2.6 va au-delà du code :
- Génération full-stack incluant auth, DB et transactions
- Intégration image/vidéo dans les workflows agents
- Animations, éléments interactifs, sortie prête production
Agents proactifs 24/7 via OpenClaw, Hermes, orchestrant plusieurs apps en continu, comme Google Agent Smith ou votre propre Claude Code.
Kimi K2.6 face aux modèles fermés
Extrait du tableau de comparaison :
| Tâche | K2.6 | GPT-5.4 | Claude 4.6 | Gemini 3.1 | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (outils) | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
| BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 | 74.9 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 | 50.8 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
- K2.6 gagne ou fait jeu égal sur 3/4 benchmarks, dépassant GPT-5.4 sur HLE-Full et SWE-Bench Pro.
- Gemini 3.1 reste devant sur Terminal-Bench/BrowseComp : pour navigation ou shell ultra-fiable, gardez-le en shortlist.
- K2.6 est à poids ouverts (avantage décisif pour dev/ops).
Accès et déploiement Kimi K2.6
kimi.com (chat)
L’interface web Kimi est la voie la plus rapide : connectez-vous, sélectionnez K2.6, accédez au chat, à Agent Swarm, à la vision, aux outils Kimi Code. Suivez le guide d’utilisation gratuite pour les quotas/gratuités.
Kimi App
Appli mobile (iOS, Android) : expérience identique au web, saisie vocale et notifications push pour les tâches longues.
Kimi Code
Kimi Code : interface terminal native, pilotage système de fichiers local, commits/tests, Agent Swarm en arrière-plan. Comparable aux workflows Claude Code ou à Cursor Composer 2.
API
API compatible OpenAI :
https://api.moonshot.ai/v1
Models : kimi-k2.6, kimi-k2.6-thinking
Voir : guide complet API Kimi K2.6 (auth, streaming, outils, vision, vidéo, Agent Swarm).
Poids ouverts sur Hugging Face
Poids complets sur Hugging Face, licence MIT modifiée. Quantifications GGUF, unsloth, etc., pour exécution sur GPU H100 ou moindre (avec dégradation).
Entraînement : ce que Moonshot a révélé
L’annonce officielle ne donne pas la recette complète, mais :
- Stabilité long terme : sessions agents 12/13h sans dégradation (K2.5 échouait après quelques centaines d’appels).
- Fiabilité outils : 96,60 % de réussite CodeBuddy, entraînement sur données synthétiques d’outils.
- Entraînement essaim compositionnel : signaux couvrant plusieurs rôles (planificateur, codeur, chercheur, réviseur).
- Chaînage vision + code : score MathVision/Python implique un entraînement multimodal/outils natif.
Pour qui ?
Si vous développez : Kimi K2.6 est à privilégier
- Agents de codage longue durée : l’exécution 4 000 étapes/12h fait partie de l’architecture.
- Systèmes multi-agents : Agent Swarm/Claw Groups = orchestration 300 agents prête à l’emploi.
- Production à poids ouverts : souveraineté, fine-tuning, conformité.
- API haut débit : coût d’inférence MoE bas, intégration OpenAI facile.
Restez sur du fermé si :
- Alignement sécurité strict : Claude 4.6 reste leader en refus/policy.
- Latence chat <1s : Agent Swarm = minutes, pas millisecondes.
- SLA fournisseur : si le support contractuel prime sur la qualité modèle.
Tester Kimi K2.6 en 5 minutes avec Apidog
Avec une clé API Moonshot/Kimi, Apidog permet un test fonctionnel immédiat :
- Créez un environnement :
BASE_URL = https://api.moonshot.ai/v1KIMI_API_KEY = sk-... - Nouvelle requête :
POST {{BASE_URL}}/chat/completions - En-têtes :
Authorization: Bearer {{KIMI_API_KEY}}Content-Type: application/json - Corps :
{
"model": "kimi-k2.6",
"messages": [{"role": "user", "content": "Summarize the Kimi K2.6 announcement."}],
"stream": true
}
- Cliquez sur Envoyer. Les jetons s’affichent en streaming.
Apidog gère aussi l’historique des requêtes (replay d’outils échoués), la validation de schéma sur la spec OpenAI, le partage d’équipe (clés par membre), et l’intégration VS Code. Pour migrer depuis Postman, suivez le guide de transition Postman → Apidog.
FAQ
Kimi K2.6 est-il open source ?
Oui, poids open source (MIT modifiée) : moonshotai/Kimi-K2.6. Données/code d’entraînement non publics (modèle « poids ouverts »).
Différences Kimi K2.6 vs K2.5 ?
Bonds majeurs (voir benchmarks) : +3,8 pts HLE-Full, +8,3 BrowseComp, +15,9 Terminal-Bench, +7,9 SWE-Bench Pro, +20,5 Claw Eval, x3 capacité Agent Swarm.
Fenêtre de contexte ?
262 144 jetons (256K). Génération max : 98 304 jetons.
Exécution locale possible ?
Oui, avec matériel costaud (MoE 1T : multi-GPU H100). Quantifications 4/3 bits possibles avec dégradation. Voir guide d’accès gratuit.
Appels d’outils supportés ?
Oui. API conforme au format OpenAI. Agent Swarm gère le parallélisme nativement.
Différence K2.6 vs K2.6 Thinking ?
K2.6 : agent rapide. K2.6 Thinking : expose le raisonnement étape par étape avant la réponse (pratique pour maths, debug, planification complexe).
Accès gratuit à Kimi K2.6 ?
Chat web kimi.com gratuit (quota). Cloudflare Workers AI : niveau gratuit. Auto-hébergement des poids = zéro coût jeton (hors hardware). Voir guide gratuit.
Comparaison Kimi K2.6 vs autres poids ouverts ?
Vs Qwen 3.6 / Qwen3.5-Omni : K2.6 devant sur code/agents ; Qwen garde l’avantage multilingue et petits modèles. Vs DeepSeek V3.x : K2.6 gagne sur l’orchestration d’agents.
Résumé
Kimi K2.6 est à ce jour le modèle à poids ouverts le plus prêt pour la production pour le codage agentique et le travail long terme. 300 agents, exécution 4000 étapes, fenêtre 262K, poids ouverts : outil unique dans la gamme actuelle. Le billet d’annonce de Moonshot le positionne au sommet de l’open-source agent, benchmarks à l’appui.
Pour un agent de code, assistant recherche long terme, ou système multi-agents, Kimi K2.6 doit figurer sur votre shortlist. Obtenez une clé sur platform.kimi.ai, ouvrez Apidog et envoyez votre première requête. Consultez ensuite nos guides détaillés sur l’API et les méthodes d’accès gratuit.

Top comments (0)